期刊文献+
共找到216篇文章
< 1 2 11 >
每页显示 20 50 100
Web内容抽取及其数据管理方法 被引量:16
1
作者 张成洪 肖军建 张诚 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2001年第2期177-183,共7页
随着Internet及其相关技术的飞速发展 ,WWW已成为最大的信息集散地 .无论对企业还是个人 ,Web逐渐成为最主要的信息来源 .然而由于网站数量过多以及由此带来的信息泛滥 ,使得有用信息的获取越来越困难 .搜索引擎只能提供信息的查找范围 ... 随着Internet及其相关技术的飞速发展 ,WWW已成为最大的信息集散地 .无论对企业还是个人 ,Web逐渐成为最主要的信息来源 .然而由于网站数量过多以及由此带来的信息泛滥 ,使得有用信息的获取越来越困难 .搜索引擎只能提供信息的查找范围 ,而具体的内容还要靠详细搜查 .而且网页信息都是非结构化或半结构化的 ,无法直接利用分析工具进行分析 .所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法 。 展开更多
关键词 数据抽取 网页包装 规则表达式 模式匹配 INTERNET WWW Web数据集成系统 数据管理 网页数据结构化
原文传递
人脸表情识别综述 被引量:28
2
作者 叶继华 祝锦泰 +2 位作者 江爱文 李汉曦 左家莉 《数据采集与处理》 CSCD 北大核心 2020年第1期21-34,共14页
人脸表情识别是人类情感识别的基础,是近年来模式识别与人工智能领域研究的热点问题。本文首先总结了人脸表情识别的发展过程,主要包括传统的表情特征提取、表情分类方法与基于深度学习的表情识别方法,并对各种算法的识别率与性能进行... 人脸表情识别是人类情感识别的基础,是近年来模式识别与人工智能领域研究的热点问题。本文首先总结了人脸表情识别的发展过程,主要包括传统的表情特征提取、表情分类方法与基于深度学习的表情识别方法,并对各种算法的识别率与性能进行了分析与比较。然后介绍了表情识别常用的数据集及各数据集的优势与存在的问题,并针对这些问题归纳分析了生成对抗网络等用于数据增强的技术与方法。最后,总结了表情识别领域目前存在的问题并展望了未来可能的发展。 展开更多
关键词 表情识别 特征提取 表情分类 深度学习 表情数据集
下载PDF
基于图像的面部表情识别方法综述 被引量:22
3
作者 徐琳琳 张树美 赵俊莉 《计算机应用》 CSCD 北大核心 2017年第12期3509-3516,3546,共9页
近年来,面部表情识别在教育、医学、心理分析以及商业领域得到了广泛关注。针对目前表情识别方法不够系统、概念模糊的问题,对面部表情识别的步骤及其方法进行了综述探讨。首先,介绍了目前常用的人脸表情数据集,并回顾了面部表情识别的... 近年来,面部表情识别在教育、医学、心理分析以及商业领域得到了广泛关注。针对目前表情识别方法不够系统、概念模糊的问题,对面部表情识别的步骤及其方法进行了综述探讨。首先,介绍了目前常用的人脸表情数据集,并回顾了面部表情识别的发展历程;然后,介绍了人脸表情识别的面部表情编码和面部表情识别过程这两个方面,归纳了人脸面部表情识别的四个过程,重点总结了特征提取和表情分类两个过程中的经典算法以及这些算法的基本原理和优劣比较;最后,指出了目前面部表情识别存在的问题和未来可能的发展趋势。 展开更多
关键词 表情识别 表情数据集 表情编码 特征提取 表情分类
下载PDF
基于数据场的图像数据挖掘研究 被引量:16
4
作者 戴晓军 淦文燕 李德毅 《计算机工程与应用》 CSCD 北大核心 2004年第26期41-43,88,共4页
论文采用数据场和“势”的概念,提出了一种把非结构化数据转化为结构化数据场的思想。通过提取数据场不同层次的局部极大值点,实现概念粒度的跃升,达到图像数据的降维和简约1。文章比较了图像数据经不同的非线性变换后对局部极大值大小... 论文采用数据场和“势”的概念,提出了一种把非结构化数据转化为结构化数据场的思想。通过提取数据场不同层次的局部极大值点,实现概念粒度的跃升,达到图像数据的降维和简约1。文章比较了图像数据经不同的非线性变换后对局部极大值大小和位置分布的影响,找到了合适的变换函数。试验证明该方法突出了人脸的局部特征,有利于反映人脸的表情,为人脸表情的特征提取提供了一种新的思路。 展开更多
关键词 数据场 非线性变换 特征提取 表情识别
下载PDF
基于正则表达式的专利信息提取方法研究 被引量:15
5
作者 邱清盈 郑国民 +1 位作者 冯培恩 武建伟 《中国机械工程》 EI CAS CSCD 北大核心 2007年第19期2326-2329,共4页
针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法。开发了相应的软件系统,实现了专利信... 针对图像格式专利文献难以进行全文检索和深入分析利用的问题,根据专利文献的结构特点,通过集成光学字符识别工具和建立具有容错性的专利信息提取正则表达式,提出了专利文献的数字化和信息提取方法。开发了相应的软件系统,实现了专利信息的批量提取,为后续高效率地对专利文献进行自动分析和知识挖掘提供了数据基础。 展开更多
关键词 专利分析 信息提取 正则表达式 设计知识
下载PDF
数学公式识别系统:MatheReader 被引量:13
6
作者 靳简明 江红英 王庆人 《计算机学报》 EI CSCD 北大核心 2006年第11期2018-2026,共9页
数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.文章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定位方面,抽取版式特征,采用Parzen分类器区分独立公... 数学公式广泛存在于各类文献之中,但是公式的识别远比文字段落的识别困难.文章介绍了一个数学公式图像识别系统MatheReader,重点阐述了其在公式定位及公式分析方面的技术方案.在公式定位方面,抽取版式特征,采用Parzen分类器区分独立公式和普通文字行,在普通文字行内检测二维结构定位内嵌公式.在公式分析方面,定义十一种基本公式类型,并用产生式规则限定每类公式的唯一分解方法,提出先识别公式类型,然后分解为子表达式的公式分析方法.和已有系统比较,MatheReader的功能更加强大,能够处理的公式更加丰富. 展开更多
关键词 公式定位 公式识别 公式分析 自动性能评估 文档图像处理
下载PDF
面向微博热点事件的话题检测及表述方法研究 被引量:15
7
作者 周炜翔 张仰森 张良 《计算机应用研究》 CSCD 北大核心 2019年第12期3565-3569,3578,共6页
针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采... 针对微博文本数据稀疏导致热点话题难以检测的问题,提出了一种基于IDLDA-ITextRank的话题检测模型。首先,通过引入微博时间序列特征和词频特征,构建了IDLDA话题文本聚类模型,利用该模型将同一话题的文本聚到一个文本集合TS;然后,通过采用编辑距离和字向量相结合的相似度计算方法,构建了ITextRank文本摘要和关键词抽取模型,对文本集合TS抽取摘要及其关键词;最后,利用词语互信息和左右信息熵将所抽取的关键词转换成关键主题短语,再将关键主题短语和摘要相结合对话题内容进行表述。通过实验表明,IDLDA模型相较于传统的BTM和LDA模型对话题文本的聚类效果更好,利用关键主题短语和摘要对微博的话题进行表述,比直接利用主题词进行话题表述具有更好的可理解性。 展开更多
关键词 文本聚类 IDLDA-ITextRank模型 话题抽取 话题表述
下载PDF
文化基因研究缘起、进展与未来研究思考综述 被引量:14
8
作者 赵海英 《中国传媒大学学报(自然科学版)》 2021年第5期1-10,共10页
在文化演进过程中,一些跨学科的新概念应运而生,"文化基因"是其中较有代表性的一个,并被越来越被学者所接受和认同,在国际和国内学术界逐渐成为一个热点话题。本文通过对文化基因传承特征的深层解释和变革功能引入系统论进行... 在文化演进过程中,一些跨学科的新概念应运而生,"文化基因"是其中较有代表性的一个,并被越来越被学者所接受和认同,在国际和国内学术界逐渐成为一个热点话题。本文通过对文化基因传承特征的深层解释和变革功能引入系统论进行辨析,透视文化基因理论研究与实践价值。从文化基因缘起、内涵与特征介绍入手,针对文化基因可量化、可计算、可分析特点,开展文化基因语义标签体系和量化空间构建研究。进而依据文化基因丰富内涵,提取并标注不同层面特征。最终在尊重规律的基础上,重构文化基因,传承其人文和历史价值,为文化数字化带来新的前景,为更好地发挥文化基因传承功效提供理论依据。 展开更多
关键词 文化基因 量化空间 提取与表达 重构
下载PDF
基于多特征融合卷积神经网络的人脸表情识别 被引量:13
9
作者 王建霞 陈慧萍 +1 位作者 李佳泽 张晓明 《河北科技大学学报》 CAS 2019年第6期540-547,共8页
针对卷积神经网络特征提取不够充分且识别率低等问题,提出了一种多特征融合卷积神经网络的人脸表情识别方法。首先,为了增加网络的宽度和深度,在网络中引入Inception结构来提取特征的多样性;然后,将提取到的高层次特征与低层次特征进行... 针对卷积神经网络特征提取不够充分且识别率低等问题,提出了一种多特征融合卷积神经网络的人脸表情识别方法。首先,为了增加网络的宽度和深度,在网络中引入Inception结构来提取特征的多样性;然后,将提取到的高层次特征与低层次特征进行融合,利用池化层的特征,将融合后的特征送入全连接层,对其特征进行融合处理来增加网络的非线性表达,使网络学习到的特征更加丰富;最后,输出层经过Softmax分类器对表情进行分类,在公开数据集FER2013和CK+上进行实验,并且对实验结果进行分析。实验结果表明:改进后的网络结构在FER2013和CK+数据集的面部表情上,识别率分别提高了0.06%和2.25%。所提方法在人脸表情识别中对卷积神经网络设置和参数配置方面具有参考价值。 展开更多
关键词 计算机图像处理 面部表情识别 卷积神经网络 特征融合 特征提取 表情分类
下载PDF
ReDE:一个基于正则表达式的生物数据抽取方法 被引量:8
10
作者 邓绪斌 朱扬勇 《计算机研究与发展》 EI CSCD 北大核心 2005年第12期2184-2191,共8页
从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系... 从异构生物数据源抽取数据,建立查询分析平台是目前研究的热点,而抽取过程会涉及大量相互依赖的元数据,充分利用这种依赖关系可降低维护工作量·基于正则表达式(RE)提出了ReDE抽取方法:通过围绕RE组建立分析树,设计了基于RE的关系数据库模式生成算法和通用抽取与组装算法,其特点是:RE是惟一的元数据,易于管理和维护·该方法奠定了生物数据库辅助设计工具和高自动化抽取工具的基础,已用于构建国内第1个整合的生物信息在线数据仓库· 展开更多
关键词 生物数据源 数据抽取 元数据 正则表达式 抽取算法
下载PDF
基于深度学习的面部表情识别方法综述 被引量:12
11
作者 党宏社 王淼 张选德 《科学技术与工程》 北大核心 2020年第24期9724-9732,共9页
人脸表情识别就是让计算机按照人类的思维理解表情,是人机交互的重要组成,然而随着深度学习的迅速发展,深度学习技术在人脸表情领域的研究也成为研究热点,因此对深度学习技术在表情识别中的应用及取得的成果进行分析是有必要的。首先总... 人脸表情识别就是让计算机按照人类的思维理解表情,是人机交互的重要组成,然而随着深度学习的迅速发展,深度学习技术在人脸表情领域的研究也成为研究热点,因此对深度学习技术在表情识别中的应用及取得的成果进行分析是有必要的。首先总结了几种常用表情数据集;然后从特征提取和特征分类两方面对基于深度学习的表情识别方法进行了分类,并从网络改进方面分析了基于深度学习的表情识别中的几种网络改进方法;最后阐述了表情识别这一领域中面临的挑战和未来发展。 展开更多
关键词 深度学习 表情识别 特征提取 表情分类
下载PDF
基于HTMLParser的Web信息抽取系统的设计与实现 被引量:8
12
作者 李彦刚 魏海平 侯兴华 《辽宁石油化工大学学报》 CAS 2006年第2期83-86,共4页
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTM... 互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。 展开更多
关键词 信息抽取 正则表达式 HTMLParser包 JAVA
下载PDF
中文文本中时间信息抽取及规范化方法 被引量:9
13
作者 宋国民 张三强 +1 位作者 贾奋励 姜松言 《测绘科学技术学报》 北大核心 2019年第5期538-544,共7页
时间信息抽取和规范化表达在时空泛在信息处理、关联、聚合和内容服务中具有重要作用。设计并实现了一种基于规则的时间信息抽取和规范化表达的方法。首先,结合中文文本中时间信息描述的特点,定义了基本时间单元和派生时间单元,并由时... 时间信息抽取和规范化表达在时空泛在信息处理、关联、聚合和内容服务中具有重要作用。设计并实现了一种基于规则的时间信息抽取和规范化表达的方法。首先,结合中文文本中时间信息描述的特点,定义了基本时间单元和派生时间单元,并由时间单元组合形成不同的时间表达式;然后,构建了时间词汇词典和时间表达式抽取的正则表达式模板;最后,设计了时间推理和计算的方法,实现了时间信息的规范化表达。基于中文文本语料进行了时间信息抽取测试。实验结果表明,本文方法具有较好的时间信息抽取效果。 展开更多
关键词 中文文本 时间 信息抽取 规范化 时间表达式 正则表达式 时间推理
下载PDF
人脸活动单元自动识别研究综述 被引量:8
14
作者 赵晖 王志良 刘遥峰 《计算机辅助设计与图形学学报》 EI CSCD 北大核心 2010年第5期894-906,共13页
人脸活动单元(action units,AU)的自动识别能应用于行为科学、人机交互、安全、医疗诊断等众多领域,近年来得到了广泛关注.文中阐述了AU自动识别的基本概念、一般过程及其主要特征提取和分类方法,介绍了具有AU编码的代表性人脸表情数据... 人脸活动单元(action units,AU)的自动识别能应用于行为科学、人机交互、安全、医疗诊断等众多领域,近年来得到了广泛关注.文中阐述了AU自动识别的基本概念、一般过程及其主要特征提取和分类方法,介绍了具有AU编码的代表性人脸表情数据库,并对单个AU与AU组合的识别、AU强度与AU动态性分析的研究现状进行了评述.最后总结了目前AU自动识别研究中存在的主要难点,并展望了其发展方向. 展开更多
关键词 人脸活动单元 人脸活动编码系统 特征提取 表情识别
下载PDF
改进的LBP算子和稀疏表达分类在人脸表情识别上的应用 被引量:8
15
作者 赵栋杰 《电子设计工程》 2016年第20期174-177,共4页
在人脸表情识别中,基于局部二值模式(LBP)算子算法与传统的特征提取算法相比具有特征提取准确、精细、光照不变性等优点,但也有直方图维数高、判别能力差、具有冗余信息等缺点。本文提出一种C-LBP算法通过加入中心点到算法中进行特特征... 在人脸表情识别中,基于局部二值模式(LBP)算子算法与传统的特征提取算法相比具有特征提取准确、精细、光照不变性等优点,但也有直方图维数高、判别能力差、具有冗余信息等缺点。本文提出一种C-LBP算法通过加入中心点到算法中进行特特征提取,能够更有效的提取特征数据。再结合使用稀疏表达分类器实现对特征进行分类和识别。经实验结果表明,与传统LBP算法对比,文中算法用于人脸表情的识别的识别率得到大幅度提高。 展开更多
关键词 LBP C—LBP 特征提取 稀疏表达 分类器
下载PDF
乳腺癌冰冻和石蜡包埋样本的RNA以及基因表达情况的比较研究 被引量:8
16
作者 孙冰 郭晓红 +5 位作者 江泽飞 张峰 吴世凯 张利利 王敦梅 宋三泰 《临床肿瘤学杂志》 CAS 2010年第7期588-592,共5页
目的比较乳腺癌新鲜冰冻和石蜡包埋样本中提取总RNA的质量,并分析其基因表达情况。方法收集新鲜冰冻及其石蜡包埋的人乳腺癌组织共5对,另取10例保存时间为1-10年不等的人乳腺癌组织石蜡样本。试剂盒提取总RNA,用随机引物实时定量聚... 目的比较乳腺癌新鲜冰冻和石蜡包埋样本中提取总RNA的质量,并分析其基因表达情况。方法收集新鲜冰冻及其石蜡包埋的人乳腺癌组织共5对,另取10例保存时间为1-10年不等的人乳腺癌组织石蜡样本。试剂盒提取总RNA,用随机引物实时定量聚合酶链反应(qRT—PCR)分析新鲜冰冻与其石蜡样本的mRNA表达情况,并对不同保存时间的石蜡样本比较扩增管家基因不同产物长度的Ct值差异,以了解RNA降解程度。结果新鲜冰冻后的石蜡样本RNA片段长度弥散分布在200bp左右,扩增90bp长度ACTB基因的有效RNA模板量仅为相应冰冻样本的0.46倍(P〈0.05)。冰冻样本扩增90bp产物的Ct值显著低于其扩增203bp的Ct值(P=0.02),提示冰冻样本RNA有一定降解。石蜡样本mRNA表达与相应的冰冻样本无显著差异(P〉0.05),两种样本目的基因△Ct值经Spearman相关性分析有显著相关性(r=0.954,P=0.000)。扩增不同保存时问石蜡样本的3个长度片段的Ct值均有显著差异,随着扩增片段的增大,Ct值也逐渐增加。结论冰冻样本的RNA相对较完整,质量较好;石蜡样本的RNA有明显降解,但能够准确反映组织mRNA水平表达情况;石蜡样本的Ct值随扩增片段的增大而逐渐增加,能顺利扩增150bp左右长度的产物,为石蜡样本的进一步研究提供实验基础。 展开更多
关键词 冰冻组织 石蜡包埋组织 RNA提取 基因表达
下载PDF
基于视频图像的面部表情识别研究综述 被引量:6
17
作者 梅英 谭冠政 刘振焘 《湖南文理学院学报(自然科学版)》 CAS 2016年第3期19-25,共7页
面部表情识别是机器理解人类情感的前提,是改善人机交互关系的关键。首先,按照视频图像中面部表情识别的流程,综述了表情识别的3个阶段:人脸检测、表情特征提取、表情分类。重点介绍了表情特征提取和表情分类中所采用算法的原理、优缺... 面部表情识别是机器理解人类情感的前提,是改善人机交互关系的关键。首先,按照视频图像中面部表情识别的流程,综述了表情识别的3个阶段:人脸检测、表情特征提取、表情分类。重点介绍了表情特征提取和表情分类中所采用算法的原理、优缺点及应用场合,并给出了部分算法的识别率对比结果。其次,对人机交互中的微表情识别及表情识别的鲁棒性研究也做了介绍。最后总结了面部表情识别研究中存在的问题及难点,探讨了该领域值得进一步研究的问题。 展开更多
关键词 表情识别 特征提取 表情分类 微表情 鲁棒性
下载PDF
基于多种规则的课程元数据自动抽取 被引量:7
18
作者 杨宇 张铭 周宝曜 《计算机科学》 CSCD 北大核心 2008年第3期94-96,共3页
在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则... 在线课程组织和管理系统就是为了使学习更加便利而提供的一个教育资源的集成平台。作为系统中重要环节的元数据抽取模块,需要对半结构化网页能够达到较好的抽取精确性,并具有处理结构松散文档的能力。本文设计并实现了一种按照指定规则自动抽取的元数据方法。该方法能够按照多优先级规则匹配网页元数据,并按照两步抽取的方法进行精细化处理。针对不同的问题域使用不同规则抽取,不需对程序进行特定修改。实验证明,这种方法能够很好地处理半结构化网页,F测度达到85%以上,具有较好的实用价值。 展开更多
关键词 元数据抽取 正则表达式 信息精化
下载PDF
论舞台茶艺创作中主题的提炼与表现 被引量:7
19
作者 陈学娟 单虹丽 《茶叶》 2015年第4期227-231,共5页
茶艺已经由"厅堂茶艺"变为"舞台茶艺"。目前主题茶艺已成为舞台茶艺的主流,遍地开花。本文通过介绍舞台茶艺主题的内涵、作用及要求来论证主题是舞台茶艺创作的灵魂,并根据主题所表达的内容是具象还是抽象而分为表... 茶艺已经由"厅堂茶艺"变为"舞台茶艺"。目前主题茶艺已成为舞台茶艺的主流,遍地开花。本文通过介绍舞台茶艺主题的内涵、作用及要求来论证主题是舞台茶艺创作的灵魂,并根据主题所表达的内容是具象还是抽象而分为表现具体的事件、人物的主题类型和表现某种情思、精神、意境的主题类型。分析舞台茶艺主题的提炼方法,可从中华传统文化和当下社会生活中进行提炼,并遵循积极、简炼、发人深省的原则。从茶席设计、背景与音乐、茶艺演绎、解说词等方面系统而全面地论述了舞台茶艺主题的表现方法。发展与完善了舞台茶艺主题的提炼及表现方面的理论,可为舞台茶艺的发展提供科学可行的理论指导。 展开更多
关键词 舞台茶艺 茶艺创作 主题提炼 主题表现
下载PDF
L-Tree Match: A New Data Extraction Model and Algorithm for Huge Text Stream with Noises 被引量:4
20
作者 邓绪斌 朱扬勇 《Journal of Computer Science & Technology》 SCIE EI CSCD 2005年第6期763-773,共11页
In this paper, a new method, named as L-tree match, is presented for extracting data from complex data sources. Firstly, based on data extraction logic presented in this work, a new data extraction model is constructe... In this paper, a new method, named as L-tree match, is presented for extracting data from complex data sources. Firstly, based on data extraction logic presented in this work, a new data extraction model is constructed in which model components are structurally correlated via a generalized template. Secondly, a database-populating mechanism is built, along with some object-manipulating operations needed for flexible database design, to support data extraction from huge text stream. Thirdly, top-down and bottom-up strategies are combined to design a new extraction algorithm that can extract data from data sources with optional, unordered, nested, and/or noisy components. Lastly, this method is applied to extract accurate data from biological documents amounting to 100GB for the first online integrated biological data warehouse of China. 展开更多
关键词 data extraction data model extraction algorithm regular expression WRAPPER
原文传递
上一页 1 2 11 下一页 到第
使用帮助 返回顶部