-
题名中文文本分类中特征抽取方法的比较研究
被引量:228
- 1
-
-
作者
代六玲
黄河燕
陈肇雄
-
机构
南京理工大学计算机科学系
中国科学院计算机语言信息工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2004年第1期26-32,共7页
-
基金
国家自然科学基金资助项目 (6 0 2 72 0 88)
-
文摘
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。
-
关键词
计算机应用
中文信息处理
文本自动分类
特征抽取
支持向量机
KNN
-
Keywords
computer application
Chinese information processing
text categorization
feature selection
SVM
KNN
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名Web缓存技术综述
被引量:46
- 2
-
-
作者
贺琛
陈肇雄
黄河燕
-
机构
南京理工大学计算机系
中国科学院计算机语言信息工程研究中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第5期836-842,共7页
-
文摘
Web高速缓存 ( Web Caching)技术实现了 Web内容的关键节点 (包括本地 )存储 ,它能减少网络带宽的占用 ,降低硬件成本 ,改善响应时间 ,提高了最终用户的效率 .本文通过对 Web缓存的分类、性能指标。
-
关键词
缓存
策略
替换算法
-
Keywords
caching
coherency
replacement
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名中文新词识别技术综述
被引量:39
- 3
-
-
作者
张海军
史树敏
朱朝勇
黄河燕
-
机构
中国科学技术大学计算机科学与技术学院
新疆师范大学计算机系
中国科学院计算机语言信息工程研究中心
-
出处
《计算机科学》
CSCD
北大核心
2010年第3期6-10,16,共6页
-
基金
国家自然科学基金项目(60672149)
国家863计划重点项目(2006AA010109)资助
-
文摘
新词识别是中文信息处理领域的关键技术。新词识别主要包括候选字串的提取过滤和词性猜测两项任务。中文没有特定符号标志词边界,因此任何相邻字符都有成词的可能性,这给新词提取过滤带来了很大困难;由于没有先验知识和统计数据,新词词性猜测一直是中文词性标注的技术瓶颈。详细分析了中文新词识别技术的研究现状,重点讨论了候选新词提取和词性猜测的研究方法与存在的主要问题,最后对新词识别研究方向进行了展望。
-
关键词
新词识别
未登录词
候选字串
训练语料
词性猜测
-
Keywords
New words Identification, Unknown words, Candidate string, Training corpus, POS guessing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名一种采用聚类技术改进的KNN文本分类方法
被引量:33
- 4
-
-
作者
张孝飞
黄河燕
-
机构
中国科学院计算机语言信息工程研究中心
-
出处
《模式识别与人工智能》
EI
CSCD
北大核心
2009年第6期936-940,共5页
-
基金
国家自然科学基金项目(No.60672149)
国家863计划项目(No.2006AA010109)资助
-
文摘
KNN算法稳定性好、准确率高,但由于其时间复杂度与样本数量成正比,导致其分类速度慢,难以在大规模海量信息处理中得到有效应用.文中提出一种改进的KNN文本分类方法.其基本思路是,通过文本聚类将样本中的若干相似文档合并成一个中心文档,并用这些中心文档代替原始样本建立分类模型,这样就减少了需要进行相似计算的文档数,从而达到提高分类速度的目的.实验表明,以分类准确率、召回率和F-score为评价指标,文中方法在与经典KNN算法相当的情况下,分类速度得到较大提高.
-
关键词
k-最近邻(KNN)
文本分类
文本聚类
聚类中心
自然语言处理
-
Keywords
k-Nearest Neighbor (KNN), Text Categorization, Text Clustering, Cluster Center,Natural Language Processing (NLP)
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名智能教学系统中的知识树增长模型
被引量:17
- 5
-
-
作者
周晓军
黄河燕
张普
-
机构
北京语言文化大学网络教育学院
中国科学院计算机语言信息工程研究中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2001年第10期1217-1223,共7页
-
基金
国家自然科学基金资助 ( 69882 0 0 6)
-
文摘
智能教学系统 ( intelligent tutoring system,ITS) ,作为人工智能学科的重要研究应用领域 ,是 2 1世纪人类社会数字化教育的必然发展方向 ,迄今研究逾 3 0年 .现有一些 ITS系统由于知识表示以及推理方法的领域相关特性 ,系统构建与系统运用、系统模块之间动态有机联系不强 ,进而导致学生模型弱化等问题 ,限制了系统在进行个别化教学过程中的智能性和推广运用 .在此从系统的知识表示入手 ,基于 SC文法的知识表示体系和知识树映射方法 ,提出了一个动态、实时、自适应、交互式知识树增长模型 ( augm ent knowledge- tree model,AKTM) .模型包括基于SC文法的知识点表示方法、知识树结构以及知识树映射、知识树学生模型、知识点学习循环等内容 ,贯穿于 ITS系统4大传统模块之中 ,并在内容和功能上与之完全集成 .通过知识点层次多维属性标注和索引 ,实现了知识存储、处理、调用和维护动态、一体化过程 .通过知识点学习循环 ,实现个别化、动态、自适应智能教 /学过程 .同时通过模型在多媒体 ITS系统中的实例化设计和运用 ,实现了动态教 /学、领域无关、人机交互、自适应、个别化等智能特点 .
-
关键词
智能教学系统
人工智能
知识树增长模型
多媒体教学
-
Keywords
intelligent tutoring system, AI, augment knowledge tree model, knowledge tree mapping, object oriented design
-
分类号
G434
[文化科学—教育学]
TP18
[文化科学—教育技术学]
-
-
题名基于多策略融合的中文术语抽取方法
被引量:28
- 6
-
-
作者
周浪
史树敏
冯冲
黄河燕
-
机构
南京理工大学计算机科学与技术学院
北京理工大学计算机学院
-
出处
《情报学报》
CSSCI
北大核心
2010年第3期460-467,共8页
-
基金
国家863高技术研究发展计划资助项目(2006AA01Z152)
国家自然科学基金资助项目(60672149)
-
文摘
中文术语抽取是信息抽取、文本挖掘以及知识获取等信息处理任务中的关键技术。相对于单词型术语,词组型术语的识别过程要更加复杂。由于短语中引入了大量非名词性词汇,随之产生了更多种的噪声数据,不仅需要判断短语结构是否完整,还要考虑短语内部词汇的搭配合理性、衡量短语中所负载领域信息量等问题。文中将词组型术语抽取过程中遇到的这三个问题作为切入点,分别使用子串归并、搭配检验和领域相关度计算技术来解决这三个问题,分析词组型术语自身的结构特征以及其在语料中的分布特征,完善词组型术语的抽取任务。实验证实了该方法能够有效提升低频术语和基础术语的排序位置,从而改善了中文词组型术语抽取系统的性能。
-
关键词
中文术语抽取
语言规则获取
子串归并
搭配检验
词语活跃度
领域相关度
-
Keywords
Chinese term extraction
linguistical rules acquisition
substring reduction
collocation test
word active degree
domain relevant degree
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语句相似度计算的FAQ自动回复系统设计与实现
被引量:19
- 7
-
-
作者
张亮
冯冲
陈肇雄
黄河燕
-
机构
南京理工大学计算机系
中国科学院计算机语言信息工程研究中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第4期720-723,共4页
-
基金
国家自然科学基金项目(60272088)资助
-
文摘
FAQ(Frequently Asked Question)在互联网站上广泛使用,但绝大多数FAQ的检索与回复都是手工进行.本文介绍了一个较为完整的基于语句相似度计算的FAQ自动回复系统,包括基本计算模型的选取、FAQ特性的分析、FAQ数据形式化表示及特征向量索引、权重计算等,并给出详细的语句相似度计算算法,实验结果表明,对于频率高、共性大的问题,系统有很高的准确率.
-
关键词
FAQI
VSM
相似度计算
信息检索
-
Keywords
FAQ
VSM
similarity computing
information retrieval
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于词频分布变化统计的术语抽取方法
被引量:27
- 8
-
-
作者
周浪
张亮
冯冲
黄河燕
-
机构
南京理工大学计算机科学与技术学院
计算机语言信息工程研究中心
南京大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2009年第5期177-180,共4页
-
基金
国家863高技术研究发展计划项目(2006AA01Z152)
国家自然科学基金项目(60672149)资助
-
文摘
提出了一种规则与统计相结合的术语抽取方法,用于抽取包含多个词语的词组型术语。目前,绝大多数的统计方法都侧重于衡量术语的结构完整性,但这些方法并不能体现术语与专业相关的领域特征。通过对术语在各文档中的分布情况进行观察,提出了一种利用术语在语料中词频分布变化程度的统计信息来检验术语的领域相关性的方法,同时结合机器学习方法获取的语言知识,从计算机领域的语料中抽取领域特征明显的词组型术语。实验证明,该方法对低频术语和高频普通词串有较强的分辨能力。
-
关键词
术语抽取
机器学习
分布方差
知识获取
termhood
unithood
-
Keywords
Terminology extraction, Machine learning, Distribution variance, Knowledge acquisition, Termhood, Unithood
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
O212
[自动化与计算机技术—计算机科学与技术]
-
-
题名WAP页面转换代理系统原理及其实现
被引量:11
- 9
-
-
作者
刘洪
贺琛
黄河燕
-
机构
中国科学院计算机语言信息工程研究中心
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第4期177-179,共3页
-
基金
国家自然科学基金资助项目(编号:69925102)
-
文摘
为了解决WAP应用层与Web应用层之间的语言差别,文章提出了一个WAP页面转换代理系统的方案,设计并实现了从HTML到WML网页转换算法,并提出利用知识库构造基于Web内容的自适应页面转换代理的处理方法。实验证明,该方法能够很好地解决移动计算设备上网存在的语言差异问题,另一方面,它也能够较好地解决普通Web页面无线设备上显示时可能出现的布局失调问题。
-
关键词
WAP页面转换代理系统
原理
网页
INTERNET
-
Keywords
Wireless Application Protocol(WAP),XML ,XHTML ,WML
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-
-
题名词性标注中生词处理算法研究
被引量:13
- 10
-
-
作者
张孝飞
陈肇雄
黄河燕
蔡智
-
机构
中国科技大学计算机系
中国科学院计算机语言信息工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2003年第5期1-5,共5页
-
基金
国家自然科学基金资助项目(60272088)
-
文摘
词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。
-
关键词
计算机应用
中文信息处理
自然语言理解
词性兼类
隐马尔科夫模型
语料库
-
Keywords
computer application
Chinese information processing
natural language processing (NLP)
ambiguity of POS
HMM
corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名情感词典构建综述
被引量:22
- 11
-
-
作者
梅莉莉
黄河燕
周新宇
毛先领
-
机构
北京理工大学计算机学院
-
出处
《中文信息学报》
CSCD
北大核心
2016年第5期19-27,共9页
-
基金
国家重点基础研究发展计划(2013CB329303)
国家自然科学基金(61402036
61132009)
-
文摘
文本情感分析是近年来迅速兴起的一个研究课题,具有显著的研究价值和应用价值。情感词典的构建在情感分析任务中发挥着越来越重要的影响力。该文对情感词典构建的研究进展进行了总结。首先重点介绍了情感词典构建的研究现状,将其归纳为四种方法,即基于启发式规则的方法、基于图的方法、基于词对齐模型的方法以及基于表示学习的方法,并对每种方法进行介绍和分析;然后对一些常见的语料库、词典资源以及评测组织进行介绍;最后,对情感词典的构建进行了总结,并对发展趋势进行了展望。
-
关键词
情感分析
情感词典
评测
语料
综述
-
Keywords
sentiment analysis
sentiment lexicon
evaluation
corpus
survey
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于条件随机域的复杂最长名词短语识别
被引量:16
- 12
-
-
作者
冯冲
陈肇雄
黄河燕
张亮
王江伟
-
机构
中国科学技术大学计算机科学与技术系
中国科学院计算机语言信息工程研究中心
南京理工大学计算机系
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第6期1134-1139,共6页
-
基金
国家自然科学基金项目(60272088)资助
国家"八六三"基金项目(2002AA11401)资助.
-
文摘
识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性.
-
关键词
最长名词短语
条件随机域
机器翻译
-
Keywords
maximal-length noun phrase
conditional random fields
machine translation
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名多策略机器翻译研究综述
被引量:21
- 13
-
-
作者
李业刚
黄河燕
史树敏
冯冲
苏超
-
机构
北京理工大学计算机学院北京市海量语言信息处理与云计算应用工程技术研究中心
山东理工大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2015年第2期1-9,23,共10页
-
基金
国家重点基础研究发展计划(973)(2013CB329303)
国家自然科学基金(61132009)
国家自然科学基金(61202244)
-
文摘
该文全面综述和分析了多策略机器翻译的研究。根据所采用策略方式的差异,我们将多策略机器翻译分为系统级策略融合和模块级策略融合。在分别介绍了不同的翻译方法后,着重介绍了系统级策略融合和模块级策略融合各自具有代表性的研究工作。最后,对多策略机器翻译的研究进行了展望。
-
关键词
机器翻译
多策略机器翻译
融合机器翻译
混合机器翻译
多引擎机器翻译
-
Keywords
machine translation
multi-strategy MT
system combination for MT
hybrid-MT
multi-engine MT
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种智能译后编辑器的设计及其实现算法
被引量:17
- 14
-
-
作者
黄河燕
陈肇雄
-
机构
中国科学院计算技术研究所智能机器翻译研究开发中心
-
出处
《软件学报》
EI
CSCD
北大核心
1995年第3期129-135,共7页
-
基金
国家自然科学基金
-
文摘
译后编辑是改进机器翻译译文质量的主要手段.本文提出一个智能译后编辑器的设计原理和实现算法.该编辑器以意段为基本处理单位,既可以形成适于反向推理的译后编辑反馈信息,为机译系统知识的自完善提供处理依据,又可以实现源译文句子级和意段级的多窗口同步显示.同时还利用智能机译系统对句子/短语的多解译文和单词的多义查询能力,使用户只要在误译文的多个候选译文中选择正确译文,从而大量减少人工删除误译文和插入正确译文的操作,并通过设置多个意段译文位置的自动调整机制,提高译后编辑的效率.
-
关键词
机器翻译
人工智能
译后编辑
编辑器
算法
-
Keywords
Machine translation,artificial intelligence,post-editor.
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名串空间理论扩展
被引量:16
- 15
-
-
作者
沈海峰
薛锐
黄河燕
陈肇雄
-
机构
中国科学技术大学计算机科学技术系
信息安全国家重点实验室(中国科学院软件研究所)
-
出处
《软件学报》
EI
CSCD
北大核心
2005年第10期1784-1789,共6页
-
基金
国家自然科学基金~~
-
文摘
现有的串空间模型由于没有抽象更多的密码学原语,因此不能分析较复杂的安全协议.希望通过对串空间理论的扩展使其充分地表达较多的密码学原语,以满足分析复杂安全协议的需要.对入侵串轨迹增加了签名、签名验证和HMAC(keyed-hashingformessageauthenticationcode)函数模型,重新定义了理想概念并对衍生出的相关命题和定理进行了证明.扩展的诚实理想分析模型不仅继承了原理论的性质,而且适合分析含丰富密码原语的协议,如JFK和IKE2.
-
关键词
安全协议
串空间
理想
诚实理想
-
Keywords
security protocol
strand spaces
ideal
honest ideal
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名中文问答系统模型研究
被引量:8
- 16
-
-
作者
张亮
黄河燕
胡春玲
-
机构
南京理工大学计算机系
中国科学院计算机语言信息工程研究中心
江苏警官学院
-
出处
《情报学报》
CSSCI
北大核心
2006年第2期197-201,共5页
-
基金
国家自然科学基金资助项目(60272088)
-
文摘
问答系统是信息检索的高级形式,也是该领域的研究重点和热点。本文较全面地分析了中文问答系统所涉及的关键技术和知识资源平台,提出了一个完整的中文问答系统处理模型,对系统的运行机制和处理流程作了清晰的描述,最后详细讨论了问答系统中的两个关键算法,即形式化扩展算法和答案抽取算法。
-
关键词
问答系统
信息检索
语义分析
ONTOLOGY
-
Keywords
question answering, information retrieval, semantics analysis, ontology.
-
分类号
F123.16
[经济管理—世界经济]
TP316.7
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于多策略分析的复杂长句翻译处理算法
被引量:11
- 17
-
-
作者
黄河燕
陈肇雄
-
机构
中国科学院计算机语言信息工程研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2002年第3期1-7,共7页
-
基金
国家自然科学基金
杰出青年基金(6 992 5 10 2 )支持
-
文摘
在实用机器翻译系统的研究开发中 ,复杂长句的翻译处理是其面临的一个主要难题。本文提出一种多语种通用的基于多策略分析的复杂长句翻译处理算法 ,该算法通过基于实例模式匹配和规则分析相结合的方法 ,综合利用源语言句子中多种相关的语言特征 ,包括语法语义特征、句子长度、标点符号、功能词以及上下文语境条件等对复杂长句进行切分简化处理和译文的复合生成。另一方面 ,通过对不同语种设计相同的知识表示形式 。
-
关键词
复杂长句
翻译处理算法
机器翻译
多策略分析
长句切分简化处理
模式匹配
规则分析
-
Keywords
Machine Translation
hybrid strategy parsing approach
segmentation processing of complex long sentence
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
H085
[自动化与计算机技术—计算机科学与技术]
-
-
题名采用主动学习策略的组织机构名识别
被引量:12
- 18
-
-
作者
冯冲
陈肇雄
黄河燕
-
机构
中国科学技术大学计算机科学与技术系
中国科学院计算机语言信息工程研究中心
-
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第4期710-714,共5页
-
基金
国家自然科学基金项目(60272088)资助
国家"八六三"基金项目(2002AA11401)资助
-
文摘
组织机构名等命名实体的识别是信息抽取、机器翻译等任务的重要基础.为了克服识别器训练过程中对标注数据的依赖,本文提出了一种基于主动学习的训练策略,改进了基本的最大熵模型的解码算法和训练过程.实验表明采用主动学习策略的最大熵模型训练算法能够有效减少标注数据的使用.
-
关键词
主动学习
命名实体识别
最大熵模型
组织机构名
-
Keywords
active learning
named entity recognition
maximum entropy model
organization names
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名上下文相关汉语自动分词及词法预处理算法
被引量:10
- 19
-
-
作者
黄河燕
李渝生
-
机构
中国科学院计算机语言信息工程研究中心
-
出处
《应用科学学报》
CAS
CSCD
1999年第2期148-155,共8页
-
基金
国家自然科学基金
-
文摘
提出了一种适合于汉英机器翻译的上下文相关汉语自动分词及词法预处理算法.该算法采用正向多路径匹配算法和基于上下文相关知识的歧义切分消解算法,充分利用汉英机译系统词典库中的大量语法和语义等知识进行上下文相关的规则推导消歧,使自动分词的准确率达到了99%以上.同时,该算法还对汉语中意义冗余的重叠词和可以与中心词离合的虚词等进行了词法预处理,从而一方面可以减少系统词典的收词量。
-
关键词
汉语自动分词
词法预处理
机器翻译
上下文相关
-
Keywords
automatic Chinese word segmentation, lexical preprocessing, machine translation
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名ITS系统中自然语言人机接口的设计与实现
被引量:5
- 20
-
-
作者
王英姿
宗成庆
陈肇雄
黄河燕
-
机构
中国科学院计算机语言信息工程研究中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
1998年第9期814-818,共5页
-
文摘
文中详细介绍了智能教学系统MSCITS中基于知识的自然语言人机接口的设计及实现方法.该设计方法较好地结合了自然语言和语音一体化处理技术以及智能教学系统(ITS)的特点,通过人机之间的混合主动交互,增强了系统接口的灵活性、友善性和可适应性,提高了MSCITS系统的性能.
-
关键词
人机接口
自然语言处理
ITS系统
-
Keywords
intelligent tutoring system, human computer interface, natural language processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-