题名 基于HNC理论和依存句法的句子相似度计算
被引量:13
1
作者
吴佐衍
王宇
机构
大连理工大学管理科学与工程学院
出处
《计算机工程与应用》
CSCD
2014年第3期97-102,共6页
基金
国家自然科学基金(No.70890083)
教育部人文社科基金(No.09YJA870005)
文摘
句子相似度计算是自然语言处理的重要研究内容。运用自然语言处理的概念层次网络(HNC)理论和依存句法理论提出一种句子相似度的计算方法。该方法认为句子的相似度是由词语的语义相似度和句法结构相似度共同决定的,利用HNC理论词汇层面联想的概念表述体系来计算词语之间的相似度,利用依存句法理论来获取句子中词语的词语搭配和构成特征,与现有典型的句子相似度算法和人工判断进行了比较。实验结果表明,该方法能够较好地反应句子之间的语义差别,是一种可行有效的方法。
关键词
概念层次网络
依存句法
句子相似度
自然语言处理
Keywords
hierarchical network of concepts (hnc )
dependency parsing
sentence similarity
natural language processing
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种混合策略的专利机器翻译系统研究
被引量:12
2
作者
晋耀红
机构
北京师范大学中文信息处理研究所
中国专利信息中心-北京师范大学机器翻译联合实验室
出处
《计算机工程与应用》
CSCD
2012年第4期29-32,共4页
基金
中央高校基本科研业务费专项资金资助
文摘
针对专利文本翻译中的复杂语句,提出了一种基于混合策略的方法,融合语义分析技术和基于规则的翻译技术,来提高专利翻译的效果。利用语义分析技术,重点解决句子中心动词识别和句子中有嵌套结构存在的名称短语的分析,把语义分析结果输入到基于规则的翻译系统中,用以改善翻译的效果。测试结果表明,融合后的翻译系统,BLEU值提高了9.8%。该方法已经集成到了国家知识产权局的在线汉英机器翻译系统中,有效地提高了专利翻译的效果和翻译效率。
关键词
语义分析
机器翻译
语义特征
概念层次网络
专利文献
Keywords
semantic analysis
machine translation
semantic feature
hierarchical network of concepts (hnc )
patent
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于HNC理论的词语相似度计算
被引量:10
3
作者
吴佐衍
王宇
机构
大连理工大学管理科学与工程学院
出处
《中文信息学报》
CSCD
北大核心
2014年第2期37-43,50,共8页
基金
教育部人文社科研究规划项目(09YJA870005)
国家自然科学基金重大项目子课题(70890083)
文摘
该文运用自然语言处理的概念层次网络(Hierarchical Network of Concepts,HNC)理论提出了一种词语相似度计算方法。该方法利用HNC理论词汇层面联想的概念表述体系,根据HNC映射符号的编码规则和符号映射理论,综合概念内涵、概念外部特征、概念类别和组合符号来计算词语的相似度,并与基于知网的词语相似度算法和人工的主观判断的相似度进行了比较分析。实验结果表明,该方法能够较好地反映词语之间的语义差别,与人的直观判断基本一致,是一种有效可行的方法。
关键词
概念层次网络
语义相似度
中文信息处理
Keywords
hierarchical network of concepts (hnc )
semantic similarity
Chinese information processing
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于概念树的文本自动分类系统的研究与实现
被引量:2
4
作者
熊亮
机构
中国科学院声学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2005年第30期6-9,88,共5页
基金
国家973重点基础研究发展项目:自然语言理解的交互引擎研究(编号:2004CB318104)
中科院声学所知识创新工程项目:HNC语言知识处理理论及技术
文摘
该文分类是信息处理的重要研究方向,现在应用较多的都是基于统计的分类系统,本文介绍了一种新型的文本分类理念,通过概念符号化,使用数字化的概念而非词汇来组成特征项,能最大限度地保留文本信息,且不需要训练语料,能灵活适应不同的分类体系。接下来详细描述了领域特征信息提取的4个步骤,以及分类体系的选取与设计。最后给出了实验的测试数据,并对影响性能的一些关键因素进行了分析,指出了进一步提高分类性能的途径。
关键词
文本分类
概念树
概念层次网络
Keywords
Text Categorization,concept tree, hierarchical network of concepts (hnc )
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于HNC理论的文本情感倾向性分析
被引量:6
5
作者
高歌
罗珺玫
王宇
机构
大连理工大学管理与经济学部
出处
《数据分析与知识发现》
CSSCI
CSCD
2017年第8期85-91,共7页
基金
国家自然科学基金重点项目"社会化商务中参与者的信誉与信任机理及交易决策研究"(项目编号:71431002)的研究成果之一
文摘
【目的】构建一种更加科学、准确的评论文本情感倾向性分析方法,解决网络新词难于计算的问题。【方法】利用概念层次网络(HNC)理论的符号对偶性计算情感值,根据建立的规则为新词确定符号,利用符号重用降低工作量,实现对新词的处理。【结果】通过对已有成果的分析和改进,最终得到一套较为完善的情感倾向性分析方法,并使用真实数据进行实验,验证了该方法的可行性,同时也发现了待改进之处。【局限】目前仅能对网络短文本进行分析,且新词的加入需采用人工标注的方式。【结论】本文方法可行有效,为文本情感分析提供了新思路。
关键词
评论文本
情感分析
概念层次网络(hnc )
Keywords
Comment Text
Sentiment Analysis
hierarchical network of concepts (hnc )
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 基于机器翻译的原型句蜕及其包装研究
被引量:3
6
作者
李颖
池毓焕
机构
装甲兵工程学院信息工程系
中国科学院声学研究所
出处
《装甲兵工程学院学报》
2003年第3期7-13,共7页
基金
国家973项目(编号G1998030506)
中国科学院知识创新项目
文摘
首先简要介绍了HNC理论及其机器翻译观,结合机器翻译的难点与原型句蜕存在的普遍性,说明了解决原型句蜕变换的意义;接着对原型句蜕构成现象进行了描述,从汉英语义块构成对比分析中导出了汉英变换规则;从现有的机器翻译系统所暴露的问题中,说明原型句蜕变换对提高机器翻译质量的必要性和可行性;最后是对本文的结论和说明.
关键词
机器翻译
hnc
句类
原型句蜕
语义块构成变换
Keywords
machine translation (MT)
sentence category
formal degraded sentence (FDS)
semantic chunk transformation
hierarchical network of concepts (hnc )
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
H085
[自动化与计算机技术—控制科学与工程]
题名 《概念层次网络理论》(HNC)述评
被引量:2
7
作者
司联合
机构
南京师范大学外国语学院
出处
《语言科学》
2003年第4期101-108,共8页
文摘
本文以黄曾阳的HNC理论为主,讨论了机器翻译的研究历史和中文信息处理的三个流派,比较了黄的作用效应链和Langacker的作用链,也分析了Fillmore,Langacker和黄对一些语句可能进行的处理。文章还重点比较了黄的语义块和鲁川的语块及他们对短语和块的关系的看法,最后,指出了HNC专著的一些不足之处,认为HNC理论创立了自然语言表述和处理的合理模式,解决了汉语理解所面临的诸多难题。
关键词
作用链
作用效应链
概念层次网络
语义块
Keywords
action chain
action-effect chain
hierarchical network of concepts (hnc )
chunk
分类号
H08
[语言文字—语言学]
题名 面向汉英机器翻译的包装句蜕处理
8
作者
李颖
机构
中国科学院声学研究所
出处
《计算机应用》
CSCD
北大核心
2004年第6期137-141,共5页
基金
中国科学院声学研究所知识工程创新项目
国家973规划资助项目(G1998030506)
文摘
文中针对一种特殊的语言现象(HNC称为包装句蜕)进行了分析,目的是为机器翻译提供一些理论支持。首先从目前机器翻译系统所暴露的问题中提出研究包装句蜕的必要性,然后是对包装句蜕进行语言学描述及汉英对比分析,从可计算的角度提出了包装句蜕的判别方法,最后是包装句蜕的机器处理策略及规则。
关键词
机器翻译
hnc
句类
包装句蜕
语义块构成变换
Keywords
Machine Translation(MT)
hierarchical network of concepts (hnc )
sentence category
Wrapped Sentence Ecdysis(WSE)
semantic chunk transformation
分类号
TP317.2
[自动化与计算机技术—计算机软件与理论]
题名 使用句间关系恢复人名和机构名称省略
9
作者
贾宁
张全
机构
中国科学院研究生院
中国科学院声学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2009年第30期146-149,共4页
基金
基金项目:国家重点基础研究发展规划(973)No.2004CB318104
中科院声学所知识创新工程项目(No.0654091431)
+1 种基金
中国科学院声学研究所"所长择优基金"(No.GS13SJJ04)
中国科学院青年人才领域前沿项目(No.O754021432)~~
文摘
语义块是句子的语义构成单位,句子内发生的省略现象可以归结为语义块的省略。在句类分析的基础上,从小句间语义块共享关系的角度分析语义块中人名和机构名称的省略。将省略现象分为语义块整块共享形成的省略和语义块部分共享形成的省略,分析了两种情况的特点,并给出了相应的处理算法。测试表明,该算法对于两种省略均有很好的处理效果。
关键词
省略
语义块共享
句间关系
概念层次网络(hnc )理论
Keywords
ellipsis
semantics chunks share
relationship between sentences
hierarchical network of concepts (hnc )
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
题名 汉语语句核心动词的自动获取研究
10
作者
韦向峰
熊亮
张全
机构
中国科学院声学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2007年第10期179-182,共4页
基金
国家重点基础研究发展规划(973) (the National Grand Fundamental Research 973 Program of China under Grant No.2004CB318104)
中科院声学所知识创新工程项目。
文摘
语句核心动词的自动获取是以动词为中心的汉语语句分析中的重要组成部分。依据概念层次网络理论,在字词概念符号的基础上获取候选动词集合,根据动词的上下文语言环境对动词进行排除和分类处理,对可能作为语句核心动词的动词集合按照作语句核心结构的可能性大小排队,并验证其正确性。实验结果表明,在从真实语料切分得到的3121个语句中,经过排队处理后前三个动词作为语句核心动词的正确率达到了83%。错误分析表明进一步完善知识库及排除排队规则,还可以提高自动获取语句核心动词的正确率。
关键词
概念层次网络
动词
语句核心动词
汉语自动分析
规则
Keywords
hierarchical network of concepts (hnc )
verb
head verb
automatic analysis of Chinese
rule
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于句类特征的作者写作风格分类研究
被引量:19
11
作者
张运良
朱礼军
乔晓东
张全
机构
中国科学技术信息研究所
中国科学院声学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2009年第22期129-131,223,共4页
基金
国家重点基础研究发展规划(973)No.2004CB318104
国家"十一五"科技支撑计划项目资助No.2006BAH03B03~~
文摘
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。
关键词
文本分类
作者写作风格
句类
向量空间模型
概念层次网络(hnc )理论
自然语言理解
Keywords
text classification
authorship
sentence category
Vector Space Model (VSM)
hierarchical network of concepts ( hnc ) theory
nature language processing
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 HNC语境框架及其语境歧义消解
被引量:5
12
作者
缪建明
张全
机构
中国科学院研究生院
中国科学院声学研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第15期10-12,共3页
基金
国家"973"计划基金资助项目"自然语言理解的交互引擎研究"(2004CB318104)
中科院声学所知识创新工程基金资助项目"HNC语言知识处理理论及技术"
文摘
词语在交际环境中往往有不同于单独出现时的语义,会造成一定的语境语义歧义。HNC理论从交互引擎的角度来考虑计算机如何处理语境语义歧义现象,形成了不同于其他语义网络的消歧办法。该文基于HNC语境理论的整体思路,阐述了计算机在语境框架下如何进行语境歧义消解,服务于提高自然语言处理的准确率。示例说明了该方法是可行且可实现的。
关键词
hnc 理论
语境歧义
交互引擎
Keywords
hierarchical network of concepts (hnc ) theory
context ambiguity
interactive engine
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 基于文章标题信息的汉语自动文本分类
被引量:2
13
作者
缪建明
张全
赵金仿
机构
中国科学院声学研究所
江苏科技大学电子信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第20期13-14,17,共3页
基金
国家“973”计划基金资助项目“自然语言理解的交互引擎研究”(2004CB318104)
中科院声学所知识创新工程基金资助项目“HNC语言知识处理理论及技术”
文摘
文本分类是文本挖掘的一个重要组成部分,是信息搜索领域的一项重要研究课题。该文提出一种基于文章标题信息的汉语自动文本分类方法,在HNC理论的领域概念框架下,通过标题信息所蕴涵的领域信息词语激活对应的HNC领域,实现文本的自动分类。实验证明,该方法与采用SVM算法进行文本分类的方法比较,测试速度和分类平均准确率明显提高。
关键词
文本分类
hnc 理论
领域
Keywords
text categorization
hierarchical network of concepts (hnc ) theory
domain
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
题名 自然语言处理中的语句语义表示格式研究
14
作者
缪建明
张全
吴晨
机构
中国科学院研究生院
中国科学院声学研究所
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第16期77-79,共3页
基金
国家社科"九五"计划基金资助重大项目"信息处理用现代汉语词汇研究"(97@YY001)
国家"973"计划基金资助项目(G1998030507-2)
文摘
语句语义表示格式(语句格式)体现了语句各组成成分之间的组合关系,可给计算机提供指导性的知识。该文在HNC理论框架指导下,对目前普遍采用的语句格式提出了一种全面改进的方案,给出了新的语句格式编码,通过实例阐述了带来的变化。测试数据表明,新语句格式具有很强的通用性和非常好的表示能力,更有利于计算机的处理。
关键词
hnc 理论
语义块
语句格式
句群
语义深层结构
Keywords
hierarchical network of concepts (hnc ) theory
Chunk
Sentence format(SF)
Sentence group(SG)
Semantic deep structures
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
题名 基于HNC理论的动态词合成
15
作者
吴崇斌
张全
机构
中国科学院研究生院
中国科学院声学研究所
出处
《微计算机应用》
2010年第2期7-11,共5页
基金
国家973项目"自然语言理解的交互引擎研究"(2004CB318104)
国家科技支撑计划课题"搜索引擎中的语言翻译基础研究"(2007BAH05B02-05)
+2 种基金
中科院声学所知识创新工程项目"句群理解处理理论及其应用"(O654091431)
中国科学院声学研究所"所长择优基金"(GS13SJJ04)
中国科学院青年人才领域前沿项目(O754021432)的资助
文摘
采用HNC理论的最新研究成果,从技术上实现动态词的合成。研究的成果集中在动态词合成程序,该程序能将文本分词后产生的单字根据规则库实现动态词的合成,从而提高句类分析的效率。
关键词
hnc 理论
动态词
规则处理
Keywords
Theory of hierarchical network of concepts (hnc in short), Dynamically Combined Word, Rule- Based Processing
分类号
H04
[语言文字—语言学]
题名 基于最大熵模型的语义块切分
被引量:1
16
作者
谢法奎
张全
机构
中国科学院研究生院
中国科学院声学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2009年第26期118-120,130,共4页
基金
国家重点基础研究发展规划(973)No.2004CB318104
中科院声学所知识创新工程项目No.O654091431~~
文摘
语义块切分是HNC理论的重要课题,与以往的处理策略不同,采用统计建模的方法来解决这一问题。采用词语、词性、概念等信息组成特征模板,并应用增量方法进行特征选择,构建了一个基于最大熵模型的语义块切分系统。在HNC标注语料库上的测试取得了较好的效果,开放测试的正确率和召回率分别达到了83.78%和91.17%。
关键词
最大熵模型
语义块
概念层次网络
Keywords
maximum entropy model
smnatic chunk
hierarchical network concepts (hnc )
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于HNC理论的社区问答系统问句检索模型构建
被引量:4
17
作者
夏远远
王宇
机构
大连理工大学管理与经济学部
出处
《计算机应用与软件》
北大核心
2018年第8期98-101,169,共5页
文摘
社区问答系统作为一种知识组织形式,在其基础上的问句检索可以帮助用户快速地从海量问答资源中找到问题的答案,同时避免用户重复提交已解决的问题造成系统冗余。考虑到翻译模型容易受翻译概率准确性的影响,在翻译噪声严重的情况下无法准确获取词汇语义信息。利用社区问答系统中问题的标记信息,构建高质量的训练语料集,同时在翻译模型基础上结合概念层次网络(HNC)理论的词语语义知识,提出了一种新的基于HNC语义修正的问句检索模型。在真实的数据集上的实验结果表明,HNC理论词语语义知识的对翻译概率准确性的修正有了显著效果,同时提出的问句检索模型可以很好地识别问答系统中相似的问句对,在检索结果上优于当前使用最广泛的模型。
关键词
社区问答
问句检索
概念层次网络(hnc )理论
翻译模型
Keywords
Community Q&A
Question retrieval
hierarchical network of concept (hnc ) theory
Translation model
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]