-
题名基于自动构建语料库的词汇级复述研究
被引量:3
- 1
-
-
作者
赵世奇
刘挺
李生
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2009年第5期975-980,共6页
-
基金
国家自然科学基金(No.60803093
No.60675034)
国家863高技术研究发展计划(No.2008AA01Z144)
-
文摘
本文针对词汇级复述问题提出了一种新的方法.该方法首先利用翻译引擎将双语平行语料库自动转换为单语平行语料库,以此构建复述语料库并用于候选复述的抽取.在此基础上,本文提出了一种新的统计模型.该模型根据特定的上下文为待复述词选择最为合适的复述.实验结果表明自动构建的复述语料库对于词汇级复述的抽取是有效的.同时,本文提出的模型明显优于两种传统模型,在准确率和召回率上分别提高10%左右.
-
关键词
词汇级复述
复述语料库
复述模型
-
Keywords
lexical paraphrasing
paraphrase corpus
paraphrasing model
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网络挖掘的上下文相关词汇级复述研究(英文)
被引量:2
- 2
-
-
作者
赵世奇
张宇
赵琳
刘挺
李生
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《软件学报》
EI
CSCD
北大核心
2009年第7期1746-1755,共10页
-
基金
Supported by the National Natural Science Foundation of China under Grant Nos.60503072,60575042~~
-
文摘
词汇级复述研究旨在为词汇获取复述.词汇级复述是上下文相关的,即对同一个词在不同上下文中应获取不同的复述词.提出了一种获取上下文相关词汇级复述的方法.该方法包括两部分:基于网络挖掘的候选复述词获取以及基于二元分类的复述词确认.在《人民日报》语料库上的实验结果表明:(1)基于网络挖掘的候选复述词获取方法是切实可行的,平均为每个待复述词在每个给定的上下文句子中获取2.3个正确复述词;(2)利用二元分类的方法进行复述确认是有效的,其F值达到0.6023;(3)利用该方法抽取得到的复述中,有75.11%和98.31%无法通过两种常用的上下文无关方法,即基于辞典和基于聚类的方法来获得.这证明了所提出的上下文相关复述方法可以有效地补充传统的上下文无关方法.
-
关键词
词汇级复述
上下文相关
网络挖掘
复述抽取
复述确认
-
Keywords
lexical paraphrasing
context dependent
Web mining
paraphrase extraction
paraphrase validation
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-