基于句子相似度计算的信息抽取被引量：4

Information Extraction Based on Calculation of Sentence Similarity

下载PDF

导出

摘要提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算,对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试,取得较好效果。 This paper gives a new method of information extraction based on calculation of sentence similarity. The topics of the sentences in testing words are labeled by adopting the method of calculation of sentence similarity. The veracity is increased by referencing the distributing of probability of the sentences in the documents. Using the resources of personal information on Internet, the paper achieves a statistic result.

作者廉站俊吕学强张玉杰施水才

机构地区北京信息科技大学中文信息处理研究中心大连工业大学信息学院

出处《现代图书情报技术》 CSSCI 北大核心 2007年第6期38-41,共4页 New Technology of Library and Information Service

基金 "863"计划重点项目"跨媒体搜索关键技术研究及服务产品开发"(项目编号:2006AA010105) 北京市教委科技发展计划项目"基于大规模真实文本的新词发现研究"(项目编号:KM200710772010)的研究成果之一

关键词信息抽取概率分布主题句子相似度计算 Information extraction Distributing of probability Topic Calculation of sentence similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Zhang Y M, Zhou J F. A Trainable Method for Extracting Chinese Entity Names and Their Relations. In:Proceedings of the Second Chinese Language Processing Workshop, Hong Kong,2000. 被引量：1
2Barzilay R, Lee L. Catching the Drift: Probabilistic Content Models. with Application to Generation and Summarization, HLT - NAACL 2004:113 - 120. 被引量：1
3李向阳,苗壮,肖江.无结构文本信息抽取综述[J].军事通信技术,2004,25(2):31-36. 被引量：3
4车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
5李彬,刘挺,秦兵,李生.基于语义依存的汉语句子相似度计算[J].计算机应用研究,2003,20(12):15-17. 被引量：127
6菅小艳，郑家恒.基于HMM的农作物信息抽取:自然语言理解与大规模内容计算.,2005(10).25—28. 被引量：1
7高霄云,杨建林.基于规则的中文时间词和数词的自动识别算法[J].现代图书情报技术,2007(3):46-50. 被引量：2
8Sigz．垂直搜索引擎技术．http：／／www．fullsearcher．com／n20051112144420735．asp(Accessed Sept．10,2006). 被引量：1

二级参考文献29

1刘海涛.依存语法和机器翻译[J].语言文字应用,1997(3):91-95. 被引量：43
2孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
3余战秋.中文分词技术及其应用初探[J].电脑知识与技术（认证考试）,2004(11M):81-83. 被引量：11
4郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
5郑泽之,张普,杨建国.基于语料库的字母词语自动提取研究[J].中文信息学报,2005,19(2):78-85. 被引量：10
6张江.基于规则的分词方法[J].计算机与现代化,2005(4):18-20. 被引量：15
7孙广范,宋金平,袁琦.机器翻译中规则和模板的协调方法研究[J].中文信息学报,2006,20(B03):31-35. 被引量：3
8温有奎,温浩,徐端颐,潘龙法.基于知识元的文本知识标引[J].情报学报,2006,25(3):282-288. 被引量：65
9车万翔等.面向依存文法分析的搭配抽取方法研究[A]..全国第六届计算语言学联合学术会议[C].,2001.. 被引量：1
10穗志方俞士汶.基于骨架依存树的语句相似度计算模型[A]..中文信息处理国际会议(ICCIP''98)[C].,1998.. 被引量：4

共引文献167

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2张嵩,杨晓明,田露.基于语义相似度计算的航天标准关联度评价[J].南京航空航天大学学报,2021,53(S01):153-156. 被引量：3
3余正涛,邓锦辉,韩露,毛存礼,郑志蕴,郭剑毅.受限域FAQ中文问答系统研究[J].计算机研究与发展,2007,44(z2):388-393. 被引量：6
4秦兵,刘挺,李生.基于局部主题判定与抽取的多文档文摘技术[J].自动化学报,2004,30(6):905-910. 被引量：10
5于凤,郑德权,赵铁军,李生.基于上下文多元信息的文档相似度计算研究[J].哈尔滨工程大学学报,2006,27(B07):397-402. 被引量：2
6李剑锋,胡国平,王仁华.基于整句相似性计算的韵律短语预测模型[J].小型微型计算机系统,2006,27(10):1935-1938. 被引量：1
7杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
8叶正,林鸿飞,杨志豪.基于问句相似度的中文FAQ问答系统[J].计算机工程与应用,2007,43(9):161-163. 被引量：14
9张桂平,姚天顺,尹宝生,蔡东风,宋彦.双语知识库中关联实例的多策略提取机制[J].中文信息学报,2007,21(3):34-39. 被引量：1
10周文,徐国梁.翻译记忆中语句相似度计算方法的研究[J].计算机应用,2007,27(5):1210-1213. 被引量：6

同被引文献43

1李卫,王枞,李蕾,郭燕慧,钟义信.全信息知识制导的科技期刊初审辅助系统[J].北京邮电大学学报,2006,29(z2):127-132. 被引量：2
2车万翔,刘挺,秦兵,李生.基于改进编辑距离的中文相似句子检索[J].高技术通讯,2004,14(7):15-19. 被引量：65
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4姚建民,周明,赵铁军,李生.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265. 被引量：17
5林贤明,李堂秋,陈毅东.句子相似度的动态规划求解及改进[J].计算机工程与应用,2004,40(35):64-65. 被引量：6
6王荣波,池哲儒.基于词类串的汉语句子结构相似度计算方法[J].中文信息学报,2005,19(1):21-29. 被引量：28
7张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
8金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：80
9王荣波,池哲儒,常宝宝,柏晓静.基于词串粒度及权值的汉语句子相似度衡量[J].计算机工程,2005,31(13):142-144. 被引量：13
10黄河燕,陈肇雄,张孝飞,张克亮.大规模句子相似度计算方法[J].中文信息学报,2006,20(B03):47-52. 被引量：6

引证文献4

1化柏林.基于句子匹配的文章自写度测评系统[J].现代图书情报技术,2007(11):40-44. 被引量：2
2何维,王宇.基于句子关系图的网页文本主题句抽取[J].现代图书情报技术,2009(3):57-61. 被引量：9
3蒲海霞,李佳田,李锐,何育枫,王华.非结构化文本数据的GIS描述性查询方法[J].计算机应用,2012,32(9):2483-2487. 被引量：1
4宋燕.基于词网的主观题自动评阅算法的研究[J].电脑知识与技术（过刊）,2014,20(10X):6827-6830.

二级引证文献11

1王森,王宇.基于文本结构树的论文复制检测算法[J].现代图书情报技术,2009(10):50-55. 被引量：4
2赵俊杰.学术论文抄袭检测方法研究综述[J].湖南工业大学学报（社会科学版）,2010,15(1):157-159. 被引量：3
3刘红红,安海忠,高湘昀.基于文本复杂网络的内容结构特征分析[J].现代图书情报技术,2011(1):69-73. 被引量：5
4段晓丽,王宇.基于主题分割与PageRank算法的文本主题抽取[J].现代图书情报技术,2010(12):34-39. 被引量：2
5孔胜,王宇.基于句子相似度的文本主题句提取算法研究[J].情报学报,2011,30(6):605-609. 被引量：12
6王力,李培峰,朱巧明.一种基于LDA模型的主题句抽取方法[J].计算机工程与应用,2013,49(2):160-164. 被引量：10
7王文革,赵志云,曹伟杰,裴嵩楠.基于地理信息系统的卫勤资源管理方案设计[J].医疗卫生装备,2015,36(5):60-62. 被引量：5
8王子璇,乐小虬,何远标.基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究[J].数据分析与知识发现,2017,1(4):1-8. 被引量：12
9赵红红,谭红叶,寻丽娜,王蓉.基于时间片段和主题片段的时间关系识别[J].山东大学学报（理学版）,2017,52(6):32-39. 被引量：1
10蒲梅,周枫,周晶晶,严馨,周兰江.基于加权TextRank的新闻关键事件主题句提取[J].计算机工程,2017,34(8):219-224. 被引量：11

1刘娜,路莹,唐晓君,李明霞.基于LDA重要主题的多文档自动摘要算法[J].计算机科学与探索,2015,9(2):242-248. 被引量：11

现代图书情报技术

2007年第6期

浏览历史

内容加载中请稍等...

基于句子相似度计算的信息抽取被引量：4

参考文献8

二级参考文献29

共引文献167

同被引文献43

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于句子相似度计算的信息抽取 被引量：4

参考文献8

二级参考文献29

共引文献167

同被引文献43

引证文献4

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于句子相似度计算的信息抽取被引量：4