摘要
提出一种基于句子相似度的信息抽取方法。采用句子主题相似度计算,对测试语料进行小句主题识别;同时结合句子主题在整个文章中的概率分布特点,提高识别的准确性。以网络上个人信息资源为语料,在该系统上进行测试,取得较好效果。
This paper gives a new method of information extraction based on calculation of sentence similarity. The topics of the sentences in testing words are labeled by adopting the method of calculation of sentence similarity. The veracity is increased by referencing the distributing of probability of the sentences in the documents. Using the resources of personal information on Internet, the paper achieves a statistic result.
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第6期38-41,共4页
New Technology of Library and Information Service
基金
"863"计划重点项目"跨媒体搜索关键技术研究及服务产品开发"(项目编号:2006AA010105)
北京市教委科技发展计划项目"基于大规模真实文本的新词发现研究"(项目编号:KM200710772010)的研究成果之一
关键词
信息抽取
概率分布
主题
句子相似度计算
Information extraction Distributing of probability Topic Calculation of sentence similarity