-
题名基于DC-Value的西班牙语文本词语提取方法
被引量:1
- 1
-
-
作者
于娟
颜煜铃
简梓炜
张晨
-
机构
福州大学经济与管理学院
-
出处
《计算机系统应用》
2021年第6期271-277,共7页
-
基金
国家自然科学基金(71771054)。
-
文摘
西班牙语(以下简称西语)是仅次于汉语的世界第二大母语语言,是联合国6种官方语言之一.西语复杂的词形变化和语法规则,导致C-value等经典的词语提取方法的效果无法保证,进而影响基于西语文本挖掘的效果.因此,本文研究西语文本词语提取方法,为西语文本的结构化建模提供完备的词库.给定待分析的西班牙语文本,该方法分3步提取得到词语集合:文本预处理、候选词语提取和DC-value成词度计算.其中,前两步所得的候选词语集合可直接用作文本挖掘的词库;第三步所得的候选词语成词度可辅助判断候选词语成词的可能性,减轻人工判断的工作量.实验结果表明,本文方法自动提取的西文词语集合的准确率达到80%,且召回率远高于经典方法,能够为西语文本挖掘提供有效的词库.
-
关键词
西语文本
文本挖掘
词语提取
DC-value
-
Keywords
spanish text
text mining
term extraction
DC-value
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-