-
题名W-POS语言模型及其选择与匹配算法
被引量:3
- 1
-
-
作者
邱云飞
刘世兴
魏海超
邵良杉
-
机构
辽宁工程技术大学软件学院
辽宁工程技术大学系统工程研究所
-
出处
《计算机应用》
CSCD
北大核心
2015年第8期2210-2214,2248,共6页
-
基金
国家自然科学基金资助项目(70971059)
辽宁省创新团队项目(2009T045)
辽宁省高等学校杰出青年学者成长计划项目(LJQ2012027)
-
文摘
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。
-
关键词
n-grams语言模型
词性
冗余度
稀疏数据
特征选择
-
Keywords
n-grams language model
parts of speech
redundancy
sparse data
feature selection
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP301.6
[自动化与计算机技术—控制科学与工程]
-