-
题名文本自动分类中特征权重算法的改进研究
被引量:56
- 1
-
-
作者
徐凤亚
罗振声
-
机构
清华大学计算语言学研究室
-
出处
《计算机工程与应用》
CSCD
北大核心
2005年第1期181-184,220,共5页
-
文摘
文章研究并改进了文本自动分类中的特征权重算法。传统的特征权重算法着重于考虑频率和反文档频率等因素,而未考虑特征的类间、类内分布与低频高权信息。该文重点研究了特征的类间、类内分布,以及低频高权特征对分类的影响,并在此基础上提出了低频高权特征集的构造方法及特征权重的新算法,同时将该算法推广到多层次分类体系。实验证明该算法能有效提高分类的精确度,而且在多级分类中也能取得很好的效果。
-
关键词
特征项
权重算法
分布信息
低频高权特征
文本分类
-
Keywords
term,weighting algorithm,DI,LFHW Terms,text classification
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名模式匹配在中文问答系统中的应用研究
被引量:4
- 2
-
-
作者
杨晓明
罗振声
-
机构
清华大学计算语言学研究室
-
出处
《科学技术与工程》
2006年第3期319-322,共4页
-
文摘
针对汉语文本,对自动问答系统的实现进行了初步探索,主要是基于向量空间模型对文档信息进行检索,重点研究了模式匹配在判断问句类型和获取答案方面的作用,设计并初步实现了一个面向受限领域内中文自动问答系统。
-
关键词
自动问答
模式匹配
向量空间模型
-
Keywords
question answering pattern matching information retrieval
-
分类号
TP312
[自动化与计算机技术—计算机软件与理论]
-
-
题名边界模板和局部统计相结合的中国人名识别
被引量:13
- 3
-
-
作者
李中国
刘颖
-
机构
清华大学中文系计算语言学研究室
-
出处
《中文信息学报》
CSCD
北大核心
2006年第5期44-50,共7页
-
基金
清华大学亚洲研究中心2005年度青年项目资助(2005C-2)
-
文摘
本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。
-
关键词
计算机应用
中文信息处理
人名识别
命名实体识别
边界模板
局部统计量
词法分析
-
Keywords
computer application
Chinese information processing
person name recognition
named entity recognition
boundary template
local frequency
lexical analysis
-
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
-