题名 基于HowNet的词汇语义倾向计算
被引量:326
1
作者
朱嫣岚
闵锦
周雅倩
黄萱菁
吴立德
机构
复旦大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2006年第1期14-20,共7页
基金
国家自然科学基金资助项目(60435020)
上海市科技攻关计划资助项目(035115028)
文摘
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。
关键词
计算机应用
中文信息处理
态度分类
语义倾向
知网
Keywords
computer application
Chinese information processing
sentiment classification
semantic orientation
HowNet
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文文本分类中特征抽取方法的比较研究
被引量:228
2
作者
代六玲
黄河燕
陈肇雄
机构
南京理工大学计算机科学系
中国科学院计算机语言信息工程研究中心
出处
《中文信息学报》
CSCD
北大核心
2004年第1期26-32,共7页
基金
国家自然科学基金资助项目 (6 0 2 72 0 88)
文摘
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。
关键词
计算机应用
中文信息处理
文本自动分类
特征抽取
支持向量机
KNN
Keywords
computer application
Chinese information processing
text categorization
feature selection
SVM
KNN
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 中文分词十年回顾
被引量:249
3
作者
黄昌宁
赵海
机构
微软亚洲研究院
香港城市大学
出处
《中文信息学报》
CSCD
北大核心
2007年第3期8-19,共12页
文摘
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。
关键词
计算机应用
中文信息处理
中文分词
词语定义
未登录词识别
字标注分词方法
Keywords
computer application
Chinese information processing
Chinese word segmentation (CWS)
definition of words
out-of-vocabulary (OOV) word recognition
Character-based tagging approach of CWS
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文文本分类中的特征选择研究
被引量:165
4
作者
周茜
赵明生
扈旻
机构
清华大学电子工程系
出处
《中文信息学报》
CSCD
北大核心
2004年第3期17-23,共7页
基金
国家自然科学基金资助项目 ( 6 0 0 0 30 14
6 0 1710 37)
文摘
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。
关键词
计算机应用
中文信息处理
文本分类
特征选择
类别区分词
Keywords
computer application
Chinese information processing
text categorization
feature selection
class discriminating words
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于内容的垃圾邮件过滤技术综述
被引量:129
5
作者
王斌
潘文锋
机构
中国科学院计算技术研究所
出处
《中文信息学报》
CSCD
北大核心
2005年第5期1-10,共10页
基金
国家973项目资助(2004CB318109)
文摘
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。
关键词
计算机应用
中文信息处理
综述
垃圾邮件
反垃圾邮件
信息过滤
文本分类
Keywords
computer application
Chinese information processing
overview
junk email
anti-spare
information filtering
text classification
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 话题检测与跟踪的评测及研究综述
被引量:153
6
作者
洪宇
张宇
刘挺
李生
机构
哈尔滨工业大学计算机科学与技术学院信息检索研究室
出处
《中文信息学报》
CSCD
北大核心
2007年第6期71-87,共17页
基金
国家自然科学基金资助项目(60435020
60575042
60503072)
文摘
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。
关键词
计算机应用
中文信息处理
综述
话题检测与跟踪
自然语言处理
事件
新闻报道
Keywords
computer application
Chinese information processing
overview
topic detection and tracking
natural language processing
event
news story
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种中文分词词典新机制——双字哈希机制
被引量:108
7
作者
李庆虎
陈玉健
孙家广
机构
清华大学计算机系
出处
《中文信息学报》
CSCD
北大核心
2003年第4期13-18,共6页
基金
教育部专项基金资助项目 (2 0 0 1BA10 1A12 - 0 2 )
973计划资助 (2 0 0 2CB312 0 0 6 )
文摘
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。
关键词
汉语自动分词
汉语信息处理
分词词典机制
双字哈希机制
分词速度
分词效率
Keywords
computer application
Chinese information processing
Chinese word segmentation
dictionary mechanism
double character hash indexing
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 基于监督学习的中文情感分类技术比较研究
被引量:136
8
作者
唐慧丰
谭松波
程学旗
机构
中国科学院计算技术研究所
出处
《中文信息学报》
CSCD
北大核心
2007年第6期88-94,108,共8页
基金
国家"973"重点基础研究发展规划基金资助项目(2004CB318109)
文摘
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Na ve Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明:采用Bi Grams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。
关键词
计算机应用
中文信息处理
情感分类
文本分类
语言模型
中文信息处理
Keywords
computer application
Chinese information processing
sentiment classification
text categorization
language model
Chinese information processing
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
题名 基于语义理解的文本倾向性识别机制
被引量:120
9
作者
徐琳宏
林鸿飞
杨志豪
机构
大连理工大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2007年第1期96-100,共5页
基金
国家自然科学基金资助项目(60373095
60673039)
文摘
文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性;最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和贬义词,以加强对文本褒贬义强度的识别。
关键词
计算机应用
中文信息处理
倾向性识别
知网
语义相似度
否定句
程度副词
Keywords
computer application
Chinese information processing
orientation identification
HowNet
semantic similarity
negative sentence
degree adverb
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于大规模日志分析的搜索引擎用户行为分析
被引量:117
10
作者
余慧佳
刘奕群
张敏
茹立云
马少平
机构
清华大学智能技术与系统国家重点实验室
搜狗公司研发中心
出处
《中文信息学报》
CSCD
北大核心
2007年第1期109-114,共6页
基金
国家重点基础研究(973)资助项目(2004CB318108)
国家自然科学基金资助项目(60223004
+3 种基金
60321002
60303005
60503064)
教育部科学技术研究重点资助项目(104236)
文摘
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。
关键词
计算机应用
中文信息处理
网络信息检索
搜索引擎
用户行为分析
点击信息分析
Keywords
computer application
Chinese information processing
web information retrieval
search engine
user behavior analysis
click through data analysis
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 实体关系自动抽取
被引量:115
11
作者
车万翔
刘挺
李生
机构
哈尔滨工业大学计算机学院
出处
《中文信息学报》
CSCD
北大核心
2005年第2期1-6,共6页
基金
国家自然科学基金资助 (6 0 4 35 0 2 0 )
文摘
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法 ,Winnow和支持向量机 (SVM) ,在 2 0 0 4年ACE(AutomaticContentExtraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择 ,当选择每个实体的左右两个词为特征时 ,达到最好的抽取效果 ,Win now和SVM算法的加权平均F Score分别为 73 0 8%和 73 2 7%。可见在使用相同的特征集 ,不同的学习算法进行实体关系的识别时 ,最终性能差别不大。因此使用自动的方法进行实体关系抽取时 ,应当集中精力寻找好的特征。
关键词
计算机应用
中文信息处理
实体关系抽取
ACE评测
特征选择
Keywords
computer application
Chinese information processing
entity relation extraction
ACE evaluation
feature selection
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种改进的基于《知网》的词语语义相似度计算
被引量:107
12
作者
江敏
肖诗斌
王弘蔚
施水才
机构
北京信息科技大学中文信息处理研究中心
出处
《中文信息学报》
CSCD
北大核心
2008年第5期84-89,共6页
基金
国家863计划重点资助项目(2006AA010105)
国家自然科学基金资助项目(60772081)
+1 种基金
北京市属市管高校人才强教计划项目(PXM2007_014224_044677,PXM2007_014224_044676)
北京市教委科技发展计划项目(KM200710772010)
文摘
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。
关键词
计算机应用
中文信息处理
知网
词语相似度
义原
词语极性识别
Keywords
computer application
Chinese information processing
HowNet
word similarity
sememe
word polarity recognition
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文词语语义相似度计算——基于《知网》2000
被引量:106
13
作者
李峰
李芳
机构
上海交通大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2007年第3期99-105,共7页
文摘
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点:认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。
关键词
计算机应用
中文信息处理
词语语义相似度
知网
“义原”
语义信息量
Keywords
computer application
Chinese information processing
semantic similarity
Hownet
"sememe"
semantic information
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 使用机器学习方法进行新闻的情感自动分类
被引量:107
14
作者
徐军
丁宇新
王晓龙
机构
哈尔滨工业大学深圳研究生院智能计算研究中心
出处
《中文信息学报》
CSCD
北大核心
2007年第6期95-100,共6页
基金
863专题目标导向类项目(2006AA01Z197)
国家自然科学基金重点项目(60435020)
文摘
本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。
关键词
计算机应用
中文信息处理
文本分类
情感分析
贝叶斯
最大熵
Keywords
computer application
Chinese information processing
text categorization
sentiment analysis
Naive Bayes
maximum entropy
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 文本意见挖掘综述
被引量:106
15
作者
姚天昉
程希文
徐飞玉
汉思·乌思克尔特
王睿
机构
上海交通大学计算机科学与工程系
德国人工智能研究中心
德国萨尔州大学计算语言学系
出处
《中文信息学报》
CSCD
北大核心
2008年第3期71-80,共10页
基金
国家自然科学基金资助项目(60773087)
文摘
意见挖掘是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题。这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。本文首先对意见挖掘进行了定义,然后阐述了意见挖掘研究的目的,接着从主题的识别、意见持有者的识别、陈述的选择和情感的分析四个方面对意见挖掘的研究现状进行了综述,并介绍了几个成型的系统。此外,我们针对汉语的意见挖掘做了特别的分析。最后对整个领域的研究进行了总结。
关键词
计算机应用
中文信息处理
意见挖掘
主观性文本
综述
Keywords
computer application
Chinese information processing
opinion mining
subjective texts
survey
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 情感语料库的构建和分析
被引量:110
16
作者
徐琳宏
林鸿飞
赵晶
机构
大连理工大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2008年第1期116-122,共7页
基金
国家自然科学基金资助项目(60373095
60673039)
+1 种基金
国家863高科技计划资助项目(2006AA01Z151)
教育部留学回国人员科研启动基金资助项目
文摘
本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。
关键词
计算机应用
中文信息处理
情感语料库
文本编码规范
一致性检查
情感迁移
Keywords
computer application
Chinese information processing
emotional corpus~ text coding initiative
consistency checking
emotional transference
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 知网的理论发现
被引量:98
17
作者
董振东
董强
郝长伶
机构
中国科学院计算机语言信息工程研究中心
出处
《中文信息学报》
CSCD
北大核心
2007年第4期3-9,共7页
文摘
知网正式发布至今已经8年了。海内外很多人对它已不陌生了。现在该是我们为知网的理论发现做点小结的时候了。本文它们包括(1)知网的知识观,(2)关于知识的获取和表达,(3)事件类概念分类的双轴论,(4)关于语义角色,(5)知识数据描述语言(KDML)。本文还介绍了知网的计算意义的能力以及它最新发展。知网将成为一些新兴技术如自然语言搜索等的基础设施。
关键词
计算机应用
中文信息处理
知识系统
本体论
义原
语义角色
WORDNET
Keywords
computer application
chinese information processing
knowledge system
ontology
sememe
semantic relation
WordNet
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 中文事件抽取技术研究
被引量:105
18
作者
赵妍妍
秦兵
车万翔
刘挺
机构
哈尔滨工业大学计算机学院信息检索研究室
出处
《中文信息学报》
CSCD
北大核心
2008年第1期3-8,共6页
基金
国家自然科学基金资助项目(60575042
60675034)
国家863资助项目(2006AA01Z145)
文摘
事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。
关键词
计算机应用
中文信息处理
事件抽取
事件类别识别
事件元素识别
Keywords
computer application
Chinese information processing
event extraction
event type recognition
eventargument recognition
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于句法结构分析的中文问题分类
被引量:82
19
作者
文勖
张宇
刘挺
马金山
机构
哈尔滨工业大学信息检索研究室
出处
《中文信息学报》
CSCD
北大核心
2006年第2期33-39,共7页
基金
国家自然科学基金资助项目(60435020)
文摘
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。
关键词
计算机应用
中文信息处理
问答系统
问题分类
特征提取
句法分析
Keywords
computer application
Chinese information processing
question answering system
question classification
feature extraction
syntactic parsing
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 汉语句法树库标注体系
被引量:90
20
作者
周强
机构
清华大学计算机系智能技术与系统国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2004年第4期1-8,共8页
基金
国家自然科学基金资助项目 (6 990 30 0 7
6 0 1 730 0 8)
+2 种基金
国家 973基金资助项目 (G1 9980 30 5 0 7
G1 9980 30 5 0 1A - 0 3)
国家 86 3计划资助项目 (2 0 0 1AA1 1 4 0 4 0 )
文摘
语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上 ,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础 ,对句法树上的每个非终结符节点都给出两个标记 :成分标记和关系标记 ,形成双标记集的句法信息描述体系。目前 ,这两个标记集分别包含了 1 6和 2 7个标记 ,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上 ,我们开发完成了 1 0 0万词规模的汉语句法树库TCT 。
关键词
计算机应用
中文信息处理
句法树库
标注规范
语料库语言学
Keywords
computer application
Chinese information processing
tree bank
annotation scheme
corpus linguistics
分类号
TP391
[自动化与计算机技术—计算机应用技术]