期刊文献+
共找到6,225篇文章
< 1 2 250 >
每页显示 20 50 100
基于HowNet的词汇语义倾向计算 被引量:326
1
作者 朱嫣岚 闵锦 +2 位作者 周雅倩 黄萱菁 吴立德 《中文信息学报》 CSCD 北大核心 2006年第1期14-20,共7页
在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过... 在互联网技术快速发展、网络信息爆炸的今天,通过计算机自动分析大规模文本中的态度倾向信息的技术,在企业商业智能系统、政府舆情分析等诸多领域有着广阔的应用空间和发展前景。同时,语义褒贬倾向研究也为文本分类、自动文摘、文本过滤等自然语言处理的研究提供了新的思路和手段。篇章语义倾向研究的基础工作是对词汇的褒贬倾向判别。本文基于HowNet,提出了两种词汇语义倾向性计算的方法:基于语义相似度的方法和基于语义相关场的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别准确率可达80%以上,具有一定的实用价值。 展开更多
关键词 计算机应用 中文信息处理 态度分类 语义倾向 知网
下载PDF
中文文本分类中特征抽取方法的比较研究 被引量:228
2
作者 代六玲 黄河燕 陈肇雄 《中文信息学报》 CSCD 北大核心 2004年第1期26-32,共7页
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ... 本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。 展开更多
关键词 计算机应用 中文信息处理 文本自动分类 特征抽取 支持向量机 KNN
下载PDF
中文分词十年回顾 被引量:249
3
作者 黄昌宁 赵海 《中文信息学报》 CSCD 北大核心 2007年第3期8-19,共12页
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可... 过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。 展开更多
关键词 计算机应用 中文信息处理 中文分词 词语定义 未登录词识别 字标注分词方法
下载PDF
中文文本分类中的特征选择研究 被引量:165
4
作者 周茜 赵明生 扈旻 《中文信息学报》 CSCD 北大核心 2004年第3期17-23,共7页
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同... 本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。 展开更多
关键词 计算机应用 中文信息处理 文本分类 特征选择 类别区分词
下载PDF
基于内容的垃圾邮件过滤技术综述 被引量:129
5
作者 王斌 潘文锋 《中文信息学报》 CSCD 北大核心 2005年第5期1-10,共10页
垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评... 垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明,Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。 展开更多
关键词 计算机应用 中文信息处理 综述 垃圾邮件 反垃圾邮件 信息过滤 文本分类
下载PDF
话题检测与跟踪的评测及研究综述 被引量:153
6
作者 洪宇 张宇 +1 位作者 刘挺 李生 《中文信息学报》 CSCD 北大核心 2007年第6期71-87,共17页
话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信... 话题检测与跟踪是一项面向新闻媒体信息流进行未知话题识别和已知话题跟踪的信息处理技术。自从1996年前瞻性的探索以来,该领域进行的多次大规模评测为信息识别、采集和组织等相关技术提供了新的测试平台。由于话题检测与跟踪相对于信息检索、信息挖掘和信息抽取等自然语言处理技术具备很多共性,并面向具备突发性和延续性规律的新闻语料,因此逐渐成为当前信息处理领域的研究热点。本文简要介绍了话题检测与跟踪的研究背景、任务定义、评测方法以及相关技术,并通过分析目前TDT领域的研究现状展望未来的发展趋势。 展开更多
关键词 计算机应用 中文信息处理 综述 话题检测与跟踪 自然语言处理 事件 新闻报道
下载PDF
一种中文分词词典新机制——双字哈希机制 被引量:108
7
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
下载PDF
基于监督学习的中文情感分类技术比较研究 被引量:136
8
作者 唐慧丰 谭松波 程学旗 《中文信息学报》 CSCD 北大核心 2007年第6期88-94,108,共8页
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等... 情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Na ve Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明:采用Bi Grams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。 展开更多
关键词 计算机应用 中文信息处理 情感分类 文本分类 语言模型 中文信息处理
下载PDF
基于语义理解的文本倾向性识别机制 被引量:120
9
作者 徐琳宏 林鸿飞 杨志豪 《中文信息学报》 CSCD 北大核心 2007年第1期96-100,共5页
文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作... 文本倾向性识别在垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。本文提出了基于语义理解的文本倾向性识别机制。其主要思想是首先计算词汇与知网中已标注褒贬性的词汇间的相似度,获取词汇的倾向性;再选择倾向性明显的词汇作为特征值,用SVM分类器分析文本的褒贬性;最后采用否定规则匹配文本中的语义否定的策略提高分类效果,同时处理程度副词附近的褒义词和贬义词,以加强对文本褒贬义强度的识别。 展开更多
关键词 计算机应用 中文信息处理 倾向性识别 知网 语义相似度 否定句 程度副词
下载PDF
基于大规模日志分析的搜索引擎用户行为分析 被引量:117
10
作者 余慧佳 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2007年第1期109-114,共6页
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们... 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 搜索引擎 用户行为分析 点击信息分析
下载PDF
实体关系自动抽取 被引量:115
11
作者 车万翔 刘挺 李生 《中文信息学报》 CSCD 北大核心 2005年第2期1-6,共6页
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法 ,Winnow和支持向量机 (SVM) ,在 2 0 0 4年ACE(AutomaticContentExtraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选... 实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法 ,Winnow和支持向量机 (SVM) ,在 2 0 0 4年ACE(AutomaticContentExtraction)评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择 ,当选择每个实体的左右两个词为特征时 ,达到最好的抽取效果 ,Win now和SVM算法的加权平均F Score分别为 73 0 8%和 73 2 7%。可见在使用相同的特征集 ,不同的学习算法进行实体关系的识别时 ,最终性能差别不大。因此使用自动的方法进行实体关系抽取时 ,应当集中精力寻找好的特征。 展开更多
关键词 计算机应用 中文信息处理 实体关系抽取 ACE评测 特征选择
下载PDF
一种改进的基于《知网》的词语语义相似度计算 被引量:107
12
作者 江敏 肖诗斌 +1 位作者 王弘蔚 施水才 《中文信息学报》 CSCD 北大核心 2008年第5期84-89,共6页
中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与&... 中科院刘群的基于《知网》的词语相似度计算是当前比较有代表性的计算词语相似度的方法之一。在测试中我们发现对一些存在对义或反义的词语与同义、近义词语一样具有较高的相似度,一些明显相似的词反而相似度较低,如"美丽"与"贼眉鼠眼"的相似度为0.814 815,与"优雅"的相似度为0.788 360,"深红"与"粉红"的相似度仅为0.074 074,这将不利于进行词语的极性识别。基于文本情感色彩分析的需要,把词语相似度的取值范围规定为[-1,+1],在刘群论文的基础上,进一步考虑了义原的深度信息,并利用《知网》义原间的反义、对义关系和义原的定义信息来计算词语的相似度。在词语极性识别实验中,得到了较好的实验结果:P值为99.07%,R值为99.11%。 展开更多
关键词 计算机应用 中文信息处理 知网 词语相似度 义原 词语极性识别
下载PDF
中文词语语义相似度计算——基于《知网》2000 被引量:106
13
作者 李峰 李芳 《中文信息学报》 CSCD 北大核心 2007年第3期99-105,共7页
词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思... 词语语义相似度的计算,一种比较常用的方法是使用分类体系的语义词典(如Wordnet)。本文首先利用Hownet中“义原”的树状层次结构,得到“义原”的相似度,再通过“义原”的相似度得到词语(“概念”)的相似度。本文通过引入事物信息量的思想,提出了自己的观点:认为知网中的“义原”对“概念”描述的作用大小取决于其本身所含的语义信息量;“义原”对“概念”的描述划分为直接描述和间接描述两类,并据此计算中文词语语义相似度,在一定程度上得到了和人的直观更加符合的结果。 展开更多
关键词 计算机应用 中文信息处理 词语语义相似度 知网 “义原” 语义信息量
下载PDF
使用机器学习方法进行新闻的情感自动分类 被引量:107
14
作者 徐军 丁宇新 王晓龙 《中文信息学报》 CSCD 北大核心 2007年第6期95-100,共6页
本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率... 本文主要研究机器学习方法在新闻文本的情感分类中的应用,判断其是正面还是负面。我们利用朴素贝叶斯和最大熵方法进行新闻及评论语料的情感分类研究。实验表明,机器学习方法在基于情感的文本分类中也能取得不错的分类性能,最高准确率能达到90%。同时我们也发现,对于基于情感的文本分类,选择具有语义倾向的词汇作为特征项、对否定词正确处理和采用二值作为特征项权重能提高分类的准确率。总之,基于情感的文本分类是一个更具挑战性的工作。 展开更多
关键词 计算机应用 中文信息处理 文本分类 情感分析 贝叶斯 最大熵
下载PDF
文本意见挖掘综述 被引量:106
15
作者 姚天昉 程希文 +2 位作者 徐飞玉 汉思·乌思克尔特 王睿 《中文信息学报》 CSCD 北大核心 2008年第3期71-80,共10页
意见挖掘是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题。这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。本文首先对意见... 意见挖掘是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题。这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。本文首先对意见挖掘进行了定义,然后阐述了意见挖掘研究的目的,接着从主题的识别、意见持有者的识别、陈述的选择和情感的分析四个方面对意见挖掘的研究现状进行了综述,并介绍了几个成型的系统。此外,我们针对汉语的意见挖掘做了特别的分析。最后对整个领域的研究进行了总结。 展开更多
关键词 计算机应用 中文信息处理 意见挖掘 主观性文本 综述
下载PDF
情感语料库的构建和分析 被引量:110
16
作者 徐琳宏 林鸿飞 赵晶 《中文信息学报》 CSCD 北大核心 2008年第1期116-122,共7页
本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,... 本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近4万句,100万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。 展开更多
关键词 计算机应用 中文信息处理 情感语料库 文本编码规范 一致性检查 情感迁移
下载PDF
知网的理论发现 被引量:98
17
作者 董振东 董强 郝长伶 《中文信息学报》 CSCD 北大核心 2007年第4期3-9,共7页
知网正式发布至今已经8年了。海内外很多人对它已不陌生了。现在该是我们为知网的理论发现做点小结的时候了。本文它们包括(1)知网的知识观,(2)关于知识的获取和表达,(3)事件类概念分类的双轴论,(4)关于语义角色,(5)知识数据描述语言(KD... 知网正式发布至今已经8年了。海内外很多人对它已不陌生了。现在该是我们为知网的理论发现做点小结的时候了。本文它们包括(1)知网的知识观,(2)关于知识的获取和表达,(3)事件类概念分类的双轴论,(4)关于语义角色,(5)知识数据描述语言(KDML)。本文还介绍了知网的计算意义的能力以及它最新发展。知网将成为一些新兴技术如自然语言搜索等的基础设施。 展开更多
关键词 计算机应用 中文信息处理 知识系统 本体论 义原 语义角色 WORDNET
下载PDF
中文事件抽取技术研究 被引量:105
18
作者 赵妍妍 秦兵 +1 位作者 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2008年第1期3-8,共6页
事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了... 事件抽取是信息抽取领域一个重要的研究方向,本文对事件抽取的两项关键技术——事件类别识别以及事件元素识别进行了深入研究。在事件类别识别阶段,本文采用了一种基于触发词扩展和二元分类相结合的方法;在事件元素识别阶段,本文采用了基于最大熵的多元分类的方法。这些方法很好的解决了事件抽取中训练实例正反例不平衡以及数据稀疏问题,取得了较好的系统性能。 展开更多
关键词 计算机应用 中文信息处理 事件抽取 事件类别识别 事件元素识别
下载PDF
基于句法结构分析的中文问题分类 被引量:82
19
作者 文勖 张宇 +1 位作者 刘挺 马金山 《中文信息学报》 CSCD 北大核心 2006年第2期33-39,共7页
问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减... 问题分类是问答系统中重要的组成部分,问题分类结果的好坏直接影响问答系统的质量。本文提出了一种用于问题分类的特征提取的新方法,该方法主要使用句法分析的结果,提取问题的主干和疑问词及其附属成分作为分类的特征,此方法大幅度地减少了噪音,突出了问题分类的主要特征,利用贝叶斯分类器分类,有效地提高了问题分类的精度。实验结果证明了该方法的有效性,大类和小类的分类精度分别达到了86.62%和71.92%,取得了较好的效果。 展开更多
关键词 计算机应用 中文信息处理 问答系统 问题分类 特征提取 句法分析
下载PDF
汉语句法树库标注体系 被引量:90
20
作者 周强 《中文信息学报》 CSCD 北大核心 2004年第4期1-8,共8页
语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上 ,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础 ,对句法树上的每个非终结符节点都给出两个标记 :成分标记和... 语料库的句法标注是语料库语言学研究的前沿课题。本文在研究和总结国内外句法树库标注实践的基础上 ,提出了一套汉语真实文本的句法树标注体系。它以完整的层次结构树为基础 ,对句法树上的每个非终结符节点都给出两个标记 :成分标记和关系标记 ,形成双标记集的句法信息描述体系。目前 ,这两个标记集分别包含了 1 6和 2 7个标记 ,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。在此基础上 ,我们开发完成了 1 0 0万词规模的汉语句法树库TCT 。 展开更多
关键词 计算机应用 中文信息处理 句法树库 标注规范 语料库语言学
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部