期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
中文微博情感词提取:N-Gram为特征的分类方法 被引量:13
1
作者 刘德喜 聂建云 +3 位作者 张晶 刘晓华 万常选 廖国琼 《中文信息学报》 CSCD 北大核心 2016年第4期193-205,212,共14页
情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法... 情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限。一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词。该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的。为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类。实验结果表明,该方法较传统基于共现的方法要好。实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题。 展开更多
关键词 情感词提取 中文微博 分类方法 n-gram特征
下载PDF
无需词典支持和切词处理的中文文档分类 被引量:1
2
作者 周水庚 关佶红 胡运发 《高技术通讯》 EI CAS CSCD 2001年第3期31-35,共5页
利用中文文本的N gram信息进行中文文档分类 ,使中文文档分类摆脱了对词典和切词处理的依赖。实验结果表明 。
关键词 中文文档分类 n-gram信息 属性选择 贝叶斯分类 knn
下载PDF
PEIF:基于并行机群的大数据实体识别算法 被引量:4
3
作者 李明达 王宏志 +2 位作者 张佳程 李建中 高宏 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期211-220,共10页
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,... 数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别. 展开更多
关键词 实体识别 大数据 并行处理方法 Hyracks平台 n-gram算法
下载PDF
一种新的基于N-gram模型的重复软件缺陷报告检测方法 被引量:2
4
作者 李宁 李战怀 张利军 《西北工业大学学报》 EI CAS CSCD 北大核心 2010年第2期298-303,共6页
软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模... 软件开发维护过程中产生的缺陷报告中常常出现大量的重复缺陷报告。自动准确地检测出重复缺陷报告,将为软件缺陷的分派、修正、再测试等工作节约大量宝贵的开发维护成本。文章基于传统的向量空间模型检测方法,提出一种新的基于N-gram模型的重复缺陷报告检测方法,文中第2小节中详细介绍了该方法的细节。通过在小数据集上的实验,明确了在使用该方法检测重复缺陷报告时,参数N取3/4/5,利用全句法仅针对缺陷报告的概要信息进行相似度计算将取得较好的效果。最终使用一个含有4 503条Firefox缺陷报告的数据集对该方法进行了验证。实验证明N-gram模型法与向量空间模型法相比,重复缺陷的查全率(Recall Rate)提高了25%~55%。 展开更多
关键词 自然语言处理系统 重复缺陷报告 n-gram方法 文本相似度
下载PDF
基于信息传播特性的新词发现方法研究 被引量:3
5
作者 曹春萍 杨青林 《软件》 2020年第9期201-203,共3页
针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利用N-gram算法得出候选词串列表,基于词频和词语灵活度对垃圾词串进行过滤,实现基于信息传播特性的微博新... 针对现有方法无法有效、快速地识别出网络中文新词,且其生命周期比较短的问题,提出了一种基于信息传播特性的新词发现方法研究。利用N-gram算法得出候选词串列表,基于词频和词语灵活度对垃圾词串进行过滤,实现基于信息传播特性的微博新词统计方法。实验结果表明:提出的基于信息传播特性的新词发现方法在查准率、召回率都要比使用中文ICTCLAP9115分词方法分词更好,更具有优势。 展开更多
关键词 信息传播 新词 发现方法 n-gram算法
下载PDF
一种相似重复元数据记录检测方法 被引量:3
6
作者 王常武 韩菁华 张付志 《计算机工程》 CAS CSCD 北大核心 2009年第21期85-87,共3页
对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于... 对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于改进的N-Gram方法,适合较大规模联邦数字图书馆。模拟实验结果表明,该方法能有效提高重复检测的性能,加快重复检测的速度。 展开更多
关键词 元数据 重复记录检测 n-gram方法 相似度
下载PDF
基于N-gram的Web用户浏览模式分类算法研究 被引量:2
7
作者 朱志国 邓贵仕 孔立平 《情报学报》 CSSCI 北大核心 2009年第3期389-394,共6页
Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览... Web站点用户浏览模式自动分类可以更好地组织站点上的内容信息来满足不同用户的访问需求。Web使用挖掘技术已经在这项研究中得到了广泛的应用,但是集成Web内容挖掘的成果还不多见。本文首先给出了结合Web内容和使用挖掘技术的用户浏览模式分类的原型系统框架。系统中主要的过程是:对数据集中原始的Web服务器日志进行清理,使用Web使用挖掘技术从用户浏览会话中挖掘出有代表性的用户浏览模式,根据模式中每一个相关的页面内容抽取出一个N-gram集合,构建基于N-gram的用户浏览模式简档。最后本文对用户浏览会话作了分类实验分析,实验结果表明这个方法在N-gram=6,df=10%的情况下取得了较高的分类精确度。 展开更多
关键词 n-gram方法 Web内容抽取 用户浏览模式 分类算法
下载PDF
朝鲜语信息检索索引方法研究
8
作者 金光赫 王兴伟 蒋定德 《计算机科学》 CSCD 北大核心 2011年第5期169-174,共6页
基于朝鲜语信息检索系统的深入分析,研究提高朝鲜语信息检索性能的索引问题。通过剖析名词单位索引法、单位词素索引法、n-gram单位索引法、单位语句索引法等经典索引法的优缺点,以试验分析找出对索引性能有重要影响的关键要素,深入阐... 基于朝鲜语信息检索系统的深入分析,研究提高朝鲜语信息检索性能的索引问题。通过剖析名词单位索引法、单位词素索引法、n-gram单位索引法、单位语句索引法等经典索引法的优缺点,以试验分析找出对索引性能有重要影响的关键要素,深入阐述朝鲜语的30个非用词、索引方式与朝鲜语的特征,从而提出一种新的将每种索引方法特征融于一体的朝鲜语信息检索索引方法。仿真实验表明,所提出的新方法具有更好的性能。 展开更多
关键词 朝鲜语 词素分析 索引法 n-gram方法 非用词
下载PDF
基于N-GRAM的朝鲜文索引方法与性能评价
9
作者 金光赫 王兴伟 蒋定德 《小型微型计算机系统》 CSCD 北大核心 2012年第5期950-954,共5页
在为检索信息而索引朝鲜文时,通常的做法是对语句和词素进行分析后把名词抽取成索引词.但由于分析的模糊性,若在对词素进行分析时出现参考的词典上不存在的未登录词的情况,就很难抽取正确的索引词.N-gram不需要对词进行语言的分析,因而... 在为检索信息而索引朝鲜文时,通常的做法是对语句和词素进行分析后把名词抽取成索引词.但由于分析的模糊性,若在对词素进行分析时出现参考的词典上不存在的未登录词的情况,就很难抽取正确的索引词.N-gram不需要对词进行语言的分析,因而索引速度快,而且对词素分析词典里不存在的未登录词的分析有利,所以对分析复合名词有很好的效果.但与别的分析方法相比,使用N-gram时会出现因索引词抽取得太多而导致存储空间使用率低和索引效率的下降.为了克服N-gram的缺点,本文提出了一种新的朝鲜语自动索引方法.该方法首先把体词与谓词抽取成索引词后,再利用语句类型规则对词素分析中失败的语句进行助词分离,最后在未登录词处理中使用N-gram的索引方法.对比分析和性能评价表明,所提出的方法是有效的. 展开更多
关键词 朝鲜语 n-gram 未登录词 信息检索 复合名词 词素分析
下载PDF
基于多策略的维吾尔文网页识别方法
10
作者 阿力木.木拉提 艾孜尔古丽 +1 位作者 杨雅婷 李晓 《中文信息学报》 CSCD 北大核心 2017年第1期133-139,共7页
经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相... 经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。 展开更多
关键词 维吾尔文 网页识别 n-gram方法 常用词 向量空间模型
下载PDF
基于字形与语音的音译单元对齐方法
11
作者 刘博佳 徐金安 +1 位作者 陈钰枫 张玉洁 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期75-80,共6页
为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合基于语音和字形的音译单元对齐方法,设计了4个实验,与传统方法进行对比。实验结果显示,该方法能够很好地... 为了解决仅采用基于语音或基于字形的音译方法造成的误差过大问题,以汉英音译为主要研究对象,运用统计与规则的理论思想,提出融合基于语音和字形的音译单元对齐方法,设计了4个实验,与传统方法进行对比。实验结果显示,该方法能够很好地提高机器音译的准确性。 展开更多
关键词 机器音译 对齐 n-gram模型 基于语音的音译方法 基于字形的音译方法
下载PDF
基于N-gram模型的中文分词前k优算法 被引量:4
12
作者 李书豪 陈宇 +1 位作者 吕淑宝 张猛治 《智能计算机与应用》 2016年第6期31-35,共5页
本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理。针对系统词库数量受限的问题,在构建词图的前提下,使用基于A... 本文首先从中文输入法应用的角度出发,在阐述了N-gram模型的基础上对中文输入法的分词进行了详细的剖析,进一步根据训练数据的稀疏问题,使用Back-off模型进行数据的平滑处理。针对系统词库数量受限的问题,在构建词图的前提下,使用基于A*的算法求解前k优路径。最后实验结果表明,本文所使用的基于A*的算法与改进Dijkstra算法、基于DP的算法等常用的求前k优路径的算法相比,具有较高的效率和准确率,为中文分词及求取k-best算法的研究开拓了新的思路。 展开更多
关键词 中文输入法 n-gram模型 k优路径 A*算法
下载PDF
基于混合策略的中文生物医学领域未登录词识别研究 被引量:2
13
作者 孙海霞 李军莲 +1 位作者 吴英杰 吴夙慧 《现代图书情报技术》 CSSCI 北大核心 2013年第1期15-21,共7页
简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表... 简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表现良好。 展开更多
关键词 未登录词 n-gram 混合策略 生物医学
原文传递
基于虚词停顿的中文分词消歧研究 被引量:2
14
作者 麦范金 李东普 《图书情报工作》 CSSCI 北大核心 2010年第14期121-125,共5页
提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精... 提出一种基于虚词停顿的中文分词消岐的模型。首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理。整个过程分为粗分词、精分词和歧义消除三个过程。测试结果显示,该模型能有效地降低词歧义引起的错误切分率。 展开更多
关键词 分词 停顿 最大匹配 n-gram模型 数据平滑
原文传递
基于MicroWindows的多设备支持智能中文输入系统 被引量:1
15
作者 周慧娟 向荣 《计算机应用》 CSCD 北大核心 2013年第7期2067-2070,2082,共5页
针对现有嵌入式中文输入系统输入设备种类支持单一、中文输入引擎效率低、用户体验差等问题,提出一种基于MicroWindows的智能中文输入系统。系统首先在前端的设备输入实现层模块式完成了不同类型的设备消息封装投递,然后在消息处理中心... 针对现有嵌入式中文输入系统输入设备种类支持单一、中文输入引擎效率低、用户体验差等问题,提出一种基于MicroWindows的智能中文输入系统。系统首先在前端的设备输入实现层模块式完成了不同类型的设备消息封装投递,然后在消息处理中心对各种输入设备的投递信息进行集中处理,通过统一分发处理的方式编码为输入法处理的消息类型,最后结合改进N元文法模型与用户模型实现中文输入引擎。MIPS等硬件平台的实际应用结果表明,该系统运行状态良好,汉字输入流畅快捷,比以往的中文输入方式提高了35%的输入效率。 展开更多
关键词 n元文法模型 MICROWInDOWS 多设备支持 中文输入法
下载PDF
基于逆文献频率加权和N元分析算法的自动标引研究
16
作者 赵麟 陈晓莉 王丽婷 《图书馆工作与研究》 CSSCI 北大核心 2013年第6期125-128,共4页
本文对逆文献频率加权标引和N元分析进行对比分析,同时引入统计学领域的条件概率和信息论中的信息熵这两个工具,针对文献信息的处理提出了基于N元分析与逆文献加权的标引方法,以期提高文献的标引质量,避免自然语言处理中的一些问题。
关键词 逆文献频率加权 n元分析 自动标引
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部