期刊文献+
共找到28篇文章
< 1 2 >
每页显示 20 50 100
汉语自动分词方法 被引量:32
1
作者 殷建平 《计算机工程与科学》 CSCD 1998年第3期60-66,共7页
本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词 汉语自动分词 词库 分词算法 中文信息处理
下载PDF
面向信息检索的自适应中文分词系统 被引量:48
2
作者 曹勇刚 曹羽中 +1 位作者 金茂忠 刘超 《软件学报》 EI CSCD 北大核心 2006年第3期356-363,共8页
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和... 新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 展开更多
关键词 分词系统 分词算法 信息检索 新词识别 歧义消解
下载PDF
中文分词技术研究综述 被引量:45
3
作者 唐琳 郭崇慧 陈静锋 《数据分析与知识发现》 CSSCI CSCD 北大核心 2020年第2期1-17,共17页
【目的】梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】归纳... 【目的】梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。【结果】使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。【局限】没有深入对比分析中文分词的无监督学习方法。【结论】虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。 展开更多
关键词 中文分词 分词算法 多准则学习 联合模型
原文传递
自然语言检索中的中文分词技术研究进展及应用 被引量:25
4
作者 何莘 王琬芜 《情报科学》 CSSCI 北大核心 2008年第5期787-791,共5页
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中... 中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 展开更多
关键词 中文分词 自动分词 分词算法
下载PDF
基于人工智能的主观题自动评分算法实现 被引量:18
5
作者 李学俊 《江南大学学报(自然科学版)》 CAS 2009年第3期292-295,共4页
针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢... 针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢量空间模型的文本矢量特征匹配算法应用于计算机对考生答卷进行自动评判的过程中。实验测试数据表明,所提出的算法具有一定应用前景。 展开更多
关键词 自动评分 中文分词算法 矢量空间模型 文本匹配
下载PDF
支持智能中文分词的互联网搜索引擎的构建 被引量:8
6
作者 曹羽中 曹勇刚 +1 位作者 金茂忠 刘超 《计算机工程与设计》 CSCD 北大核心 2006年第23期4395-4398,4407,共5页
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可... 中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。 展开更多
关键词 中文分词 分词算法 搜索引擎 词法分析器 检索精度
下载PDF
基于隐马尔可夫模型的中文分词 被引量:8
7
作者 吴帅 潘海珍 《现代计算机》 2018年第22期25-28,共4页
中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响。目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系。论述模型实... 中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响。目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系。论述模型实现中文分词的基本原理,并给出模型的Python实现。 展开更多
关键词 隐马尔可夫模型 中文分词 分词算法 PYTHON
下载PDF
基于最大熵算法的全文检索研究 被引量:6
8
作者 张立岩 吕玲 王井阳 《河北科技大学学报》 CAS 北大核心 2009年第2期112-115,共4页
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问... 全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。 展开更多
关键词 全文检索 最大熵模型 分词
下载PDF
中文分词算法概述 被引量:3
9
作者 甘秋云 《唐山师范学院学报》 2013年第5期55-57,共3页
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。
关键词 中文分词 分词算法 分词方法
下载PDF
巧用黑盒法逆推百度中文分词算法 被引量:2
10
作者 盛启东 谭守标 +2 位作者 徐超 冯二媛 陈军宁 《计算机技术与发展》 2010年第4期136-139,共4页
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度... 为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。 展开更多
关键词 中文分词 分词算法 搜索引擎 百度
下载PDF
基于社工信息的口令生成与安全性分析 被引量:2
11
作者 高强 李啸 +1 位作者 胡勇 吴少华 《通信技术》 2017年第7期1511-1516,共6页
文本口令是现今网络信息系统用户身份认证的关键凭据。为评估用户口令的安全性,运用分词算法将获取的口令样本中的每条口令拆分成可理解的口令因子组合,通过分析口令样本中各口令的口令因子组成规律,利用关联规则挖掘用户口令的设置规... 文本口令是现今网络信息系统用户身份认证的关键凭据。为评估用户口令的安全性,运用分词算法将获取的口令样本中的每条口令拆分成可理解的口令因子组合,通过分析口令样本中各口令的口令因子组成规律,利用关联规则挖掘用户口令的设置规则。根据设置规则,结合社会工程学收集的信息,利用k-gram算法生成口令字典。通过实验验证,借助社工信息生成的口令字典,在特定应用场景中针对性强,具有更好的破解效果,为检测口令安全性提供了一种新的手段。 展开更多
关键词 口令安全性 社会工程 口令因子 分词算法 k-gram 口令破解
下载PDF
基于深度学习的慢性肝病CT报告相似度分析 被引量:2
12
作者 常炳国 刘清星 《计算机应用与软件》 北大核心 2018年第8期289-294,302,共7页
肝部CT检查是诊断慢性肝病的必要措施。通常,CT报告由影像所见描述和根据所见给出的诊断建议结果两部分组成。研究肝CT报告影像所见描述文本的相似度,辅助医生在给出新的CT诊断建议结果时参考历史上相似度最高的相应CT报告诊断结论。在... 肝部CT检查是诊断慢性肝病的必要措施。通常,CT报告由影像所见描述和根据所见给出的诊断建议结果两部分组成。研究肝CT报告影像所见描述文本的相似度,辅助医生在给出新的CT诊断建议结果时参考历史上相似度最高的相应CT报告诊断结论。在研究慢性肝病医学词库基础上,运用网络爬虫技术获取相关网站医学词汇及自定义的否定词汇表,构建了包含约6 000个医学词汇的慢性肝病CT报告分词词库。运用基于词库与最大匹配规则相结合的分词算法,对肝CT报告文本进行分词处理。利用Doc2Vec深度学习算法获取CT报告文本分词表的句向量。通过计算句向量之间的余弦值得出CT报告文本相似度,选择历史CT报告文本中相似度大于阈值的报告用于医生进行参考。整理分析了6 900份真实的影像科检查报告,基于自定义词库及改进的分词算法,分词准确率达到87%。通过与基于TF-IDF的统计算法和基于隐含狄利克雷主题模型(LDA)算法进行对比分析,采用的算法获得的相似文本的平均准确率更高。 展开更多
关键词 慢性肝病 CT报告 深度学习 分词算法 相似度计算
下载PDF
数据库受限汉语自然语言查询的分词研究与实现 被引量:1
13
作者 胡婕 李跃新 《湖北大学学报(自然科学版)》 CAS 北大核心 2005年第4期331-335,共5页
对数据库受限汉语自然语言查询语句进行分词处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想是体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属... 对数据库受限汉语自然语言查询语句进行分词处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想是体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用. 展开更多
关键词 受限汉语自然语占 分词算法 最大匹配法 长词优先 术登录词
下载PDF
浅谈汉语自动分词的几种方法
14
作者 王希杰 赵晓凡 《价值工程》 2011年第13期176-177,共2页
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和... 汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。 展开更多
关键词 汉语自动分词 词库 分词算法
下载PDF
面向考古应用的自然语言查询系统的设计实现
15
作者 马晓娜 张建 王琳 《山东建筑大学学报》 2006年第4期354-359,共6页
针对当前研究的热点问题———界面层自然语言理解的应用,设计和研制了一个面向对象的受限汉语自然语言数据库查询系统DMNLQ。该系统针对特定的考古数字博物馆应用,提出了受限汉语的上下文无关文法,把查询语句通过定义的文法进行标注,... 针对当前研究的热点问题———界面层自然语言理解的应用,设计和研制了一个面向对象的受限汉语自然语言数据库查询系统DMNLQ。该系统针对特定的考古数字博物馆应用,提出了受限汉语的上下文无关文法,把查询语句通过定义的文法进行标注,并采用语义树的形式进行表示。系统还提出了一种中间形式语言MML对语义树进行描述,运用关联路径搜索策略解决了查询中比较复杂的表间相互联系的表述问题,从而实现了从MML到SQL语句的转换。 展开更多
关键词 自然语言处理 分词算法 MML 数字博物馆
下载PDF
基于非句处理的旅游业语言查询系统的研究与设计
16
作者 马婷婷 《电脑知识与技术》 2014年第12X期8754-8755,共2页
随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句... 随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句中歧义的处理方法——分词算法。 展开更多
关键词 语音识别系统 非句 分词算法
下载PDF
垂直搜索引擎中的分词算法研究
17
作者 潘磊宁 方建安 金林骏 《网络安全技术与应用》 2014年第4期15-16,18,共3页
垂直搜索引擎是用户利用网络资源不可或缺的工具,而其中的索引引擎和查询引擎都使用到了分词算法。前者依据分词算法分析文本建立倒排索引表,后者依据分词算法将查询语句切分成关键词。为了提高垂直搜索引擎的检索效率,有必要研究一下... 垂直搜索引擎是用户利用网络资源不可或缺的工具,而其中的索引引擎和查询引擎都使用到了分词算法。前者依据分词算法分析文本建立倒排索引表,后者依据分词算法将查询语句切分成关键词。为了提高垂直搜索引擎的检索效率,有必要研究一下垂直搜索引擎中的分词技术。在本文中,首先介绍了现有的中文分词算法并分析了其缺点,在此基础上构建了一种改进的分词算法。最后,本文通过实验证明了该改进算法的有效性。 展开更多
关键词 垂直搜索引擎 分词算法 检索效率
原文传递
基于云计算的短信内容审计研究
18
作者 刘云玉 原晋鹏 《黔南民族师范学院学报》 2015年第4期88-91,共4页
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务之所以成为人们的一种重要通信和交流方式,是由于其本身的诸多优点例如短小、迅速、简便、价格低廉等,直接影响着每个人的日常生活。短... 随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务之所以成为人们的一种重要通信和交流方式,是由于其本身的诸多优点例如短小、迅速、简便、价格低廉等,直接影响着每个人的日常生活。短信的广泛应用也带来了不少问题,比如垃圾短信泛滥成灾,不仅极大的影响了人们的正常生活和通信,而且使许多人的经济受到了损失,因此研究垃圾短信过滤具有重要的意义。 展开更多
关键词 云计算 分词算法 过滤垃圾短信
下载PDF
国内中文自动分词技术研究综述 被引量:104
19
作者 奉国和 郑伟 《图书情报工作》 CSSCI 北大核心 2011年第2期41-45,共5页
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词... 认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。 展开更多
关键词 中文分词 分词算法 歧义消除 未登录词 分词系统
原文传递
基于本体的智能语义检索模型设计与研究 被引量:21
20
作者 马斌 王金虹 +1 位作者 闫娟娟 芦倩 《情报科学》 CSSCI 北大核心 2015年第2期46-49,71,共5页
针对现有的基于关键词检索过程中存在的缺陷,构建一种基于本体的面向语义查询的信息检索模型。该系统在领域本体知识库建立的基础上,将智能语义Web技术与信息检索方法相结合,核心是运用中文分词算法和语义扩展实现用户对专业领域信息的... 针对现有的基于关键词检索过程中存在的缺陷,构建一种基于本体的面向语义查询的信息检索模型。该系统在领域本体知识库建立的基础上,将智能语义Web技术与信息检索方法相结合,核心是运用中文分词算法和语义扩展实现用户对专业领域信息的有效查询,实现了面向领域的智能检索系统。 展开更多
关键词 领域本体 语义检索 中文分词算法 信息抽取
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部