期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
28
篇文章
<
1
2
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
汉语自动分词方法
被引量:
32
1
作者
殷建平
《计算机工程与科学》
CSCD
1998年第3期60-66,共7页
本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词
汉语自动分词
词库
分词算法
中文信息处理
下载PDF
职称材料
面向信息检索的自适应中文分词系统
被引量:
48
2
作者
曹勇刚
曹羽中
+1 位作者
金茂忠
刘超
《软件学报》
EI
CSCD
北大核心
2006年第3期356-363,共8页
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和...
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
展开更多
关键词
分词系统
分词算法
信息检索
新词识别
歧义消解
下载PDF
职称材料
中文分词技术研究综述
被引量:
45
3
作者
唐琳
郭崇慧
陈静锋
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2020年第2期1-17,共17页
【目的】梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】归纳...
【目的】梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。【结果】使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。【局限】没有深入对比分析中文分词的无监督学习方法。【结论】虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。
展开更多
关键词
中文分词
分词算法
多准则学习
联合模型
原文传递
自然语言检索中的中文分词技术研究进展及应用
被引量:
25
4
作者
何莘
王琬芜
《情报科学》
CSSCI
北大核心
2008年第5期787-791,共5页
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中...
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。
展开更多
关键词
中文分词
自动分词
分词算法
下载PDF
职称材料
基于人工智能的主观题自动评分算法实现
被引量:
18
5
作者
李学俊
《江南大学学报(自然科学版)》
CAS
2009年第3期292-295,共4页
针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢...
针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢量空间模型的文本矢量特征匹配算法应用于计算机对考生答卷进行自动评判的过程中。实验测试数据表明,所提出的算法具有一定应用前景。
展开更多
关键词
自动评分
中文分词算法
矢量空间模型
文本匹配
下载PDF
职称材料
支持智能中文分词的互联网搜索引擎的构建
被引量:
8
6
作者
曹羽中
曹勇刚
+1 位作者
金茂忠
刘超
《计算机工程与设计》
CSCD
北大核心
2006年第23期4395-4398,4407,共5页
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可...
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。
展开更多
关键词
中文分词
分词算法
搜索引擎
词法分析器
检索精度
下载PDF
职称材料
基于隐马尔可夫模型的中文分词
被引量:
8
7
作者
吴帅
潘海珍
《现代计算机》
2018年第22期25-28,共4页
中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响。目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系。论述模型实...
中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响。目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系。论述模型实现中文分词的基本原理,并给出模型的Python实现。
展开更多
关键词
隐马尔可夫模型
中文分词
分词算法
PYTHON
下载PDF
职称材料
基于最大熵算法的全文检索研究
被引量:
6
8
作者
张立岩
吕玲
王井阳
《河北科技大学学报》
CAS
北大核心
2009年第2期112-115,共4页
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问...
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。
展开更多
关键词
全文检索
最大熵模型
分词
下载PDF
职称材料
中文分词算法概述
被引量:
3
9
作者
甘秋云
《唐山师范学院学报》
2013年第5期55-57,共3页
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。
关键词
中文分词
分词算法
分词方法
下载PDF
职称材料
巧用黑盒法逆推百度中文分词算法
被引量:
2
10
作者
盛启东
谭守标
+2 位作者
徐超
冯二媛
陈军宁
《计算机技术与发展》
2010年第4期136-139,共4页
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度...
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。
展开更多
关键词
中文分词
分词算法
搜索引擎
百度
下载PDF
职称材料
基于社工信息的口令生成与安全性分析
被引量:
2
11
作者
高强
李啸
+1 位作者
胡勇
吴少华
《通信技术》
2017年第7期1511-1516,共6页
文本口令是现今网络信息系统用户身份认证的关键凭据。为评估用户口令的安全性,运用分词算法将获取的口令样本中的每条口令拆分成可理解的口令因子组合,通过分析口令样本中各口令的口令因子组成规律,利用关联规则挖掘用户口令的设置规...
文本口令是现今网络信息系统用户身份认证的关键凭据。为评估用户口令的安全性,运用分词算法将获取的口令样本中的每条口令拆分成可理解的口令因子组合,通过分析口令样本中各口令的口令因子组成规律,利用关联规则挖掘用户口令的设置规则。根据设置规则,结合社会工程学收集的信息,利用k-gram算法生成口令字典。通过实验验证,借助社工信息生成的口令字典,在特定应用场景中针对性强,具有更好的破解效果,为检测口令安全性提供了一种新的手段。
展开更多
关键词
口令安全性
社会工程
口令因子
分词算法
k-gram
口令破解
下载PDF
职称材料
基于深度学习的慢性肝病CT报告相似度分析
被引量:
2
12
作者
常炳国
刘清星
《计算机应用与软件》
北大核心
2018年第8期289-294,302,共7页
肝部CT检查是诊断慢性肝病的必要措施。通常,CT报告由影像所见描述和根据所见给出的诊断建议结果两部分组成。研究肝CT报告影像所见描述文本的相似度,辅助医生在给出新的CT诊断建议结果时参考历史上相似度最高的相应CT报告诊断结论。在...
肝部CT检查是诊断慢性肝病的必要措施。通常,CT报告由影像所见描述和根据所见给出的诊断建议结果两部分组成。研究肝CT报告影像所见描述文本的相似度,辅助医生在给出新的CT诊断建议结果时参考历史上相似度最高的相应CT报告诊断结论。在研究慢性肝病医学词库基础上,运用网络爬虫技术获取相关网站医学词汇及自定义的否定词汇表,构建了包含约6 000个医学词汇的慢性肝病CT报告分词词库。运用基于词库与最大匹配规则相结合的分词算法,对肝CT报告文本进行分词处理。利用Doc2Vec深度学习算法获取CT报告文本分词表的句向量。通过计算句向量之间的余弦值得出CT报告文本相似度,选择历史CT报告文本中相似度大于阈值的报告用于医生进行参考。整理分析了6 900份真实的影像科检查报告,基于自定义词库及改进的分词算法,分词准确率达到87%。通过与基于TF-IDF的统计算法和基于隐含狄利克雷主题模型(LDA)算法进行对比分析,采用的算法获得的相似文本的平均准确率更高。
展开更多
关键词
慢性肝病
CT报告
深度学习
分词算法
相似度计算
下载PDF
职称材料
数据库受限汉语自然语言查询的分词研究与实现
被引量:
1
13
作者
胡婕
李跃新
《湖北大学学报(自然科学版)》
CAS
北大核心
2005年第4期331-335,共5页
对数据库受限汉语自然语言查询语句进行分词处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想是体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属...
对数据库受限汉语自然语言查询语句进行分词处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想是体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用.
展开更多
关键词
受限汉语自然语占
分词算法
最大匹配法
长词优先
术登录词
下载PDF
职称材料
浅谈汉语自动分词的几种方法
14
作者
王希杰
赵晓凡
《价值工程》
2011年第13期176-177,共2页
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和...
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
展开更多
关键词
汉语自动分词
词库
分词算法
下载PDF
职称材料
面向考古应用的自然语言查询系统的设计实现
15
作者
马晓娜
张建
王琳
《山东建筑大学学报》
2006年第4期354-359,共6页
针对当前研究的热点问题———界面层自然语言理解的应用,设计和研制了一个面向对象的受限汉语自然语言数据库查询系统DMNLQ。该系统针对特定的考古数字博物馆应用,提出了受限汉语的上下文无关文法,把查询语句通过定义的文法进行标注,...
针对当前研究的热点问题———界面层自然语言理解的应用,设计和研制了一个面向对象的受限汉语自然语言数据库查询系统DMNLQ。该系统针对特定的考古数字博物馆应用,提出了受限汉语的上下文无关文法,把查询语句通过定义的文法进行标注,并采用语义树的形式进行表示。系统还提出了一种中间形式语言MML对语义树进行描述,运用关联路径搜索策略解决了查询中比较复杂的表间相互联系的表述问题,从而实现了从MML到SQL语句的转换。
展开更多
关键词
自然语言处理
分词算法
MML
数字博物馆
下载PDF
职称材料
基于非句处理的旅游业语言查询系统的研究与设计
16
作者
马婷婷
《电脑知识与技术》
2014年第12X期8754-8755,共2页
随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句...
随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句中歧义的处理方法——分词算法。
展开更多
关键词
语音识别系统
非句
分词算法
下载PDF
职称材料
垂直搜索引擎中的分词算法研究
17
作者
潘磊宁
方建安
金林骏
《网络安全技术与应用》
2014年第4期15-16,18,共3页
垂直搜索引擎是用户利用网络资源不可或缺的工具,而其中的索引引擎和查询引擎都使用到了分词算法。前者依据分词算法分析文本建立倒排索引表,后者依据分词算法将查询语句切分成关键词。为了提高垂直搜索引擎的检索效率,有必要研究一下...
垂直搜索引擎是用户利用网络资源不可或缺的工具,而其中的索引引擎和查询引擎都使用到了分词算法。前者依据分词算法分析文本建立倒排索引表,后者依据分词算法将查询语句切分成关键词。为了提高垂直搜索引擎的检索效率,有必要研究一下垂直搜索引擎中的分词技术。在本文中,首先介绍了现有的中文分词算法并分析了其缺点,在此基础上构建了一种改进的分词算法。最后,本文通过实验证明了该改进算法的有效性。
展开更多
关键词
垂直搜索引擎
分词算法
检索效率
原文传递
基于云计算的短信内容审计研究
18
作者
刘云玉
原晋鹏
《黔南民族师范学院学报》
2015年第4期88-91,共4页
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务之所以成为人们的一种重要通信和交流方式,是由于其本身的诸多优点例如短小、迅速、简便、价格低廉等,直接影响着每个人的日常生活。短...
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务之所以成为人们的一种重要通信和交流方式,是由于其本身的诸多优点例如短小、迅速、简便、价格低廉等,直接影响着每个人的日常生活。短信的广泛应用也带来了不少问题,比如垃圾短信泛滥成灾,不仅极大的影响了人们的正常生活和通信,而且使许多人的经济受到了损失,因此研究垃圾短信过滤具有重要的意义。
展开更多
关键词
云计算
分词算法
过滤垃圾短信
下载PDF
职称材料
国内中文自动分词技术研究综述
被引量:
104
19
作者
奉国和
郑伟
《图书情报工作》
CSSCI
北大核心
2011年第2期41-45,共5页
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词...
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。
展开更多
关键词
中文分词
分词算法
歧义消除
未登录词
分词系统
原文传递
基于本体的智能语义检索模型设计与研究
被引量:
21
20
作者
马斌
王金虹
+1 位作者
闫娟娟
芦倩
《情报科学》
CSSCI
北大核心
2015年第2期46-49,71,共5页
针对现有的基于关键词检索过程中存在的缺陷,构建一种基于本体的面向语义查询的信息检索模型。该系统在领域本体知识库建立的基础上,将智能语义Web技术与信息检索方法相结合,核心是运用中文分词算法和语义扩展实现用户对专业领域信息的...
针对现有的基于关键词检索过程中存在的缺陷,构建一种基于本体的面向语义查询的信息检索模型。该系统在领域本体知识库建立的基础上,将智能语义Web技术与信息检索方法相结合,核心是运用中文分词算法和语义扩展实现用户对专业领域信息的有效查询,实现了面向领域的智能检索系统。
展开更多
关键词
领域本体
语义检索
中文分词算法
信息抽取
原文传递
题名
汉语自动分词方法
被引量:
32
1
作者
殷建平
机构
国防科技大学计算机学院
出处
《计算机工程与科学》
CSCD
1998年第3期60-66,共7页
文摘
本文给出了为汉语自动分词而提出的机械匹配法、特征词库法、约束矩阵法、语法分析法和理解切分法。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词
汉语自动分词
词库
分词算法
中文信息处理
Keywords
Chinese
language
automatic
word segmentation
,lexicon,
word segmentation
algorithm
.
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向信息检索的自适应中文分词系统
被引量:
48
2
作者
曹勇刚
曹羽中
金茂忠
刘超
机构
北京航空航天大学计算机学院
出处
《软件学报》
EI
CSCD
北大核心
2006年第3期356-363,共8页
基金
国家高技术研究发展计划(863)~~
文摘
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势.
关键词
分词系统
分词算法
信息检索
新词识别
歧义消解
Keywords
word segmentation
system
word segmentation
algorithm
information
retrieval
new
word
recognition
disambiguation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文分词技术研究综述
被引量:
45
3
作者
唐琳
郭崇慧
陈静锋
机构
大连理工大学系统工程研究所
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2020年第2期1-17,共17页
基金
国家自然科学基金项目“电子病历挖掘中的聚类模型与算法研究”(项目编号:71771034)
揭阳市科技计划项目“大数据驱动的中药材产业发展决策支持系统”(项目编号:2017xm041)的研究成果之一.
文摘
【目的】梳理中文分词领域的关键问题、算法和模型,为研究人员提供理论基础和实践指导。【文献范围】使用知网数据库、万方数据知识服务平台和计算机科学文献库DBLP检索中文分词相关文献,共选择109篇代表性文献进行综述。【方法】归纳中文分词的发展历程及关键问题,分类总结中文分词的算法和模型,并详述近期的热点研究问题。【结果】使用多个标注数据集的多准则分词模型是中文分词的研究难点,解决中文分词和自然语言处理其他子任务的多任务联合模型是当前研究的热点。【局限】没有深入对比分析中文分词的无监督学习方法。【结论】虽然现有的中文分词方法能在一定程度上满足诸多应用的需求,但是在大数据环境下多视角、多任务和多准则的联合模型研究仍存在挑战。
关键词
中文分词
分词算法
多准则学习
联合模型
Keywords
Chinese
word segmentation
word segmentation
algorithm
Multi-Criteria
Learning
Joint
Model
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
自然语言检索中的中文分词技术研究进展及应用
被引量:
25
4
作者
何莘
王琬芜
机构
西安石油大学机械工程学院
浙江大学信息科学与工程学院
出处
《情报科学》
CSSCI
北大核心
2008年第5期787-791,共5页
文摘
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。
关键词
中文分词
自动分词
分词算法
Keywords
Chinese
word segmentation
automatic
word segmentation
word segmentation
algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
G354 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于人工智能的主观题自动评分算法实现
被引量:
18
5
作者
李学俊
机构
西南科技大学计算机科学与技术学院
出处
《江南大学学报(自然科学版)》
CAS
2009年第3期292-295,共4页
基金
西南科技大学继续教育研究与发展基金项目(09ZW1002)
文摘
针对网络考试系统中主观题自动评分面临的困难和问题,将人工智能中中文自然语言理解的研究成果(空间向量模型、分词算法等)应用于网络考试中对主观题答案(包括标准答案和考生答案)的"理解"过程中,并在此基础上提出了将基于矢量空间模型的文本矢量特征匹配算法应用于计算机对考生答卷进行自动评判的过程中。实验测试数据表明,所提出的算法具有一定应用前景。
关键词
自动评分
中文分词算法
矢量空间模型
文本匹配
Keywords
auto-marking,
word segmentation
algorithm
,
vector
space
model,
text
matched
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
支持智能中文分词的互联网搜索引擎的构建
被引量:
8
6
作者
曹羽中
曹勇刚
金茂忠
刘超
机构
北京航空航天大学计算机学院
出处
《计算机工程与设计》
CSCD
北大核心
2006年第23期4395-4398,4407,共5页
基金
国家863高技术研究发展计划基金项目(2004AA119030)
文摘
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。
关键词
中文分词
分词算法
搜索引擎
词法分析器
检索精度
Keywords
Chinese
word segmentation
word segmentation
algorithm
search
engine
lexical
analyzer
precision
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于隐马尔可夫模型的中文分词
被引量:
8
7
作者
吴帅
潘海珍
机构
上饶师范学院数学与计算机科学学院
出处
《现代计算机》
2018年第22期25-28,共4页
文摘
中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响。目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系。论述模型实现中文分词的基本原理,并给出模型的Python实现。
关键词
隐马尔可夫模型
中文分词
分词算法
PYTHON
Keywords
Hidden
Markov
Model
Chinese
word segmentation
word segmentation
algorithm
Python
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于最大熵算法的全文检索研究
被引量:
6
8
作者
张立岩
吕玲
王井阳
机构
河北科技大学信息科学与工程学院
出处
《河北科技大学学报》
CAS
北大核心
2009年第2期112-115,共4页
基金
河北省科技厅科技攻关项目(07213574)
文摘
全文检索是一种有效的信息检索技术,改进最大熵模型的应用研究在自然语言处理领域中受到关注。笔者利用语料库中词性标注和词频标注的上下文信息,建立基于互信息的最大熵方法的检索系统,研究的重点在于提出一种中文分词算法,并从实际问题出发,采用面向对象和模型驱动的设计方法,将该算法应用于实际的全文检索系统的设计中。
关键词
全文检索
最大熵模型
分词
Keywords
Chinese
full
text
information
retrivial
maximum
entropy
principle
word segmentation
algorithm
分类号
TP301.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
中文分词算法概述
被引量:
3
9
作者
甘秋云
机构
福州海峡职业技术学院
福建工程学院国脉信息院
出处
《唐山师范学院学报》
2013年第5期55-57,共3页
文摘
由于中文语言的复杂性,给中文分词系统带来了较大的困难,不论哪种分词系统都不能百分百的解决分词问题。针对目前中文分词存在的困难与问题,主要探讨了几种常见的中文分词算法及各自的优缺点。
关键词
中文分词
分词算法
分词方法
Keywords
Chinese
word segmentation
word segmentation
algorithm
word segmentation
method
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
巧用黑盒法逆推百度中文分词算法
被引量:
2
10
作者
盛启东
谭守标
徐超
冯二媛
陈军宁
机构
安徽大学电子科学与技术学院
出处
《计算机技术与发展》
2010年第4期136-139,共4页
文摘
为了更好地利用中文搜索引擎系统,需要了解搜索引擎的一些关键性技术。笔者选择了国内知名度最高的搜索引擎系统百度作为研究对象。介绍了几种常用的中文分词算法以及中文分词在搜索引擎中的作用,并在此基础上采用黑盒的方法推导出百度的中文分词算法——正向最大匹配分词算法。该算法是最常见的一种中文分词算法,比较符合人的思维习惯。了解了搜索引擎的分词算法有益于搜索词设置的优化以及搜索引擎系统的研究和改进。
关键词
中文分词
分词算法
搜索引擎
百度
Keywords
Chinese
word segmentation
word segmentation
algorithm
search
engine
Baidu
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于社工信息的口令生成与安全性分析
被引量:
2
11
作者
高强
李啸
胡勇
吴少华
机构
国家计算机网络与信息安全管理中心
四川大学电子信息学院
出处
《通信技术》
2017年第7期1511-1516,共6页
文摘
文本口令是现今网络信息系统用户身份认证的关键凭据。为评估用户口令的安全性,运用分词算法将获取的口令样本中的每条口令拆分成可理解的口令因子组合,通过分析口令样本中各口令的口令因子组成规律,利用关联规则挖掘用户口令的设置规则。根据设置规则,结合社会工程学收集的信息,利用k-gram算法生成口令字典。通过实验验证,借助社工信息生成的口令字典,在特定应用场景中针对性强,具有更好的破解效果,为检测口令安全性提供了一种新的手段。
关键词
口令安全性
社会工程
口令因子
分词算法
k-gram
口令破解
Keywords
pass
word
security
social
engineering
pass
word
factor
word segmentation
algorithm
k-gram
pass
word
crack
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于深度学习的慢性肝病CT报告相似度分析
被引量:
2
12
作者
常炳国
刘清星
机构
湖南大学信息科学与工程学院
出处
《计算机应用与软件》
北大核心
2018年第8期289-294,302,共7页
基金
湖南省重点研发计划项目(2016GK2050)
文摘
肝部CT检查是诊断慢性肝病的必要措施。通常,CT报告由影像所见描述和根据所见给出的诊断建议结果两部分组成。研究肝CT报告影像所见描述文本的相似度,辅助医生在给出新的CT诊断建议结果时参考历史上相似度最高的相应CT报告诊断结论。在研究慢性肝病医学词库基础上,运用网络爬虫技术获取相关网站医学词汇及自定义的否定词汇表,构建了包含约6 000个医学词汇的慢性肝病CT报告分词词库。运用基于词库与最大匹配规则相结合的分词算法,对肝CT报告文本进行分词处理。利用Doc2Vec深度学习算法获取CT报告文本分词表的句向量。通过计算句向量之间的余弦值得出CT报告文本相似度,选择历史CT报告文本中相似度大于阈值的报告用于医生进行参考。整理分析了6 900份真实的影像科检查报告,基于自定义词库及改进的分词算法,分词准确率达到87%。通过与基于TF-IDF的统计算法和基于隐含狄利克雷主题模型(LDA)算法进行对比分析,采用的算法获得的相似文本的平均准确率更高。
关键词
慢性肝病
CT报告
深度学习
分词算法
相似度计算
Keywords
Chronic
liver
disease
CT
report
Deep
learning
word segmentation
algorithm
Similarity
calculation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
数据库受限汉语自然语言查询的分词研究与实现
被引量:
1
13
作者
胡婕
李跃新
机构
湖北大学数学与计算机科学学院
出处
《湖北大学学报(自然科学版)》
CAS
北大核心
2005年第4期331-335,共5页
文摘
对数据库受限汉语自然语言查询语句进行分词处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想是体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用.
关键词
受限汉语自然语占
分词算法
最大匹配法
长词优先
术登录词
Keywords
natural
language
based
on
restricted
Chinese
word segmentation
algorithm
maximum
mate
hing
(
MM
)
segmentation
algorithm
priority
of
long
word
unlisted
word
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
浅谈汉语自动分词的几种方法
14
作者
王希杰
赵晓凡
机构
安阳师范学院
出处
《价值工程》
2011年第13期176-177,共2页
文摘
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的方法如机械匹配法、特征词库法等进行了分析。在此基础上指出:要使汉语自动分词问题得到圆满的解决,就必须深入研究汉语的词法、语法、语义甚至语用和篇章理解及其形式化理论。
关键词
汉语自动分词
词库
分词算法
Keywords
Chinese
language
automatic
word segmentation
lexicon
word segmentation
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向考古应用的自然语言查询系统的设计实现
15
作者
马晓娜
张建
王琳
机构
山东建筑大学计算机科学与技术学院
出处
《山东建筑大学学报》
2006年第4期354-359,共6页
文摘
针对当前研究的热点问题———界面层自然语言理解的应用,设计和研制了一个面向对象的受限汉语自然语言数据库查询系统DMNLQ。该系统针对特定的考古数字博物馆应用,提出了受限汉语的上下文无关文法,把查询语句通过定义的文法进行标注,并采用语义树的形式进行表示。系统还提出了一种中间形式语言MML对语义树进行描述,运用关联路径搜索策略解决了查询中比较复杂的表间相互联系的表述问题,从而实现了从MML到SQL语句的转换。
关键词
自然语言处理
分词算法
MML
数字博物馆
Keywords
natural
language
processing
word segmentation
algorithm
MML
digital
museum
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于非句处理的旅游业语言查询系统的研究与设计
16
作者
马婷婷
机构
合肥学院
出处
《电脑知识与技术》
2014年第12X期8754-8755,共2页
基金
合肥学院重点建设学科(2014xk08)
合肥学院学科带头人培养对象(2014dtr08)
文摘
随着旅游行业的迅猛发展,从早期的纸质资料查询逐步向语言电子查询系统发展。针对目前常用的语音查询系统中经常存在不准确性——非句——给人们在使用时造成的不便,文章主要介绍了语音识别系统的原理、语音识别后处理系统以及针对非句中歧义的处理方法——分词算法。
关键词
语音识别系统
非句
分词算法
Keywords
speech
recognition
system
incorrect
and
ambiguous
sentences
word segmentation
algorithm
分类号
TN912.34 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
垂直搜索引擎中的分词算法研究
17
作者
潘磊宁
方建安
金林骏
机构
上海市东华大学信息科学与技术学院
出处
《网络安全技术与应用》
2014年第4期15-16,18,共3页
文摘
垂直搜索引擎是用户利用网络资源不可或缺的工具,而其中的索引引擎和查询引擎都使用到了分词算法。前者依据分词算法分析文本建立倒排索引表,后者依据分词算法将查询语句切分成关键词。为了提高垂直搜索引擎的检索效率,有必要研究一下垂直搜索引擎中的分词技术。在本文中,首先介绍了现有的中文分词算法并分析了其缺点,在此基础上构建了一种改进的分词算法。最后,本文通过实验证明了该改进算法的有效性。
关键词
垂直搜索引擎
分词算法
检索效率
Keywords
vertical
search
engine
word segmentation
algorithm
retrieval
efficiency
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于云计算的短信内容审计研究
18
作者
刘云玉
原晋鹏
机构
黔南民族师范学院计算机科学系
出处
《黔南民族师范学院学报》
2015年第4期88-91,共4页
文摘
随着移动通信技术的飞速发展和手机普及率的迅速提高,手机短信越来越受到众多人士的青睐。短信业务之所以成为人们的一种重要通信和交流方式,是由于其本身的诸多优点例如短小、迅速、简便、价格低廉等,直接影响着每个人的日常生活。短信的广泛应用也带来了不少问题,比如垃圾短信泛滥成灾,不仅极大的影响了人们的正常生活和通信,而且使许多人的经济受到了损失,因此研究垃圾短信过滤具有重要的意义。
关键词
云计算
分词算法
过滤垃圾短信
Keywords
cloud
computing
word segmentation
algorithm
filtering
spam
messages
分类号
TN929.5 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
国内中文自动分词技术研究综述
被引量:
104
19
作者
奉国和
郑伟
机构
华南师范大学经济管理学院
河北北方学院理学院
出处
《图书情报工作》
CSSCI
北大核心
2011年第2期41-45,共5页
基金
国家社会科学基金项目"自动文本分类技术研究"(项目编号:08CTQ003)研究成果之一
文摘
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。
关键词
中文分词
分词算法
歧义消除
未登录词
分词系统
Keywords
chinese
word segmentation
word segmentation
algorithm
disambiguation
method
unknown
word
recognition
word segmentation
system
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于本体的智能语义检索模型设计与研究
被引量:
21
20
作者
马斌
王金虹
闫娟娟
芦倩
机构
山西中医学院医药管理学院
太原理工大学政法学院
出处
《情报科学》
CSSCI
北大核心
2015年第2期46-49,71,共5页
基金
山西省高等学校科技开发项目(20101105)
文摘
针对现有的基于关键词检索过程中存在的缺陷,构建一种基于本体的面向语义查询的信息检索模型。该系统在领域本体知识库建立的基础上,将智能语义Web技术与信息检索方法相结合,核心是运用中文分词算法和语义扩展实现用户对专业领域信息的有效查询,实现了面向领域的智能检索系统。
关键词
领域本体
语义检索
中文分词算法
信息抽取
Keywords
domain
ontology
semantic
retrieval
Chinese
word segmentation
algorithm
information
extraction
分类号
G254.9 [文化科学—图书馆学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
汉语自动分词方法
殷建平
《计算机工程与科学》
CSCD
1998
32
下载PDF
职称材料
2
面向信息检索的自适应中文分词系统
曹勇刚
曹羽中
金茂忠
刘超
《软件学报》
EI
CSCD
北大核心
2006
48
下载PDF
职称材料
3
中文分词技术研究综述
唐琳
郭崇慧
陈静锋
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2020
45
原文传递
4
自然语言检索中的中文分词技术研究进展及应用
何莘
王琬芜
《情报科学》
CSSCI
北大核心
2008
25
下载PDF
职称材料
5
基于人工智能的主观题自动评分算法实现
李学俊
《江南大学学报(自然科学版)》
CAS
2009
18
下载PDF
职称材料
6
支持智能中文分词的互联网搜索引擎的构建
曹羽中
曹勇刚
金茂忠
刘超
《计算机工程与设计》
CSCD
北大核心
2006
8
下载PDF
职称材料
7
基于隐马尔可夫模型的中文分词
吴帅
潘海珍
《现代计算机》
2018
8
下载PDF
职称材料
8
基于最大熵算法的全文检索研究
张立岩
吕玲
王井阳
《河北科技大学学报》
CAS
北大核心
2009
6
下载PDF
职称材料
9
中文分词算法概述
甘秋云
《唐山师范学院学报》
2013
3
下载PDF
职称材料
10
巧用黑盒法逆推百度中文分词算法
盛启东
谭守标
徐超
冯二媛
陈军宁
《计算机技术与发展》
2010
2
下载PDF
职称材料
11
基于社工信息的口令生成与安全性分析
高强
李啸
胡勇
吴少华
《通信技术》
2017
2
下载PDF
职称材料
12
基于深度学习的慢性肝病CT报告相似度分析
常炳国
刘清星
《计算机应用与软件》
北大核心
2018
2
下载PDF
职称材料
13
数据库受限汉语自然语言查询的分词研究与实现
胡婕
李跃新
《湖北大学学报(自然科学版)》
CAS
北大核心
2005
1
下载PDF
职称材料
14
浅谈汉语自动分词的几种方法
王希杰
赵晓凡
《价值工程》
2011
0
下载PDF
职称材料
15
面向考古应用的自然语言查询系统的设计实现
马晓娜
张建
王琳
《山东建筑大学学报》
2006
0
下载PDF
职称材料
16
基于非句处理的旅游业语言查询系统的研究与设计
马婷婷
《电脑知识与技术》
2014
0
下载PDF
职称材料
17
垂直搜索引擎中的分词算法研究
潘磊宁
方建安
金林骏
《网络安全技术与应用》
2014
0
原文传递
18
基于云计算的短信内容审计研究
刘云玉
原晋鹏
《黔南民族师范学院学报》
2015
0
下载PDF
职称材料
19
国内中文自动分词技术研究综述
奉国和
郑伟
《图书情报工作》
CSSCI
北大核心
2011
104
原文传递
20
基于本体的智能语义检索模型设计与研究
马斌
王金虹
闫娟娟
芦倩
《情报科学》
CSSCI
北大核心
2015
21
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部