期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
串频统计和词形匹配相结合的汉语自动分词系统 被引量:65
1
作者 刘挺 吴岩 王开铸 《中文信息学报》 CSCD 北大核心 1998年第1期17-25,共9页
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部... 本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词。 展开更多
关键词 中文信息处理 自动分词 汉语 串频统计 词形匹配
下载PDF
面向信息检索的自适应中文分词系统 被引量:48
2
作者 曹勇刚 曹羽中 +1 位作者 金茂忠 刘超 《软件学报》 EI CSCD 北大核心 2006年第3期356-363,共8页
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和... 新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此算法,设计和实现了一个全新的分词系统BUAASEISEG.它能够识别任意领域的各类新词,也能进行歧义消解和切分任意合理长度的词.它采用迭代式二元切分方法,对目标文档进行在线词频统计,使用离线词频词典或搜索引擎的倒排索引,筛选候选词并进行歧义消解.在统计模型的基础上,采用姓氏列表、量词表以及停词列表进行后处理,进一步提高了准确度.通过与著名的ICTCLAS分词系统针对新闻和论文进行对比评测,表明BUAASEISEG在新词识别和歧义消解方面有明显的优势. 展开更多
关键词 分词系统 分词算法 信息检索 新词识别 歧义消解
下载PDF
汉语分词技术综述 被引量:26
3
作者 龚汉明 周长胜 《北京机械工业学院学报》 2004年第3期52-55,61,共5页
分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,... 分词是中文信息处理的基础,在汉语文本分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文本进行分词处理。从分词的基本理论出发,对近年来的汉语分词的研究方法与成果进行了综合论述,分析了现有分词方法的特点,提出了把神经网络和专家系统结合起来建立集成式汉语自动分词系统的构想。 展开更多
关键词 汉语分词 中文文本 分词方法 汉语自动分词系统 汉语文本 自然语言理解 技术综述 文献标引 智能检索 成果
下载PDF
一种基于概率模型的分词系统 被引量:16
4
作者 李家福 张亚非 《系统仿真学报》 CAS CSCD 2002年第5期544-546,550,共4页
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectatio... 汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一种根据词的出现概率、基于极大似然原则构建的汉语自动分词的零阶马尔可夫模型,并重点剖析了EM(Expectation- Maximization)算法,最后给出了一个基于本模型的汉语文本处理仿真系统。 展开更多
关键词 概率模型 分词系统 EM算法 语料库 系统仿真 汉语自动分词 中文信息处理
下载PDF
基于K近邻分类算法的涉恐信息过滤模型研究 被引量:13
5
作者 唐华 杨解君 +1 位作者 王俊 黄炜 《情报杂志》 CSSCI 北大核心 2018年第3期64-70,共7页
[目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并... [目的/意义]针对现有的涉恐信息过滤在语义过滤和主题无关性方面还存在一定的不足,建立了基于K近邻分类算法的涉恐信息过滤模型。[方法/过程]通过采用K近邻分类算法、TF-IDF分词系统和语义相似度计算建立了一种新的涉恐信息过滤模型,并从爬取主题的一次过滤到关键词匹配的二次过滤,最终进行语义分析的三次过滤,构建了一套完整的涉恐信息过滤体系。[结果/结论]本模型能够快速高效地获取涉恐信息,克服了语义和主题无关性等因素的干扰,较于传统的涉恐信息过滤在查全率和查准率上面有了很大的提升。 展开更多
关键词 涉恐信息 信息过滤 K近邻算法 分词系统 语义相似度
下载PDF
中文分词技术综述 被引量:10
6
作者 冯俐 《现代计算机》 2018年第23期17-20,共4页
通过对CNKI检索得到的关于中文分词的文献进行统计和分析,发现逐年度研究发文情况,研究的项目支持情况,发文机构分布和研究主题等统计结果,综述关于中文分词的算法、歧义词、未登录词和分词系统的相关研究内容,总结统计文献表现出的研... 通过对CNKI检索得到的关于中文分词的文献进行统计和分析,发现逐年度研究发文情况,研究的项目支持情况,发文机构分布和研究主题等统计结果,综述关于中文分词的算法、歧义词、未登录词和分词系统的相关研究内容,总结统计文献表现出的研究发展趋势。 展开更多
关键词 中文分词 歧义词 未登录词 分词系统
下载PDF
基于大数据分析挖掘的地质文献推荐方法研究 被引量:10
7
作者 张戈一 胡博然 +2 位作者 常力恒 朱月琴 吕鹏飞 《中国矿业》 北大核心 2017年第9期92-97,共6页
地质图书馆书籍多,数据资料庞大,然而却存在数据资料增长过快和难以发现读者兴趣点的问题。实现高效的图书馆借阅数据挖掘分析与推荐,是提高效率的重要手段。为此本文提出了基于大数据地质文献分析挖掘平台,包括聚类分析,中文分词,推荐... 地质图书馆书籍多,数据资料庞大,然而却存在数据资料增长过快和难以发现读者兴趣点的问题。实现高效的图书馆借阅数据挖掘分析与推荐,是提高效率的重要手段。为此本文提出了基于大数据地质文献分析挖掘平台,包括聚类分析,中文分词,推荐系统,关联分析功能,再通过Hadoop集群多节点进行推荐,从而提高了工作的效率。 展开更多
关键词 大数据技术 分词技术 推荐系统 并行计算
下载PDF
基于正向最大匹配算法的电力两票安全识别 被引量:9
8
作者 徐楠楠 王东风 韩璞 《计算机仿真》 CSCD 北大核心 2014年第1期145-148,355,共5页
为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。但是应用在电力系统工作票和操作票的领域中还很少。在中文分词的理论基础上利用正向最大匹配算法,针对电厂两票安全措施的语句进行自动识别,并分析... 为了让计算机具有处理甚至理解自然语言的能力,人们发明了很多自然语言语义分析理论。但是应用在电力系统工作票和操作票的领域中还很少。在中文分词的理论基础上利用正向最大匹配算法,针对电厂两票安全措施的语句进行自动识别,并分析了两票安全措施语句的语意。结果表明基于两票填写内容=动作词+设备名称词+状态词这种表示结构下,计算机能够很好的识别和理解电厂两票安全措施。这样计算机系统就能够对电力两票知识进一步的计算和推理,从而为深度人工智能开票提供了广泛的应用前景。 展开更多
关键词 自然语言理解 中文分词 正向最大匹配 电力两票系统
下载PDF
自动分词算法在智能答疑系统中的应用研究 被引量:4
9
作者 郑耿忠 《计算机工程与设计》 CSCD 北大核心 2007年第9期2224-2226,2235,共4页
汉语自动分词是远程教育智能答疑系统的基础,如何根据远程教育智能答疑系统的特点进行相关分词算法的设计是提高答疑系统智能性,促进智能答疑系统发展的关键所在。针对现有答疑系统智能性不好的问题,在介绍几种常见分词算法的基础上,提... 汉语自动分词是远程教育智能答疑系统的基础,如何根据远程教育智能答疑系统的特点进行相关分词算法的设计是提高答疑系统智能性,促进智能答疑系统发展的关键所在。针对现有答疑系统智能性不好的问题,在介绍几种常见分词算法的基础上,提出了一种改进型的自动分词算法,对该算法及其在智能答疑系统中的应用进行了分析,有利于提高智能答疑系统答疑的准确性和智能性,具有一定的实用价值。 展开更多
关键词 中文自动分词 智能答疑系统 全切分 交集型歧义 远程教育
下载PDF
基于中文题名的计算机辅助标引 被引量:2
10
作者 陈雷霆 张宁 《计算机应用》 CSCD 1999年第6期9-11,共3页
本文阐述了基于中文文献题名的计算机辅助标引系统的组成结构,并讨论了其中的一些关键技术问题。文章从系统结构设计方面,对该系统的建表模块、目录模块、分词标引模块、校对模块、选号打印模块和系统管理模块进行了讨论,并着重讨论... 本文阐述了基于中文文献题名的计算机辅助标引系统的组成结构,并讨论了其中的一些关键技术问题。文章从系统结构设计方面,对该系统的建表模块、目录模块、分词标引模块、校对模块、选号打印模块和系统管理模块进行了讨论,并着重讨论了分词标引技术。 展开更多
关键词 计算机辅助标引 分词技术 数据库 中文题名
下载PDF
基于关键词标注的教学论坛内容组织方法研究 被引量:5
11
作者 马秀麟 金海燕 《现代教育技术》 CSSCI 2009年第12期87-90,共4页
随着网络交互平台在教学活动中的普及,论坛、Blog等成为教学活动中实现知识分享的重要手段。然而,论坛和Blog中帖子的无序性、同类帖子之间缺乏联系等问题日益凸显,成为知识进一步共享的桎梏。因此,以分词和文本聚类的相关理论为指导,... 随着网络交互平台在教学活动中的普及,论坛、Blog等成为教学活动中实现知识分享的重要手段。然而,论坛和Blog中帖子的无序性、同类帖子之间缺乏联系等问题日益凸显,成为知识进一步共享的桎梏。因此,以分词和文本聚类的相关理论为指导,研究论坛帖子内容的内在联系,探索在教学平台上对帖子进行分词并通过关键词实现标注,进而把论坛中的所有帖子归纳到知识体系中,对于提高教学平台的服务质量,实现大范围的知识分享和建构具有重要意义。 展开更多
关键词 中文分词 知识体系 关键词标注
下载PDF
垂直搜索引擎系统的设计与实现 被引量:5
12
作者 张敏 杜华 《情报科学》 CSSCI 北大核心 2011年第3期421-424,439,共5页
面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分... 面对日益专业和个性化的信息检索需求,通用搜索引擎存在的问题暴露无遗。垂直搜索技术作为搜索引擎发展的一个主要方向,正在受到越来越多的关注。在给出一个垂直搜索引擎总体结构的基础上,详细分析了所涉及的关键技术:网页抓取、中文分词、文本分类等。并将分词和分类算法加入到Nutch中,实现了系统原型。实验证明,该系统主题相关度达到94%以上。 展开更多
关键词 垂直搜索引擎 中文分词 文本分类 主题相关度 NUTCH
原文传递
使用贝叶斯分类的高考学业规划智能问答系统 被引量:4
13
作者 孙弋 李直 《计算机系统应用》 2021年第4期93-98,共6页
考生在填报高考志愿时,针对复杂繁多的各类高校信息数据,传统的搜索引擎无法根据考生需要的实际信息和搜索结果进行匹配,考生还需要额外消耗一定精力去筛选数据,这无疑增加了考生的时间成本.为此本文提出了基于高考领域知识图谱,使用中... 考生在填报高考志愿时,针对复杂繁多的各类高校信息数据,传统的搜索引擎无法根据考生需要的实际信息和搜索结果进行匹配,考生还需要额外消耗一定精力去筛选数据,这无疑增加了考生的时间成本.为此本文提出了基于高考领域知识图谱,使用中文分词模型和朴素贝叶斯分类算法,设计并开发了针对高考学业规划的智能问答系统.与传统的搜索引擎不同的是,基于人工智能的问答系统能够对考生所关注的问题和搜索结果进行精确匹配,减少考生重复搜索和筛选数据的次数.测试结果表明,本系统可以对高考学业规划中所涉及的大多数问题进行相对准确的针对性回答. 展开更多
关键词 高考志愿 知识图谱 中文分词 贝叶斯分类 问答系统
下载PDF
自然语言向SQL代码的转化方法 被引量:4
14
作者 杨鹤标 陈力 《计算机工程》 CAS CSCD 北大核心 2011年第23期72-74,共3页
为解决智能学习系统查询语言的转化问题,提出一种自然语言向SQL代码转化的方法。利用所建立的字典扫描单词和理解语义,采用改进后的单词提取技术扫描自然语言串,以生成语义依赖树,并将其语义关系划分为若干独立的集合块,通过对该集合块... 为解决智能学习系统查询语言的转化问题,提出一种自然语言向SQL代码转化的方法。利用所建立的字典扫描单词和理解语义,采用改进后的单词提取技术扫描自然语言串,以生成语义依赖树,并将其语义关系划分为若干独立的集合块,通过对该集合块遍历生成与自然语言等价的SQL代码。实验结果表明,该转化方法简单有效。 展开更多
关键词 自然语言处理 中文分词 语义依赖树 中文查询数据库 智能学习系统
下载PDF
基于语句相似度计算的智能答疑系统机理研究 被引量:3
15
作者 李春生 卢鹏飞 张可佳 《计算机技术与发展》 2018年第4期91-94,共4页
在使用互联网进行在线学习的过程中,为了解决现有答疑方式答疑实时性差、准确度低、效率低的问题,提出了一种基于语句相似度计算的智能答疑方案。首先分析现有的答疑方式及其不足;其次详细阐述了智能答疑系统的工作流程、总体结构和相... 在使用互联网进行在线学习的过程中,为了解决现有答疑方式答疑实时性差、准确度低、效率低的问题,提出了一种基于语句相似度计算的智能答疑方案。首先分析现有的答疑方式及其不足;其次详细阐述了智能答疑系统的工作流程、总体结构和相关数据库结构,针对原有答疑方式检索效率低的问题加入了常用问题库,并引入基于字符串匹配的分词方法完成对学习者提出的问题的拆分;最后结合基于词信息的语句相似度计算方法对语句相似度进行计算并将结果呈现给学习者,以达到提高答疑系统的准确度、效率以及实时性的目的,满足学习者的需求。实验结果表明,基于语句相似度计算的智能答疑方案相对于原有答疑方案具有较高的准确度与效率。 展开更多
关键词 分词 相似度计算 智能 答疑系统
下载PDF
网络考试系统自动评阅卷的一种处理方案 被引量:3
16
作者 范新龙 董奇 《现代计算机》 2017年第15期36-38,43,共4页
在开发网络考试系统时,经常遇到的问题是对答卷进行自动评阅卷的问题,当标准答案正确时,对于大部分单选、多选及判断类型的题,通常可以比较容易进行处理,但对于标准答案不一致及简答、填空等类型的题进行自动评卷则存在较多的问题。重... 在开发网络考试系统时,经常遇到的问题是对答卷进行自动评阅卷的问题,当标准答案正确时,对于大部分单选、多选及判断类型的题,通常可以比较容易进行处理,但对于标准答案不一致及简答、填空等类型的题进行自动评卷则存在较多的问题。重点讨论这类情况的处理方法并给出具体的实现方法,同时对主观题类的自动评判提出处理的基本思路和方法,可以作为同类研究的参考。 展开更多
关键词 自动阅卷 分词 考试系统
下载PDF
一种基于近邻匹配的中文分词算法Jlppeccz
17
作者 耿新青 陶凤梅 黄宏光 《鞍山师范学院学报》 2010年第4期46-48,共3页
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时... 提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切分成1~4字的词,通过对词库的搜索,对已分的词进行重组,把小词合并成大词,再将处理过的词存储到一个临时的词库里,以备后续的句子查找,并可实现对词库添加词的功能.与经典MM算法和词频统计方法相比,本文算法有较大的改进. 展开更多
关键词 中文分词 近邻匹配 分词系统
下载PDF
基于分词算法的用户个性化推荐系统设计
18
作者 隋在娟 《数字通信世界》 2020年第12期115-116,共2页
针对用户浏览的文本内容进行学习,经过中文分词,数据清洗,关键特征提取阶段对文本内容进行深度理解和挖掘,然后在后台数据库中搜索匹配出最贴合该用户兴趣的文本供用户浏览,实现用户个性化内容推荐。
关键词 分词算法 个性化推荐 推荐系统 用户分类
下载PDF
利用系统整合提高中文分词精度的方法研究
19
作者 刘智文 《现代计算机》 2009年第10期7-10,共4页
实现一个基于条件随机场模型的中文分词工具,同时还提出利用多系统组合来提升中文分词成绩的构想,并用实验数据分析几个系统整合后所具有的分词潜力。实现几个系统的整合并将分词最好的成绩提高0.56个百分点。
关键词 条件随机场 中文分词 多系统整合
下载PDF
国内中文自动分词技术研究综述 被引量:104
20
作者 奉国和 郑伟 《图书情报工作》 CSSCI 北大核心 2011年第2期41-45,共5页
认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词... 认为分词是文本自动分类、信息检索、信息过滤、文献自动标引、摘要自动生成等中文信息处理的基础与关键技术之一,中文本身复杂性及语言规则的不确定性,使中文分词技术成为分词技术中的难点。全面归纳中文分词算法、歧义消除、未登录词识别、自动分词系统等研究,总结出当前中文分词面临的难点与研究热点。 展开更多
关键词 中文分词 分词算法 歧义消除 未登录词 分词系统
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部