期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
多级索引的藏语分词词典设计 被引量:6
1
作者 姚徐 郭淑妮 +1 位作者 李永宏 于洪志 《计算机应用》 CSCD 北大核心 2009年第B06期178-180,共3页
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语... 藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。 展开更多
关键词 藏语分词 分词词典 藏语整词二分法 多级索引
下载PDF
词典与统计相结合的中文分词算法研究 被引量:7
2
作者 李宏波 《武汉理工大学学报(信息与管理工程版)》 CAS 2010年第6期907-909,913,共4页
基于对算法的时间复杂度和分词精度的综合考虑,提出了一种分词词典和统计分析相结合的解决方案。该算法采用统计和机械分词相结合的策略,合理解决了歧义词和未登录词两大难题,实验证明分词效果比较理想。
关键词 分词词典 统计分析 未登录词 歧义词
下载PDF
旅游网络评论情感分析方法研究及系统实现 被引量:4
3
作者 覃国蓉 叶志成 +1 位作者 庄槟豪 蔡哲聪 《深圳信息职业技术学院学报》 2015年第3期57-62,共6页
本文针对旅游领域,展开网络评论情感分析方法研究并为航空公司、酒店用户实现了一个实用的旅游网络评论监控系统。设计了简捷方便的情感分析方法,基于情感词典对旅游网络评论进行情感分析,针对旅游领域优化分词词典和情感词典,以获得较... 本文针对旅游领域,展开网络评论情感分析方法研究并为航空公司、酒店用户实现了一个实用的旅游网络评论监控系统。设计了简捷方便的情感分析方法,基于情感词典对旅游网络评论进行情感分析,针对旅游领域优化分词词典和情感词典,以获得较高的准确率。通过旅游网络评论监控系统,企业可实时掌握用户对服务的评价,及时处理负面评论,避免造成不可挽回的影响。 展开更多
关键词 旅游网络评论 情感分析 情感词典 分词词典 网络评论监控
下载PDF
中文农业专业分词器设计与实现 被引量:3
4
作者 方逵 罗武 +1 位作者 王玉娟 卜伟琼 《农业工程》 2012年第3期18-20,共3页
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同... 利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。 展开更多
关键词 农村信息化 知识库 中文分词器 分词词典 算法评估
下载PDF
基于网络爬虫的法律文本纠错词库构建 被引量:1
5
作者 刘明洁 李珅 梁毅 《软件》 2020年第5期57-60,共4页
为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业... 为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业纠错词库。通过系统试运行验证了本爬虫设计方案的可行性,可以为相关词库的构建提供支持。 展开更多
关键词 网络爬虫 法律文本 分词词库
下载PDF
越南语分词词典半监督集成构建算法
6
作者 刘伍颖 王琳 《郑州大学学报(理学版)》 CAS 北大核心 2018年第1期60-65,共6页
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预... 针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能. 展开更多
关键词 半监督集成构建 分词词典 多音节词 n元音节词 越南语
下载PDF
汉语自动分词词典机制的实验研究 被引量:118
7
作者 孙茂松 左正平 黄昌宁 《中文信息学报》 CSCD 北大核心 2000年第1期1-6,共6页
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二... 分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。 展开更多
关键词 中文信息处理 汉语自动分词 分词词典机制
下载PDF
一种面向中文信息检索的汉语自动分词方法 被引量:7
8
作者 孙巍 《现代图书情报技术》 CSSCI 北大核心 2006年第7期33-36,共4页
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词 中文信息检索 汉语自动分词 词典 互联网 正反向最大增字匹配法
下载PDF
数据库汉语查询语言的分词研究与实现 被引量:6
9
作者 徐九韵 仝兆岐 +1 位作者 向逐聪 王新民 《中文信息学报》 CSCD 北大核心 1998年第4期53-59,8,共8页
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步--正向单扫描的分词方法(DSWS),并对该分词方法的时间复杂度进行了分析。
关键词 汉语分词 数据库查询 查询语言 分词 智能检索
下载PDF
基于双数组Trie树的中文分词词典算法优化研究 被引量:8
10
作者 杨文川 刘健 于淼 《计算机工程与科学》 CSCD 北大核心 2013年第9期127-131,共5页
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表... 基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表中存放空序列之前的所有空序列个数之和,而后运用iDAT算法进行插入。本算法借鉴了单模式匹配的Sunday算法中的跳跃思想,在适当增加空间开销的基础上,降低了Trie树在动态插入过程中的平均时间复杂度,在实际操作过程中有着良好的性能。 展开更多
关键词 双数组 TRIE树 时间复杂度 分词词典
下载PDF
一种基于双哈希二叉树的中文分词词典机制 被引量:4
11
作者 罗洋 《计算机应用与软件》 CSCD 北大核心 2013年第5期251-253,306,共4页
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说... 汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。 展开更多
关键词 中文信息处理 自动分词 词典 哈希 二叉树 索引
下载PDF
自动答疑系统中文分词模块的设计与实现
12
作者 马新意 王剑辉 《信息技术与信息化》 2019年第1期19-22,25,共5页
本文对国内外自动答疑系统的研究现状进行了分析,对常用的分词词典机制和分词算法进行了理论研究,深入讨论了分词过程中常出现的歧义问题,提出了基于双字哈希索引的词典机制,并将改进的最大匹配算法与串频统计相结合,提高了中文分词的... 本文对国内外自动答疑系统的研究现状进行了分析,对常用的分词词典机制和分词算法进行了理论研究,深入讨论了分词过程中常出现的歧义问题,提出了基于双字哈希索引的词典机制,并将改进的最大匹配算法与串频统计相结合,提高了中文分词的准确性,对自动答疑系统中的中文分词模块进行了设计与实现,通过实验证明该分词系统具有良好的切分精度和实用性。 展开更多
关键词 中文分词算法 分词词典机制 最大匹配算法 交集型歧义
下载PDF
基于字典和统计的分词方法 被引量:13
13
作者 陈平 刘晓霞 李亚军 《计算机工程与应用》 CSCD 北大核心 2008年第10期144-146,共3页
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。
关键词 基于字典的分词 基于统计的分词 交叉歧义 未登录词
下载PDF
基于统计方法的中文姓名识别 被引量:48
14
作者 刘秉伟 黄萱菁 +1 位作者 郭以昆 吴立德 《中文信息学报》 CSCD 北大核心 2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ... 本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。 展开更多
关键词 自动分词 未登录词 中文姓名识别 统计方法
下载PDF
字典与统计相结合的中文分词方法 被引量:42
15
作者 翟凤文 赫枫龄 左万利 《小型微型计算机系统》 CSCD 北大核心 2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速... 提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%. 展开更多
关键词 中文分词 基于字典的分词 基于统计的分词 交集型分词歧义
下载PDF
一种中文分词词典新机制——四字哈希机制 被引量:16
16
作者 张培颖 李村合 《微型电脑应用》 2006年第10期35-36,55,共3页
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一... 词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。 展开更多
关键词 中文信息处理 自动分词 分词词典 四字哈希
下载PDF
面向中文专利权利要求书的分词方法研究 被引量:9
17
作者 张杰 张海超 翟东升 《现代图书情报技术》 CSSCI 北大核心 2014年第9期91-98,共8页
【目的】解决中文专利权利要求书分词问题,满足专利相似研究需求。【方法】总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法。【结果】实验结果表明:分词的准... 【目的】解决中文专利权利要求书分词问题,满足专利相似研究需求。【方法】总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法。【结果】实验结果表明:分词的准确率为90%,召回率为95%,F值为92%。【局限】由于领域词典的庞大,使得大规模分词的效率降低。【结论】该方法能够进一步提高中文专利权利要求书的分词效果和效率。 展开更多
关键词 中文专利权利要求书 中文分词 领域词典 术语抽取
原文传递
对中文自动分词机制的研究和改进 被引量:2
18
作者 郭屹 《电脑知识与技术》 2008年第3期1240-1245,1255,共7页
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和T... 本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。 展开更多
关键词 自然语言处理 中文分词 词典法分词
下载PDF
基于自主学习的专业领域文本DBLC分词模型 被引量:2
19
作者 冯国明 张晓冬 刘素辉 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第5期40-47,共8页
【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进... 【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进行实验与分析。【结果】通过实验得到各模型在实验语料上的分词效果,DBLC模型在各评价指标上均优于其他模型,分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理,没有考虑词典的存储结构问题,模型计算时间复杂度较高。【结论】本文提出的DBLC模型提高了专业领域文本的分词准确度,且该模型分词准确率与词典规模正相关。 展开更多
关键词 中文分词 序列标注 BI-LSTM-CRF 自主学习 基于词典的分词
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部