期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
19
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
多级索引的藏语分词词典设计
被引量:
6
1
作者
姚徐
郭淑妮
+1 位作者
李永宏
于洪志
《计算机应用》
CSCD
北大核心
2009年第B06期178-180,共3页
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语...
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。
展开更多
关键词
藏语分词
分词词典
藏语整词二分法
多级索引
下载PDF
职称材料
词典与统计相结合的中文分词算法研究
被引量:
7
2
作者
李宏波
《武汉理工大学学报(信息与管理工程版)》
CAS
2010年第6期907-909,913,共4页
基于对算法的时间复杂度和分词精度的综合考虑,提出了一种分词词典和统计分析相结合的解决方案。该算法采用统计和机械分词相结合的策略,合理解决了歧义词和未登录词两大难题,实验证明分词效果比较理想。
关键词
分词词典
统计分析
未登录词
歧义词
下载PDF
职称材料
旅游网络评论情感分析方法研究及系统实现
被引量:
4
3
作者
覃国蓉
叶志成
+1 位作者
庄槟豪
蔡哲聪
《深圳信息职业技术学院学报》
2015年第3期57-62,共6页
本文针对旅游领域,展开网络评论情感分析方法研究并为航空公司、酒店用户实现了一个实用的旅游网络评论监控系统。设计了简捷方便的情感分析方法,基于情感词典对旅游网络评论进行情感分析,针对旅游领域优化分词词典和情感词典,以获得较...
本文针对旅游领域,展开网络评论情感分析方法研究并为航空公司、酒店用户实现了一个实用的旅游网络评论监控系统。设计了简捷方便的情感分析方法,基于情感词典对旅游网络评论进行情感分析,针对旅游领域优化分词词典和情感词典,以获得较高的准确率。通过旅游网络评论监控系统,企业可实时掌握用户对服务的评价,及时处理负面评论,避免造成不可挽回的影响。
展开更多
关键词
旅游网络评论
情感分析
情感词典
分词词典
网络评论监控
下载PDF
职称材料
中文农业专业分词器设计与实现
被引量:
3
4
作者
方逵
罗武
+1 位作者
王玉娟
卜伟琼
《农业工程》
2012年第3期18-20,共3页
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同...
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。
展开更多
关键词
农村信息化
知识库
中文分词器
分词词典
算法评估
下载PDF
职称材料
基于网络爬虫的法律文本纠错词库构建
被引量:
1
5
作者
刘明洁
李珅
梁毅
《软件》
2020年第5期57-60,共4页
为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业...
为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业纠错词库。通过系统试运行验证了本爬虫设计方案的可行性,可以为相关词库的构建提供支持。
展开更多
关键词
网络爬虫
法律文本
分词词库
下载PDF
职称材料
越南语分词词典半监督集成构建算法
6
作者
刘伍颖
王琳
《郑州大学学报(理学版)》
CAS
北大核心
2018年第1期60-65,共6页
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预...
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.
展开更多
关键词
半监督集成构建
分词词典
多音节词
n元音节词
越南语
下载PDF
职称材料
汉语自动分词词典机制的实验研究
被引量:
118
7
作者
孙茂松
左正平
黄昌宁
《中文信息学报》
CSCD
北大核心
2000年第1期1-6,共6页
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二...
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。
展开更多
关键词
中文信息处理
汉语自动分词
分词词典机制
下载PDF
职称材料
一种面向中文信息检索的汉语自动分词方法
被引量:
7
8
作者
孙巍
《现代图书情报技术》
CSSCI
北大核心
2006年第7期33-36,共4页
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词
中文信息检索
汉语自动分词
词典
互联网
正反向最大增字匹配法
下载PDF
职称材料
数据库汉语查询语言的分词研究与实现
被引量:
6
9
作者
徐九韵
仝兆岐
+1 位作者
向逐聪
王新民
《中文信息学报》
CSCD
北大核心
1998年第4期53-59,8,共8页
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步--正向单扫描的分词方法(DSWS),并对该分词方法的时间复杂度进行了分析。
关键词
汉语分词
数据库查询
查询语言
分词
智能检索
下载PDF
职称材料
基于双数组Trie树的中文分词词典算法优化研究
被引量:
8
10
作者
杨文川
刘健
于淼
《计算机工程与科学》
CSCD
北大核心
2013年第9期127-131,共5页
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表...
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表中存放空序列之前的所有空序列个数之和,而后运用iDAT算法进行插入。本算法借鉴了单模式匹配的Sunday算法中的跳跃思想,在适当增加空间开销的基础上,降低了Trie树在动态插入过程中的平均时间复杂度,在实际操作过程中有着良好的性能。
展开更多
关键词
双数组
TRIE树
时间复杂度
分词词典
下载PDF
职称材料
一种基于双哈希二叉树的中文分词词典机制
被引量:
4
11
作者
罗洋
《计算机应用与软件》
CSCD
北大核心
2013年第5期251-253,306,共4页
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说...
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。
展开更多
关键词
中文信息处理
自动分词
词典
哈希
二叉树
索引
下载PDF
职称材料
自动答疑系统中文分词模块的设计与实现
12
作者
马新意
王剑辉
《信息技术与信息化》
2019年第1期19-22,25,共5页
本文对国内外自动答疑系统的研究现状进行了分析,对常用的分词词典机制和分词算法进行了理论研究,深入讨论了分词过程中常出现的歧义问题,提出了基于双字哈希索引的词典机制,并将改进的最大匹配算法与串频统计相结合,提高了中文分词的...
本文对国内外自动答疑系统的研究现状进行了分析,对常用的分词词典机制和分词算法进行了理论研究,深入讨论了分词过程中常出现的歧义问题,提出了基于双字哈希索引的词典机制,并将改进的最大匹配算法与串频统计相结合,提高了中文分词的准确性,对自动答疑系统中的中文分词模块进行了设计与实现,通过实验证明该分词系统具有良好的切分精度和实用性。
展开更多
关键词
中文分词算法
分词词典机制
最大匹配算法
交集型歧义
下载PDF
职称材料
基于字典和统计的分词方法
被引量:
13
13
作者
陈平
刘晓霞
李亚军
《计算机工程与应用》
CSCD
北大核心
2008年第10期144-146,共3页
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。
关键词
基于字典的分词
基于统计的分词
交叉歧义
未登录词
下载PDF
职称材料
基于统计方法的中文姓名识别
被引量:
48
14
作者
刘秉伟
黄萱菁
+1 位作者
郭以昆
吴立德
《中文信息学报》
CSCD
北大核心
2000年第3期16-24,36,共10页
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 ...
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。
展开更多
关键词
自动分词
未登录词
中文姓名识别
统计方法
下载PDF
职称材料
字典与统计相结合的中文分词方法
被引量:
42
15
作者
翟凤文
赫枫龄
左万利
《小型微型计算机系统》
CSCD
北大核心
2006年第9期1766-1771,共6页
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速...
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
展开更多
关键词
中文分词
基于字典的分词
基于统计的分词
交集型分词歧义
下载PDF
职称材料
一种中文分词词典新机制——四字哈希机制
被引量:
16
16
作者
张培颖
李村合
《微型电脑应用》
2006年第10期35-36,55,共3页
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一...
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。
展开更多
关键词
中文信息处理
自动分词
分词词典
四字哈希
下载PDF
职称材料
面向中文专利权利要求书的分词方法研究
被引量:
9
17
作者
张杰
张海超
翟东升
《现代图书情报技术》
CSSCI
北大核心
2014年第9期91-98,共8页
【目的】解决中文专利权利要求书分词问题,满足专利相似研究需求。【方法】总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法。【结果】实验结果表明:分词的准...
【目的】解决中文专利权利要求书分词问题,满足专利相似研究需求。【方法】总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法。【结果】实验结果表明:分词的准确率为90%,召回率为95%,F值为92%。【局限】由于领域词典的庞大,使得大规模分词的效率降低。【结论】该方法能够进一步提高中文专利权利要求书的分词效果和效率。
展开更多
关键词
中文专利权利要求书
中文分词
领域词典
术语抽取
原文传递
对中文自动分词机制的研究和改进
被引量:
2
18
作者
郭屹
《电脑知识与技术》
2008年第3期1240-1245,1255,共7页
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和T...
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。
展开更多
关键词
自然语言处理
中文分词
词典法分词
下载PDF
职称材料
基于自主学习的专业领域文本DBLC分词模型
被引量:
2
19
作者
冯国明
张晓冬
刘素辉
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第5期40-47,共8页
【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进...
【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进行实验与分析。【结果】通过实验得到各模型在实验语料上的分词效果,DBLC模型在各评价指标上均优于其他模型,分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理,没有考虑词典的存储结构问题,模型计算时间复杂度较高。【结论】本文提出的DBLC模型提高了专业领域文本的分词准确度,且该模型分词准确率与词典规模正相关。
展开更多
关键词
中文分词
序列标注
BI-LSTM-CRF
自主学习
基于词典的分词
原文传递
题名
多级索引的藏语分词词典设计
被引量:
6
1
作者
姚徐
郭淑妮
李永宏
于洪志
机构
西北民族大学中国民族信息技术研究院
西北民族大学中国民族语言文字信息技术重点实验室
出处
《计算机应用》
CSCD
北大核心
2009年第B06期178-180,共3页
基金
中国科学院自动化研究所模式识别国家重点实验室开放课题
国家863计划项目(AA2006010101)
文摘
藏语分词词典是藏语自动分词系统的重要基础,词典规模大小和算法设计的优劣直接影响着分词的效率。本项目首先收集了多部藏语字、词典的所有词条及藏语标点符号,形成了约10万词条的大型藏语分词词库;根据藏字不同长度的特点,建立了藏语特有的多级索引分词词典机制,分析设计藏语整词二分法进行藏语分词。实验结果表明该藏语分词词典具有结构简单,分词速度快和查询性能高等优点。
关键词
藏语分词
分词词典
藏语整词二分法
多级索引
Keywords
Tibetan
word segmentation
,
word segmentation
dictionary
,
Tibetan
whole-
word
dichotomy,
multi-level
index
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
词典与统计相结合的中文分词算法研究
被引量:
7
2
作者
李宏波
机构
武汉理工大学计算机科学与技术学院
出处
《武汉理工大学学报(信息与管理工程版)》
CAS
2010年第6期907-909,913,共4页
文摘
基于对算法的时间复杂度和分词精度的综合考虑,提出了一种分词词典和统计分析相结合的解决方案。该算法采用统计和机械分词相结合的策略,合理解决了歧义词和未登录词两大难题,实验证明分词效果比较理想。
关键词
分词词典
统计分析
未登录词
歧义词
Keywords
word segmentation
dictionary
statistical
analysis
unregistered
word
s
ambiguous
word
s
分类号
TK91 [动力工程及工程热物理]
下载PDF
职称材料
题名
旅游网络评论情感分析方法研究及系统实现
被引量:
4
3
作者
覃国蓉
叶志成
庄槟豪
蔡哲聪
机构
深圳信息职业技术学院软件学院
出处
《深圳信息职业技术学院学报》
2015年第3期57-62,共6页
基金
深圳信息学院校级科研培育项目(编号:LG201433)
广东省教育科研"十一五规划项目(编号:2010TJK410)资助
文摘
本文针对旅游领域,展开网络评论情感分析方法研究并为航空公司、酒店用户实现了一个实用的旅游网络评论监控系统。设计了简捷方便的情感分析方法,基于情感词典对旅游网络评论进行情感分析,针对旅游领域优化分词词典和情感词典,以获得较高的准确率。通过旅游网络评论监控系统,企业可实时掌握用户对服务的评价,及时处理负面评论,避免造成不可挽回的影响。
关键词
旅游网络评论
情感分析
情感词典
分词词典
网络评论监控
Keywords
tourism
network
review
sentiment
analysis
sentiment
dictionary
word segmentation
dictionary
tourism
network
review
monitoring
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文农业专业分词器设计与实现
被引量:
3
4
作者
方逵
罗武
王玉娟
卜伟琼
机构
湖南农业大学信息科学技术学院
出处
《农业工程》
2012年第3期18-20,共3页
基金
"十二五"国家科技计划课题 (项目编号:2011BAD21B03)
湖南省科技重大专项 (项目编号:2010FJ1006)
文摘
利用Hash表在查找效率上的优势,提出了基于Hash机制的词典查找、更新、删除和添加等操作算法。该算法根据汉字GB码的特点,将保存首字GB码,提高了存储空间利用率;在词典中建立农业专业词汇和方言词汇一对多的对应关系,在满足系统需求的同时,提高了分词的准确性。
关键词
农村信息化
知识库
中文分词器
分词词典
算法评估
Keywords
Agriculture
information,Knowledge
base,Chinese
word segmentation
,
word segmentation
dictionary
,Algorithm
assessment
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于网络爬虫的法律文本纠错词库构建
被引量:
1
5
作者
刘明洁
李珅
梁毅
机构
北京工业大学信息学部计算机学院
中国司法大数据研究院有限公司
出处
《软件》
2020年第5期57-60,共4页
基金
国家重点研发计划(批准号:2018YFC0831200)。
文摘
为了构建全面而且准确的法律文本纠错词库,本文提出基于网络爬虫的词库构建方法。此方法以常用爬虫为基础,扩展主题选取、网页排序等功能模块以提高爬虫的精准度和查全率。在得到数据后进行数据清洗以筛选有用词汇形成最终可使用的专业纠错词库。通过系统试运行验证了本爬虫设计方案的可行性,可以为相关词库的构建提供支持。
关键词
网络爬虫
法律文本
分词词库
Keywords
Web
crawler
Legal
text
word segmentation
dictionary
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
越南语分词词典半监督集成构建算法
6
作者
刘伍颖
王琳
机构
广东外语外贸大学语言工程与计算实验室
上海外国语大学贤达经济人文学院
出处
《郑州大学学报(理学版)》
CAS
北大核心
2018年第1期60-65,共6页
基金
国家语委重点项目(ZDI135-26)
广东省高校特色创新项目(2015KTSCX035)
广东省哲学社会科学重点实验室招标项目(LEC2017WTKT002)
文摘
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能.
关键词
半监督集成构建
分词词典
多音节词
n元音节词
越南语
Keywords
semi-supervised
ensemble
construction
word
-
segmentation
dictionary
multisyllabic
word
syllable-level
n-gram
word
Vietnamese
language
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
汉语自动分词词典机制的实验研究
被引量:
118
7
作者
孙茂松
左正平
黄昌宁
机构
清华大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2000年第1期1-6,共6页
基金
国家自然科学基金资助!(合同号:69433010)
文摘
分词词典是汉语自动分词系统的一个基本组成部分。其查询速度直接影响到分词系统的处理速度。本文设计并通过实验考察了三种典型的分词词典机制:整词二分、TRIE 索引树及逐字二分,着重比较了它们的时间、空间效率。实验显示:基于逐字二分的分词词典机制简洁、高效,较好地满足了实用型汉语自动分词系统的需要。
关键词
中文信息处理
汉语自动分词
分词词典机制
Keywords
Chinese
information
processing
Chinese
word segmentation
dictionary
mechanism
for
Chinese
word segmentation
分类号
H085.5 [语言文字—语言学]
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种面向中文信息检索的汉语自动分词方法
被引量:
7
8
作者
孙巍
机构
黑龙江大学信息管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2006年第7期33-36,共4页
文摘
阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
关键词
中文信息检索
汉语自动分词
词典
互联网
正反向最大增字匹配法
Keywords
Chinese
information
retrieval
Chinese
automatic
word segmentation
dictionary
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
数据库汉语查询语言的分词研究与实现
被引量:
6
9
作者
徐九韵
仝兆岐
向逐聪
王新民
机构
石油大学(华东)计算机系
出处
《中文信息学报》
CSCD
北大核心
1998年第4期53-59,8,共8页
文摘
在综合考虑数据库查询这一特殊性的基础上,根据查询语句中词汇对数据查询不同贡献程度分级建立分词词典;然后提出了分步--正向单扫描的分词方法(DSWS),并对该分词方法的时间复杂度进行了分析。
关键词
汉语分词
数据库查询
查询语言
分词
智能检索
Keywords
Chinese
segmentation
word segmentation
dictionary
Database
Query
分类号
G354.4 [文化科学—情报学]
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于双数组Trie树的中文分词词典算法优化研究
被引量:
8
10
作者
杨文川
刘健
于淼
机构
北京邮电大学计算机学院
出处
《计算机工程与科学》
CSCD
北大核心
2013年第9期127-131,共5页
基金
北大方正集团有限公司数字出版技术国家重点实验室开放课题资助项目(2012072011)
文摘
基于双数组Trie树的中文分词词典具有较高的查找效率,但其插入时间复杂度较高。为此提出了一种基于双数组Trie树结构的改进算法iDAT,在原始词典初始化时优先处理分支多的节点,并在初始化之后对base数组中的空序列的下标值做Hash,Hash表中存放空序列之前的所有空序列个数之和,而后运用iDAT算法进行插入。本算法借鉴了单模式匹配的Sunday算法中的跳跃思想,在适当增加空间开销的基础上,降低了Trie树在动态插入过程中的平均时间复杂度,在实际操作过程中有着良好的性能。
关键词
双数组
TRIE树
时间复杂度
分词词典
Keywords
double-array
~
Trie-tree
~
time
complexity
~
word segmentation
dictionary
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于双哈希二叉树的中文分词词典机制
被引量:
4
11
作者
罗洋
机构
鞍山师范学院高职院
出处
《计算机应用与软件》
CSCD
北大核心
2013年第5期251-253,306,共4页
文摘
汉语自动分词是汉语信息处理的前提,词典是汉语自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。详细介绍汉语自动分词的三种方法及五种词典机制,提出一种简洁而有效的中文分词词典机制,并通过理论分析和实验对比说明几种词典机制的效率差异来证明所提出分词词典机制的有效性。
关键词
中文信息处理
自动分词
词典
哈希
二叉树
索引
Keywords
Chinese
information
processing
Automatic
word segmentation
dictionary
Hash
Binary
tree
Index
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
自动答疑系统中文分词模块的设计与实现
12
作者
马新意
王剑辉
机构
沈阳师范大学数学与系统科学学院
出处
《信息技术与信息化》
2019年第1期19-22,25,共5页
基金
辽宁省教育科学"十二五"规划2014年度课题(课程批准号:JG14DB379)成果
文摘
本文对国内外自动答疑系统的研究现状进行了分析,对常用的分词词典机制和分词算法进行了理论研究,深入讨论了分词过程中常出现的歧义问题,提出了基于双字哈希索引的词典机制,并将改进的最大匹配算法与串频统计相结合,提高了中文分词的准确性,对自动答疑系统中的中文分词模块进行了设计与实现,通过实验证明该分词系统具有良好的切分精度和实用性。
关键词
中文分词算法
分词词典机制
最大匹配算法
交集型歧义
Keywords
Chinese
word segmentation
algorithm
word segmentation
dictionary
Mechanism
maximum
matching
algorithm
intersection
ambiguity
分类号
G434 [文化科学—教育学]
TP391.1 [文化科学—教育技术学]
下载PDF
职称材料
题名
基于字典和统计的分词方法
被引量:
13
13
作者
陈平
刘晓霞
李亚军
机构
西北大学信息科学与技术学院
出处
《计算机工程与应用》
CSCD
北大核心
2008年第10期144-146,共3页
基金
陕西省自然科学基金(the Natural Science Foundation of Shaanxi Province of China under Grant No.2006F50)
航空科学基金项目(No.06ZC31001)
文摘
提出了一种基于字典与统计相结合的中文分词方法,该方法利用改进的字典结构能够快速切分,在其基础上进一步利用统计的方法处理所产生未登录词,并且能解决大部分交集歧义问题。
关键词
基于字典的分词
基于统计的分词
交叉歧义
未登录词
Keywords
word segmentation
based
on
dictionary
word segmentation
based
on
statistical
method
crossing
ambiguities
unregistered
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计方法的中文姓名识别
被引量:
48
14
作者
刘秉伟
黄萱菁
郭以昆
吴立德
机构
复旦大学计算机科学系
出处
《中文信息学报》
CSCD
北大核心
2000年第3期16-24,36,共10页
基金
上海市教委重点学科基金
国家自然科学基金
日本富士通公司资助
文摘
本文介绍一个中文姓名的自动识别系统 ,该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据 ,以提高系统识别性能。我们从 1 994年人民日报中随机抽取 1 0 0篇文章作为测试样本 ,实验结果表明 ,准确率和召回率可同时达到 90 %以上。
关键词
自动分词
未登录词
中文姓名识别
统计方法
Keywords
Automatic
word segmentation
Out
of
dictionary
word
Chinese
person
names
identification
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
字典与统计相结合的中文分词方法
被引量:
42
15
作者
翟凤文
赫枫龄
左万利
机构
吉林大学软件学院
出处
《小型微型计算机系统》
CSCD
北大核心
2006年第9期1766-1771,共6页
基金
国家自然科学基金项目(60373099)资助.
文摘
提出了一种字典与统计相结合的中文分词方法,该方法首先利用基于字典的分词方法进行第一步处理,然后利用统计的方法处理第一步所产生的歧义问题和未登录词问题.本算法在基于字典的处理过程中,通过改进字典的存储结构,提高了字典匹配的速度;在基于统计的处理过程中,通过统计和规则相结合的方法提高了交集型歧义切分的准确率,并且一定条件下解决了语境中高频未登录词问题,实验结果表明,由本文算法实现的分词系统DS fenc i的分全率达99.52%,准确率达98.52%.
关键词
中文分词
基于字典的分词
基于统计的分词
交集型分词歧义
Keywords
chinese
word segmentation
chinese
word segmentation
based
on
dictionary
chinese
word segmentation
based
on
statistical
method
crossing
ambiguities
in
chinese
word segmentation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种中文分词词典新机制——四字哈希机制
被引量:
16
16
作者
张培颖
李村合
机构
中国石油大学(华东)计算机与通信工程学院
出处
《微型电脑应用》
2006年第10期35-36,55,共3页
文摘
词典是中文自动分词的基础,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典在中文信息处理中的作用和已有的三种典型的词典机制,并在此基础上根据中文词语中双字词语较多,并且三字词、四字成语也较多这一特点提出了一种新的分词词典机制-四字哈希机制,充分发挥了现代计算机内存大空间的优势,提高了分词的速度和效率。
关键词
中文信息处理
自动分词
分词词典
四字哈希
Keywords
Chinese
information
processing
Automatic
word segmentation
segmentation
dictionary
Four-character-hash-indexing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向中文专利权利要求书的分词方法研究
被引量:
9
17
作者
张杰
张海超
翟东升
机构
北京工业大学经济与管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第9期91-98,共8页
基金
北京市自然科学基金项目"中文专利侵权检测与分析理论方法及关键技术研究"(项目编号:9132005)
北京工业大学人文社会科学基金项目"知识产权侵权检测服务方法
模型及相关技术研究"(项目编号:X5011019201201)的研究成果之一
文摘
【目的】解决中文专利权利要求书分词问题,满足专利相似研究需求。【方法】总结中文专利权利要求书分割特征词、分割子串规则和术语抽取规则,构建领域词典,提出一种基于领域词典和规则相组合的分词方法。【结果】实验结果表明:分词的准确率为90%,召回率为95%,F值为92%。【局限】由于领域词典的庞大,使得大规模分词的效率降低。【结论】该方法能够进一步提高中文专利权利要求书的分词效果和效率。
关键词
中文专利权利要求书
中文分词
领域词典
术语抽取
Keywords
Chinese
patent
claim
Chinese
word segmentation
Domain
dictionary
Terms
extraction
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
对中文自动分词机制的研究和改进
被引量:
2
18
作者
郭屹
机构
同济大学软件工程学院
出处
《电脑知识与技术》
2008年第3期1240-1245,1255,共7页
文摘
本文研究了中文分词技术,改进了传统的整词二分分词机制,设计了一种按照词的字数分类组织的新的词典结构,该词典的更新和添加更加方便,并根据此词典结构提出了相应的快速分词算法。通过对比实验表明,与传统的整词二分、逐字二分和TRIE索引树分词方法相比,该分词方法分词速度更快。
关键词
自然语言处理
中文分词
词典法分词
Keywords
natural
language
processing
Chinese
word segmentation
Chinese
word segmentation
based
on
dictionary
分类号
TP391 [自动化与计算机技术—计算机应用技术][自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
基于自主学习的专业领域文本DBLC分词模型
被引量:
2
19
作者
冯国明
张晓冬
刘素辉
机构
北京科技大学经济管理学院
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018年第5期40-47,共8页
文摘
【目的】提高对专业术语、名词占比较高的专业领域文本的分词准确度。【方法】提出将词典、统计、深度学习三者有机结合的DBLC模型,并编程实现。获取中国管理案例库中的部分案例作为专业领域语料,将其他几种已有分词模型作为对比对象进行实验与分析。【结果】通过实验得到各模型在实验语料上的分词效果,DBLC模型在各评价指标上均优于其他模型,分词准确率达到96.3%。【局限】未对原词典词与新词做区别处理,没有考虑词典的存储结构问题,模型计算时间复杂度较高。【结论】本文提出的DBLC模型提高了专业领域文本的分词准确度,且该模型分词准确率与词典规模正相关。
关键词
中文分词
序列标注
BI-LSTM-CRF
自主学习
基于词典的分词
Keywords
Chinese
word segmentation
Sequence
Labeling
BI-LSTM-CRF
Autonomous
Learning
word segmentation
Based
on
dictionary
分类号
G350 [文化科学—情报学]
原文传递
题名
作者
出处
发文年
被引量
操作
1
多级索引的藏语分词词典设计
姚徐
郭淑妮
李永宏
于洪志
《计算机应用》
CSCD
北大核心
2009
6
下载PDF
职称材料
2
词典与统计相结合的中文分词算法研究
李宏波
《武汉理工大学学报(信息与管理工程版)》
CAS
2010
7
下载PDF
职称材料
3
旅游网络评论情感分析方法研究及系统实现
覃国蓉
叶志成
庄槟豪
蔡哲聪
《深圳信息职业技术学院学报》
2015
4
下载PDF
职称材料
4
中文农业专业分词器设计与实现
方逵
罗武
王玉娟
卜伟琼
《农业工程》
2012
3
下载PDF
职称材料
5
基于网络爬虫的法律文本纠错词库构建
刘明洁
李珅
梁毅
《软件》
2020
1
下载PDF
职称材料
6
越南语分词词典半监督集成构建算法
刘伍颖
王琳
《郑州大学学报(理学版)》
CAS
北大核心
2018
0
下载PDF
职称材料
7
汉语自动分词词典机制的实验研究
孙茂松
左正平
黄昌宁
《中文信息学报》
CSCD
北大核心
2000
118
下载PDF
职称材料
8
一种面向中文信息检索的汉语自动分词方法
孙巍
《现代图书情报技术》
CSSCI
北大核心
2006
7
下载PDF
职称材料
9
数据库汉语查询语言的分词研究与实现
徐九韵
仝兆岐
向逐聪
王新民
《中文信息学报》
CSCD
北大核心
1998
6
下载PDF
职称材料
10
基于双数组Trie树的中文分词词典算法优化研究
杨文川
刘健
于淼
《计算机工程与科学》
CSCD
北大核心
2013
8
下载PDF
职称材料
11
一种基于双哈希二叉树的中文分词词典机制
罗洋
《计算机应用与软件》
CSCD
北大核心
2013
4
下载PDF
职称材料
12
自动答疑系统中文分词模块的设计与实现
马新意
王剑辉
《信息技术与信息化》
2019
0
下载PDF
职称材料
13
基于字典和统计的分词方法
陈平
刘晓霞
李亚军
《计算机工程与应用》
CSCD
北大核心
2008
13
下载PDF
职称材料
14
基于统计方法的中文姓名识别
刘秉伟
黄萱菁
郭以昆
吴立德
《中文信息学报》
CSCD
北大核心
2000
48
下载PDF
职称材料
15
字典与统计相结合的中文分词方法
翟凤文
赫枫龄
左万利
《小型微型计算机系统》
CSCD
北大核心
2006
42
下载PDF
职称材料
16
一种中文分词词典新机制——四字哈希机制
张培颖
李村合
《微型电脑应用》
2006
16
下载PDF
职称材料
17
面向中文专利权利要求书的分词方法研究
张杰
张海超
翟东升
《现代图书情报技术》
CSSCI
北大核心
2014
9
原文传递
18
对中文自动分词机制的研究和改进
郭屹
《电脑知识与技术》
2008
2
下载PDF
职称材料
19
基于自主学习的专业领域文本DBLC分词模型
冯国明
张晓冬
刘素辉
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2018
2
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部