期刊文献+
共找到90篇文章
< 1 2 5 >
每页显示 20 50 100
串频统计和词形匹配相结合的汉语自动分词系统 被引量:65
1
作者 刘挺 吴岩 王开铸 《中文信息学报》 CSCD 北大核心 1998年第1期17-25,共9页
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部... 本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词。 展开更多
关键词 中文信息处理 自动分词 汉语 串频统计 词形匹配
下载PDF
基于统计的中文地名识别 被引量:49
2
作者 黄德根 岳广玲 杨元生 《中文信息学报》 CSCD 北大核心 2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的... 本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。 展开更多
关键词 计算机应用 中文信息处理 中文地名识别 构词可信度 接续可信度 自动分词
下载PDF
一种中文文档的非受限无词典抽词方法 被引量:28
3
作者 金翔宇 孙正兴 张福炎 《中文信息学报》 CSCD 北大核心 2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、... 本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。 展开更多
关键词 中文信息处理 自动分词 非受限无词典抽词 汉字结构模式 中文文档 抽词速度
下载PDF
自然语言检索中的中文分词技术研究进展及应用 被引量:25
4
作者 何莘 王琬芜 《情报科学》 CSSCI 北大核心 2008年第5期787-791,共5页
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中... 中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 展开更多
关键词 中文分词 自动分词 分词算法
下载PDF
中文人名自动识别的一种有效方法 被引量:10
5
作者 李建华 王晓龙 《高技术通讯》 EI CAS CSCD 2000年第2期46-49,共4页
介绍了一种基于大量实验的有效的中文姓名自动识别方法。实验结果表明,该方法在兼顾准确率与召回率的同时获得了较好的识别效果。
关键词 中文姓名 自动识别 自动分词 计算机处理
下载PDF
吕苏语口语标注语料的自动分词方法研究 被引量:32
6
作者 于重重 操镭 +2 位作者 尹蔚彬 张泽宇 郑雅 《计算机应用研究》 CSCD 北大核心 2017年第5期1325-1328,共4页
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立... 濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中;并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。 展开更多
关键词 吕苏语 汉语标注语料 自动分词 改进结巴算法
下载PDF
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例 被引量:27
7
作者 刘畅 王东波 +2 位作者 胡昊天 张逸勤 李斌 《图书馆论坛》 CSSCI 北大核心 2022年第6期44-54,共11页
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两... 数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。 展开更多
关键词 自动分词 数字人文 SikuBERT 预训练技术 词典信息融合
下载PDF
中文字段匹配算法 被引量:9
8
作者 陈挺 郭颖 刘云超 《计算机工程》 CAS CSCD 北大核心 2003年第13期118-119,124,共3页
首先介绍了几个英文字段匹配算法,然后给出了一个字段匹配过程框架,最后重点描述了几个中文字符型字段匹配算法。
关键词 字段匹配 自动分词 同音字匹配 中文字段
下载PDF
先秦文献《孟子》自动分词方法研究 被引量:18
9
作者 梁社会 陈小荷 《南京师范大学文学院学报》 CSSCI 2013年第3期175-182,共8页
自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达... 自动分词是中文信息处理重要的基础课题。文章主要探讨了先秦文献《孟子》基于条件随机场统计模型的自动分词方法和利用相关注疏文献的自动分词方法等自动分词技术。自动分词实验结果表明,这两种分词方法效果显著,词语F值和小句F值均达到了较高的水平。在用不同的方法对《孟子》进行自动分词时,在词语F值的统计指标外,首次尝试引入了小句F值这一统计指标。 展开更多
关键词 先秦文献《孟子》 自动分词 条件随机场 注疏文献
下载PDF
汉语语音合成的研究进展 被引量:7
10
作者 冯哲 孙吉贵 +1 位作者 张长胜 王岩 《吉林大学学报(信息科学版)》 CAS 2007年第2期198-206,共9页
为解决如何让机器像人那样说话的问题,综述了近年来汉语语音合成技术的进步和发展;描述了汉语语音合成系统的设计方法;对基于汉语语音特点的语音合成过程中的一些关键技术和原理进行了详细的分析和比较;阐述了语音合成在多媒体等方面上... 为解决如何让机器像人那样说话的问题,综述了近年来汉语语音合成技术的进步和发展;描述了汉语语音合成系统的设计方法;对基于汉语语音特点的语音合成过程中的一些关键技术和原理进行了详细的分析和比较;阐述了语音合成在多媒体等方面上的应用以及目前评价语音合成系统性能的一些新方法,并对当前语音合成技术的研究热点和语音合成技术存在的问题进行了分析,为语音合成技术的进一步研究提供了借鉴作用。 展开更多
关键词 文语转换 自动分词 PSOLA算法 PSFC算法 韵律特征
下载PDF
新时代人民日报分词语料库构建、性能及应用(一)——语料库构建及测评 被引量:15
11
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2019年第22期5-12,共8页
[目的/意义]构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程]在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、... [目的/意义]构建与新时代相适应的人民日报分词语料库,为中文信息处理提供最新的精标注语料,也为从历时的角度分析现代汉语提供新的语言资源。[方法/过程]在分析已有汉语分词语料库的基础上,描述所构建新时代人民日报语料库的数据源、标注规范和流程,通过构建分词自动标注模型测评语料库的性能,并与已有语料库进行对比。[结果/结论]新时代人民日报语料库遵循现代汉语语料库基本加工规范,规模大,时间跨度长。选取其中的2018年1月部分,基于条件随机场构建分词模型,与1998年1月人民日报语料进行性能测评与对比,所得到的各项具体测评指标表明,新时代人民日报语料整体性能突出,1998年语料无法替代,当前构建该语料库非常必要。 展开更多
关键词 新时代 人民日报 自动分词 条件随机场模型 语料库 NEPD
原文传递
无监督的动态分词方法 被引量:4
12
作者 高军 陈锡先 《北京邮电大学学报》 EI CAS CSCD 北大核心 1997年第4期66-69,共4页
介绍了一种变长汉语语料自动分词方法,这种方法以信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念,对汉语语料进行自动分词.讨论了这些方法的局限性,并列出了一些试验结果.
关键词 信息处理 汉语语料库 自动分词
下载PDF
基于改进的正向最大匹配中文分词算法研究 被引量:11
13
作者 王惠仙 龙华 《贵州大学学报(自然科学版)》 2011年第5期112-115,119,共5页
中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心。正向最大匹配算法FMM(Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初... 中文自动分词技术在中文信息处理、Web文档挖掘等处理文档类研究中是一项关键技术,而分词算法是其中的核心。正向最大匹配算法FMM(Forward Maximum Match)具有切分速度快、简洁、容易实现等优点,但是还存在分词过程中设定的最大词长初始值固定不变的问题,带来匹配次数相对较多的弊端。针对此问题提出了根据中文词典中的词条长度动态确定截取待处理文本长度的思想,改进了FMM算法,并用互信息统计来消除交集型歧义。最后,通过实验对算法进行了分词和验证,结果表明改进的算法与一般正向最大匹配算法相比,中文分词的准确率提高了。 展开更多
关键词 自动分词 中文信息处理 挖掘 最大匹配
下载PDF
中医医案文献自动分词研究 被引量:9
14
作者 张帆 刘晓峰 孙燕 《中国中医药信息杂志》 CAS CSCD 2015年第2期38-41,共4页
目的研究适用于中医医案文献自动分词的方案。方法使用层叠隐马模型作为分词模型,建立相关中医领域词典及测试语料库,对语料库中古代医案文献和现代医案文献各300篇进行分词及评测。结果在未使用中医领域词典时,两类医案文献分词准确率... 目的研究适用于中医医案文献自动分词的方案。方法使用层叠隐马模型作为分词模型,建立相关中医领域词典及测试语料库,对语料库中古代医案文献和现代医案文献各300篇进行分词及评测。结果在未使用中医领域词典时,两类医案文献分词准确率均为75%左右;使用中医领域词典后,古代医案文献的分词准确率达到90.73%,现代医案文献的分词准确率达到95.66%。在未使用中医领域词典时,词性标注准确率古代医案文献为56.74%,现代医案文献为64.81%;使用中医领域词典后,现代医案文献为91.45%,明显高于古代医案文献的78.47%。结论现有分词方案初步解决了中医医案文献的分词问题,对现代医案文献的词性标注也基本正确,但古代医案文献的词性标注影响因素较多,还需进一步研究。 展开更多
关键词 中医医案文献 自动分词 中医领域词典 层叠隐马模型 词性标注
下载PDF
一种改进的基于PATRICIA树的汉语自动分词词典机制 被引量:3
15
作者 马哲 姚敏 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2004年第z1期28-31,41,共5页
分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIAtree的基础上加入Hash机制,从而在明显提高查找速度的同时,... 分词词典机制是影响自动分词的重要因素,而查找速度是衡量一个词典好坏的重要标准.文中分析比较了现有的几种典型的词典机制,并在此基础上提出了一种新的词典机制,即在PATRICIAtree的基础上加入Hash机制,从而在明显提高查找速度的同时,降低了构造和维护词典的复杂度. 展开更多
关键词 PATRICIA树 汉语 自动分词 分词词典机制
下载PDF
MIS智能接口中汉语分词系统的设计与应用 被引量:5
16
作者 谈文蓉 杨宪泽 +1 位作者 谈进 刘莉 《计算机科学》 CSCD 北大核心 2006年第7期204-206,共3页
提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法... 提供汉语检索接口是MIS应用的一大趋势,其主要困难在于如何让计算机理解汉语检索用语,为此本文构建了MIS智能检索接口中的汉语分词系统,并提出了分词策略。对汉语切分中的歧义问题进行了深入的探讨,应用互信息和t-信息差完成了消歧算法的设计。实验表明,该系统具有较高的切分正确率与效率。 展开更多
关键词 MIS 自动分词 切分歧义 交集型歧义 组合型歧义
下载PDF
基于隐马尔科夫模型的彝文分词系统设计与开发 被引量:6
17
作者 陈顺强 马嘿玛伙 《西南民族大学学报(自然科学版)》 CAS 2012年第1期146-149,共4页
彝文自动分词一直是彝文信息处理领域关键技术难题.首先阐述了研究彝文词性自动标注的必要性和重要意义;然后介绍了隐马尔科夫模型;最后根据彝文的特性,设计了基于隐马尔科夫模型的彝文自动分词软件并得出了良好的分词结果.
关键词 自动分词 彝文 隐马尔科夫模型
下载PDF
基于用户查询的中文自动文摘研究 被引量:3
18
作者 蒋效宇 樊孝忠 陈康 《计算机工程与应用》 CSCD 北大核心 2008年第5期48-50,共3页
随着网络信息日益增多,文本摘要变得越来越重要。大多数现有的文摘方法采用的是独立于查询的方法来生成文摘。论文提出了一种将基于查询条件的句子权值计算融入句子重要度计算的文摘技术,实验结果表明该方法生成的文摘能有效提高用户搜... 随着网络信息日益增多,文本摘要变得越来越重要。大多数现有的文摘方法采用的是独立于查询的方法来生成文摘。论文提出了一种将基于查询条件的句子权值计算融入句子重要度计算的文摘技术,实验结果表明该方法生成的文摘能有效提高用户搜索信息的速度并提高准确性。 展开更多
关键词 自动文摘 句子重要度 分词
下载PDF
基于词形的最佳路径分词算法 被引量:4
19
作者 林绮屏 《华南师范大学学报(自然科学版)》 CAS 2002年第4期81-84,共4页
在基于词形统计模型分词算法的基础上,通过对内存词表结构的有效组织及改进词的匹配算法和切分算法,并以最佳路径法实现了一种快速的基于词形的分词算法,在保证了较高准确率的同时,大大提高了分词速度.
关键词 最佳路径分词算法 自动分词 汉语分词 词形统计模型 匹配算法 切分算法 分词速度
下载PDF
领域本体学习语料的自动获取与预处理方法研究 被引量:5
20
作者 王思丽 祝忠明 +1 位作者 刘巍 杨恒 《图书馆学研究》 CSSCI 北大核心 2019年第20期54-64,共11页
实现领域语料的自动获取与预处理,为机器/深度学习驱动的领域本体自动构建提供数据及数据处理技术基础。首先,对所涉及语料的类型、获取方法及应用研究现状进行分析,提出多源异构领域语料的自动获取方法,包括基于Web Spider的网络开放... 实现领域语料的自动获取与预处理,为机器/深度学习驱动的领域本体自动构建提供数据及数据处理技术基础。首先,对所涉及语料的类型、获取方法及应用研究现状进行分析,提出多源异构领域语料的自动获取方法,包括基于Web Spider的网络开放领域语料和基于Web API的科学文献领域语料的自动获取等。其次,分析提出领域基础知识词典的自动构建方法,为语料预处理奠定基础。最后,通过对主流分词方法及开源分词工具进行测试与评估,提出基于增量训练HanLP-SP领域分词模型的多策略混合的自动分词与新词发现方法,并进行实验研究。方法能够有效获取到领域语料,并实现分词等预处理任务。 展开更多
关键词 领域语料 本体学习 自动获取 预处理 分词
原文传递
上一页 1 2 5 下一页 到第
使用帮助 返回顶部