期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
61
篇文章
<
1
2
…
4
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
汉语自动分词专家系统的设计与实现
被引量:
10
1
作者
王彩荣
《微处理机》
2004年第3期56-57,60,共3页
本文介绍了自动分词专家系统的设计思想和系统结构 ,并给出了自动分词专家系统知识库的组织与实现方法 ,以及推理机制的建立和自动分词过程。
关键词
自动分词
切分
歧义字段
专家系统
下载PDF
职称材料
句型转换的机器翻译理论模型与一些处理方法
被引量:
8
2
作者
杨宪泽
雷开彬
《科技通报》
2007年第2期253-257,共5页
自动分词和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有:第一,讨论了机器翻译的理论模型;第二,给出了一个自动分词算法,提出了一个初步消歧方法;第三,建立汉英机器翻译的时态转换及相关匹配规则。
关键词
混合式机器翻译
理论模型
自动分词
消歧
译文生成
下载PDF
职称材料
智能人机交互中自动分词技术的实现
被引量:
3
3
作者
赵志靖
周静
+1 位作者
冯锐
齐丙辰
《扬州大学学报(自然科学版)》
CAS
CSCD
2005年第3期58-61,共4页
根据实际工作,开发了一个自动分词系统,对汉语自动分词技术在智能人机交互中的实现进行探讨.基于系统的情况,分词算法采用了最大匹配法,在词库检索中提出了化查询为直接存取的方法,提高了检索效率,节省了内存,有利于分词速度的提高.
关键词
智能人机交互
自动分词
词库
分词算法
下载PDF
职称材料
基于Agent的文本分类系统
被引量:
2
4
作者
杨为民
李龙澍
《计算机技术与发展》
2007年第2期135-137,142,共4页
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效...
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。
展开更多
关键词
文本自动分类
AGENT
自动分词
下载PDF
职称材料
基于语料库的藏语高频词抽取研究
被引量:
3
5
作者
才让卓玛
才智杰
《计算机工程》
CAS
CSCD
2012年第15期56-58,共3页
在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算...
在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。
展开更多
关键词
信息处理
高频词
藏语抽词
自动分词
语料库
预处理
下载PDF
职称材料
一种新的汉语自动分词算法的研究和应用
被引量:
1
6
作者
徐华中
徐刚
《计算机与数字工程》
2006年第2期135-138,共4页
针对中文信息处理中词与词之间的歧义切分难点,通过分析词语之间的逻辑关系,然后用泛布尔代数将其表达出来,再将此算法用于汉语自动分词系统。实验表明此方法提高了分词的速度和准确性,达到了较好的分词效果。
关键词
逻辑关系
泛布尔代数
自动分词
下载PDF
职称材料
歧义字段的归类及切分算法
被引量:
2
7
作者
王彩荣
王凯丽
黄玉基
《微处理机》
2005年第3期33-35,39,共4页
在汉语自动分词系统中,歧义字段的切分直接影响着分词的精度。本文深入地分析了歧义字段产生的根源,据此给出了歧义字段的详细分类和消除每一类歧义字段的有效方法。并在对歧义字段进行统计分析的基础上提出了切分精度的级别划分。
关键词
自动分词
切分
歧义字段
下载PDF
职称材料
自然语言理解的一些技术初步研究
8
作者
杨宪泽
雷开彬
《云南民族大学学报(自然科学版)》
CAS
2006年第2期87-90,共4页
自然语言理解涉及的技术很多.现讨论其中的三部分:第一部分讨论自动分词,阐述了自动分词需要解决的问题;第二部分设计了一个快速的直接映射式检索算法;第三部分初步探讨了汉语文摘生成处理的一个方法.
关键词
自然语言理解
自动分词
映射式检索算法
汉语摘要
下载PDF
职称材料
书面汉语自动分词专家系统
9
作者
何克抗
徐辉
孙波
《高技术通讯》
EI
CAS
CSCD
1991年第6期16-20,共5页
关键词
专家系统
汉语
自动分词
下载PDF
职称材料
试论书面汉语自动分词专家系统中的DKS技术
10
作者
崔志明
《计算机技术与发展》
1993年第3期10-13,共4页
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DK...
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DKS推理,目的是试图探讨出一种新的书面汉语自动分词专家系统的实现方法。
展开更多
关键词
深部知识结构
自动分词
专家系统
下载PDF
职称材料
一个比较不同中文分词法的软件
11
作者
吴启德
吕强
《苏州大学学报(工科版)》
CAS
2004年第6期29-33,共5页
介绍了一个比较不同中文分词算法在分词上异同的软件,特别是在歧义词条切分上的异同之处,它包括了容纳各种分词算法的框架结构及其设计,人工干预歧义切分的界面和显示不同分词方法切分统计结果等功能;通过测试统计,本软件基本可以比较...
介绍了一个比较不同中文分词算法在分词上异同的软件,特别是在歧义词条切分上的异同之处,它包括了容纳各种分词算法的框架结构及其设计,人工干预歧义切分的界面和显示不同分词方法切分统计结果等功能;通过测试统计,本软件基本可以比较出不同的分词方法在歧义切分上的优劣异同之处。
展开更多
关键词
自动分词
歧义切分
比较
歧义标注
下载PDF
职称材料
基于最长次长匹配的汉语自动分词
被引量:
14
12
作者
黄德根
朱和合
+2 位作者
王昆仑
杨元生
钟万勰
《大连理工大学学报》
CAS
CSCD
北大核心
1999年第6期831-835,共5页
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等都需以自动分词作为基础. 为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长次长匹...
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等都需以自动分词作为基础. 为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长次长匹配原则的汉语自动分词方法,分词效果较好.
展开更多
关键词
语言处理
自动分词
机器翻译
最长匹配法
汉语
下载PDF
职称材料
语句级拼音┐汉字转换系统的设计与实现
被引量:
2
13
作者
殷峰
何克抗
《计算机研究与发展》
EI
CSCD
北大核心
1997年第5期340-345,共6页
本文系统介绍了拼音-汉字转换系统的设计与实现方法.系统主要由拼音自动分词子系统和语法分析子系统两部分组成.拼音自动分词子系统是在书面汉语自动分词系统基础上根据音字转换的特点和要求建造的.语法分析子系统是由词法分析、短...
本文系统介绍了拼音-汉字转换系统的设计与实现方法.系统主要由拼音自动分词子系统和语法分析子系统两部分组成.拼音自动分词子系统是在书面汉语自动分词系统基础上根据音字转换的特点和要求建造的.语法分析子系统是由词法分析、短语分析和句法分析三部分组成,语法分析采取关键词驱动的自底向上分析策略.由于汉语句子的构造原则与词组一致,因此语法分析是以短语分析为主。
展开更多
关键词
音字转换
拼音自动分词
语法规则
计算机应用
下载PDF
职称材料
基于HMM的柯尔克孜语词性标注的研究
被引量:
1
14
作者
陈莉
古丽拉.阿东别克
《计算机工程与应用》
CSCD
2014年第15期120-124,共5页
柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,...
柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。
展开更多
关键词
柯尔克孜语
自动分词词典
隐马尔可夫模型(HMM)
词性标注
下载PDF
职称材料
基于统计的中文地名识别
被引量:
49
15
作者
黄德根
岳广玲
杨元生
《中文信息学报》
CSCD
北大核心
2003年第2期36-41,共6页
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的...
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。
展开更多
关键词
计算机应用
中文信息处理
中文地名识别
构词可信度
接续可信度
自动分词
下载PDF
职称材料
一种中文文档的非受限无词典抽词方法
被引量:
28
16
作者
金翔宇
孙正兴
张福炎
《中文信息学报》
CSCD
北大核心
2001年第6期33-39,共7页
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、...
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。
展开更多
关键词
中文信息处理
自动分词
非受限无词典抽词
汉字结构模式
中文文档
抽词速度
下载PDF
职称材料
自然语言检索中的中文分词技术研究进展及应用
被引量:
25
17
作者
何莘
王琬芜
《情报科学》
CSSCI
北大核心
2008年第5期787-791,共5页
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中...
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。
展开更多
关键词
中文分词
自动分词
分词算法
下载PDF
职称材料
中文人名自动识别的一种有效方法
被引量:
10
18
作者
李建华
王晓龙
《高技术通讯》
EI
CAS
CSCD
2000年第2期46-49,共4页
介绍了一种基于大量实验的有效的中文姓名自动识别方法。实验结果表明,该方法在兼顾准确率与召回率的同时获得了较好的识别效果。
关键词
中文姓名
自动识别
自动分词
计算机处理
下载PDF
职称材料
吕苏语口语标注语料的自动分词方法研究
被引量:
32
19
作者
于重重
操镭
+2 位作者
尹蔚彬
张泽宇
郑雅
《计算机应用研究》
CSCD
北大核心
2017年第5期1325-1328,共4页
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立...
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中;并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。
展开更多
关键词
吕苏语
汉语标注语料
自动分词
改进结巴算法
下载PDF
职称材料
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例
被引量:
27
20
作者
刘畅
王东波
+2 位作者
胡昊天
张逸勤
李斌
《图书馆论坛》
CSSCI
北大核心
2022年第6期44-54,共11页
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两...
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
展开更多
关键词
自动分词
数字人文
SikuBERT
预训练技术
词典信息融合
下载PDF
职称材料
题名
汉语自动分词专家系统的设计与实现
被引量:
10
1
作者
王彩荣
机构
沈阳师范大学信息技术学院
出处
《微处理机》
2004年第3期56-57,60,共3页
文摘
本文介绍了自动分词专家系统的设计思想和系统结构 ,并给出了自动分词专家系统知识库的组织与实现方法 ,以及推理机制的建立和自动分词过程。
关键词
自动分词
切分
歧义字段
专家系统
Keywords
automatic
words
segmentation
Segment
Different
meanings
field
Expert
system
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
句型转换的机器翻译理论模型与一些处理方法
被引量:
8
2
作者
杨宪泽
雷开彬
机构
西南民族大学计算机科学与技术学院
出处
《科技通报》
2007年第2期253-257,共5页
基金
四川省科技攻关项目(05SG022-016)
西南民大重点项目(编号04NZ003)
文摘
自动分词和译文生成处理是混合式汉英机器翻译的两个重要阶段。本文主要工作有:第一,讨论了机器翻译的理论模型;第二,给出了一个自动分词算法,提出了一个初步消歧方法;第三,建立汉英机器翻译的时态转换及相关匹配规则。
关键词
混合式机器翻译
理论模型
自动分词
消歧
译文生成
Keywords
mix
machines
translation
theories
model
automatic
words
segmentation
ambiguities
distributed
target-language
generation
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
智能人机交互中自动分词技术的实现
被引量:
3
3
作者
赵志靖
周静
冯锐
齐丙辰
机构
扬州大学教育科学与技术学院
天津师范大学计算机与信息工程学院
出处
《扬州大学学报(自然科学版)》
CAS
CSCD
2005年第3期58-61,共4页
基金
国家自然科学基金资助项目(60075021)
文摘
根据实际工作,开发了一个自动分词系统,对汉语自动分词技术在智能人机交互中的实现进行探讨.基于系统的情况,分词算法采用了最大匹配法,在词库检索中提出了化查询为直接存取的方法,提高了检索效率,节省了内存,有利于分词速度的提高.
关键词
智能人机交互
自动分词
词库
分词算法
Keywords
intelligent
human-computer
interaction
automatic
words
segmentation
words
bank
words
segmentation
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Agent的文本分类系统
被引量:
2
4
作者
杨为民
李龙澍
机构
安徽大学计算机科学与技术学院
出处
《计算机技术与发展》
2007年第2期135-137,142,共4页
基金
安徽省自然科学基金资助项目(050420204)
安徽省高校拔尖人才基金资助项目
安徽省教育厅自然科学研究项目(2006KJ098B)
文摘
信息检索的一个核心问题是自动文本分类。基于分类体系的文本分类需要全文抽取主题词、计算权重,再根据分类体系对文献进行分类。文中构建一种基于Agent技术的文本自动分类系统,仅需要对文档头进行信息处理就可以进行快速文本分类,有效地减少了文本分类过程中的时间和空间的消耗。
关键词
文本自动分类
AGENT
自动分词
Keywords
automatic
text
categorization
agent
automatic
words
segmentation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语料库的藏语高频词抽取研究
被引量:
3
5
作者
才让卓玛
才智杰
机构
青海师范大学藏文信息处理省部共建教育部重点实验室
出处
《计算机工程》
CAS
CSCD
2012年第15期56-58,共3页
基金
国家自然科学基金资助项目(61163018)
国家"973"计划前期研究专项基金资助项目(2010CB334708)
+4 种基金
国家社会科学基金资助项目(09XYY024)
青海省科技厅应用基础研究计划基金资助项目(2011-Z-755
2011-Z-753)
青海师范大学科研创新计划基金资助项目
青海师范大学中青年科研基金资助项目
文摘
在借鉴汉语基于语料的词抽取技术研究成果的基础上,给出藏语文本预处理方法,并提出一种基于语料库的藏语高频词抽取算法,其中包括藏语文本预处理用噪音字表、紧缩词及其预处理方法和基于语料库的藏语高频词抽取算法。实验结果表明,该算法的准确率达86.22%,召回率达89.79%,F值达87.94%。
关键词
信息处理
高频词
藏语抽词
自动分词
语料库
预处理
Keywords
information
processing
high-frequency
words
Tibetan
words
extraction
automatic
words
segmentation
corpus
preprocessing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种新的汉语自动分词算法的研究和应用
被引量:
1
6
作者
徐华中
徐刚
机构
武汉理工大学自动化学院
出处
《计算机与数字工程》
2006年第2期135-138,共4页
文摘
针对中文信息处理中词与词之间的歧义切分难点,通过分析词语之间的逻辑关系,然后用泛布尔代数将其表达出来,再将此算法用于汉语自动分词系统。实验表明此方法提高了分词的速度和准确性,达到了较好的分词效果。
关键词
逻辑关系
泛布尔代数
自动分词
Keywords
logic
relation,
Pan-
Boolean
algebra,
automatic
words
segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
歧义字段的归类及切分算法
被引量:
2
7
作者
王彩荣
王凯丽
黄玉基
机构
沈阳师范大学信息技术学院
东北大学信息学院
出处
《微处理机》
2005年第3期33-35,39,共4页
文摘
在汉语自动分词系统中,歧义字段的切分直接影响着分词的精度。本文深入地分析了歧义字段产生的根源,据此给出了歧义字段的详细分类和消除每一类歧义字段的有效方法。并在对歧义字段进行统计分析的基础上提出了切分精度的级别划分。
关键词
自动分词
切分
歧义字段
Keywords
automatic
words
segmentation
Segment
Different
meanings
field
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
自然语言理解的一些技术初步研究
8
作者
杨宪泽
雷开彬
机构
西南民族大学计算机科学与技术学院
出处
《云南民族大学学报(自然科学版)》
CAS
2006年第2期87-90,共4页
基金
教育部资助项目(0512226)
西南民族大学重点项目(04NZ003)
文摘
自然语言理解涉及的技术很多.现讨论其中的三部分:第一部分讨论自动分词,阐述了自动分词需要解决的问题;第二部分设计了一个快速的直接映射式检索算法;第三部分初步探讨了汉语文摘生成处理的一个方法.
关键词
自然语言理解
自动分词
映射式检索算法
汉语摘要
Keywords
natural
language
nderstanding
automatic
words
segmentation
map
retrieval
algorithm
Chinese
summary
分类号
TP301.2 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
书面汉语自动分词专家系统
9
作者
何克抗
徐辉
孙波
机构
北京师范大学
出处
《高技术通讯》
EI
CAS
CSCD
1991年第6期16-20,共5页
关键词
专家系统
汉语
自动分词
Keywords
automatic
words
segmentation
expert
system
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
试论书面汉语自动分词专家系统中的DKS技术
10
作者
崔志明
机构
苏州大学计算机工程系
出处
《计算机技术与发展》
1993年第3期10-13,共4页
文摘
书面汉语自动分词是目前中文信息处理的一个公认难题,利用人工智能技术构造汉语自动分词专家系统可以说是一个方向。本文分析了歧义字段的产生根源,提出了将深部知识结构(DKS)技术用于自动分词专家系统的设想,并叙述了Aspect的分类及DKS推理,目的是试图探讨出一种新的书面汉语自动分词专家系统的实现方法。
关键词
深部知识结构
自动分词
专家系统
Keywords
Deep
Knowledge
Structure
automatic
words
segmentation
Expert
Systerm.
分类号
TP36 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
一个比较不同中文分词法的软件
11
作者
吴启德
吕强
机构
苏州大学计算机学院
出处
《苏州大学学报(工科版)》
CAS
2004年第6期29-33,共5页
文摘
介绍了一个比较不同中文分词算法在分词上异同的软件,特别是在歧义词条切分上的异同之处,它包括了容纳各种分词算法的框架结构及其设计,人工干预歧义切分的界面和显示不同分词方法切分统计结果等功能;通过测试统计,本软件基本可以比较出不同的分词方法在歧义切分上的优劣异同之处。
关键词
自动分词
歧义切分
比较
歧义标注
Keywords
automatic
words
segmentation
ambiguity
partition
compare
ambiguity
tagging
分类号
TP311.1 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于最长次长匹配的汉语自动分词
被引量:
14
12
作者
黄德根
朱和合
王昆仑
杨元生
钟万勰
机构
大连理工大学工程力学研究所
大连理工大学计算机科学与工程系
出处
《大连理工大学学报》
CAS
CSCD
北大核心
1999年第6期831-835,共5页
文摘
汉语自动分词是中文信息处理领域所特有的一个重要研究课题,机器翻译(MT)、自然语言理解(NLU)、情报检索(IR)等都需以自动分词作为基础. 为解决分词中的歧义问题,针对歧义切分字段的分布特点,提出一种基于最长次长匹配原则的汉语自动分词方法,分词效果较好.
关键词
语言处理
自动分词
机器翻译
最长匹配法
汉语
Keywords
speech
processing/
automatic
words
segmentation
machine
translation
maximum
matching
method
ambiguity
partition
分类号
TP391.2 [自动化与计算机技术—计算机应用技术]
G356 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
语句级拼音┐汉字转换系统的设计与实现
被引量:
2
13
作者
殷峰
何克抗
机构
北京师范大学现代教育技术研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
1997年第5期340-345,共6页
基金
国家自然科学基金
文摘
本文系统介绍了拼音-汉字转换系统的设计与实现方法.系统主要由拼音自动分词子系统和语法分析子系统两部分组成.拼音自动分词子系统是在书面汉语自动分词系统基础上根据音字转换的特点和要求建造的.语法分析子系统是由词法分析、短语分析和句法分析三部分组成,语法分析采取关键词驱动的自底向上分析策略.由于汉语句子的构造原则与词组一致,因此语法分析是以短语分析为主。
关键词
音字转换
拼音自动分词
语法规则
计算机应用
Keywords
Pinyin
Chinese
character
conversion,Pinyin
automatic
words
segmentation
,grammatical
rule,grammatical
analysis,phrasal
combination
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于HMM的柯尔克孜语词性标注的研究
被引量:
1
14
作者
陈莉
古丽拉.阿东别克
机构
新疆大学信息科学与工程学院
出处
《计算机工程与应用》
CSCD
2014年第15期120-124,共5页
基金
国家自然科学基金(No.61063025)
文摘
柯尔克孜语的语言信息处理研究,对新疆柯尔克孜族是否能跨入信息时代,传承民族文化起着至关重要的作用。采用两级标注法,基于传统的HMM理论,改进了HMM模型参数的计算、数据平滑和未登入词的处理方法,更好地体现了上下文依赖关系。同时,把基于自动分词词典的词干提取算法与规则和统计相结合的方法用于柯尔克孜语的词性标注系统上。相对于传统的HMM,改进后的方法有效提高了准确性。
关键词
柯尔克孜语
自动分词词典
隐马尔可夫模型(HMM)
词性标注
Keywords
Kirghiz
automatic
words
segmentation
dictionary
Hidden
Markov
Model(HMM)
part-of-speech
tagging
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计的中文地名识别
被引量:
49
15
作者
黄德根
岳广玲
杨元生
机构
大连理工大学计算机科学与工程系
出处
《中文信息学报》
CSCD
北大核心
2003年第2期36-41,共6页
基金
国家自然科学基金资助项目 (6 0 14 30 0 2 )
文摘
本文针对有特征词的中文地名识别进行了研究。该系统使用从大规模地名词典和真实文本语料库得到的统计信息以及针对地名特点总结出来的规则 ,通过计算地名的构词可信度和接续可信度从而识别中文地名。该模型对自动分词的切分作了有效的调整 ,系统闭式召回率和精确率分别为 90 2 4 %和 93 14 % ,开式召回率和精确率分别达 86 86 %和 91 4 8%。
关键词
计算机应用
中文信息处理
中文地名识别
构词可信度
接续可信度
自动分词
Keywords
computer
application
Chinese
information
processing
Chinese
Place
Name
Identification,Lexical
Reliability,Contextual
Reliability,
automatic
word
segmentation
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种中文文档的非受限无词典抽词方法
被引量:
28
16
作者
金翔宇
孙正兴
张福炎
机构
南京大学软件新技术国家重点实验室
出处
《中文信息学报》
CSCD
北大核心
2001年第6期33-39,共7页
基金
国家自然科学基金项目 (6 990 30 0 6 )
教育部高等学校骨干教师资助计划(教技司[2 0 0 0 ]6 5号 )
中国博士后科学基金(中博基 [1997]11号 )
文摘
本文提出了一种非受限无词典抽词模型 ,该模型通过自增长算法获取中文文档中的汉字结合模式 ,并引入支持度、置信度等概念来筛选词条。实验表明 :在无需词典支持和利用语料库学习的前提下 ,该算法能够快速、准确地抽取中文文档中的中、高频词条。适于对词条频度敏感 ,而又对计算速度要求很高的中文信息处理应用 。
关键词
中文信息处理
自动分词
非受限无词典抽词
汉字结构模式
中文文档
抽词速度
Keywords
chinese
information
processing
automatic
word
segmentation
domain
independent
dictionary
free
lexical
acquisition
co
occurrence
patterns
of
Chinese
characters
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
自然语言检索中的中文分词技术研究进展及应用
被引量:
25
17
作者
何莘
王琬芜
机构
西安石油大学机械工程学院
浙江大学信息科学与工程学院
出处
《情报科学》
CSSCI
北大核心
2008年第5期787-791,共5页
文摘
中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。
关键词
中文分词
自动分词
分词算法
Keywords
Chinese
word
segmentation
automatic
word
segmentation
word
segmentation
algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
G354 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
中文人名自动识别的一种有效方法
被引量:
10
18
作者
李建华
王晓龙
机构
哈尔滨工业大学计算机科学与技术系
出处
《高技术通讯》
EI
CAS
CSCD
2000年第2期46-49,共4页
基金
86 3计划资助项目!( 86 3 3 0 6 ZT0 3 0 2 3 )
文摘
介绍了一种基于大量实验的有效的中文姓名自动识别方法。实验结果表明,该方法在兼顾准确率与召回率的同时获得了较好的识别效果。
关键词
中文姓名
自动识别
自动分词
计算机处理
Keywords
automatic
identification
of
Chines
name,
automatic
word
segmentation
,
Resource
of
knowledge
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
吕苏语口语标注语料的自动分词方法研究
被引量:
32
19
作者
于重重
操镭
尹蔚彬
张泽宇
郑雅
机构
北京工商大学计算机与信息工程学院
中国社会科学院民族学与人类学研究所
出处
《计算机应用研究》
CSCD
北大核心
2017年第5期1325-1328,共4页
基金
国家社会科学基金重大资助项目(14ZDB156)
国家教育部人文社会科学研究规划基金资助项目(15YJCZH224)
文摘
濒危语言典藏以抢救和长久保存濒危语言口语中所包含的声学、语言学以及文学、历史、传统文化等内涵的全部信息为目的,吕苏语作为一种无文字文献记录的濒危语言,对其口语语料典藏意义重大。吕苏语口语的汉语标注语料自动分词是后续建立高质量的吕苏语口语语料库和吕苏语典藏系统的基础性工作。目前对于吕苏语标注语料分词的研究几乎为零,对吕苏语特点进行了分析,同时将中文自动分词结巴方法应用到吕苏语汉语标注语料中;并针对结巴分词算法对吕苏语标注语料分词存在的误分词问题,提出了改进结巴算法。经过实验对比,改进结巴的分词方法准确率更高,提高了吕苏语汉语标注语料的分词效果。
关键词
吕苏语
汉语标注语料
自动分词
改进结巴算法
Keywords
Lizu
language
Chinese
annotation
corpus
automatic
word
segmentation
improved
jieba
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例
被引量:
27
20
作者
刘畅
王东波
胡昊天
张逸勤
李斌
机构
南京农业大学信息管理学院
南京大学信息管理学院
南京师范大学文学院
出处
《图书馆论坛》
CSSCI
北大核心
2022年第6期44-54,共11页
基金
国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)
江苏省社会科学基金青年项目“人文计算视角下的先秦人物知识获取及分析研究”(项目编号:19TQC003)研究成果。
文摘
数字人文研究为古籍文献的深度开发与展示提供了良好的平台。精准的文本分词是研究者在古籍文献处理中需要优先解决的问题。文章基于记载春秋至魏晋时期历史的最具有代表性的6部官修史籍构建古文分词语料库,结合预训练和词典信息融合两种策略,运用4种深度学习模型进行多组对比实验,以确定不同模型的适用范畴。在此基础上,开发面向繁体古文的分词工具,为从事数字人文的研究者提供简单有效的文本分词方法。
关键词
自动分词
数字人文
SikuBERT
预训练技术
词典信息融合
Keywords
automatic
word
segmentation
digital
humanities
SikuBERT
pre-training
technology
dictionary
information
fusion
分类号
G250.7 [文化科学—图书馆学]
G254
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
汉语自动分词专家系统的设计与实现
王彩荣
《微处理机》
2004
10
下载PDF
职称材料
2
句型转换的机器翻译理论模型与一些处理方法
杨宪泽
雷开彬
《科技通报》
2007
8
下载PDF
职称材料
3
智能人机交互中自动分词技术的实现
赵志靖
周静
冯锐
齐丙辰
《扬州大学学报(自然科学版)》
CAS
CSCD
2005
3
下载PDF
职称材料
4
基于Agent的文本分类系统
杨为民
李龙澍
《计算机技术与发展》
2007
2
下载PDF
职称材料
5
基于语料库的藏语高频词抽取研究
才让卓玛
才智杰
《计算机工程》
CAS
CSCD
2012
3
下载PDF
职称材料
6
一种新的汉语自动分词算法的研究和应用
徐华中
徐刚
《计算机与数字工程》
2006
1
下载PDF
职称材料
7
歧义字段的归类及切分算法
王彩荣
王凯丽
黄玉基
《微处理机》
2005
2
下载PDF
职称材料
8
自然语言理解的一些技术初步研究
杨宪泽
雷开彬
《云南民族大学学报(自然科学版)》
CAS
2006
0
下载PDF
职称材料
9
书面汉语自动分词专家系统
何克抗
徐辉
孙波
《高技术通讯》
EI
CAS
CSCD
1991
0
下载PDF
职称材料
10
试论书面汉语自动分词专家系统中的DKS技术
崔志明
《计算机技术与发展》
1993
0
下载PDF
职称材料
11
一个比较不同中文分词法的软件
吴启德
吕强
《苏州大学学报(工科版)》
CAS
2004
0
下载PDF
职称材料
12
基于最长次长匹配的汉语自动分词
黄德根
朱和合
王昆仑
杨元生
钟万勰
《大连理工大学学报》
CAS
CSCD
北大核心
1999
14
下载PDF
职称材料
13
语句级拼音┐汉字转换系统的设计与实现
殷峰
何克抗
《计算机研究与发展》
EI
CSCD
北大核心
1997
2
下载PDF
职称材料
14
基于HMM的柯尔克孜语词性标注的研究
陈莉
古丽拉.阿东别克
《计算机工程与应用》
CSCD
2014
1
下载PDF
职称材料
15
基于统计的中文地名识别
黄德根
岳广玲
杨元生
《中文信息学报》
CSCD
北大核心
2003
49
下载PDF
职称材料
16
一种中文文档的非受限无词典抽词方法
金翔宇
孙正兴
张福炎
《中文信息学报》
CSCD
北大核心
2001
28
下载PDF
职称材料
17
自然语言检索中的中文分词技术研究进展及应用
何莘
王琬芜
《情报科学》
CSSCI
北大核心
2008
25
下载PDF
职称材料
18
中文人名自动识别的一种有效方法
李建华
王晓龙
《高技术通讯》
EI
CAS
CSCD
2000
10
下载PDF
职称材料
19
吕苏语口语标注语料的自动分词方法研究
于重重
操镭
尹蔚彬
张泽宇
郑雅
《计算机应用研究》
CSCD
北大核心
2017
32
下载PDF
职称材料
20
面向数字人文的融合外部特征的典籍自动分词研究——以SikuBERT预训练模型为例
刘畅
王东波
胡昊天
张逸勤
李斌
《图书馆论坛》
CSSCI
北大核心
2022
27
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
4
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部