期刊文献+
共找到907篇文章
< 1 2 46 >
每页显示 20 50 100
中文分词和词性标注模型 被引量:11
1
作者 刘遥峰 王志良 王传经 《计算机工程》 CAS CSCD 北大核心 2010年第4期17-19,共3页
构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证... 构造一种中文分词和词性标注的模型,在分词阶段确定N个最佳结果作为候选集,通过未登录词识别和词性标注,从候选结果集中选优得到最终结果,并基于该模型实现一个中文自动分词和词性自动标注的中文词法分析器。经不同大小训练集下的测试证明,该分析器的分词准确率和词性标注准确率分别达到98.34%和96.07%,证明了该方法的有效性。 展开更多
关键词 分词 词性标注 最短路径
下载PDF
移动机器人视觉SLAM回环检测原理、现状及趋势 被引量:11
2
作者 杨雪梅 李帅永 《电子测量与仪器学报》 CSCD 北大核心 2022年第8期1-12,共12页
近年来,视觉SLAM以结构简单、成本低、可结合语义信息等优势得到广泛关注。回环检测在其中发挥着重要的作用。根据获得的回环信息,视觉SLAM后端优化算法便可以根据回环约束对位姿进行优化,消除移动机器人在长时间的工作下产生的累积误差... 近年来,视觉SLAM以结构简单、成本低、可结合语义信息等优势得到广泛关注。回环检测在其中发挥着重要的作用。根据获得的回环信息,视觉SLAM后端优化算法便可以根据回环约束对位姿进行优化,消除移动机器人在长时间的工作下产生的累积误差,实现精确的长期定位,从而构建全局一致的运动轨迹和地图。首先介绍视觉SLAM中回环检测原理及作用,从特征提取、相似度判断、实验评估几个方面对传统词袋模型进行深入分析,并概述目前基于词袋模型和概率的改进算法,对比总结基于深度学习的回环检测方法,简单概述结合语义信息的回环检测方法,最后对回环检测技术目前存在的问题以及未来的发展趋势进行总结与展望。 展开更多
关键词 视觉SLAM 回环检测 词袋模型 深度学习 语义分割 性能评价
下载PDF
维汉机器翻译未登录词识别研究 被引量:9
3
作者 米成刚 王磊 +1 位作者 杨雅婷 陈科海 《计算机应用研究》 CSCD 北大核心 2013年第4期1112-1115,共4页
针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维... 针对维汉统计机器翻译中未登录词较多的现象和维吾尔语语言资源匮乏这一现状,结合维吾尔语构词特征以及相应的字符串相似度算法,提出了一种基于字符串相似度的维汉机器翻译未登录词识别模型。该模型借助短语表和外部词典,与未翻译的维语词求相似度,取相似度最大短语对应的汉语翻译作为此未登录词的最终翻译。实验证明,与基于词干切分的未登录词识别方法相比,此模型较好地保留了维吾尔语词信息,提高了译文的质量。 展开更多
关键词 维汉机器翻译 短语表 字符串相似度算法 未登录词 词切分 编辑距离
下载PDF
一种基于密度的文本聚类挖掘算法 被引量:4
4
作者 赵康 陆介平 +1 位作者 倪巍伟 王桂平 《计算机应用研究》 CSCD 北大核心 2009年第1期124-126,共3页
针对DBSCAN算法需用户设置参数值、易产生挖掘结果偏差等不足,提出改进算法DBTC(density-basedtext clustering),该算法不仅能够发现任意形状的簇,还有效地解决了基于密度的DBSCAN聚类算法在文本挖掘中参数设置困难和高密度的簇被相连... 针对DBSCAN算法需用户设置参数值、易产生挖掘结果偏差等不足,提出改进算法DBTC(density-basedtext clustering),该算法不仅能够发现任意形状的簇,还有效地解决了基于密度的DBSCAN聚类算法在文本挖掘中参数设置困难和高密度的簇被相连的低密度簇包含的问题。理论分析和实验结果表明,算法是有效可行的。 展开更多
关键词 分词 文本聚类 向量空间模型 核心对象
下载PDF
基于复句语料库分词系统研究 被引量:6
5
作者 杜超华 胡金柱 +1 位作者 沈威 姚双云 《计算机与数字工程》 2007年第5期43-44,81,共3页
复句在书面语中具有举足轻重的地位,如何让计算机正确理解复句是中文信息处理中一个值得重视的问题。现有的分词系统对复句关系词的正确切分与标注上不足以满足对复句进行层次分析和语义分析的需要。建立的分词系统在复句中关系词的切... 复句在书面语中具有举足轻重的地位,如何让计算机正确理解复句是中文信息处理中一个值得重视的问题。现有的分词系统对复句关系词的正确切分与标注上不足以满足对复句进行层次分析和语义分析的需要。建立的分词系统在复句中关系词的切分和标注上做出了必要的改进。 展开更多
关键词 汉语复句语料库 关系词 分词
下载PDF
Apriori and N-gram Based Chinese Text Feature Extraction Method 被引量:5
6
作者 王晔 黄上腾 《Journal of Shanghai Jiaotong university(Science)》 EI 2004年第4期11-14,20,共5页
A feature extraction, which means extracting the representative words from a text, is an important issue in text mining field. This paper presented a new Apriori and N-gram based Chinese text feature extraction method... A feature extraction, which means extracting the representative words from a text, is an important issue in text mining field. This paper presented a new Apriori and N-gram based Chinese text feature extraction method, and analyzed its correctness and performance. Our method solves the question that the exist extraction methods cannot find the frequent words with arbitrary length in Chinese texts. The experimental results show this method is feasible. 展开更多
关键词 Apriori algorithm N-GRAM Chinese words segmentation feature extraction
下载PDF
面向Web的藏文文本分词策略研究 被引量:5
7
作者 艾金勇 陈小莹 华侃 《图书馆学研究》 CSSCI 北大核心 2014年第21期42-46,共5页
文章归纳整理了面向Web的藏文文本对分词系统的要求,对比参照其他藏文分词系统的优缺点并借鉴汉语分词系统的一些好的方法,设计开发了一个面向藏文网页的自动分词系统。该系统结合藏语语句特点,首先利用特征词进行了文本分块,然后对语... 文章归纳整理了面向Web的藏文文本对分词系统的要求,对比参照其他藏文分词系统的优缺点并借鉴汉语分词系统的一些好的方法,设计开发了一个面向藏文网页的自动分词系统。该系统结合藏语语句特点,首先利用特征词进行了文本分块,然后对语块内文本综合运用统计与词典匹配的方法实现了藏文的自动分词。实验测试结果表明该系统明显提升了Web文本的分词效果。 展开更多
关键词 藏文 特征词 WEB 自动分词
原文传递
分词技术的研究与应用——一种抽取新词的简便方法 被引量:3
8
作者 吴宏洲 《软件工程师》 2015年第12期64-68,共5页
一种无需语料库和复杂数学模型支持的抽取新词最简方法。通过扫描文献文字流,消除停用字词,切分单元子句,对子句枚举可能的候选词条,统计候选词条频度,计算长短包含关系候选词之间的置信度值,只须依据大于90%的值来消除短词,得到候选关... 一种无需语料库和复杂数学模型支持的抽取新词最简方法。通过扫描文献文字流,消除停用字词,切分单元子句,对子句枚举可能的候选词条,统计候选词条频度,计算长短包含关系候选词之间的置信度值,只须依据大于90%的值来消除短词,得到候选关键词,再经过已有词库过滤,留下新词。该方法可作为信息加工的辅助工具。 展开更多
关键词 停用词 候选分词 置信度 抽取新词
下载PDF
基于词平台汉字编码的自动标引研究 被引量:3
9
作者 焦慧 刘迁 贾惠波 《计算机工程与应用》 CSCD 北大核心 2007年第15期173-175,共3页
自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再... 自动标引是基于内容检索的关键技术之一。目前国内的汉语自动标引研究主要集中于汉语自动分词这个前期处理问题上。提出了一种基于词平台的汉字编码方法,建立了一种新的中文计算机文档表达格式,使词成为最小的信息单位,汉语分析无需再进行自动分词,可直接进行自动标引,从而提高自动标引的效率和质量。 展开更多
关键词 自动标引 词平台 汉字编码 自动分词
下载PDF
基于FAQ的智能答疑系统中分词模块的设计 被引量:1
10
作者 程节华 《计算机技术与发展》 2008年第7期181-183,186,共4页
在基于FAQ的智能答疑系统中,分词处理是基础和关键。分词质量的好坏直接影响智能答疑系统的准确性。针对实际应用领域的需要,本系统分词模块采取普通词典和专业词典混合的词典设计方案,分词算法采用正向最大匹配的分词算法。为了提高词... 在基于FAQ的智能答疑系统中,分词处理是基础和关键。分词质量的好坏直接影响智能答疑系统的准确性。针对实际应用领域的需要,本系统分词模块采取普通词典和专业词典混合的词典设计方案,分词算法采用正向最大匹配的分词算法。为了提高词典的查找速度,分词词典采用Hash表和二维数组的数据结构,根据汉字的内码利用Hash方法,求得在内存的地址,然后计算其索引项的二维数组的下标,对于词典的搜索采用二分查找法。实验结果表明:该分词系统提高了智能答疑系统的效率和准确率。 展开更多
关键词 自然语言处理 智能答疑 分词
下载PDF
藏族人名汉译名识别研究 被引量:3
11
作者 罗镭贾 宋柔 朱小杰 《情报学报》 CSSCI 北大核心 2009年第3期475-480,共6页
藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,字(串)特征和内部构成复杂 其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变... 藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,字(串)特征和内部构成复杂 其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变得十分突出,同时也使得藏族人名和上下文之间的边界变得非常模糊。本文在大规模藏族人名实例和语料库调查基础上,统计分析了藏族人名的用字(串)特征,并构建了藏族人名属性特征库 通过藏族人名的命名规则及属性特征将藏族人名形式化表示,实现了藏族人名汉译名自动识别系统。真实语料库开放测试F值达到87.12%。 展开更多
关键词 藏族人名识别 未登录词 可信度 自动分词
下载PDF
中文词间词和词内词预视加工的差异:词间阴影的作用 被引量:2
12
作者 关宜韫 宋悉妮 +2 位作者 郑玉玮 张颖靓 崔磊 《心理学报》 CSSCI CSCD 北大核心 2019年第9期969-981,共13页
为了考察词语的属性特征对预视加工的影响,实验操纵注视字与预视字是否属于一个语言单元,利用眼动轨迹记录法并结合边界范式以探讨其对预视效应的影响。此外,考察了词边界信息对词间词和词内词预视加工的影响。结果显示,词内词的预视效... 为了考察词语的属性特征对预视加工的影响,实验操纵注视字与预视字是否属于一个语言单元,利用眼动轨迹记录法并结合边界范式以探讨其对预视效应的影响。此外,考察了词边界信息对词间词和词内词预视加工的影响。结果显示,词内词的预视效应大于词间词,词间阴影、非词阴影条件下的预视效应和正常条件之间没有差异。说明阴影提供的词边界对词间词和词内词的预视加工无影响,支持词切分和词汇识别模型,即词切分和词汇识别是同时进行的。 展开更多
关键词 词边界 词间词 词内词 预视加工 词切分
下载PDF
一种自反馈汉语切词系统的研究和实现 被引量:2
13
作者 丰博 胡钢伟 +1 位作者 赵克 亿珍珍 《计算机技术与发展》 2006年第5期7-9,共3页
探讨了一种自然语言理解(NLU)切词系统的设计思路。首先,综合运用各种传统分词方法,提出所有可能的切分结果,同时建立切词领域本体知识库;然后,结合切词领域本体知识库并运用概率统计和聚类的思想对切词结果进行划分,进入对应领域内,在... 探讨了一种自然语言理解(NLU)切词系统的设计思路。首先,综合运用各种传统分词方法,提出所有可能的切分结果,同时建立切词领域本体知识库;然后,结合切词领域本体知识库并运用概率统计和聚类的思想对切词结果进行划分,进入对应领域内,在自然语言理解的过程中进行基于语义分析的歧义排除;最后将理解结果反馈回切词系统,从而实现切词系统的自反馈和自我完善。本切词系统的特点是使切词系统和其服务的自然语言理解系统随着其运行共同获得可拓性发展,逐步达到最优化。 展开更多
关键词 自然语言理解 切词 本体 聚类 语义分析
下载PDF
字母词的全/半角形式对中文分词的影响及对策初探 被引量:1
14
作者 胡凤国 《中国科技术语》 2010年第4期19-23,共5页
中文科技名词自动抽取的关键步骤是分词,文章首先讨论中文语料库中字母词的全/半角现象,然后考察这种现象对自动分词结果当中字母词的一致性和准确性所产生的影响,并给出提高切分结果的一致性和准确性的对策,最后阐述中国传媒大学... 中文科技名词自动抽取的关键步骤是分词,文章首先讨论中文语料库中字母词的全/半角现象,然后考察这种现象对自动分词结果当中字母词的一致性和准确性所产生的影响,并给出提高切分结果的一致性和准确性的对策,最后阐述中国传媒大学的分词系统在这方面所做的工作。 展开更多
关键词 字母词 科技名词 术语抽取 分词 全/半角
下载PDF
基于词平台的中文文档实验系统的构建 被引量:1
15
作者 焦慧 刘迁 贾惠波 《微计算机信息》 北大核心 2008年第18期171-172,104,共3页
文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台。文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来。使用这种基于词的编码格式可以使... 文章提出一种新的中文文档实验系统,力求建立一个克服束缚中文信息处理发展的自动分词问题的实验研究平台。文章采用一种新的基于中文词的文本编码方法,对每个词进行编码,并使新编码与机内码联系起来。使用这种基于词的编码格式可以使词成为计算机中文处理中的最小信息载体,无须再进行中文分词。文章使用该方法进行了关键词自动抽取的实验研究。结果显示,基于词编码的中文文档实验系统能很好的解决中文分词问题,并给其它中文文本分析奠定良好基础。 展开更多
关键词 中文信息处理 汉字编码 词平台 自动分词
下载PDF
在线英语语料库自动分词和分句的实现 被引量:1
16
作者 肖克曦 《电脑知识与技术》 2010年第10期7905-7907,共3页
阐述了建立语料库时进行分词和分句操作的必要性;介绍了全文检索技术及其在语料库中的应用特点;分析了利用Java Script和VBScript实现对英文原始语料进行自动分词和分句的过程。
关键词 英语语料库 分词 分句
下载PDF
A New Word Detection Method for Chinese Based on Local Context Information 被引量:1
17
作者 曾华琳 周昌乐 郑旭玲 《Journal of Donghua University(English Edition)》 EI CAS 2010年第2期189-192,共4页
Finding out out-of-vocabulary words is an urgent and difficult task in Chinese words segmentation. To avoid the defect causing by offline training in the traditional method, the paper proposes an improved prediction b... Finding out out-of-vocabulary words is an urgent and difficult task in Chinese words segmentation. To avoid the defect causing by offline training in the traditional method, the paper proposes an improved prediction by partical match (PPM) segmenting algorithm for Chinese words based on extracting local context information, which adds the context information of the testing text into the local PPM statistical model so as to guide the detection of new words. The algorithm focuses on the process of online segmentatien and new word detection which achieves a good effect in the close or opening test, and outperforms some well-known Chinese segmentation system to a certain extent. 展开更多
关键词 new word detection improved PPM model context information Chinese words segmentation
下载PDF
基于LINQ技术的海量数据查询匹配算法研究
18
作者 刘昌 王振武 《电脑编程技巧与维护》 2010年第24期53-54,共2页
通过对自然语言进行分词处理,利用LINQ技术将单词与特征数据库中的特征进行匹配查询,给出满足约束条件的查询结果。实践表明,基于LINQ技术的数据查询匹配算法,在保证查全率和查准率的前提下能较好地提高查询效率。
关键词 分词 LINQ 特征 查全率 查准率
下载PDF
基于N-最短路径方法的中文词语粗分模型 被引量:99
19
作者 张华平 刘群 《中文信息学报》 CSCD 北大核心 2002年第5期1-7,共7页
预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召... 预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。 展开更多
关键词 N-最短路径方法 中文词语粗分模型 中文词语分析 预处理 统计模型 中文信息处理
下载PDF
汉语自动分词的研究现状与困难 被引量:60
20
作者 张春霞 郝天永 《系统仿真学报》 EI CAS CSCD 北大核心 2005年第1期138-143,147,共7页
汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。基于对汉语自动分词研究的... 汉语自动分词是信息提取、信息检索、机器翻译、文本分类、自动文摘、语音识别、文本语音转换、自然语言理解等中文信息处理领域的基础研究课题。尽管已被研究了二十多年,分词仍然是中文信息处理的瓶颈问题。基于对汉语自动分词研究的现状分析,构建了自动分词的形式化模型,论述了影响分词的诸多因素,分析了分词中存在的两个最大困难及其解决方法。最后指出了目前分词研究中尤其是在分词评测方面存在的问题以及未来的研究工作。 展开更多
关键词 汉语自动分词 形式化模型 未登录词 分词评测
下载PDF
上一页 1 2 46 下一页 到第
使用帮助 返回顶部