期刊文献+
共找到1,193篇文章
< 1 2 60 >
每页显示 20 50 100
面向领域的个性化智能检索系统MySpy的研究与开发 被引量:5
1
作者 陈世平 周福华 俞海 《小型微型计算机系统》 CSCD 北大核心 2002年第11期1336-1339,共4页
针对互联网上的“Rich Data Poor Information”问题 ,进行了面向领域的个性化智能检索系统的开发与研究 .系统采用多 Agent技术实现对 web文档索引数据库管理 ;实现基于智能代理的信息过滤和个性化服务 ;利用辅助词典、同义词词典和蕴... 针对互联网上的“Rich Data Poor Information”问题 ,进行了面向领域的个性化智能检索系统的开发与研究 .系统采用多 Agent技术实现对 web文档索引数据库管理 ;实现基于智能代理的信息过滤和个性化服务 ;利用辅助词典、同义词词典和蕴含词词典 ,对查询词进行概念扩检 ,使检索结果能返回与查询需求相似的文档 . 展开更多
关键词 个性化 智能检索系统 MySpy 智能代理 信息检索 分词 向量空间模型 全文检索 因特网
下载PDF
中文需要分词连写 被引量:4
2
作者 吴文超 《北华大学学报(社会科学版)》 2007年第5期52-55,共4页
"语文"一词反映先语后文的次序。中文应该反映汉语词的多音节特性。分词连写配合心理语言学的大脑同时处理7个信息单元的特性。现代语言普遍采用词串捆绑方法来处理较复杂的概念。意义完整的语文标签应采用连写式。中文全分... "语文"一词反映先语后文的次序。中文应该反映汉语词的多音节特性。分词连写配合心理语言学的大脑同时处理7个信息单元的特性。现代语言普遍采用词串捆绑方法来处理较复杂的概念。意义完整的语文标签应采用连写式。中文全分写等于全连写,缺乏词的信息。语文现代化是国家全面现代化的必要而非充分条件。今天,面对洋语洋文的挑战,我们需要提出新的指导方针——"科哲为体,中西兼用"。 展开更多
关键词 中文 分词连写 心理语言学
下载PDF
藏文国际音标(拉萨音)自动转换研究 被引量:3
3
作者 龙从军 刘汇丹 吴健 《中文信息学报》 CSCD 北大核心 2016年第5期203-208,214,共7页
该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏... 该文旨在实现从藏文文本到国际音标的自动转换,在一定程度上解决获取较大规模的藏文国际音标标注文本的问题。在国际音标转换系统中,采用了基于规则和统计融合的方法,实现了文语语音词自动切分;利用辅音、元音和声调对应规则表实现了藏语音节的国际音标自动转换;利用声调变化规则、辅音和元音变化规则实现了基于语音词的声调变调、辅音和元音的变化。从自动标注的结果来看,达到了实用效果。 展开更多
关键词 藏语 国际音标 自动转换 分词
下载PDF
汉盲翻译中的分词连写处理算法研究 被引量:1
4
作者 陈优阳 《网络安全技术与应用》 2014年第2期154-154,156,共2页
汉盲翻译系统把中文信息自动翻译为盲文字符,这对盲人的教育、生活等起到非常大的帮助。盲文连写处理是汉盲翻译中重要的一个处理流程,因为盲文不同于中文的特殊性,对分词后的某些字词进行连写是必须的。本文主要研究如何借助形式化的... 汉盲翻译系统把中文信息自动翻译为盲文字符,这对盲人的教育、生活等起到非常大的帮助。盲文连写处理是汉盲翻译中重要的一个处理流程,因为盲文不同于中文的特殊性,对分词后的某些字词进行连写是必须的。本文主要研究如何借助形式化的自定义规则描述语言以及连写语料统计库,来设计一个高效,易于扩展和维护的盲文连写实现方案。 展开更多
关键词 汉盲翻译 连写语料统计库 分词连写
原文传递
“两个半月”和“两个半天”——面向词法自动分析的涉数时间语素说略
5
作者 张霄军 《语言教学与研究》 CSSCI 北大核心 2010年第3期84-90,共7页
涉数的时间语素的词类问题一直是汉语学界争论的一个热点,这些语素在汉语词法自动分析中也是最容易造成混淆和产生不一致的元素。本文从中文信息处理中词法自动分析的角度剖析了涉数时间语素的词类归属,考察了1200万真实语料中涉数时间... 涉数的时间语素的词类问题一直是汉语学界争论的一个热点,这些语素在汉语词法自动分析中也是最容易造成混淆和产生不一致的元素。本文从中文信息处理中词法自动分析的角度剖析了涉数时间语素的词类归属,考察了1200万真实语料中涉数时间语素的词性标注和自动分词情况,并提出了改进的分词原则和词性标注原则。 展开更多
关键词 涉数时间语素 词类 词法自动分析 词性标注 自动分词
原文传递
汉语拼音正词法在新加坡华文教材中的应用
6
作者 刘振平 《北华大学学报(社会科学版)》 2018年第2期17-21,共5页
新加坡2015年起陆续出版的小学华文教材遵循正词法拼写汉语拼音,是有充分的理据的。一是如今的新加坡华语学习者已主要是第二语言学习者,需要借助分词连写划分词界、培养词感;二是分词连写符合人脑处理语言信息的规律,无论学习者有无华... 新加坡2015年起陆续出版的小学华文教材遵循正词法拼写汉语拼音,是有充分的理据的。一是如今的新加坡华语学习者已主要是第二语言学习者,需要借助分词连写划分词界、培养词感;二是分词连写符合人脑处理语言信息的规律,无论学习者有无华语语感,汉语拼音分词连写都是有必要的;三是专名词语词首字母大写能够帮助学习者判断词义。但由于新加坡民众对正词法尚不熟悉,对新版教材依据正词法拼写汉语拼音的做法提出了一些质疑。我们应进一步加大正词法的国际宣传,并推动我国小学语文教材依据正词法拼写汉语拼音以为国际社会做好表率。同时,新加坡教育部也应进一步向本国民众全面阐释依据正词法拼写汉语拼音的必要性和合理性。 展开更多
关键词 汉语拼音方案 正词法 新加坡 华文教材 分词连写
下载PDF
中文信息处理中自动分词技术的研究与展望 被引量:68
7
作者 刘迁 贾惠波 《计算机工程与应用》 CSCD 北大核心 2006年第3期175-177,182,共4页
汉语自动分词是中文信息处理的关键技术,已经成为中文信息处理发展的瓶颈。文章介绍了当前自动分词技术的研究状况,对各种分词算法进行了介绍,并对各种算法进行了比较和讨论。最后,对汉语自动分词技术的发展进行了展望。
关键词 汉语自动分词 中文信息处理 分词技术 分词算法
下载PDF
中文分词算法在搜索引擎应用中的研究 被引量:20
8
作者 欧振猛 余顺争 《计算机工程与应用》 CSCD 北大核心 2000年第8期80-82,84,共4页
在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行... 在Internet高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。该文重点讨论中文自动分词算法。算法采用基于自动建立词库的最佳匹配方法来进行中文分词,同时采用基于改进型马尔可夫N元语言模型的统计处理方法来处理分词中出现的歧义问题,从而提高精度。 展开更多
关键词 搜索引擎 中文自动分词 算法 汉字信息处理
下载PDF
知识抽取中的停用词处理技术 被引量:39
9
作者 化柏林 《现代图书情报技术》 CSSCI 北大核心 2007年第8期48-51,共4页
在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行... 在知识抽取的分词过程中,需要提前把停用词标引出来。停用词处理的关键在于停用词的认定、停用词表的获取与组织技术以及停用词匹配技术。停用词的识别常常需要停用词表,识别过程中需要判断假停用词以降低噪声。实验表明,对停用词进行单独处理可以大大加快词语切分速度以及后续的句法分析归约速度。 展开更多
关键词 知识抽取 停用词 中文分词 自然语言处理 文本信息分析
下载PDF
基于中文信息处理的古代汉语分词研究 被引量:31
10
作者 邱冰 皇甫娟 《微计算机信息》 北大核心 2008年第24期100-102,共3页
本文在计算机语言处理与古代汉语词汇研究的交叉学科领域进行了新的探索,提出了一种基于计算机自动分词的词汇处理及量化统计方法,并给出了具体的实现方式。统计结果显示,古代汉语双音词比重自先秦以来以一种平稳的方式增长,该结论与古... 本文在计算机语言处理与古代汉语词汇研究的交叉学科领域进行了新的探索,提出了一种基于计算机自动分词的词汇处理及量化统计方法,并给出了具体的实现方式。统计结果显示,古代汉语双音词比重自先秦以来以一种平稳的方式增长,该结论与古代汉语词汇研究成果一致。本文提出的方法具有良好的合理性和高效的处理性能,在一定程度上克服了传统人工分词方法的缺陷和不足,因而计算机自然语言处理在古代汉语研究中也有重要的应用价值。 展开更多
关键词 计算机自然语言处理 中文信息处理 自动分词
下载PDF
基于汉语二字应成词的歧义字段切分方法 被引量:8
11
作者 郑德权 于凤 +1 位作者 王开涛 赵铁军 《计算机工程与应用》 CSCD 北大核心 2003年第1期17-18,26,共3页
文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确... 文章提出了利用汉语中的二字应成词,计算汉语句内相邻字之间的互信息1及t-信息差这两个统计信息量的新方法,进而应用这两个统计量,解决汉语自动分词中的歧义字段的自动切分问题。实验结果表明,采用该文所述的方法,对歧义字段的切分正确率将达到90%,与其他分词方法相比较,进一步提高了系统的分词精度,尤其与文献1所述方法比较,对于有大量汉语信息的语料,将降低系统的时间复杂度。 展开更多
关键词 汉语二字应成词 歧义字段切分方法 中文信息处理 t-信息差 自动分词 汉语文本
下载PDF
中文分词切分技术研究 被引量:16
12
作者 徐飞 孙劲光 《计算机工程与科学》 CSCD 2008年第5期126-128,共3页
本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过N... 本文分析了现有的基于词典的分词算法,在比较各种算法优缺点的基础上提出了将正向匹配算法与逆向匹配算法所得到的结果集进行叠加,生成粗分结果集的新观点,再对生成的粗分结果集构造非负权有向图,最后应用最短路径算法求解有向图。通过Nutch实验验证,该算法较Nutch原始搜索系统提高了其汉语切分的准确性以及切分速度,同时部分解决了交集型歧义切分问题。 展开更多
关键词 中文分词 最短路径 叠加运算
下载PDF
多源异构环境下基于层次约简分类的大数据清洗方法研究
13
作者 陈旭 《电脑与电信》 2023年第1期86-90,104,共6页
大数据清洗是数据分析与应用的关键环节之一,针对传统大数据清洗方法缺陷提出一种基于层次约简分类的大数据清洗方法研究。利用大数据清洗原理先判定数据集的属性类别,并建立层次约简分类模型,按照大数据集中值域范围最广的属性确定字... 大数据清洗是数据分析与应用的关键环节之一,针对传统大数据清洗方法缺陷提出一种基于层次约简分类的大数据清洗方法研究。利用大数据清洗原理先判定数据集的属性类别,并建立层次约简分类模型,按照大数据集中值域范围最广的属性确定字符串之间的编辑距离,遍历掉重要性和相关性较弱的干扰数据;采用逆文本词频分割的方式,对大量的冗余数据做聚合处理,进一步降低大数据集冗余程度。实验结果表明,提出方法在数据清理运行时间、查全率和查准率等指标控制方面均有优势。 展开更多
关键词 多元异构 层次约简分类 编辑距离 词频分割 冗余程度
下载PDF
基于ASBC模型的藏文自动分词方法研究
14
作者 尹宗鹤 尼玛次仁 +1 位作者 于韬 拥措 《计算机与数字工程》 2023年第6期1227-1230,1237,共5页
藏文分词是藏文自然语言处理的前提工作,其效果将影响藏文自然语言处理的下游任务。神经网络的兴起,使结合预训练语言模型的深度学习方法成为分词研究的主流。针对传统神经网络获取语义信息有限的问题,论文利用大规模藏文语料库构建ALB... 藏文分词是藏文自然语言处理的前提工作,其效果将影响藏文自然语言处理的下游任务。神经网络的兴起,使结合预训练语言模型的深度学习方法成为分词研究的主流。针对传统神经网络获取语义信息有限的问题,论文利用大规模藏文语料库构建ALBERT预训练语言模型,同时引入藏文音节特征融合的方法,提出了基于深度学习的ALBERT预训练与音节特征融合的双向长短时记忆条件随机场藏文分词模型(ALBERT-Syllable-BiLSTM-CRF,ASBC)。实验在多主题数据集上进行,主要验证了ALBERT预训练语言模型和音节特征融合对藏文分词的有效性,最终模型分词效果得到明显提升。 展开更多
关键词 藏文 自动分词 预训练 ALBERT 音节特征融合
下载PDF
基于Java自动答疑系统的设计与实现
15
作者 徐奕奕 陈小花 《广西工学院学报》 CAS 2004年第3期94-98,共5页
自动答疑系统是当前信息化教育发展的热点。该文对自动答疑系统的关键技术:初始领域知识库的构建、汉语词条切分技术、web页面的全文搜索技术进行了论述。该系统基于B/S模式架构,用Java技术进行开发,同时在安全性、可移植性和准确性方... 自动答疑系统是当前信息化教育发展的热点。该文对自动答疑系统的关键技术:初始领域知识库的构建、汉语词条切分技术、web页面的全文搜索技术进行了论述。该系统基于B/S模式架构,用Java技术进行开发,同时在安全性、可移植性和准确性方面做了充分考虑,测试结果表明能满足实用要求。 展开更多
关键词 自动答疑系统 可移植性 WEB页面 领域知识库 架构 B/S模式 JAVA技术 信息化教育 构建 要求
下载PDF
越南语分词词典半监督集成构建算法
16
作者 刘伍颖 王琳 《郑州大学学报(理学版)》 CAS 北大核心 2018年第1期60-65,共6页
针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预... 针对越南语分词词典构建问题,提出了一种新的半监督集成构建方法.该方法能够结合人工干预,从大规模未标注越南语语料中识别多音节单词.首先设计了一种n元音节词产生器,并生成尽可能多的候选多音节词;其次通过3种统计特征的计算并根据预设阈值实现了相应的单词提取器,接着越南语专家检测并修正3个单独的词典;最后词典合成器合并这几个提取出的词典形成一个集成词典.采用直接实验和间接实验来评估这些词典的效力,实验结果表明,所提出的半监督集成构建方法是有效的,而且采用这些动态提取词典的两种越南语分词算法都能够达到理想的性能. 展开更多
关键词 半监督集成构建 分词词典 多音节词 n元音节词 越南语
下载PDF
基于启发式信息的中文姓名识别方法
17
作者 朱江涛 蔡东风 +1 位作者 吕德新 周俏丽 《沈阳航空工业学院学报》 2006年第3期35-37,共3页
提出了一种以姓氏和互信息作为启发式信息探测潜在姓名,对上下文进行局部全切分,最后利用隐马尔科夫模型为工具识别姓名的新方法。本方法将姓名识别,汉语分词,词性标注结合为一体,总体上提高了姓名识别的性能,一定程度上解决了分词错误... 提出了一种以姓氏和互信息作为启发式信息探测潜在姓名,对上下文进行局部全切分,最后利用隐马尔科夫模型为工具识别姓名的新方法。本方法将姓名识别,汉语分词,词性标注结合为一体,总体上提高了姓名识别的性能,一定程度上解决了分词错误对姓名识别带来的影响。实验结果表明本文提出的方法是有效的。 展开更多
关键词 姓名识别 自动分词 词性标注 互信息 全切分 隐马尔可夫模型
下载PDF
从自动分词角度看先秦与现代汉语词汇区别 被引量:1
18
作者 徐紫云 徐雪松 《华东交通大学学报》 2009年第6期101-104,共4页
自动分词是古今汉语信息化所面临的共同课题。但古今汉语存在较大区别,现代汉语分词方法难以直接应用于古代汉语分词。为更好地借鉴现代汉语分词方法,探索符合先秦汉语的分词方法,从语言开放度、语言发展的表现及阶段、复音词的分布及... 自动分词是古今汉语信息化所面临的共同课题。但古今汉语存在较大区别,现代汉语分词方法难以直接应用于古代汉语分词。为更好地借鉴现代汉语分词方法,探索符合先秦汉语的分词方法,从语言开放度、语言发展的表现及阶段、复音词的分布及构成、高频词的分布四个方面对先秦汉语与现代汉语的词汇进行了比较。发现先秦汉语既有区别于现代汉语的分词难点,又有独特的分词优势。 展开更多
关键词 自动分词 先秦汉语 现代汉语 词汇 比较
下载PDF
Effective Analysis of Chinese Word-Segmentation Accuracy
19
作者 MA Weiyin 《现代电子技术》 2007年第4期108-110,共3页
Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidate... Automatic word-segmentation is widely used in the ambiguity cancellation when processing large-scale real text,but during the process of unknown word detection in Chinese word segmentation,many detected word candidates are invalid.These false unknown word candidates deteriorate the overall segmentation accuracy,as it will affect the segmentation accuracy of known words.In this paper,we propose several methods for reducing the difficulties and improving the accuracy of the word-segmentation of written Chinese,such as full segmentation of a sentence,processing the duplicative word,idioms and statistical identification for unknown words.A simulation shows the feasibility of our proposed methods in improving the accuracy of word-segmentation of Chinese. 展开更多
关键词 中文信息处理 汉字处理 自动分割 效率分析
下载PDF
基于层叠隐马模型的汉语词法分析 被引量:198
20
作者 刘群 张华平 +1 位作者 俞鸿魁 程学旗 《计算机研究与发展》 EI CSCD 北大核心 2004年第8期1421-1429,共9页
提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 ... 提出了一种基于层叠隐马模型的汉语词法分析方法 ,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中 在分词方面 ,采取的是基于类的隐马模型 ,在这层隐马模型中 ,未登录词和词典中收录的普通词一样处理 未登录词识别引入了角色HMM :Viterbi算法标注出全局最优的角色序列 ,然后在角色序列的基础上 ,识别出未登录词 ,并计算出真实的可信度 在切分排歧方面 ,提出了一种基于N 最短路径的策略 ,即 :在早期阶段召回N个最佳结果作为候选集 ,目的是覆盖尽可能多的歧义字段 ,最终的结果会在未登录词识别和词性标注之后 ,从N个最有潜力的候选结果中选优得到 不同层面的实验表明 ,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用 实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS ,该系统在 2 0 0 2年的“九七三”专家组评测中获得第 1名 ,在 2 0 0 3年汉语特别兴趣研究组 (ACLSpecialInterestGrouponChineseLanguageProcessing ,SIGHAN)组织的第 1届国际汉语分词大赛中综合得分获得两项第 1名、一项第 2名 这表明 :ICTCLAS是目前最好的汉语词法分析系统之一 。 展开更多
关键词 汉语词法分析 分词 词性标注 未登录词识别 层叠隐马模型 ICTCLAS
下载PDF
上一页 1 2 60 下一页 到第
使用帮助 返回顶部