期刊文献+
共找到42篇文章
< 1 2 3 >
每页显示 20 50 100
面向Internet的中文新词语检测 被引量:59
1
作者 邹纲 刘洋 +4 位作者 刘群 孟遥 于浩 西野文人 亢世勇 《中文信息学报》 CSCD 北大核心 2004年第6期1-9,共9页
随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ... 随着社会的飞速发展 ,新词语不断地在日常生活中涌现出来。搜集和整理这些新词语 ,是中文信息处理中的一个重要研究课题。本文提出了一种自动检测新词语的方法 ,通过大规模地分析从Internet上采集而来的网页 ,建立巨大的词和字串的集合 ,从中自动检测新词语 ,而后再根据构词规则对自动检测的结果进行进一步的过滤 ,最终抽取出采集语料中存在的新词语。根据该方法实现的系统 ,可以寻找不限长度和不限领域的新词语 ,目前正应用于《现代汉语新词语信息 (电子 )词典》的编纂 ,在实用中大大的减轻了人工查找新词语的负担。 展开更多
关键词 计算机应用 中文信息处理 新词语 自动检测
下载PDF
手写体汉字识别中的一种新的特征提取方法——弹性网格方向分解特征 被引量:21
2
作者 金连文 徐秉铮 《电路与系统学报》 CSCD 1997年第3期7-12,共6页
本文研究手写体汉字识别中的一种新的特征提取方法—弹性网格方向分解特征,在该方法中,我们将手写体汉字进行横、竖、撇、捺四方向的分解,然后根据该汉字的笔划分布构造一组非均匀的弹性网格,将弹性网格分别作用于汉字的四方向分量... 本文研究手写体汉字识别中的一种新的特征提取方法—弹性网格方向分解特征,在该方法中,我们将手写体汉字进行横、竖、撇、捺四方向的分解,然后根据该汉字的笔划分布构造一组非均匀的弹性网格,将弹性网格分别作用于汉字的四方向分量上,统计汉字象素点在网格中的概率分布来作为特征。对1034类汉字共51700个手写体汉字样本的实验我们得到了9439%的识别率,表明该特征提取方法是十分可行和有效的。 展开更多
关键词 模式识别 中文信息处理 特征提取 弹性网格
下载PDF
中文信息处理研究现状分析 被引量:18
3
作者 宗成庆 《语言战略研究》 2016年第6期19-26,共8页
60多年来中文信息处理研究取得了令人瞩目的成就。但是,这一领域也面临问题和挑战。本文在对中文信息处理研究成就简要归纳的基础上,分析这一领域的技术现状,直面存在的问题,并对未来发展的方向提出一些看法。希望本文指出的问题能够引... 60多年来中文信息处理研究取得了令人瞩目的成就。但是,这一领域也面临问题和挑战。本文在对中文信息处理研究成就简要归纳的基础上,分析这一领域的技术现状,直面存在的问题,并对未来发展的方向提出一些看法。希望本文指出的问题能够引起中国国内同行的关注,为未来的中文信息处理研究提供有益的参考。 展开更多
关键词 中文信息处理 自然语言处理 自然语言理解 计算语言学
下载PDF
当代语言文字信息化建设的思考 被引量:11
4
作者 张挺 于桂英 魏晖 《语言文字应用》 CSSCI 北大核心 2010年第1期35-41,共7页
本文讨论了语言文字信息化工作的背景与意义,概要分析了国内本领域建设的现状,提出了"资源建设数字化,信息处理智能化,语文服务网络化"为重点的语言文字信息化建设战略,并重点阐述了信息化建设的整体战略框架和五个方面的具... 本文讨论了语言文字信息化工作的背景与意义,概要分析了国内本领域建设的现状,提出了"资源建设数字化,信息处理智能化,语文服务网络化"为重点的语言文字信息化建设战略,并重点阐述了信息化建设的整体战略框架和五个方面的具体建设措施。 展开更多
关键词 信息化 语言文字 语言规划 中文信息处理
下载PDF
中文分词技术综述 被引量:7
5
作者 周宏宇 张政 《安阳师范学院学报》 2010年第2期54-56,共3页
中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有... 中文分词是中文信息处理的基础,分词系统也是中文信息处理中的一个主要组成部分,对中文文本的分词处理目前已经应用到了中文自然语言理解、文献检索、搜索引擎以及文本挖掘系统等领域。本文对现有的中文分词技术进行了综述,分析了现有分词方法的技术特点,指出了部分分词方法存在的优缺点。 展开更多
关键词 分词 中文信息处理 分词方法
下载PDF
汉、英语义框架网络对比 被引量:8
6
作者 周领顺 《中国外语》 CSSCI 2009年第4期47-53,共7页
中文信息处理需要以庞大的语义知识库为依托,而正在研制的汉语框架网络CFN便是这样一项基础性的资源。汉语框架网络以框架语义学理论为指导,并以英语框架网络FN的实践为重要参考。本文针对中文信息处理应用目标的需要,通过英汉框架网络... 中文信息处理需要以庞大的语义知识库为依托,而正在研制的汉语框架网络CFN便是这样一项基础性的资源。汉语框架网络以框架语义学理论为指导,并以英语框架网络FN的实践为重要参考。本文针对中文信息处理应用目标的需要,通过英汉框架网络的比较,展示了CFN的研究思路。 展开更多
关键词 英语框架网络 汉语框架网络 中文信息处理
原文传递
知识的系统与知识系统的建构:知识本体语言科学整合研究 被引量:6
7
作者 黄居仁 李逸薇 《当代语言学》 CSSCI 北大核心 2013年第3期284-293,共10页
语意网络被形容为互联网的下一代,而它所需要的关键技术正是知识本体。本文概述知识本体的发展及其在语言处理中所扮演的重要角色,介绍知识本体和语言科学的跨学科研究,重点讨论知识本体如何解决中文语言处理在语意网络中所面临的挑战... 语意网络被形容为互联网的下一代,而它所需要的关键技术正是知识本体。本文概述知识本体的发展及其在语言处理中所扮演的重要角色,介绍知识本体和语言科学的跨学科研究,重点讨论知识本体如何解决中文语言处理在语意网络中所面临的挑战。本文还介绍了作者编审的"知识本体"专题中10篇论文的主要内容。 展开更多
关键词 语意网络 知识本体 中文语言处理
原文传递
一种复合式中文信息过滤机制
8
作者 杨波 胡俊华 李金屏 《小型微型计算机系统》 CSCD 北大核心 2003年第7期1256-1259,共4页
提出了一种复合式中文文本信息过滤机制 :首先利用关联知识库以及分析选择器对所需过滤的文本进行初次筛选以确定相关文本 ,然后利用语义分析器分析相关文本中的主题句 ,以判断文本的核心思想 .
关键词 中文信息处理 文本过滤 词频统计 语法分析
下载PDF
语言科学发展的新分支——自然语言处理 被引量:3
9
作者 邵泽国 《电子科技》 2013年第5期166-168,171,共4页
使计算机具有人的语言能力,这一愿望驱使语言科学与计算机科学相结合,继而产生了一门新的交叉学科。在不同的学科视角下对这一新学科有不同的定义和命名。文中从语言科学的视角观察这一新学科——自然语言处理,解析了自然语言处理的概念... 使计算机具有人的语言能力,这一愿望驱使语言科学与计算机科学相结合,继而产生了一门新的交叉学科。在不同的学科视角下对这一新学科有不同的定义和命名。文中从语言科学的视角观察这一新学科——自然语言处理,解析了自然语言处理的概念,介绍了自然语言处理的发展历程以及现状,着重讨论了自然语言处理的意义及方法。 展开更多
关键词 自然语言 汉语言处理 信息处理
下载PDF
关于汉语语言处理的若干理论思考
10
作者 王建琦 《华中师范大学学报(人文社会科学版)》 CSSCI 北大核心 2003年第3期103-107,共5页
汉语语法检查是汉语语言处理发展中的瓶颈,涉及汉语语言处理的各个方面,与汉字拼写检查、文本切分、词性标注、汉字输入、汉字编码等问题紧密相联。语义理解是语法检查及自然语言处理的制高点。新的发展趋势是研究者越来越注重语义在语... 汉语语法检查是汉语语言处理发展中的瓶颈,涉及汉语语言处理的各个方面,与汉字拼写检查、文本切分、词性标注、汉字输入、汉字编码等问题紧密相联。语义理解是语法检查及自然语言处理的制高点。新的发展趋势是研究者越来越注重语义在语言结构和语言表达上的制约作用,试图用统计大规模语料为手段来攻克难关。这种发展趋势对自然语言处理的冲击不在于研究命题的转移,而在于研究方法和论证手段的量化。在汉语的各种制约关系中,可能有一种超越已知句法语义关系的认知心理语法,它与特定历史时期内人们对物质世界和客观社会文化关系的理解相一致,有可能是自然语言处理的最后一个堡垒。 展开更多
关键词 汉语语言处理 语义 句法 语法检查 文本切分 计算机处理汉语
下载PDF
走向深度学习和多种技术融合的中文信息处理 被引量:2
11
作者 王璐璐 袁毓林 《苏州大学学报(哲学社会科学版)》 CSSCI 北大核心 2016年第4期160-167,192,共8页
在汉语的语音处理、文本处理、信息检索与挖掘以及机器翻译这几个方面,自然语言处理技术经历了从受限的基于规则的方法到大规模的基于统计的方法的转变,再到深度学习和多种技术融合的发展过程。进而,出于对资源共享、统一规划和评测标... 在汉语的语音处理、文本处理、信息检索与挖掘以及机器翻译这几个方面,自然语言处理技术经历了从受限的基于规则的方法到大规模的基于统计的方法的转变,再到深度学习和多种技术融合的发展过程。进而,出于对资源共享、统一规划和评测标准的重视,中文语言资源联盟等众包平台已经成为资源建设的重要支撑与发展方向。最后,中文信息处理要取得长足的发展,不仅要紧跟国内外的最新技术,还要结合汉语的特点,探索出具有独创性的中文信息处理的研究路线。 展开更多
关键词 中文信息处理 规则方法 统计方法 深度学习 语言资源建设
下载PDF
现代汉语整数数词短语系位结构研究--语言信息处理视角 被引量:1
12
作者 张永伟 《当代语言学》 CSSCI 北大核心 2017年第3期440-461,共22页
数词表示数量或顺序,是现代汉语的一个独立词类。系数词与位数词通过系位结构组成数词短语,是整数的重要组成部分。本文系统地分析了位数词的组成与分类,将位数词划分为小位数词、大位数词及连续位数词三类。基于上述划分,本文给出系位... 数词表示数量或顺序,是现代汉语的一个独立词类。系数词与位数词通过系位结构组成数词短语,是整数的重要组成部分。本文系统地分析了位数词的组成与分类,将位数词划分为小位数词、大位数词及连续位数词三类。基于上述划分,本文给出系位构造、系位组合、复杂系位组合的汉语整数数词短语语法规则,提出了汉语大整数数词短语的语法规则,完善了汉语数词系位结构理论。最后,借助汉语整数数词短语与阿拉伯数字的数学语义转换规则,对汉语整数数词短语的系位结构进行了系统的验证,解决了语言信息处理无法依据现有数词短语语法规则处理整数的问题。 展开更多
关键词 整数数词短语 连续位数词 系位结构 语言信息处理
原文传递
基于兴趣点简称的检索方法研究 被引量:1
13
作者 毛姝洁 张雪虎 《太原理工大学学报》 CAS 北大核心 2008年第S1期52-55,共4页
提出了一种基于统计方法和分词的匹配模型,该模型能够根据简称找出最可能的全称。这一模型由三个部分组成:针对不同类别的全称,对兴趣点全称进行分类,将全称划分成机构、公司、行业、区域和未知五类单词;把单词按照长度分为六类,然后在... 提出了一种基于统计方法和分词的匹配模型,该模型能够根据简称找出最可能的全称。这一模型由三个部分组成:针对不同类别的全称,对兴趣点全称进行分类,将全称划分成机构、公司、行业、区域和未知五类单词;把单词按照长度分为六类,然后在此基础上建立隐马尔可夫统计模型;在越频繁使用的全称越有可能产生简称的假设下,建立一个流行度统计模型。实验表明上述模型的首选准确率达到近85%,比现有搜索引擎的匹配能力有了显著的提高。 展开更多
关键词 简称 兴趣点名称匹配 中文信息处理 隐马尔科夫模型
下载PDF
基于字串切分统计词典的繁体中文拼写检错方法
14
作者 王勇 顾磊 《计算机应用研究》 CSCD 北大核心 2016年第5期1370-1373,1378,共5页
针对繁体中文拼写检错的问题进行了研究,提出一种基于字串切分统计词典的检错方法。利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。以SIGHAN7会议中文拼写校验... 针对繁体中文拼写检错的问题进行了研究,提出一种基于字串切分统计词典的检错方法。利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。以SIGHAN7会议中文拼写校验任务中用于检错评测的1 000句测试集作为实验测试集,并与此会议提交的结果进行比较,实验结果表明,与基于复杂语言模型的检错方法相比,该方法在实现简单的同时也有很好的检错效果,获得了较高的准确率和精确率以及较低的误报率。 展开更多
关键词 中文语言处理 繁体中文拼写检错 中文分词 字串切分 统计词典 混淆集
下载PDF
智能化中文机械分词组件的设计
15
作者 齐忠琪 《中国教育技术装备》 2009年第21期95-96,共2页
分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果。在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词... 分词是计算机系统对自然语言处理的第一步,分词的方法与准确率将显著影响自然语言的处理效果。在分析机械分词技术的基础上,提出构建智能化机械分词组件的思想,论述构建智能化中文分词组件的基本思路与方法,指出智能化中文机械分词组件在中文信息处理领域中的应用前景。 展开更多
关键词 中文处理 机械分词 组件设计
下载PDF
数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例 被引量:41
16
作者 李斌 王璐 +1 位作者 陈小荷 王东波 《大学图书馆学报》 CSSCI 北大核心 2020年第5期72-80,90,共10页
在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现... 在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现历史要素的定量分析与可视化。文章以古汉语自动分析技术为基础,结合人工标注和校对,以实体标注方法解决历史人物的同名异指和异名同指问题,对史学名著《左传》进行了词语切分、词性、时间、人物ID、地点GIS信息标注,进而实现了热点人物、人物关系网、人物游历轨迹与距离等量化统计与可视化,为古籍文本的内容标注、结构化人文知识库建设提供新的研究路径。最后,讨论了知识库进一步的完善方案与应用场景。 展开更多
关键词 数字人文 《左传》 实体标注 数据库 古文信息处理
下载PDF
汉语宾语关系从句加工优势——来自神经电生理学研究的证据 被引量:36
17
作者 张强 杨亦鸣 《语言科学》 CSSCI 北大核心 2010年第4期337-353,共17页
文章采用事件相关电位技术(ERP)考察了汉语主语位置的主语关系从句和宾语关系从句的加工过程,发现与英语等印欧系语言不同的是,汉语关系从句表现出宾语关系从句的加工优势,其原因是由于汉语与印欧系语言在关系从句和中心语相对位置上的... 文章采用事件相关电位技术(ERP)考察了汉语主语位置的主语关系从句和宾语关系从句的加工过程,发现与英语等印欧系语言不同的是,汉语关系从句表现出宾语关系从句的加工优势,其原因是由于汉语与印欧系语言在关系从句和中心语相对位置上的差异导致的;与一般自定步速阅读实验结果不同的是,本实验研究结果在关系从句的每个位置上和中心语位置都表现出差异,但在主句的动词和宾语位置上均没有差异;我们同时运用实验的结果对当前有关关系从句的优势解释进行了检查,发现基于指称距离的解释和基本语序的解释均能很好地预测汉语关系从句加工的优势,而基于句法语义角色转换的解释未能得到实验的支持。 展开更多
关键词 汉语 ERP 关系从句 宾语加工优势 认知加工机制
下载PDF
汉字键盘输入智能处理软件综述 被引量:20
18
作者 陈一凡 朱亮 《中文信息学报》 CSCD 北大核心 2003年第2期60-65,共6页
作为输入编码的后处理 ,各种类型输入软件智能化的共同目标是由软件来识别和选定上屏的重码字、词与缩短平均码长 ,并促使编码简单化和规范化。本文简要地论述了基于理解的智能输入、基于语用统计的智能输入、基于模板匹配的智能输入和... 作为输入编码的后处理 ,各种类型输入软件智能化的共同目标是由软件来识别和选定上屏的重码字、词与缩短平均码长 ,并促使编码简单化和规范化。本文简要地论述了基于理解的智能输入、基于语用统计的智能输入、基于模板匹配的智能输入和基于上下文关联的智能输入等四种类型的汉字键盘输入智能处理软件的原理、优点和有待解决的问题 ,并列举了每种类型的典型作品。 展开更多
关键词 计算机应用 中文信息处理 综述 自然语言理解 语用统计 模板匹配 上下文关联 后处理
下载PDF
基于词和实体标注的古籍数字人文知识库的构建与应用——以《资治通鉴·周秦汉纪》为例 被引量:15
19
作者 常博林 万晨 +3 位作者 李斌 陈欣雨 冯敏萱 王东波 《图书情报工作》 CSSCI 北大核心 2021年第22期134-142,共9页
[目的/意义]探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程]以《资治通鉴·周秦汉纪》为例,对68卷60万字的文本自动分词与词性标注之后,人工标注文本中的人物、地点GIS、时间等实体信息,实现基于词和... [目的/意义]探索能够实现基于词和实体的检索与知识挖掘的人文知识库构建方法。[方法/过程]以《资治通鉴·周秦汉纪》为例,对68卷60万字的文本自动分词与词性标注之后,人工标注文本中的人物、地点GIS、时间等实体信息,实现基于词和实体的全文检索和地图检索系统;利用同现信息,统计出人物关系与人物游历信息;进而使用TF-IDF方法,通过时间序列分析,挖掘出多事之秋、风云人物、风云之地等结果。[结果/结论]基于词和实体的深度信息标注,能够解决缺乏词界、同名异指和异名同指的检索难题,更可以为古籍多角度的知识发掘与知识服务提供基础支撑。 展开更多
关键词 《资治通鉴》 数字人文 知识挖掘 古籍检索 古文信息处理
原文传递
汉语理解处理中的动态词及其组合模式 被引量:2
20
作者 唐兴全 《语言文字应用》 CSSCI 北大核心 2010年第4期131-138,共8页
汉语的计算机理解处理过程中,需要对分词后的部分单字进行组合,并作为一个整体的语义单位来处理。我们将这一语义单位命名为动态词。本文给出了动态词的定义,分析了动态词组合模式的性质,指出了主要的两种动态词组合模式的类型,并罗列... 汉语的计算机理解处理过程中,需要对分词后的部分单字进行组合,并作为一个整体的语义单位来处理。我们将这一语义单位命名为动态词。本文给出了动态词的定义,分析了动态词组合模式的性质,指出了主要的两种动态词组合模式的类型,并罗列分析部分组合模式。最后,说明了动态词识别在句子的语义分析、词典编纂等方面的作用。 展开更多
关键词 意合模式 形合模式 组合模式 动态组合 汉语理解处理
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部