期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
字族化与汉语未登录词的自动提取 被引量:2
1
作者 宋作艳 《北京大学学报(哲学社会科学版)》 CSSCI 北大核心 2007年第2期102-110,共9页
字族是围绕一个核心字组成的所有字组的集合,字组之间具有平行关系。字族化是现代汉语词汇的重要生成途径之一,对汉语的编码机制产生了很大影响。文章探讨了字族的特点及字族化的影响,并在平行规则的基础上提出了新词(未登录词)的自动... 字族是围绕一个核心字组成的所有字组的集合,字组之间具有平行关系。字族化是现代汉语词汇的重要生成途径之一,对汉语的编码机制产生了很大影响。文章探讨了字族的特点及字族化的影响,并在平行规则的基础上提出了新词(未登录词)的自动预测和提取方法。 展开更多
关键词 字族化 类词缀 平行 周遍 未登录词
原文传递
数据库受限汉语自然语言查询的分词研究与实现 被引量:1
2
作者 胡婕 李跃新 《湖北大学学报(自然科学版)》 CAS 北大核心 2005年第4期331-335,共5页
对数据库受限汉语自然语言查询语句进行分词处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想是体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属... 对数据库受限汉语自然语言查询语句进行分词处理.分词算法分为两个部分,第一部分对最大匹配法进行改进,改进的核心思想是体现整句长词优先的原则,改进后的算法能够减少切分歧义;第二部分根据实例数据库的查询需要处理姓名和不稳定的属性值两类未登录词,未登录词的识别对后续句子的理解起着至关重要的作用. 展开更多
关键词 受限汉语自然语占 分词算法 最大匹配法 长词优先 术登录词
下载PDF
唐宋诗之计算机辅助深层研究 被引量:24
3
作者 胡俊峰 俞士汶 《北京大学学报(自然科学版)》 CAS CSCD 北大核心 2001年第5期727-733,共7页
介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗... 介绍了北大计算语言学研究所开发的“唐宋诗计算机辅助研究系统”。该系统以全唐诗(481万字 )和宋代部分名家诗 (16 0万字 )组成的语料库为基础 ,运用计算语言学方法对唐宋诗进行分析研究 ,提取了唐宋诗中的词汇 ,计 5万余条目。在对诗文进行词语切分的基础上 ,建立了词汇的共现关系、对仗关系以及词汇的作者分布特征信息。系统除了提供面向诗文内容的全文检索功能外 ,还进一步开发了基于词汇的统计分析和诗句相似性检索等功能 。 展开更多
关键词 语料库语言学 未登录词发现 自动注音 唐宋诗计算机辅助研究系统 计算语言学 汉语信息处理
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部