期刊文献+
共找到46篇文章
< 1 2 3 >
每页显示 20 50 100
基于语义网计算英语词语相似度 被引量:41
1
作者 荀恩东 颜伟 《情报学报》 CSSCI 北大核心 2006年第1期43-48,共6页
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense expl... 本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。 展开更多
关键词 WORDNET 词语相似度
下载PDF
汉语篇章广义话题结构的流水模型 被引量:45
2
作者 宋柔 《中国语文》 CSSCI 北大核心 2013年第6期483-494,575,共12页
本文面向语言工程的需求研究汉语篇章的话题结构。本文的工作以标点句为基本单位,提出广义话题结构的概念和表示方法,归纳出广义话题结构遵从的堆栈模型并拓展为流水模型,指出广义话题结构的两个重要性质:话题的不可穿越性和话题自足句... 本文面向语言工程的需求研究汉语篇章的话题结构。本文的工作以标点句为基本单位,提出广义话题结构的概念和表示方法,归纳出广义话题结构遵从的堆栈模型并拓展为流水模型,指出广义话题结构的两个重要性质:话题的不可穿越性和话题自足句的成句性。广义话题结构的分析对于说汉语者具有可操作性,流水模型对于汉语文本有高覆盖率,数十万字多种语体文本的广义话题结构标注已经初步完成。这些事实说明,广义话题结构确实是理论上和应用上有本质意义的汉语篇章结构单位。 展开更多
关键词 标点句 广义话题结构 话题自足句 堆栈模型 流水模型
原文传递
汉语国际教育信息化的发展与展望 被引量:35
3
作者 卢达威 洪炜 《语言教学与研究》 CSSCI 北大核心 2013年第6期23-31,共9页
本文讨论的汉语国际教育信息化不仅包括传统意义上的计算机辅助汉语课堂教学和多媒体教学资源开发,还包括各种汉语学习、汉语传播平台及辅助汉语教学研究的各类数字化资源建设。我们将汉语国际教育信息化发展划分为起步、全面发展、国... 本文讨论的汉语国际教育信息化不仅包括传统意义上的计算机辅助汉语课堂教学和多媒体教学资源开发,还包括各种汉语学习、汉语传播平台及辅助汉语教学研究的各类数字化资源建设。我们将汉语国际教育信息化发展划分为起步、全面发展、国际传播三个阶段,详述了国际汉语信息化从无到有,从小到大,从内到外的发展过程,并阐述了信息化在汉语国际教育学科建设和汉语国际教育事业传播中的作用。文章最后指出当前信息化存在的不足,并提出了今后发展的建议。 展开更多
关键词 汉语国际教育 信息化 教育技术 发展阶段 展望
原文传递
国外自动作文评分技术研究 被引量:34
4
作者 葛诗利 陈潇潇 《外语电化教学》 CSSCI 2007年第5期25-29,共5页
写作是英语测试中的重要部分,也是提高英语水平的重要手段;但是作文批改需要大量人力、物力,又难以避免其主观性本质。基于统计、自然语言处理以及人工智能技术的自动作文评分给这一问题的解决带来了希望。本文综述国外主流自动作文... 写作是英语测试中的重要部分,也是提高英语水平的重要手段;但是作文批改需要大量人力、物力,又难以避免其主观性本质。基于统计、自然语言处理以及人工智能技术的自动作文评分给这一问题的解决带来了希望。本文综述国外主流自动作文评分技术,探讨其应用于中国英语学习者作文评分的前景。 展开更多
关键词 中国英语学习者 英语作文 自动评分技术 自然语言处理
原文传递
一种基于可信度的人名识别方法 被引量:20
5
作者 罗智勇 宋柔 《中文信息学报》 CSCD 北大核心 2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了... 专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 展开更多
关键词 计算机应用 中文信息处理 自动分词 人名识别 统计方法 可信度
下载PDF
现代汉语跨标点句句法关系的性质研究 被引量:27
6
作者 宋柔 《世界汉语教学》 CSSCI 北大核心 2008年第2期26-44,共19页
汉语小句句首成分缺失的现象十分常见,一般作为篇章分析中的零形回指问题去研究,本文则更换角度,看作跨越标点的句法关系问题。本文的工作包括:提出现代汉语中标点句和跨标点句的句法关系的概念,设计了表示跨标点句句法关系的换行... 汉语小句句首成分缺失的现象十分常见,一般作为篇章分析中的零形回指问题去研究,本文则更换角度,看作跨越标点的句法关系问题。本文的工作包括:提出现代汉语中标点句和跨标点句的句法关系的概念,设计了表示跨标点句句法关系的换行缩进的直观表示方法,揭示了跨标点句句法关系的性质,包括句法关系类型的搭配条件、栈式结构规律以及栈式结构进退的限度。 展开更多
关键词 标点句 句法关系 共享成分 栈形结构
原文传递
信息检索用户查询语句的停用词过滤 被引量:16
7
作者 熊文新 宋柔 《计算机工程》 CAS CSCD 北大核心 2007年第6期195-197,共3页
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选... 针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。 展开更多
关键词 用户查询 停用词 构造 识别
下载PDF
一个基于语境框架的文本特征提取算法 被引量:15
8
作者 晋耀红 苗传江 《计算机研究与发展》 EI CSCD 北大核心 2004年第4期582-586,共5页
介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语... 介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语义入手 ,实现了 4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断 算法可以有效地处理语言中的褒贬倾向、同义、多义等现象 。 展开更多
关键词 文本特征提取 语境框架模型 领域 情景 背景 领域句类 对象语义立场网络 褒贬
下载PDF
基于半监督CRF的跨领域中文分词 被引量:19
9
作者 邓丽萍 罗智勇 《中文信息学报》 CSCD 北大核心 2017年第4期9-19,共11页
中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分... 中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法 OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。 展开更多
关键词 跨领域 中文分词 半监督CRF
下载PDF
基于多特征的自适应新词识别 被引量:14
10
作者 罗智勇 宋柔 《北京工业大学学报》 EI CAS CSCD 北大核心 2007年第7期718-725,共8页
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统... 为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间. 展开更多
关键词 自然语言处理系统 计算语言学 词语处理 新词识别 多特征 自适应 自动分词
下载PDF
基于统计语言模型的英语易读性研究 被引量:12
11
作者 邢富坤 程东元 《解放军外国语学院学报》 CSSCI 北大核心 2010年第6期19-24,共6页
英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,... 英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,并取得了较好的应用效果。本文在回顾易读性研究历史的基础上,重点介绍当前基于统计语言模型的英语易读性研究的最新进展情况,并对这种研究方法进行评析,指出今后的努力方向,以期能够更深入地开展易读性研究,不断提高易读性研究水平。 展开更多
关键词 统计语言模型 易读性 语料库 自然语言处理
下载PDF
采用术语定义模式和多特征的新术语及定义识别方法 被引量:12
12
作者 荀恩东 李晟 《计算机研究与发展》 EI CSCD 北大核心 2009年第1期62-69,共8页
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中... 新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%. 展开更多
关键词 信息抽取 术语定义模式 统计语言学模型 支持向量机 句子隶属度
下载PDF
一种基于Hownet的词向量表示方法 被引量:11
13
作者 陈洋 罗智勇 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第1期22-28,共7页
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后... 针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后,根据Hownet中词语与义原之间的定义关系,将词语向量表示视为相关义原所张成的子空间中的投影,并提出学习词向量表示的深度神经网络模型。实验表明,基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。 展开更多
关键词 词向量表示 HOWNET 词语相似性计算 词义消岐
下载PDF
从广义话题结构考察汉语篇章话题认知复杂度 被引量:10
14
作者 卢达威 宋柔 尚英 《中文信息学报》 CSCD 北大核心 2014年第5期112-124,共13页
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题... 语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。 展开更多
关键词 广义话题结构 认知机 认知复杂度 标点句 话题自足句 汉语篇章
下载PDF
术语定义提取研究 被引量:8
15
作者 张榕 宋柔 《术语标准化与信息技术》 2006年第1期29-32,共4页
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好... 本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好的效果,有效地解决了术语定义的提取问题。 展开更多
关键词 术语 定义 提取 智能匹配
下载PDF
计算语言学——一门新兴的交叉学科 被引量:5
16
作者 雒自清 张雪荣 苗传江 《科学学研究》 CSSCI 北大核心 2003年第z1期46-50,共5页
计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的交叉学科,虽然只有短短几十年的发展历程,却有着越来越广阔的应用前景,成为信息时代不可缺少的一门重要学科。本文详细阐述了计算语言学的发展历史、学科性... 计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的交叉学科,虽然只有短短几十年的发展历程,却有着越来越广阔的应用前景,成为信息时代不可缺少的一门重要学科。本文详细阐述了计算语言学的发展历史、学科性质、学科定位、研究内容及研究方法;对当前研究的难点课题也进行了探讨,并提出了建议。 展开更多
关键词 计算语言学 交叉学科
下载PDF
基于“固结词串”实例的中文分词研究 被引量:5
17
作者 修驰 宋柔 《中文信息学报》 CSCD 北大核心 2012年第3期59-64,共6页
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基... 近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。 展开更多
关键词 中文分词 CRF 固结词串 分词歧义 机器学习
下载PDF
基于最大熵模型的汉语标点句缺失话题自动识别初探 被引量:4
18
作者 卢达威 宋柔 《计算机工程与科学》 CSCD 北大核心 2015年第12期2282-2293,共12页
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的... 本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。 展开更多
关键词 广义话题结构 新支话题 自动识别 最大熵模型
下载PDF
否定词跨标点句管辖的判断 被引量:3
19
作者 张瑞朋 宋柔 《中文信息学报》 CSCD 北大核心 2007年第5期131-135,共5页
现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句... 现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。 展开更多
关键词 计算机应用 中文信息处理 否定词 标点句 管辖 共享
下载PDF
广义话题结构理论视角下话题自足句成句性研究 被引量:4
20
作者 尚英 宋柔 卢达威 《中文信息学报》 CSCD 北大核心 2014年第6期107-113,136,共8页
话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行... 话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。 展开更多
关键词 广义话题结构 话题自足句 成句性
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部