期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
46
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于语义网计算英语词语相似度
被引量:
41
1
作者
荀恩东
颜伟
《情报学报》
CSSCI
北大核心
2006年第1期43-48,共6页
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense expl...
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。
展开更多
关键词
WORDNET
词语相似度
下载PDF
职称材料
汉语篇章广义话题结构的流水模型
被引量:
45
2
作者
宋柔
《中国语文》
CSSCI
北大核心
2013年第6期483-494,575,共12页
本文面向语言工程的需求研究汉语篇章的话题结构。本文的工作以标点句为基本单位,提出广义话题结构的概念和表示方法,归纳出广义话题结构遵从的堆栈模型并拓展为流水模型,指出广义话题结构的两个重要性质:话题的不可穿越性和话题自足句...
本文面向语言工程的需求研究汉语篇章的话题结构。本文的工作以标点句为基本单位,提出广义话题结构的概念和表示方法,归纳出广义话题结构遵从的堆栈模型并拓展为流水模型,指出广义话题结构的两个重要性质:话题的不可穿越性和话题自足句的成句性。广义话题结构的分析对于说汉语者具有可操作性,流水模型对于汉语文本有高覆盖率,数十万字多种语体文本的广义话题结构标注已经初步完成。这些事实说明,广义话题结构确实是理论上和应用上有本质意义的汉语篇章结构单位。
展开更多
关键词
标点句
广义话题结构
话题自足句
堆栈模型
流水模型
原文传递
汉语国际教育信息化的发展与展望
被引量:
35
3
作者
卢达威
洪炜
《语言教学与研究》
CSSCI
北大核心
2013年第6期23-31,共9页
本文讨论的汉语国际教育信息化不仅包括传统意义上的计算机辅助汉语课堂教学和多媒体教学资源开发,还包括各种汉语学习、汉语传播平台及辅助汉语教学研究的各类数字化资源建设。我们将汉语国际教育信息化发展划分为起步、全面发展、国...
本文讨论的汉语国际教育信息化不仅包括传统意义上的计算机辅助汉语课堂教学和多媒体教学资源开发,还包括各种汉语学习、汉语传播平台及辅助汉语教学研究的各类数字化资源建设。我们将汉语国际教育信息化发展划分为起步、全面发展、国际传播三个阶段,详述了国际汉语信息化从无到有,从小到大,从内到外的发展过程,并阐述了信息化在汉语国际教育学科建设和汉语国际教育事业传播中的作用。文章最后指出当前信息化存在的不足,并提出了今后发展的建议。
展开更多
关键词
汉语国际教育
信息化
教育技术
发展阶段
展望
原文传递
国外自动作文评分技术研究
被引量:
34
4
作者
葛诗利
陈潇潇
《外语电化教学》
CSSCI
2007年第5期25-29,共5页
写作是英语测试中的重要部分,也是提高英语水平的重要手段;但是作文批改需要大量人力、物力,又难以避免其主观性本质。基于统计、自然语言处理以及人工智能技术的自动作文评分给这一问题的解决带来了希望。本文综述国外主流自动作文...
写作是英语测试中的重要部分,也是提高英语水平的重要手段;但是作文批改需要大量人力、物力,又难以避免其主观性本质。基于统计、自然语言处理以及人工智能技术的自动作文评分给这一问题的解决带来了希望。本文综述国外主流自动作文评分技术,探讨其应用于中国英语学习者作文评分的前景。
展开更多
关键词
中国英语学习者
英语作文
自动评分技术
自然语言处理
原文传递
一种基于可信度的人名识别方法
被引量:
20
5
作者
罗智勇
宋柔
《中文信息学报》
CSCD
北大核心
2005年第3期67-72,86,共7页
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了...
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。
展开更多
关键词
计算机应用
中文信息处理
自动分词
人名识别
统计方法
可信度
下载PDF
职称材料
现代汉语跨标点句句法关系的性质研究
被引量:
27
6
作者
宋柔
《世界汉语教学》
CSSCI
北大核心
2008年第2期26-44,共19页
汉语小句句首成分缺失的现象十分常见,一般作为篇章分析中的零形回指问题去研究,本文则更换角度,看作跨越标点的句法关系问题。本文的工作包括:提出现代汉语中标点句和跨标点句的句法关系的概念,设计了表示跨标点句句法关系的换行...
汉语小句句首成分缺失的现象十分常见,一般作为篇章分析中的零形回指问题去研究,本文则更换角度,看作跨越标点的句法关系问题。本文的工作包括:提出现代汉语中标点句和跨标点句的句法关系的概念,设计了表示跨标点句句法关系的换行缩进的直观表示方法,揭示了跨标点句句法关系的性质,包括句法关系类型的搭配条件、栈式结构规律以及栈式结构进退的限度。
展开更多
关键词
标点句
句法关系
共享成分
栈形结构
原文传递
信息检索用户查询语句的停用词过滤
被引量:
16
7
作者
熊文新
宋柔
《计算机工程》
CAS
CSCD
北大核心
2007年第6期195-197,共3页
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选...
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。
展开更多
关键词
用户查询
停用词
构造
识别
下载PDF
职称材料
一个基于语境框架的文本特征提取算法
被引量:
15
8
作者
晋耀红
苗传江
《计算机研究与发展》
EI
CSCD
北大核心
2004年第4期582-586,共5页
介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语...
介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语义入手 ,实现了 4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断 算法可以有效地处理语言中的褒贬倾向、同义、多义等现象 。
展开更多
关键词
文本特征提取
语境框架模型
领域
情景
背景
领域句类
对象语义立场网络
褒贬
下载PDF
职称材料
基于半监督CRF的跨领域中文分词
被引量:
19
9
作者
邓丽萍
罗智勇
《中文信息学报》
CSCD
北大核心
2017年第4期9-19,共11页
中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分...
中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法 OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。
展开更多
关键词
跨领域
中文分词
半监督CRF
下载PDF
职称材料
基于多特征的自适应新词识别
被引量:
14
10
作者
罗智勇
宋柔
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2007年第7期718-725,共8页
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统...
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.
展开更多
关键词
自然语言处理系统
计算语言学
词语处理
新词识别
多特征
自适应
自动分词
下载PDF
职称材料
基于统计语言模型的英语易读性研究
被引量:
12
11
作者
邢富坤
程东元
《解放军外国语学院学报》
CSSCI
北大核心
2010年第6期19-24,共6页
英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,...
英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,并取得了较好的应用效果。本文在回顾易读性研究历史的基础上,重点介绍当前基于统计语言模型的英语易读性研究的最新进展情况,并对这种研究方法进行评析,指出今后的努力方向,以期能够更深入地开展易读性研究,不断提高易读性研究水平。
展开更多
关键词
统计语言模型
易读性
语料库
自然语言处理
下载PDF
职称材料
采用术语定义模式和多特征的新术语及定义识别方法
被引量:
12
12
作者
荀恩东
李晟
《计算机研究与发展》
EI
CSCD
北大核心
2009年第1期62-69,共8页
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中...
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%.
展开更多
关键词
信息抽取
术语定义模式
统计语言学模型
支持向量机
句子隶属度
下载PDF
职称材料
一种基于Hownet的词向量表示方法
被引量:
11
13
作者
陈洋
罗智勇
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2019年第1期22-28,共7页
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后...
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后,根据Hownet中词语与义原之间的定义关系,将词语向量表示视为相关义原所张成的子空间中的投影,并提出学习词向量表示的深度神经网络模型。实验表明,基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。
展开更多
关键词
词向量表示
HOWNET
词语相似性计算
词义消岐
下载PDF
职称材料
从广义话题结构考察汉语篇章话题认知复杂度
被引量:
10
14
作者
卢达威
宋柔
尚英
《中文信息学报》
CSCD
北大核心
2014年第5期112-124,共13页
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题...
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。
展开更多
关键词
广义话题结构
认知机
认知复杂度
标点句
话题自足句
汉语篇章
下载PDF
职称材料
术语定义提取研究
被引量:
8
15
作者
张榕
宋柔
《术语标准化与信息技术》
2006年第1期29-32,共4页
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好...
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好的效果,有效地解决了术语定义的提取问题。
展开更多
关键词
术语
定义
提取
智能匹配
下载PDF
职称材料
计算语言学——一门新兴的交叉学科
被引量:
5
16
作者
雒自清
张雪荣
苗传江
《科学学研究》
CSSCI
北大核心
2003年第z1期46-50,共5页
计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的交叉学科,虽然只有短短几十年的发展历程,却有着越来越广阔的应用前景,成为信息时代不可缺少的一门重要学科。本文详细阐述了计算语言学的发展历史、学科性...
计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的交叉学科,虽然只有短短几十年的发展历程,却有着越来越广阔的应用前景,成为信息时代不可缺少的一门重要学科。本文详细阐述了计算语言学的发展历史、学科性质、学科定位、研究内容及研究方法;对当前研究的难点课题也进行了探讨,并提出了建议。
展开更多
关键词
计算语言学
交叉学科
下载PDF
职称材料
基于“固结词串”实例的中文分词研究
被引量:
5
17
作者
修驰
宋柔
《中文信息学报》
CSCD
北大核心
2012年第3期59-64,共6页
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基...
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
展开更多
关键词
中文分词
CRF
固结词串
分词歧义
机器学习
下载PDF
职称材料
基于最大熵模型的汉语标点句缺失话题自动识别初探
被引量:
4
18
作者
卢达威
宋柔
《计算机工程与科学》
CSCD
北大核心
2015年第12期2282-2293,共12页
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的...
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。
展开更多
关键词
广义话题结构
新支话题
自动识别
最大熵模型
下载PDF
职称材料
否定词跨标点句管辖的判断
被引量:
3
19
作者
张瑞朋
宋柔
《中文信息学报》
CSCD
北大核心
2007年第5期131-135,共5页
现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句...
现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。
展开更多
关键词
计算机应用
中文信息处理
否定词
标点句
管辖
共享
下载PDF
职称材料
广义话题结构理论视角下话题自足句成句性研究
被引量:
4
20
作者
尚英
宋柔
卢达威
《中文信息学报》
CSCD
北大核心
2014年第6期107-113,136,共8页
话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行...
话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。
展开更多
关键词
广义话题结构
话题自足句
成句性
下载PDF
职称材料
题名
基于语义网计算英语词语相似度
被引量:
41
1
作者
荀恩东
颜伟
机构
北京
语言
大学
语言
信息处理
研究所
出处
《情报学报》
CSSCI
北大核心
2006年第1期43-48,共6页
文摘
本文介绍一种基于WordNet的计算英语词语相似度的实现方法:从WordNet中提取同义词并采取向量空间方法计算英语词语的相似度。向量包括三方面:(1)WordNet的同义词词集(Synset),(2)类属信息(Class),(3)意义解释(sense explanation)。实验结果表明,这是计算英语词语相似度的一种可行的方法。
关键词
WORDNET
词语相似度
Keywords
WordNet, word similarity.
分类号
H313 [语言文字—英语]
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
汉语篇章广义话题结构的流水模型
被引量:
45
2
作者
宋柔
机构
北京
语言
大学
语言
信息处理
研究所
出处
《中国语文》
CSSCI
北大核心
2013年第6期483-494,575,共12页
基金
国家自然科学基金(61171129)的资助
国家自然科学基金(69273042
+1 种基金
60872121)
北京市自然科学基金(4922003)的资助
文摘
本文面向语言工程的需求研究汉语篇章的话题结构。本文的工作以标点句为基本单位,提出广义话题结构的概念和表示方法,归纳出广义话题结构遵从的堆栈模型并拓展为流水模型,指出广义话题结构的两个重要性质:话题的不可穿越性和话题自足句的成句性。广义话题结构的分析对于说汉语者具有可操作性,流水模型对于汉语文本有高覆盖率,数十万字多种语体文本的广义话题结构标注已经初步完成。这些事实说明,广义话题结构确实是理论上和应用上有本质意义的汉语篇章结构单位。
关键词
标点句
广义话题结构
话题自足句
堆栈模型
流水模型
Keywords
Punctuation Clause
Generalized Topic Structure
Topic Sufficient Sentence
stack model
stream model
分类号
H15 [语言文字—汉语]
原文传递
题名
汉语国际教育信息化的发展与展望
被引量:
35
3
作者
卢达威
洪炜
机构
北京
语言
大学
语言
信息处理
研究所
中山
大学
国际汉语学院
中山
大学
国际汉语教材研发与培训基地
出处
《语言教学与研究》
CSSCI
北大核心
2013年第6期23-31,共9页
文摘
本文讨论的汉语国际教育信息化不仅包括传统意义上的计算机辅助汉语课堂教学和多媒体教学资源开发,还包括各种汉语学习、汉语传播平台及辅助汉语教学研究的各类数字化资源建设。我们将汉语国际教育信息化发展划分为起步、全面发展、国际传播三个阶段,详述了国际汉语信息化从无到有,从小到大,从内到外的发展过程,并阐述了信息化在汉语国际教育学科建设和汉语国际教育事业传播中的作用。文章最后指出当前信息化存在的不足,并提出了今后发展的建议。
关键词
汉语国际教育
信息化
教育技术
发展阶段
展望
Keywords
international Chinese education informatization educational technology development prospect
分类号
H195 [语言文字—汉语]
原文传递
题名
国外自动作文评分技术研究
被引量:
34
4
作者
葛诗利
陈潇潇
机构
北京
语言
大学
语言
信息处理
研究所
广东金融学院外语系
出处
《外语电化教学》
CSSCI
2007年第5期25-29,共5页
文摘
写作是英语测试中的重要部分,也是提高英语水平的重要手段;但是作文批改需要大量人力、物力,又难以避免其主观性本质。基于统计、自然语言处理以及人工智能技术的自动作文评分给这一问题的解决带来了希望。本文综述国外主流自动作文评分技术,探讨其应用于中国英语学习者作文评分的前景。
关键词
中国英语学习者
英语作文
自动评分技术
自然语言处理
Keywords
Chinese EFL Learners
English Writing
Automated Essay Scoring
NLP
分类号
H319 [语言文字—英语]
原文传递
题名
一种基于可信度的人名识别方法
被引量:
20
5
作者
罗智勇
宋柔
机构
北京
工业
大学
北京
语言
大学
语言
信息处理
研究所
出处
《中文信息学报》
CSCD
北大核心
2005年第3期67-72,86,共7页
基金
国家自然科学基金资助项目 (6 0 2 72 0 5 5 )
国家 86 3计划资助项目 (2 0 0 1AA114 111)
教育部科学技术研究重点资助项目 (0 0 12 8)
文摘
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998年1月、2 0 0 0年12月(共约379万字)语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。
关键词
计算机应用
中文信息处理
自动分词
人名识别
统计方法
可信度
Keywords
computer application
Chinese information processing
word segmentation
recognition of person-names
statistical method
reliability
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
现代汉语跨标点句句法关系的性质研究
被引量:
27
6
作者
宋柔
机构
北京
语言
大学
语言
信息处理
研究所
出处
《世界汉语教学》
CSSCI
北大核心
2008年第2期26-44,共19页
基金
国家自然科学基金(60572159)的资助
文摘
汉语小句句首成分缺失的现象十分常见,一般作为篇章分析中的零形回指问题去研究,本文则更换角度,看作跨越标点的句法关系问题。本文的工作包括:提出现代汉语中标点句和跨标点句的句法关系的概念,设计了表示跨标点句句法关系的换行缩进的直观表示方法,揭示了跨标点句句法关系的性质,包括句法关系类型的搭配条件、栈式结构规律以及栈式结构进退的限度。
关键词
标点句
句法关系
共享成分
栈形结构
Keywords
punctuation clause, syntactic relation, shared component, stack structure
分类号
H19 [语言文字—汉语]
原文传递
题名
信息检索用户查询语句的停用词过滤
被引量:
16
7
作者
熊文新
宋柔
机构
北京
外国语
大学
中国外语教育
研究
中心
北京
语言
大学
语言
信息处理
研究所
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第6期195-197,共3页
基金
国家自然科学基金资助项目(60272055)
国家"863"计划基金资助项目(2001AA114111)
+1 种基金
教育部科学技术研究资助重点项目(00128)
教育部人文社会科学重点研究基地资助重大项目(02JAZJD740007)
文摘
针对以自然语言形式提出的查询请求,区分信息需求表述和信息内容两部分。基于近20万语句的查询语料库和背景语料人民日报对照,提出汉语通用停用词和查询专用的相对停用词,采用左右熵和Ngram方法及KL距离脱机构造相应候选词表。根据候选词语的Bigram属性和句中不同位置的分布特点,给出了在线动态识别停用词的方法。实验结果表明,该文的方法比单纯根据静态停用词表标注效果要好。
关键词
用户查询
停用词
构造
识别
Keywords
Users request
Stop word
Building
Identification
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一个基于语境框架的文本特征提取算法
被引量:
15
8
作者
晋耀红
苗传江
机构
中国科学院声学
研究所
北京
语言
大学
语言
信息处理
研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第4期582-586,共5页
基金
国家"九七三"重点基础研究发展规划基金项目 (G19980 3 0 5 0 6)
文摘
介绍了一种新的文本语义形式化模型———语境框架 语境框架是一个三维的语义描述 ,它把文本内容抽象成领域(静态范畴 )、情景 (动态描述 )、背景 (褒贬、参照等 ) 3个框架 在语境框架的基础上 ,设计实现了文本特征提取算法 算法从语义入手 ,实现了 4元组表示的领域提取算法、以领域句类为核心的情景提取算法和以对象语义立场网络图为基础的褒贬判断 算法可以有效地处理语言中的褒贬倾向、同义、多义等现象 。
关键词
文本特征提取
语境框架模型
领域
情景
背景
领域句类
对象语义立场网络
褒贬
Keywords
text character extracting
context framework model
domain
situation
background
domain sentence category
object semantic stand net
commendatory and derogatory
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
TP391 [自动化与计算机技术—控制科学与工程]
下载PDF
职称材料
题名
基于半监督CRF的跨领域中文分词
被引量:
19
9
作者
邓丽萍
罗智勇
机构
北京
语言
大学
信息
科学学院
北京
语言
大学
语言
信息处理
研究所
出处
《中文信息学报》
CSCD
北大核心
2017年第4期9-19,共11页
基金
北京市哲学社会科学规划研究基地项目(13JDZHB005)
中央高校基本科研业务费专项资金(09YB09)
文摘
中文分词是中文信息处理领域的一项关键基础技术。随着中文信息处理应用的发展,专业领域中文分词需求日益增大。然而,现有可用于训练的标注语料多为通用领域(或新闻领域)语料,跨领域移植成为基于统计的中文分词系统的难点。在跨领域分词任务中,由于待分词文本与训练文本构词规则和特征分布差异较大,使得全监督统计学习方法难以获得较好的效果。该文在全监督CRF中引入最小熵正则化框架,提出半监督CRF分词模型,将基于通用领域标注文本的有指导训练和基于目标领域无标记文本的无指导训练相结合。同时,为了综合利用各分词方法的优点,该文将加词典的方法、加标注语料的方法和半监督CRF模型结合起来,提高分词系统的领域适应性。实验表明,半监督CRF较全监督CRF OOV召回率提高了3.2个百分点,F-值提高了1.1个百分点;将多种方法混合使用的分词系统相对于单独在CRF模型中添加标注语料的方法 OOV召回率提高了2.9个百分点,F-值提高了2.5个百分点。
关键词
跨领域
中文分词
半监督CRF
Keywords
cross domain
Chinese word segmentation
semi-supervised conditional random field
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于多特征的自适应新词识别
被引量:
14
10
作者
罗智勇
宋柔
机构
北京
工业
大学
计算机学院
北京
语言
大学
语言
信息处理
研究所
出处
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2007年第7期718-725,共8页
基金
国家自然科学基金(60272055
60572159)
+2 种基金
国家'八六三'计划资助项目(2001AA114111)
教育部科学技术研究重点项目(00128
107017).
文摘
为提高自动分词系统对未登录词的识别性能,提出和实现了一种基于多特征的自适应新词识别方法,综合考虑了被处理文本中重复字符串的上下文统计特征(上下文熵)、内部耦合特征(似然比)、背景语料库对比特征(相关频率比值)以及自动分词系统辅助的边界确认信息等,并直接从被抽取文本中自动训练识別模型.同时,新词识别过程在字串PAT-Array数据结构上进行,可以抽取任意长度的新词语.实验结果表明,该方法新词发现速度快、节省存储空间.
关键词
自然语言处理系统
计算语言学
词语处理
新词识别
多特征
自适应
自动分词
Keywords
natural language processing system
computational linguistics
word processing
new word identification
multi-features
adaptation
word segmentation
分类号
TP391.12 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于统计语言模型的英语易读性研究
被引量:
12
11
作者
邢富坤
程东元
机构
解放军外国语学院基础部
北京
语言
大学
语言
信息处理
研究所
出处
《解放军外国语学院学报》
CSSCI
北大核心
2010年第6期19-24,共6页
文摘
英语易读性研究有着悠久的历史,其研究成果在英语教学及研究中发挥着重要作用。近年来,随着统计自然语言处理技术的快速发展,英语易读性研究逐渐摆脱了过去单纯依靠测量词长、句长等因素的局限,开始从建立统计语言模型的角度进行探索,并取得了较好的应用效果。本文在回顾易读性研究历史的基础上,重点介绍当前基于统计语言模型的英语易读性研究的最新进展情况,并对这种研究方法进行评析,指出今后的努力方向,以期能够更深入地开展易读性研究,不断提高易读性研究水平。
关键词
统计语言模型
易读性
语料库
自然语言处理
分类号
H319.3 [语言文字—英语]
下载PDF
职称材料
题名
采用术语定义模式和多特征的新术语及定义识别方法
被引量:
12
12
作者
荀恩东
李晟
机构
北京
语言
大学
语言
信息处理
研究所
出处
《计算机研究与发展》
EI
CSCD
北大核心
2009年第1期62-69,共8页
基金
国家"八六三"高技术研究发展计划基金项目(2006AA010101)
国家自然科学基金项目(60572158)~~
文摘
新术语及其定义抽取是信息抽取的重要研究内容之一.研究结果表明,在科技文献中,一个新术语往往伴随其定义出现,通过考察,在真实文本中,术语定义存在显著的语言表述特征,从大规模真实语料库中,通过考察术语定义构成的语言学模式、定义中词汇和术语周边的统计特征,提出了以术语定义的语言学模式(LPTD)作为待识别候选新术语集,同时考虑到有关新术语出现的上下文统计特征,用SVM分类器方法完成科技语料中新术语及其定义的识别.在大规模科技期刊上进行方法验证,开放性评测结果的精确率为90.5%、召回率达78.1%.
关键词
信息抽取
术语定义模式
统计语言学模型
支持向量机
句子隶属度
Keywords
information extraction
linguistic pattern of terminology definition
statistical language model
SVM classifiers membership degree of sentence
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于Hownet的词向量表示方法
被引量:
11
13
作者
陈洋
罗智勇
机构
北京
语言
大学
信息
科学学院
北京
语言
大学
语言
信息处理
研究所
出处
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2019年第1期22-28,共7页
文摘
针对基于预训练得到的词向量在低频词语表示质量和稳定性等方面存在的缺陷,提出一种基于Hownet的词向量表示方法(H-WRL)。首先,基于义原独立性假设,将Hownet中所有N个义原指定为欧式空间的一个标准正交基,实现Hownet义原向量初始化;然后,根据Hownet中词语与义原之间的定义关系,将词语向量表示视为相关义原所张成的子空间中的投影,并提出学习词向量表示的深度神经网络模型。实验表明,基于Hownet的词向量表示在词相似度计算和词义消歧两项标准评测任务中均取得很好的效果。
关键词
词向量表示
HOWNET
词语相似性计算
词义消岐
Keywords
word embedding
Hownet
word similarity computation
word sense disambiguation
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
从广义话题结构考察汉语篇章话题认知复杂度
被引量:
10
14
作者
卢达威
宋柔
尚英
机构
北京
语言
大学
语言
信息处理
研究所
北京
语言
大学
预科教育学院
出处
《中文信息学报》
CSCD
北大核心
2014年第5期112-124,共13页
基金
国家自然科学基金(61171129)
文摘
语言理解问题从认知的角度已有大量的研究,但针对汉语的研究却很少。由于认知实验操作复杂,不容易大规模复制,因此难以量化其结论的普遍性以及对语言事实的覆盖度。该文尝试模拟人补足汉语篇章片段中话题-说明信息的过程,建立广义话题结构认知机模型,并通过认知机对大规模汉语语料进行定量分析,考察汉语标点句的话题认知所需的记忆资源及认知局限性。用作统计特征量的广义话题结构特征有标点句的深度、话题结构内折返度、话题栈深度、话题栈折返度、搁置区使用量。统计数据可从认知行为的视角得到合理解释。该文一方面揭示了说汉语者的话题认知能力的表现和局限性,另一方面又说明了广义话题结构认知机是话题认知的合理模型。
关键词
广义话题结构
认知机
认知复杂度
标点句
话题自足句
汉语篇章
Keywords
generalized topic structure
cognition
cognitive complexity
punctuation clause
topic sufficient sen- tence
chinese text
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
术语定义提取研究
被引量:
8
15
作者
张榕
宋柔
机构
北京
语言
大学
语言
信息处理
研究所
出处
《术语标准化与信息技术》
2006年第1期29-32,共4页
文摘
本文的术语定义抽取,在分析术语定义的语言学特征,进行硬匹配的基础上,通过将术语定义用词与人民日报用词进行对比,给出了词语和句子的定义隶属度这一概念,并且与向量空间模型有效结合起来,提出了一种术语智能匹配算法。实验取得了较好的效果,有效地解决了术语定义的提取问题。
关键词
术语
定义
提取
智能匹配
Keywords
term, definition, extraction, soft match
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP391.41 [自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
计算语言学——一门新兴的交叉学科
被引量:
5
16
作者
雒自清
张雪荣
苗传江
机构
中国科学院声学
所
日本富山
大学
人文科学
研究
科
北京
语言
大学
语言
信息处理
研究所
出处
《科学学研究》
CSSCI
北大核心
2003年第z1期46-50,共5页
基金
国家重点基础研究发展规划("973")项目(G1998030506)
文摘
计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的交叉学科,虽然只有短短几十年的发展历程,却有着越来越广阔的应用前景,成为信息时代不可缺少的一门重要学科。本文详细阐述了计算语言学的发展历史、学科性质、学科定位、研究内容及研究方法;对当前研究的难点课题也进行了探讨,并提出了建议。
关键词
计算语言学
交叉学科
Keywords
computational linguistics
interdisciplinarity
分类号
F740.35 [经济管理—国际贸易]
下载PDF
职称材料
题名
基于“固结词串”实例的中文分词研究
被引量:
5
17
作者
修驰
宋柔
机构
北京
工业
大学
计算机学院
北京
语言
大学
语言
信息处理
研究所
出处
《中文信息学报》
CSCD
北大核心
2012年第3期59-64,共6页
基金
国家自然科学基金资助项目(60872121)
文摘
近几年的中文分词研究中,基于条件随机场(CRF)模型的中文分词方法得到了广泛的关注。但是这种分词方法在处理歧义切分方面存在一定的问题。CRF虽然可以消除大部分原有的分词歧义,却会带来更多新的错误切分。该文尝试找到一种简单的、基于"固结词串"实例的机器学习方法解决分词歧义问题。实验结果表明,该方法可以简单有效的解决原有的分词歧义问题,并且不会产生更多新的歧义切分。
关键词
中文分词
CRF
固结词串
分词歧义
机器学习
Keywords
Chinese Word Segmentation(CWS)
CRF
stable string
ambiguity
machine learning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于最大熵模型的汉语标点句缺失话题自动识别初探
被引量:
4
18
作者
卢达威
宋柔
机构
北京
大学
中国
语言
文学系
北京
语言
大学
语言
信息处理
研究所
出处
《计算机工程与科学》
CSCD
北大核心
2015年第12期2282-2293,共12页
基金
国家自然科学基金资助项目(61171129)
国家973计划资助项目(2014CB340502)
文摘
本文的任务是判别标点句缺失话题是上句的主语还是宾语,将该任务作为标点句缺失话题自动识别研究的切入点。首先归纳了判别这一任务的一系列字面特征和语义特征,然后结合规则和最大熵模型,进行自动判别实验。结果显示,对特定类别动词的实验F值达到82%。对实验结果的分析说明,动词特征和语义特征对判别该任务的作用最大,规则方法和统计方法在判别任务中不能偏废,精细化的知识对判别的性能有重要影响。
关键词
广义话题结构
新支话题
自动识别
最大熵模型
Keywords
generalized topic structure
new branch topic
automatic recognition
maximum entropy model
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
否定词跨标点句管辖的判断
被引量:
3
19
作者
张瑞朋
宋柔
机构
北京
语言
大学
语言
信息处理
研究所
出处
《中文信息学报》
CSCD
北大核心
2007年第5期131-135,共5页
基金
国家自然科学基金资助项目(60572159)
文摘
现代汉语中基本否定词"不"以及扩充词"从不"、"很不"、"不能"、"不会"等的否定辖域受到学术界重视,但前人研究一般局限于句内,且主要局限于基本否定词,其实否定辖域也涉及多个标点句,否定词的管辖判断也涉及到扩充的否定词。跨标否定词跨标点句管辖的判断和否定词共享问题是整个跨标点句句法共享问题的一个重要组成部分。本文从形式上找到了一些否定词跨标点句的共享规律,即着重从形式角度讨论了否定词跨标点句的辖域问题,对现代汉语长句句法分析有重要作用,并对汉外机器翻译有实用价值。
关键词
计算机应用
中文信息处理
否定词
标点句
管辖
共享
Keywords
computer application
Chinese information processing
negation scope
negator
compound sentence parsing
machine translation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
广义话题结构理论视角下话题自足句成句性研究
被引量:
4
20
作者
尚英
宋柔
卢达威
机构
北京
语言
大学
预科教育学院
北京
语言
大学
语言
信息处理
研究所
出处
《中文信息学报》
CSCD
北大核心
2014年第6期107-113,136,共8页
基金
国家自然科学基金(61171129)
北京语言大学校级科研项目(中央高校基本科研业务专项资金资助)(13YBG30)
文摘
话题自足句是在广义话题结构理论的基础上定义的。话题自足句的成句性是广义话题结构的重要性质之一。该文在38万字不同语体的广义话题结构语料库中对话题自足句的成句性进行了实证性调查,发现有少量话题自足句不成句,对不成句现象进行了分析、分类,并提出了使其成句的办法。这将进一步完善广义话题结构理论,并能提高使用话题自足句的应用系统的性能。
关键词
广义话题结构
话题自足句
成句性
Keywords
generalized topic structure,topic sufficient sentence, sentence-formability
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于语义网计算英语词语相似度
荀恩东
颜伟
《情报学报》
CSSCI
北大核心
2006
41
下载PDF
职称材料
2
汉语篇章广义话题结构的流水模型
宋柔
《中国语文》
CSSCI
北大核心
2013
45
原文传递
3
汉语国际教育信息化的发展与展望
卢达威
洪炜
《语言教学与研究》
CSSCI
北大核心
2013
35
原文传递
4
国外自动作文评分技术研究
葛诗利
陈潇潇
《外语电化教学》
CSSCI
2007
34
原文传递
5
一种基于可信度的人名识别方法
罗智勇
宋柔
《中文信息学报》
CSCD
北大核心
2005
20
下载PDF
职称材料
6
现代汉语跨标点句句法关系的性质研究
宋柔
《世界汉语教学》
CSSCI
北大核心
2008
27
原文传递
7
信息检索用户查询语句的停用词过滤
熊文新
宋柔
《计算机工程》
CAS
CSCD
北大核心
2007
16
下载PDF
职称材料
8
一个基于语境框架的文本特征提取算法
晋耀红
苗传江
《计算机研究与发展》
EI
CSCD
北大核心
2004
15
下载PDF
职称材料
9
基于半监督CRF的跨领域中文分词
邓丽萍
罗智勇
《中文信息学报》
CSCD
北大核心
2017
19
下载PDF
职称材料
10
基于多特征的自适应新词识别
罗智勇
宋柔
《北京工业大学学报》
EI
CAS
CSCD
北大核心
2007
14
下载PDF
职称材料
11
基于统计语言模型的英语易读性研究
邢富坤
程东元
《解放军外国语学院学报》
CSSCI
北大核心
2010
12
下载PDF
职称材料
12
采用术语定义模式和多特征的新术语及定义识别方法
荀恩东
李晟
《计算机研究与发展》
EI
CSCD
北大核心
2009
12
下载PDF
职称材料
13
一种基于Hownet的词向量表示方法
陈洋
罗智勇
《北京大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2019
11
下载PDF
职称材料
14
从广义话题结构考察汉语篇章话题认知复杂度
卢达威
宋柔
尚英
《中文信息学报》
CSCD
北大核心
2014
10
下载PDF
职称材料
15
术语定义提取研究
张榕
宋柔
《术语标准化与信息技术》
2006
8
下载PDF
职称材料
16
计算语言学——一门新兴的交叉学科
雒自清
张雪荣
苗传江
《科学学研究》
CSSCI
北大核心
2003
5
下载PDF
职称材料
17
基于“固结词串”实例的中文分词研究
修驰
宋柔
《中文信息学报》
CSCD
北大核心
2012
5
下载PDF
职称材料
18
基于最大熵模型的汉语标点句缺失话题自动识别初探
卢达威
宋柔
《计算机工程与科学》
CSCD
北大核心
2015
4
下载PDF
职称材料
19
否定词跨标点句管辖的判断
张瑞朋
宋柔
《中文信息学报》
CSCD
北大核心
2007
3
下载PDF
职称材料
20
广义话题结构理论视角下话题自足句成句性研究
尚英
宋柔
卢达威
《中文信息学报》
CSCD
北大核心
2014
4
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部