期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
汉语基本块描述体系 被引量:25
1
作者 周强 《中文信息学报》 CSCD 北大核心 2007年第3期21-27,共7页
块分析是自然语言处理研究中的重要技术,其处理基础是设计一套合理有效的块描述体系。本文在吸收和总结前人研究成果和经验的基础上,提出了一套基于拓扑结构的汉语基本块描述体系。它通过引入词汇关联信息确定基本拓扑结构,形成了很好... 块分析是自然语言处理研究中的重要技术,其处理基础是设计一套合理有效的块描述体系。本文在吸收和总结前人研究成果和经验的基础上,提出了一套基于拓扑结构的汉语基本块描述体系。它通过引入词汇关联信息确定基本拓扑结构,形成了很好的基本块内聚性判定准则,建立了句法形式与语义内容的有机联系桥梁。这套描述体系大大简化了从现有的句法树库TCT中自动提取基本块标注语料库和相关词汇关联知识库的处理过程,为进一步进行汉语基本块自动分析和词汇关联知识获取互动进化研究打下了很好的基础。 展开更多
关键词 计算机应用 中文信息处理 基本块 部分分析 语料库标注 词汇知识获取
下载PDF
汉语块分析评测任务设计 被引量:9
2
作者 周强 李玉梅 《中文信息学报》 CSCD 北大核心 2010年第1期123-128,共6页
该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务:基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了... 该文主要介绍了目前中文信息学会句法分析评测CIPS-ParsEval-2009中的三项块分析评测任务:基本块分析、功能块分析和事件描述小句识别的设计理念、判定标准和相关资源构建方法。然后给出了这三项目前的主要评测结果并对相关内容进行了简要分析。最后通过相关统计数据分析和国内外相关研究评述,总结了这三项评测任务的主要特色。 展开更多
关键词 计算机应用 中文信息处理 基本块 功能块 事件描述小句 块标注库
下载PDF
基于条件随机场的汉语框架语义角色自动标注 被引量:8
3
作者 宋毅君 王瑞波 +1 位作者 李济洪 李国臣 《中文信息学报》 CSCD 北大核心 2014年第3期36-47,共12页
在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华... 在给定目标词及其所属框架的条件下,汉语框架语义角色标注可以分为语义角色识别和角色分类两个步骤。该文将此任务通过IOB2标记策略形式化为词序列标注问题,以词为基本标注单元,采用条件随机场模型进行自动标注实验。先对语料使用清华大学的基本块自动分析器进行分析,提取出15个块层面的新特征,并将这些特征标记形式化到词序列上。以文献[20]已有的12个词层面特征以及15个块层面特征共同构成候选特征集,采用正交表方法来选择模型的最优特征模板。在与文献[20]相同的语料上,相同的3组2折交叉验证实验下,语义角色标注的总性能的F1-值比文献[20]的F1-值提高了近1%,且在显著水平0.05的t-检验下显著。实验结果表明:(1)基于词序列模型,新加入的15个块层面特征可以显著提高标注模型的性能,但这类特征主要对角色分类有显著作用,对角色识别作用不显著;(2)基于词序列的标注模型显著好于以基本块为标注单元以及以句法成分为标注单元的标注模型。 展开更多
关键词 汉语框架语义知识库 语义角色标注 条件随机场模型 基本块
下载PDF
汉语基本块规则的自动学习和扩展进化 被引量:6
4
作者 周强 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2008年第1期88-91,共4页
为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案。该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无... 为了从大规模标注语料库和词汇知识库支持下自动获取分层次、多粒度的规则描述知识,从汉语多词语基本块入手,提出一套完整处理方案。该方案从标注语料库中自动获取所有基于词类的基本块规则,通过设置规则置信度自动排除大量低可靠和无效规则。针对其中的高频低可靠规则,不断引入更多的内部词汇约束和外部语境限制知识,使之逐步进化为描述能力更强的结构化规则。同时提出一种预期精度指标对自动习得规则的描述能力进行了客观评价。实验结果表明:现有算法以16%的有效扩展规则覆盖了93%的标注正例,并使预期精度从51%提高到81%,显示了这套规则学习和评价方法的有效性。 展开更多
关键词 信息处理 规则知识获取 基本块 置信度分析 知识约束进化 规则库评价
原文传递
引入混合特征的最大名词短语双向标注融合算法 被引量:4
5
作者 李业刚 黄河燕 鉴萍 《自动化学报》 EI CSCD 北大核心 2015年第7期1274-1282,共9页
最大名词短语的识别对机器翻译等诸多自然语言处理任务有着:惹要的意义.以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语H学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适... 最大名词短语的识别对机器翻译等诸多自然语言处理任务有着:惹要的意义.以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语H学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性.实验证叨,釆用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别是有效的,并且其i E反向识别结果具有一定的互补性,在此基础上提出的基于"边界分歧"的双向序列标注融合算法恰能发掘双向识别的互补性,并达到较高的融合精度. 展开更多
关键词 最大名词短语 双向标注 基本组块 混合特征
下载PDF
基于条件随机场模型的汉语功能块自动标注 被引量:7
6
作者 李国臣 王瑞波 李济洪 《计算机研究与发展》 EI CSCD 北大核心 2010年第2期336-343,共8页
汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不... 汉语组块分析是将汉语句子中的词首先组合成基本块,进一步组合形成句子的功能块,最终形成一个具有层次组合结构的汉语句法描述结构.将汉语功能块的自动标注问题看作序列标注任务,并使用词和基本块作为标注单元分别建立标注模型.针对不同的标注模型,分别构建基本块层面的特征集合,并使用条件随机场模型进行汉语功能块的自动标注.实验数据来自清华大学TCT语料库,并且按照8∶2的比例切分形成训练集和测试集.实验结果表明,与仅使用词层面信息的标注模型相比,基本块特征信息的适当加入可以显著提高功能块标注性能.当使用人工标注的基本块信息时,汉语功能块自动标注的准确率达到88.47%,召回率达到89.93%,F值达到89.19%.当使用自动标注的基本块信息时,汉语功能块的标注的准确率为84.27%,召回率为85.57%,F值为84.92%. 展开更多
关键词 汉语基本块 汉语功能块 条件随机场模型 句法分析 序列标注
下载PDF
汉语基本块标注系统的内部关系分析 被引量:8
7
作者 宇航 周强 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第10期1708-1711,1716,共5页
针对目前基本块分析主要侧重外部边界和句法标记识别的处理缺陷,提出了一种可以同时获得基本块的外部句法标记和内部关系描述的汉语基本块分析方法。首先通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,然后利用统计建模... 针对目前基本块分析主要侧重外部边界和句法标记识别的处理缺陷,提出了一种可以同时获得基本块的外部句法标记和内部关系描述的汉语基本块分析方法。首先通过设计关系标记集来描述基本块内部词与词之间的句法依存关系,然后利用统计建模对句子中的每个词进行序列关系标注,最后通过有限自动机规则自动获取句子的完整基本块标注结果。实验结果表明,与使用经典的边界标记(IOB)模型进行基本块句法标注分析的方法相比,该方法在句法标记识别性能略有下降的情况下获得了很好的内部关系分析结果。 展开更多
关键词 中文信息处理 基本块 内部关系分析 统计模型
原文传递
基于词的分布式实值表示的汉语基本块识别 被引量:4
8
作者 侯潇琪 王瑞波 李济洪 《中北大学学报(自然科学版)》 CAS 北大核心 2013年第5期582-585,共4页
基于神经语言模型生成汉语词语的实值向量表示,称为词语的分布式表示,相应地以这种分布式表示构造的词特征称为分布式词特征.将这种分布式词特征替换基本块识别任务中所常用的条件随机场模型中的词特征,在清华大学TCT语料上进行了汉语... 基于神经语言模型生成汉语词语的实值向量表示,称为词语的分布式表示,相应地以这种分布式表示构造的词特征称为分布式词特征.将这种分布式词特征替换基本块识别任务中所常用的条件随机场模型中的词特征,在清华大学TCT语料上进行了汉语基本块识别任务实验,结果表明:在仅使用词窗口[-2,2]的词特征的模型中,和使用词窗口[-2,2]+词性特征的模型中,采用分布式词特征比传统的词特征的模型的标记精度分别高38.01%,1.86%,说明词语的分布式表示对汉语基本块识别任务是有作用的. 展开更多
关键词 神经语言模型 分布式词特征 基本块分析 边界识别
下载PDF
汉语内层最长名词短语的识别研究
9
作者 钱小飞 《浙江外国语学院学报》 2019年第6期59-67,共9页
汉语名词短语的内部结构复杂,找出名词短语内部嵌套的最长名词性成分,有助于消解底层句法歧义,挖掘论元结构和语义关系。文章分析了汉语内层最长名词短语的多层级分布特征,指出数据稀疏、结构歧义和边界歧义是识别的难点,并提出了一种... 汉语名词短语的内部结构复杂,找出名词短语内部嵌套的最长名词性成分,有助于消解底层句法歧义,挖掘论元结构和语义关系。文章分析了汉语内层最长名词短语的多层级分布特征,指出数据稀疏、结构歧义和边界歧义是识别的难点,并提出了一种基于条件随机场模型和基本名词块提升规则的识别方法,取得了85.23%的结构正确率和78.71%的结构召回率。实验结果表明,上层结构误识、联合结构、“v n n”格式、De后主谓结构和特殊歧义序列等造成的歧义是制约识别效果的主要原因。解决这些问题需要更多句法语义知识的参与,如在词汇层面收录含v简单组块,在句法层面引入句法规则验证机制等。 展开更多
关键词 内层最长名词短语 识别 条件随机场 基本名词块提升
下载PDF
基于字的分布表征的汉语基本块识别 被引量:6
10
作者 李国臣 党帅兵 +1 位作者 王瑞波 李济洪 《中文信息学报》 CSCD 北大核心 2014年第6期18-25,55,共9页
汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动... 汉语的基本块识别是汉语句法语义自动分析中的重要任务之一。传统的方法大多数直接将汉语基本块识别任务转化成词层面的一个序列标注问题,采用CRF模型来处理。虽然,在许多评测中得到最好的结果,但基于词为标注单位,在实用中受限于自动分词系统以及汉语词特征的稀疏性。为此,该文给出了一种以字为标注单位,以字为原始输入层,来构建汉语的基本块识别的深层神经网络模型,并通过无监督方法,学习到字的C&W和word2vec两种分布表征,将其作为深层神经网络模型的字的表示层的初始输入参数来强化模型参数的训练。实验结果表明,使用五层神经网络模型,以[-3,3]窗口的字的word2vec分布表征,其准确率、召回率和F值分别达到80.74%,73.80%和77.12%,这比基于字的CRF高出约5%。这表明深层神经网络模型在汉语的基本块识别中是有作用的。 展开更多
关键词 汉语基本块 分布表征 深层神经网络 序列标注
下载PDF
融合分词隐层特征的汉语基本块识别
11
作者 李国臣 刘展鹏 +1 位作者 王瑞波 李济洪 《中文信息学报》 CSCD 北大核心 2016年第2期12-17,共6页
该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现... 该文以字为基本标注单位,构建了一种汉语基本块识别的神经网络学习模型。模型联合分词任务的神经网络学习模型与基本块识别任务模型,将分词任务模型中学习得到的隐层特征融入基本块识别的模型中,两模型相互交替优化学习模型参数,并实现了以整句似然函数(而非单字似然函数)作为优化目标的算法。实验结果表明:1)以整句似然函数为优化目标的基本块识别的F值比单字似然情形要高出1.33%,特别是在多字块识别中,其召回率比单字似然情形要高出4.68%;2)融合分词任务模型中的隐层特征的汉语基本块识别模型的结果比不做融合的模型要高出2.17%,说明融合分词隐层特征的交替联合学习方法是有效的。 展开更多
关键词 分布表征 汉语基本块识别 神经网络模型 隐层特征 整句似然函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部