期刊文献+
共找到87篇文章
< 1 2 5 >
每页显示 20 50 100
汉语树库的构建 被引量:32
1
作者 周强 张伟 俞士汶 《中文信息学报》 CSCD 北大核心 1997年第4期42-51,共10页
本文讨论了汉语树库构建的若干基础问题,包括一个适合于自动分析和人工标注的汉语句法标记集、汉语树库加工处理规范和人机互助的树库加工模型,介绍了一个已经实现的汉语自动句法标注系统,和在此基础上进行的一些树库构建实验,最后... 本文讨论了汉语树库构建的若干基础问题,包括一个适合于自动分析和人工标注的汉语句法标记集、汉语树库加工处理规范和人机互助的树库加工模型,介绍了一个已经实现的汉语自动句法标注系统,和在此基础上进行的一些树库构建实验,最后提出了构建大规模汉语树库的设想。 展开更多
关键词 树库 语料加工模型 语料库语言学 数据库系统
下载PDF
短语树到依存树的自动转换研究 被引量:12
2
作者 党政法 周强 《中文信息学报》 CSCD 北大核心 2005年第3期21-27,共7页
不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(TsinghuaChineseTreebank ,简称TCT)标注体系的特点,提出了一种将TCT从短语结构转换成... 不同标注体系的树库之间的相互转换是计算语言学研究的重要内容之一。本文在总结国内外几种树库标注体系及相互转换实践的基础上,结合清华汉语树库(TsinghuaChineseTreebank ,简称TCT)标注体系的特点,提出了一种将TCT从短语结构转换成依存结构(DependencyStructure)的算法。这种算法充分利用了TCT具有的功能、结构的双重标记,转换得到的依存树不仅包含了各个节点之间相互依存的层次关系,更包含了相互依存的两个节点的具体的依存关系类型。我们对转换的效果进行了抽样评估,准确率可以达到97 37%。 展开更多
关键词 人工智能 自然语言处理 树库 短语树 依存树 自动转换
下载PDF
中文CCG树库的构建 被引量:12
3
作者 宋彦 黄昌宁 揭春雨 《中文信息学报》 CSCD 北大核心 2012年第3期3-8,21,共7页
组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经... 组合范畴语法(CCG)是一种类型驱动的语法,可以高度词例化(lexicalized)并兼顾句法和一定程度上语义的表达,可为深层次的文本分析提供有效支持。将CCG应用于真实文本分析需要编制大规模的词库,为了避免为此付出的昂贵人力和资源,一个经济有效的解决方案是利用现有短语句法树库来自动生成CCG树库。该文提出在清华中文树库的基础上自动生成CCG树库的方法,在预定义的中文句型和基于清华树库的动词子范畴框架的支持下,通过标准转换算法,得到一个包含32 737句、超过35万词次的中文CCG树库。该树库通过手工和自动评价验证,又与已有文献所报告的多语种CCG树库构建工作比较,均证明该文所述方法的有效性。 展开更多
关键词 组合范畴语法 树库 中文句型 动词子范畴框架
下载PDF
基于子句抽取的文本摘要自动提取算法
4
作者 朱兵兵 罗飞 +2 位作者 罗勇军 丁炜超 黄浩 《华东理工大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第1期114-120,共7页
TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个... TextRank算法及SWTextRank等改进算法在抽取式摘要生成中得到了广泛的应用,但它们都没有有效地解决抽取式摘要所存在的冗余性问题。为此,提出一种基于子句抽取的文本摘要自动提取算法(PTextRank)。首先,使用Sinica Treebank(STB)对每个句子进行语法标记,进而基于子句设置抽取单元;接着,使用BERT(Bidirectional Encoder Representation from Transformers)构建标题和每个子句的特征向量,并计算子句特征向量间的相似性,将其存放在相似度矩阵中;最后结合子句位置、子句与标题的相似度等调整子句相似度矩阵,迭代计算直至收敛,进而选取得分最高的子句作为最终摘要。实验分析表明,PTextRank算法有效地避免了多个句子中存在的冗余信息,且相比于TextRank和SWTextRank,PTextRank生成摘要的准确率至少提高6%,同时生成的摘要质量更好。 展开更多
关键词 TextRank 摘要提取 冗余处理 Sinica treebank 篇章结构
下载PDF
短语结构到依存结构树库转换研究 被引量:6
5
作者 周惠巍 黄德根 +1 位作者 钱志强 杨元生 《大连理工大学学报》 EI CAS CSCD 北大核心 2010年第4期609-613,共5页
为基于真实语料进行句法分析,构建了大规模的短语结构树库和依存结构树库,并尝试在两种结构的树库之间进行转换.讨论了宾州中文树库(Penn Chinese Treebank,CTB)中短语结构树库和依存结构树库的关系,并基于现代中文依存文法制定了中心... 为基于真实语料进行句法分析,构建了大规模的短语结构树库和依存结构树库,并尝试在两种结构的树库之间进行转换.讨论了宾州中文树库(Penn Chinese Treebank,CTB)中短语结构树库和依存结构树库的关系,并基于现代中文依存文法制定了中心子节点过滤表,依据该表将短语结构的CTB转换为依存结构树库.在CTB中随机抽取200句语料,转换正确率达到了99.50%.基于该转换得到的依存结构树库可以进一步进行中文依存关系解析的研究. 展开更多
关键词 句法分析 短语结构 依存结构 树库 转换
下载PDF
基于依存树库的翻译语言句法特征研究 被引量:6
6
作者 蒋跃 范璐 王余蓝 《外语教学》 CSSCI 北大核心 2021年第3期41-46,共6页
翻译语言因其独有特征,又被称为"第三语码"。但这个第三语码是否存在,翻译学界尚有争议。本研究试图在依存语法的框架下,从句法层面探究和回答这个问题。通过创建英语翻译文本和英语母语语料库及标注依存树库,计算库中所有文... 翻译语言因其独有特征,又被称为"第三语码"。但这个第三语码是否存在,翻译学界尚有争议。本研究试图在依存语法的框架下,从句法层面探究和回答这个问题。通过创建英语翻译文本和英语母语语料库及标注依存树库,计算库中所有文本的平均依存距离和依存方向。最后,经过统计分析得出结果:翻译文本与目的语母语文本在依存距离和方向方面均存在显著差异。本文证明,具有独有特征的"第三语码"确实存在,也说明依存语法的计量方法在翻译研究中的可行性。 展开更多
关键词 翻译语言 第三语码 依存树库 依存距离 依存方向
原文传递
从树库的实践看句本位和中心词分析法的生命力 被引量:5
7
作者 黄昌宁 李玉梅 《北京师范大学学报(社会科学版)》 CSSCI 北大核心 2010年第5期53-58,共6页
树库是一种带句法标注的语料库,它记录着真实文本中每个句子的句法分析结果——句法树。上世纪90年代,自然语言的自动句法分析再次成为国际计算语言学界关注的焦点,一个重要原因是美国宾州树库PTB的建成。根据树库自动归纳出来的概率型... 树库是一种带句法标注的语料库,它记录着真实文本中每个句子的句法分析结果——句法树。上世纪90年代,自然语言的自动句法分析再次成为国际计算语言学界关注的焦点,一个重要原因是美国宾州树库PTB的建成。根据树库自动归纳出来的概率型上下文无关语法,使英语的句法分析器在性能上显著超越了先前基于规则和合一运算的句法分析器。世界上为各种自然语言构建的树库,不论是短语结构树库还是依存结构树库,都以句子为基本的描述单位。依存语法是一种词例化语法,它不采用短语结构的语法概念,而直接描写句子中词与词之间的依存关系,即认为句子中任何两个具有依存关系的词中必有一个是中心词(支配词),而另一个是被支配词。因此,依存语法直接体现了一种语言的句法层面和语义层面之间的天然联系。这充分说明,黎锦熙先生在《新著国语文法》中倡导的句本位语法体系和中心词分析法具有鲜活的生命力。它们不仅在我国解放前后的中学语文教学中数十年长盛不衰,而且至今仍在指导着树库的建设和应用。 展开更多
关键词 句本位 中心词分析法 树库 自动句法分析
下载PDF
基于句式结构的高效语法图解标注系统 被引量:5
8
作者 杨天心 彭炜明 宋继华 《中文信息学报》 CSCD 北大核心 2014年第4期43-49,67,共8页
为支持基于句式结构的大规模树库建设与研究,该文设计了人机结合的可视化语法图解标注系统,通过句式结构的框架约束和词汇知识库的底层支持有效规范了标注结果的结构层次和词性标记,在一定程度上保证了树库标注的一致性和高效率。该文... 为支持基于句式结构的大规模树库建设与研究,该文设计了人机结合的可视化语法图解标注系统,通过句式结构的框架约束和词汇知识库的底层支持有效规范了标注结果的结构层次和词性标记,在一定程度上保证了树库标注的一致性和高效率。该文从实践角度介绍了基于句式结构的语法图解标注系统在辅助构建大规模汉语树库中的操作模式和功能。 展开更多
关键词 树库 句本位语法 句式结构 图解标注
下载PDF
融合越南语语言特征与改进PCFG的越南语短语树库构建 被引量:4
9
作者 李英 郭剑毅 +2 位作者 余正涛 线岩团 陈玮 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第2期357-367,共11页
短语树库是自然语言处理的研究和实际应用的重要资源,就越南语而言目前也缺乏这类树库资源,不利于汉越双语信息处理工作.提出一种融合越南语语法特征与改进PCFG(概率上下文无关文法)的越南语短语树库构建方法,能够自动分析出越南语的短... 短语树库是自然语言处理的研究和实际应用的重要资源,就越南语而言目前也缺乏这类树库资源,不利于汉越双语信息处理工作.提出一种融合越南语语法特征与改进PCFG(概率上下文无关文法)的越南语短语树库构建方法,能够自动分析出越南语的短语结构树,从而可解决了越南语短语树库的自动构建问题.首先通过分析越南语的语言特征,制定出越南语的语言特征集;然后利用Inside-Outside算法从人工标注的少量越南语短语树获取PCFG模型中的语法规则集;最后将语法特征集作为语法规则集的补充融入PCFG模型,用得到的新模型最终完成越南语短语树库的构建.实验结果表明,新的PCFG模型针对越南语短语树库构建的准确率达到了81.14%,相比传统PCFG模型以及基于最大熵的树库构建方法准确率明显提高了2%~3%. 展开更多
关键词 越南语 短语结构树 概率上下文无关文法 语法规则集 树库
下载PDF
基于树库的汉语依存句法分析 被引量:4
10
作者 刘海涛 赵怿怡 《模式识别与人工智能》 EI CSCD 北大核心 2009年第1期17-21,共5页
旨在探索利用语言学手段来提高句法分析精度的可能性.采用MaltParser和自建的汉语依存树库进行相关汉语依存句法分析实验.通过对句法分析结果的分析,找出影响句法分析精度的主要因素,并据此对树库中处理某些语言结构的方式进行修改.然... 旨在探索利用语言学手段来提高句法分析精度的可能性.采用MaltParser和自建的汉语依存树库进行相关汉语依存句法分析实验.通过对句法分析结果的分析,找出影响句法分析精度的主要因素,并据此对树库中处理某些语言结构的方式进行修改.然后再对得到的句法分析数据进行进一步分析,以确定所用方法的有效性.结果表明,无标记依存句法分析精度提高了5.5%,有标记依存句法分析精度提高了7.5%. 展开更多
关键词 依存句法分析 树库 中文信息处理 标注体系 语料库语言学
原文传递
越南语短语树到依存树的转换研究 被引量:4
11
作者 李英 郭剑毅 +2 位作者 余正涛 毛存礼 线岩团 《计算机科学与探索》 CSCD 北大核心 2017年第4期599-607,共9页
依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短... 依存句法分析是自然语言处理的一个关键环节,目前对于越南语短语结构树的研究比较多,而依存结构树的研究就显得十分薄弱。提出了一种新的方法,尝试结合越南语的语言特点和语法特征,利用中心子节点过滤表的思想与统计的方法将越南语的短语结构树转换成依存结构树。首先依据中文依存关系标注体系与越南语的语法规则,制定出依存关系列表;然后结合越南语的语言特点,制定出中心子节点过滤表,利用中心子节点过滤表的思想进行初步转化;最后使用依存关系标注器来进行依存关系标注。基于转换后得到的依存结构树,利用MSTParser工具进一步训练得到更多的越南语依存结构树。对实验结果进行了抽样评估,树库转换的准确率达到了89.4%,较好地解决了越南语由短语树到依存树的转换问题。 展开更多
关键词 句法分析 中心子节点过滤表 短语结构 依存结构 树库
下载PDF
短语结构树库向句式结构树库的自动转换研究 被引量:3
12
作者 张引兵 宋继华 +2 位作者 彭炜明 赵亚伟 宋天宝 《中文信息学报》 CSCD 北大核心 2018年第5期31-41,共11页
该文从短语结构和句式结构的区别与联系入手,设计了一种将短语结构自动转换为句式结构的算法。并以清华短语结构树库(TCT)为测试语料,实现了将大规模短语结构语料向句式结构语料的转换。最后,搭建了一套可扩展的可视化系统,用于不同句... 该文从短语结构和句式结构的区别与联系入手,设计了一种将短语结构自动转换为句式结构的算法。并以清华短语结构树库(TCT)为测试语料,实现了将大规模短语结构语料向句式结构语料的转换。最后,搭建了一套可扩展的可视化系统,用于不同句法结构语料的可视化查看。这一研究不仅实现了两种结构之间的初步转换,而且极大地丰富了汉语句本位图解树库的语料规模,并为汉语句本位图解树库的后续应用研究奠定了基础。 展开更多
关键词 转换方法 树库 短语结构 句式结构
下载PDF
Tagging Accuracy Analysis on Part-of-Speech Taggers
13
作者 Semih Yumusak Erdogan Dogdu Halife Kodaz 《Journal of Computer and Communications》 2014年第4期157-162,共6页
Part of Speech (POS) Tagging can be applied by several tools and several programming languages. This work focuses on the Natural Language Toolkit (NLTK) library in the Python environment and the gold standard corpora ... Part of Speech (POS) Tagging can be applied by several tools and several programming languages. This work focuses on the Natural Language Toolkit (NLTK) library in the Python environment and the gold standard corpora installable. The corpora and tagging methods are analyzed and com- pared by using the Python language. Different taggers are analyzed according to their tagging ac- curacies with data from three different corpora. In this study, we have analyzed Brown, Penn Treebank and NPS Chat corpuses. The taggers we have used for the analysis are;default tagger, regex tagger, n-gram taggers. We have applied all taggers to these three corpuses, resultantly we have shown that whereas Unigram tagger does the best tagging in all corpora, the combination of taggers does better if it is correctly ordered. Additionally, we have seen that NPS Chat Corpus gives different accuracy results than the other two corpuses. 展开更多
关键词 POS Tagger BROWN CORPUS Penn treebank CORPUS NPS CHAT CORPUS
下载PDF
基于篇章的汉语句法结构树库 被引量:1
14
作者 卢露 矫红岩 +1 位作者 李梦 荀恩东 《自动化学报》 EI CAS CSCD 北大核心 2022年第12期2911-2921,共11页
为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主... 为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主,参考篇章功能、人际功能,以4个性质标记、8个功能标记、4个句标记来描写句中3类5种组块,标注基本句型骨架,突出中心词信息.目前已初步构建有质量保证的千万汉字规模的浅层结构分析树,包含60余万小句的9千余条句型结构库,语料涉及百科、新闻、专利等应用领域文本1万余篇;同时,也探索了高效的标注众包管理模式. 展开更多
关键词 语料库标注 树库 语块 句法分析
下载PDF
网上的基础语言信息资源 被引量:2
15
作者 俞士汶 《术语标准化与信息技术》 2001年第4期19-23,共5页
论述了语言信息处理技术在信息化进程中的作用;介绍了北京大学计算语言学研究所在语言信息处理基础研究方面已经取得的成果以及语言资源情况;提出需要进一步研究的课题。
关键词 语言信息处理 汉语标注语料库 词语切分与词性标注 知网 词网 树库
下载PDF
面向图解树库的标注工具开发与优化 被引量:2
16
作者 赵敏 彭炜明 +1 位作者 宋继华 杨天心 《中文信息学报》 CSCD 北大核心 2014年第6期26-33,共8页
一个高效便捷的标注工具对树库建设起到至关重要的作用,该文在现有的基于句式结构的图解标注工具的基础上,针对其不足之处,进行了重新设计,加入词类和义项等标注信息,实现了人机结合的可视化图解标注工具,并从实践角度详细介绍标注工具... 一个高效便捷的标注工具对树库建设起到至关重要的作用,该文在现有的基于句式结构的图解标注工具的基础上,针对其不足之处,进行了重新设计,加入词类和义项等标注信息,实现了人机结合的可视化图解标注工具,并从实践角度详细介绍标注工具在树库构建工程中的操作模式和功能。 展开更多
关键词 树库 句式结构 图解标注
下载PDF
基于规则的依存树库错误自动检测与分析 被引量:1
17
作者 史林林 邱立坤 亢世勇 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第1期58-64,共7页
尝试将依存树转化为短语结构树,并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库,从50275个句法树中发现1529处错误,正确率为100%。进一步,所有错误可以分为3个层次:分词... 尝试将依存树转化为短语结构树,并基于规则的方法自动检测出人工标注结果中的错误。将该方法应用于已经过两遍人工校对的北京大学多视图依存树库,从50275个句法树中发现1529处错误,正确率为100%。进一步,所有错误可以分为3个层次:分词错误、词性与句法角色不符、句法角色错标。该方法可以有效提高依存树库的质量,并且适用于各类型的依存树库。 展开更多
关键词 树库 词性 句法角色 错误检测
下载PDF
规则和统计相结合的句法分析一致性检验 被引量:1
18
作者 魏莉 《山西广播电视大学学报》 2014年第3期40-42,共3页
构建大规模句法树库对于句法分析模型有重要意义。通过分析完全句法树库中的句法分析标注的错误标记,从两个角度进行探究,分别是单个句法分析标记错误和句法分析层次结构标注错误,利用基于规则和统计的理论,发现并自动修正不一致,结果... 构建大规模句法树库对于句法分析模型有重要意义。通过分析完全句法树库中的句法分析标注的错误标记,从两个角度进行探究,分别是单个句法分析标记错误和句法分析层次结构标注错误,利用基于规则和统计的理论,发现并自动修正不一致,结果表明一致性检验的准确率为87.6%,召回率为94.8%。 展开更多
关键词 中文信息处理 树库 完全句法分析 一致性 检验
下载PDF
树库中的歧义组合考察 被引量:1
19
作者 李艳娇 杨尔弘 《中文信息学报》 CSCD 北大核心 2012年第2期23-27,101,共6页
汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。该文对汉语树库中的歧义组合进行考察,发现汉语中的结构歧义很大程度上要靠词语的语义特征来... 汉语树库是汉语信息处理的宝贵资源,其中包含了丰富的句子结构及成分组合信息,对树库中的词性串组合进行考察,是有效利用树库信息的基础工作。该文对汉语树库中的歧义组合进行考察,发现汉语中的结构歧义很大程度上要靠词语的语义特征来消解,仅仅依靠词语的语法特征(如词类信息)是无法解决的。 展开更多
关键词 歧义组合 语义关系 树库
下载PDF
汉语块依存语法与树库构建
20
作者 钱青青 王诚文 +2 位作者 荀恩东 王贵荣 饶高琦 《中文信息学报》 CSCD 北大核心 2022年第7期50-58,共9页
该文提出了以谓词为核心的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,利用汉语中组块和组块间的依存关系补全缺省部分,明确谓词支配关系。根据块依存文法体系,目前共标注2199篇文本,涵盖百科、新闻... 该文提出了以谓词为核心的块依存语法,以谓词为核心,以组块为研究对象,在句内和句间寻找谓词所支配的组块,利用汉语中组块和组块间的依存关系补全缺省部分,明确谓词支配关系。根据块依存文法体系,目前共标注2199篇文本,涵盖百科、新闻两个领域,共约180万字语料。该文简述了块依存文法的原则,并对组块及其依存关系进行了定义。该文详细介绍了标注流程、标注一致率、数据分布等情况。基于现有的树库,该文发现汉语中有约25%的小句是非自足的,约有88%的核心谓词可支配1~3个从属成分。 展开更多
关键词 组块 块依存语法 树库
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部