期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
结合字形特征与迭代学习的金融领域命名实体识别 被引量:15
1
作者 刘宇瀚 刘常健 +4 位作者 徐睿峰 骆旺达 陈奕 吉忠晟 应能涛 《中文信息学报》 CSCD 北大核心 2020年第11期74-83,共10页
针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进... 针对中文金融文本领域的命名实体识别,该文从汉字自身特点出发,设计了结合字形特征、迭代学习以及双向长短时记忆网络和条件随机场的神经网络模型。该模型是一种完全端到端且不涉及任何特征工程的模型,其将汉字的五笔表示进行编码以进行信息增强,同时利用迭代学习的策略不断对模型整体预测结果进行改进。由于现有的命名实体识别研究在金融领域缺乏高质量的有标注的语料库资源,所以该文构建了一个大规模的金融领域命名实体语料库HITSZ-Finance,共计31210个文本句,包含4类实体。该文在语料库HITSZ-Finance上进行了一系列实验,实验结果均表明模型的有效性。 展开更多
关键词 金融领域命名实体识别 中文语料库 深度学习
下载PDF
面向中文文本的情感信息抽取语料库构建 被引量:8
2
作者 戴敏 朱珠 +1 位作者 李寿山 周国栋 《中文信息学报》 CSCD 北大核心 2015年第4期67-73,共7页
情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文... 情感信息抽取是情感分析中的一个重要子任务。虽然该任务已经开展有一段时间,但是面向中文文本的情感信息抽取任务研究才刚刚起步。目前中文文本的情感信息抽取面临的首要困难在于现有的相关中文语料库还非常有限。为了更好开展中文文本的情感信息抽取研究,该文重点研究了中文语料标注体系,构建一个规模较大、标注类型丰富的中文情感信息抽取语料库。除了常见语料库标注的情感倾向性、评价对象、情感词等信息外,重点标注了评价对象的省略、无情感词情感句表达及极性转移等情况。由语料信息统计可知,该文所指出的特殊现象(例如,评价对象的省略)在中文情感表达中是非常普遍的,开展这方面的研究很有必要。该文所构建的中文文本语料库将为中文情感信息抽取任务提供语料基础。 展开更多
关键词 情感分析 情感信息抽取 中文语料库
下载PDF
中文机器阅读理解的鲁棒性研究 被引量:4
3
作者 李烨秋 唐竑轩 +2 位作者 钱锦 邹博伟 洪宇 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期16-22,共7页
为了更好地评价阅读理解模型的鲁棒性,基于Dureader数据集,通过自动抽取和人工标注的方法,对过敏感、过稳定和泛化3个问题分别构建测试数据集。还提出基于答案抽取和掩码位置预测的多任务学习方法。实验结果表明,所提方法能显著地提高... 为了更好地评价阅读理解模型的鲁棒性,基于Dureader数据集,通过自动抽取和人工标注的方法,对过敏感、过稳定和泛化3个问题分别构建测试数据集。还提出基于答案抽取和掩码位置预测的多任务学习方法。实验结果表明,所提方法能显著地提高阅读理解模型的鲁棒性,所构建的测试集能够对模型的鲁棒性进行有效评估。 展开更多
关键词 机器阅读理解 鲁棒性 中文语料库
下载PDF
《脊柱相关疾病》语料库建构研究
4
作者 赵婵 陈滢竹 《中国科技纵横》 2023年第6期108-110,共3页
基于《脊柱相关疾病》中文版和英文版,作者以语义学为指导,运用计算机技术建立了《脊柱相关疾病》中文语料库和中英双语平行语料库。前者方便学者检索所需信息,研究和理解原文;后者助力翻译研究、教学科研,以提高译者翻译效率和质量。... 基于《脊柱相关疾病》中文版和英文版,作者以语义学为指导,运用计算机技术建立了《脊柱相关疾病》中文语料库和中英双语平行语料库。前者方便学者检索所需信息,研究和理解原文;后者助力翻译研究、教学科研,以提高译者翻译效率和质量。本文回顾了这两个语料库的建构步骤和过程,并整理成文,以期为《脊柱相关疾病》这本书的外宣研究和中医著作语料库的建构提供一些帮助和启示。 展开更多
关键词 《脊柱相关疾病》 中文语料库 中英平行语料库
下载PDF
中文信息基础资源平台的共享机制探讨 被引量:1
5
作者 谢萦 陶建华 钱跃良 《科研信息化技术与应用》 2012年第4期86-92,共7页
针对中文信息基础资源平台建设的共享机制,讨论了中文语料库的性质,中文语料库建设过程中的策略,以及在将中文语料库进行整合的过程中,采用的共享结构,共享平台和共享策略。介绍了中文语言资源联盟的一系列管理规范和技术规范,并且发表... 针对中文信息基础资源平台建设的共享机制,讨论了中文语料库的性质,中文语料库建设过程中的策略,以及在将中文语料库进行整合的过程中,采用的共享结构,共享平台和共享策略。介绍了中文语言资源联盟的一系列管理规范和技术规范,并且发表了经过两年的工作所取得的平台建设的成绩和会员发展的成绩。对未来中文信息基础资源平台的建设提出了有益的建议。 展开更多
关键词 中文信息基础资源平台 资源共享机制 中文语料库
原文传递
基于情报整编的中文表达病例库建设与教学应用研究
6
作者 张高杰 《科教导刊》 2021年第19期84-86,共3页
情报整编是语言翻译和新闻编写交叉融合的特殊学科专业。从事情报整编工作不仅仅需要一流的外语水平,还需要过硬的中文功底。以语料库语言学和建构主义学习理论为基础,具体针对情报整编文本,搜集与分析大量中文表达病例,建设语料库,并... 情报整编是语言翻译和新闻编写交叉融合的特殊学科专业。从事情报整编工作不仅仅需要一流的外语水平,还需要过硬的中文功底。以语料库语言学和建构主义学习理论为基础,具体针对情报整编文本,搜集与分析大量中文表达病例,建设语料库,并据此创设新的课程和新的教学模式,精准纠治语言偏误,可以有效地提高学生在情报整编中的中文表达能力。 展开更多
关键词 情报整编 中文语料库 教学应用
下载PDF
面向中文语料库的模式检索研究
7
作者 邱冰 《微计算机信息》 2012年第7期3-5,共3页
信息检索是语料库提供的基本服务之一。随着语料库在汉语词汇学和词典学研究领域中的重要性不断增强,更为符合用户需求的新型语料库检索方式也日益得到重视。现有的中文语料库检索方法未充分考虑汉字编码、繁简体字和异体字等特殊性质,... 信息检索是语料库提供的基本服务之一。随着语料库在汉语词汇学和词典学研究领域中的重要性不断增强,更为符合用户需求的新型语料库检索方式也日益得到重视。现有的中文语料库检索方法未充分考虑汉字编码、繁简体字和异体字等特殊性质,也未充分贴近中文语料库的用户需求。针对中文语料库检索中存在的不足,提出了一类简化的新型检索表达式,仅需一个元字符即可满足典型的检索需求,具有表达直观、易于应用和逻辑清晰的特点,随后给出了新型检索表达式到正则表达式的翻译策略和实现方法,并在中古汉语词汇研究和《汉语大词典》研究中开展了实际应用。 展开更多
关键词 中文语料库 正则表达式 模式检索
下载PDF
中文笑话语料库的构建与应用 被引量:5
8
作者 任璐 杨亮 +3 位作者 徐琳宏 樊小超 刁宇峰 林鸿飞 《中文信息学报》 CSCD 北大核心 2018年第7期20-29,共10页
笑话作为国家级非物质文化遗产,历史悠久,普遍存在于人们的日常生活中,是最贴近人们生活的艺术体裁之一,笑话的理解也是人工智能发展需要攻克的难题之一。该文构建的大规模中文笑话语料库为人工智能以及语言学研究提供了有利的资源支撑... 笑话作为国家级非物质文化遗产,历史悠久,普遍存在于人们的日常生活中,是最贴近人们生活的艺术体裁之一,笑话的理解也是人工智能发展需要攻克的难题之一。该文构建的大规模中文笑话语料库为人工智能以及语言学研究提供了有利的资源支撑。该文首先归纳总结笑话语料库所依据的笑话相关理论基础,然后对语料库构建中语料标注、语料分析等工作做了详细的介绍,最后在语料库的基础上,分别将笑话与故事、微博、歇后语/谚语以及新闻四种体裁分别做了识别工作,验证了笑话简洁、具有一定的情节、富含情感等特征。同时通过与等长的负例构成的数据集进行笑话识别,验证了所提出特征的有效性。 展开更多
关键词 人工智能 中文笑话语料库 语料标注 笑话识别
下载PDF
中文阅读理解语料库构建技术研究 被引量:3
9
作者 郝晓燕 李济洪 +1 位作者 由丽萍 刘开瑛 《中文信息学报》 CSCD 北大核心 2007年第6期29-35,共7页
阅读理解问答系统指的是能够自动分析一个自然语言文章,并且根据文中的信息为每个问题生成一个答案的系统,具有很高的研究价值。然而,缺乏中文阅读理解语料库已经成为制约汉语阅读理解问答系统发展的主要障碍。本文对于中文阅读理解语... 阅读理解问答系统指的是能够自动分析一个自然语言文章,并且根据文中的信息为每个问题生成一个答案的系统,具有很高的研究价值。然而,缺乏中文阅读理解语料库已经成为制约汉语阅读理解问答系统发展的主要障碍。本文对于中文阅读理解语料库的构建过程进行了详细的介绍,包括语料选材、编写问句,标注答案句、语料加工和评测机制,尤其是基于汉语框架语义知识库对语料进行了框架元素、短语类型和句法功能三个层面标注的深加工技术。 展开更多
关键词 计算机应用 中文信息处理 阅读理解问答系统 中文阅读理解语料库 汉语框架语义知识
下载PDF
基于邮件过滤的中文邮件语料库构建 被引量:3
10
作者 李军辉 朱巧明 李培峰 《计算机应用与软件》 CSCD 北大核心 2007年第8期56-58,121,共4页
首先分析了现阶段邮件过滤的主要技术和邮件语料库建设的现状,并提出了建设中文邮件语料库的相关问题,建议在邮件建设过程中保留邮件信头信息、不排斥邮件副本。然后给出了邮件语料库系统的实现框架,分为邮件源代码的解析与预处理、邮... 首先分析了现阶段邮件过滤的主要技术和邮件语料库建设的现状,并提出了建设中文邮件语料库的相关问题,建议在邮件建设过程中保留邮件信头信息、不排斥邮件副本。然后给出了邮件语料库系统的实现框架,分为邮件源代码的解析与预处理、邮件的初次标注、词分类和邮件的二次标注四个步骤,并通过提供一个管理工具来管理邮件语料。最后,介绍了目前已经建设的一个邮件语料库的情况。 展开更多
关键词 邮件过滤 中文邮件语料库 标注 XML
下载PDF
基于分层ERNIE模型的中文嵌套命名实体识别 被引量:3
11
作者 贾李睿智 刘胜全 +3 位作者 刘源 魏富源 孔博 王光耀 《东北师大学报(自然科学版)》 CAS 北大核心 2023年第1期97-103,共7页
近年来中文嵌套命名实体识别的相关研究进展缓慢,BERT和RoBERTa等预训练模型在处理中文语言时,导致模型只能学习到不完整的语义表示.针对以上两个问题,首先使用现有的中文命名实体基准语料库ACE2004和ACE2005,依照原始语料的中心词和外... 近年来中文嵌套命名实体识别的相关研究进展缓慢,BERT和RoBERTa等预训练模型在处理中文语言时,导致模型只能学习到不完整的语义表示.针对以上两个问题,首先使用现有的中文命名实体基准语料库ACE2004和ACE2005,依照原始语料的中心词和外延的关系自动构造嵌套命名实体;然后使用分层ERNIE模型在构建好的中文语料库上进行中文嵌套命实体识别的研究,相较于BERT等模型,ERNIE模型则是通过对中文实体语义单元的掩码,使得模型学习完整概念的语义表示.实验结果表明,分层ERNIE模型在ACE2004和ACE2005两个中文嵌套命名实体语料库上F1值分别为84.5%和85.9%,性能优于BERT和RoBERTa模型. 展开更多
关键词 嵌套命名实体识别 中文嵌套实体语料库 ERNIE 预训练模型
下载PDF
北京话的“X得慌” 被引量:3
12
作者 聂志平 《方言》 CSSCI 北大核心 2022年第1期88-98,共11页
本文以19卷本《老舍全集》全部中文作品语料库为主要依据,认为北京话中的“X得慌”中的“得慌”是词缀,不是表示“程度高”或“难以忍受”,而是表示“主观意志不能控制的不如意的感知”,只能出现在表示消极或不如意义以及少数中性义的... 本文以19卷本《老舍全集》全部中文作品语料库为主要依据,认为北京话中的“X得慌”中的“得慌”是词缀,不是表示“程度高”或“难以忍受”,而是表示“主观意志不能控制的不如意的感知”,只能出现在表示消极或不如意义以及少数中性义的动词或形容词X后,构成“X得慌”。其语义特征为[-自主][-如意][+X(方面)][+感知]。从《红楼梦》到现代,北京话都是如此。 展开更多
关键词 《老舍全集》中文作品语料库 X得慌 词缀
原文传递
基于事件要素的自动文摘抽取 被引量:2
13
作者 孙佩佩 廖涛 刘宗田 《计算机与数字工程》 2015年第10期1829-1833,共5页
对传统自动文摘技术中容易产生的信息冗余和内容覆盖不全面问题,而目前主流的技术主要是面向词语的自动文摘。论文针对事件知识粒度下的事件要素在该问题上的有效性进行研究。首先通过标注好的CEC语料库来获取事件要素,然后构建事件要... 对传统自动文摘技术中容易产生的信息冗余和内容覆盖不全面问题,而目前主流的技术主要是面向词语的自动文摘。论文针对事件知识粒度下的事件要素在该问题上的有效性进行研究。首先通过标注好的CEC语料库来获取事件要素,然后构建事件要素无向图,其次再对无向图节点和无向边进行权值计算,最后得到简练的文摘句,进而按照原文本顺序输出文摘。实验主要在CEC语料库上进行,较其它方法而言,召回率和准确率取得了较好的效果,平均F值可达0.62,能更好地概括文本内容。 展开更多
关键词 事件要素 中文突发事件语料库 无向图 权重 自动文摘
下载PDF
基于Winnow的中文邮件分类器的设计
14
作者 朱巧明 周志军 李培峰 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第z1期807-812,共6页
首先通过建立实验用中文邮件语料库,提出了用Winnow算法实现邮件分类器,并讨论了其特点.然后,提出了通过建立分类规则库改善邮件分类器的分类效果.实验证明,该方法能有效提高邮件分类的可信度.
关键词 WINNOW 中文邮件分类 中文邮件语料库 分类器
下载PDF
基于Winnow的中文邮件分类器的设计
15
作者 朱巧明 周志军 李培峰 《电子学报》 EI CAS CSCD 北大核心 2005年第B12期2481-2484,共4页
本文首先通过建立实验用中文邮件语料库,提出了用Winnow算法实现邮件分类器,并讨论了其特点,然后,文章提出了通过建立分类规则库改善邮件分类器的分类效果.实验证明,该方法能有效提高邮件分类的可信度.
关键词 WINNOW 中文邮件分类 中文邮件语料库 分类器
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部