期刊文献+
共找到41篇文章
< 1 2 3 >
每页显示 20 50 100
基于语义的中文在线评论情感分析 被引量:42
1
作者 史伟 王洪伟 何绍义 《情报学报》 CSSCI 北大核心 2013年第8期860-867,共8页
为解决传统的情感分析方法中存在的语义理解能力不足和情感分析不充分问题,本文从语义的角度,运用构建模糊情感本体的方法,对中文在线评论情感分析进行研究。引入情感空间模型,并将传统的在线评论情感分析细分为特征评价和情绪表达... 为解决传统的情感分析方法中存在的语义理解能力不足和情感分析不充分问题,本文从语义的角度,运用构建模糊情感本体的方法,对中文在线评论情感分析进行研究。引入情感空间模型,并将传统的在线评论情感分析细分为特征评价和情绪表达两方面。基于已建立的模糊情感本体,对产品(服务)的特征、情感类和强度、程度词、否定词、修辞方法和标点等语义元素进行标注,构建从句子层到文档层的情感计算方法。选取有代表性的评论语料进行实验,结果表明建立的情感分析方法具有优良的准确性和应用性,进一步分析发现不同评论语料中情感具有不同的表达形式和关联关系。 展开更多
关键词 情感本体 情感分析 语料标注 模糊语义 在线评论
下载PDF
面向汉英机器翻译的双语语料库的建设及其管理 被引量:19
2
作者 常宝宝 詹卫东 张华瑞 《术语标准化与信息技术》 2003年第1期28-31,共4页
近年来,在语言信息处理的研究和开发中,单语和多语语料库(主要是双语语料库)的作用日益突显出来。为了支持一项正在进行的汉英机器翻译系统的开发,我们建立了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。
关键词 编码 汉语 英语 双语语料库 机器翻译 标记 标注 设计 语料收集
下载PDF
多场景文本的细粒度命名实体识别 被引量:15
3
作者 盛剑 向政鹏 +2 位作者 秦兵 刘铭 王莉峰 《中文信息学报》 CSCD 北大核心 2019年第6期80-87,共8页
命名实体识别一直是数据挖掘领域的经典问题之一,尤其随着网络数据的剧增,如果能对多来源的文本数据进行多领域、细粒度的命名实体识别,显然能够为很多的数据挖掘应用提供支持。该文提出一种多领域、细粒度的命名实体识别方法,利用网络... 命名实体识别一直是数据挖掘领域的经典问题之一,尤其随着网络数据的剧增,如果能对多来源的文本数据进行多领域、细粒度的命名实体识别,显然能够为很多的数据挖掘应用提供支持。该文提出一种多领域、细粒度的命名实体识别方法,利用网络词典回标文本数据获得了大量的粗糙训练文本。为防止训练文本中的噪声干扰命名实体识别的结果,该算法将命名实体识别的过程划分为两个阶段,第一个阶段先获得命名实体的领域标签,之后利用命名实体的上下文确定命名实体的细粒度标签。实验结果显示,该文提出的方法使F1值在全领域上平均值达到了80%左右。 展开更多
关键词 命名实体识别 细粒度类别划分 语料回标
下载PDF
基于中文电子病历的心血管疾病风险因素标注体系及语料库构建 被引量:14
4
作者 苏嘉 何彬 +5 位作者 吴昊 杨锦锋 关毅 姜京池 王焕政 于秋滨 《自动化学报》 EI CSCD 北大核心 2019年第2期420-426,共7页
本文讨论了从中文电子病历中标注心血管疾病风险因素及其相关信息的问题,提出了适应中文电子病历内容特点的心血管疾病风险因素标注体系,构建了中文健康信息处理领域首份关于心血管疾病风险因素的标注语料库.
关键词 心血管疾病 中文电子病历 风险因素 语料标注 自然语言处理
下载PDF
汉语盲文语料库建设方案 被引量:8
5
作者 肖航 钟经华 《语言文字应用》 CSSCI 北大核心 2015年第3期109-118,共10页
本文提出了一个汉语盲文语料库的建设方案。由于现行盲文在分词连写和标调方面的特点,汉语盲文研究难以直接使用明眼文语料库,需要建设专门的语料库。论文拟建设的语料库是一个大规模的(约1000万方盲文)、经过语言信息和触觉信息多层级... 本文提出了一个汉语盲文语料库的建设方案。由于现行盲文在分词连写和标调方面的特点,汉语盲文研究难以直接使用明眼文语料库,需要建设专门的语料库。论文拟建设的语料库是一个大规模的(约1000万方盲文)、经过语言信息和触觉信息多层级对照标注的语料库。该语料库的建设可促进对我国盲文发展全貌的把握和了解,促进盲文基础研究和信息化、规范化研究,助力盲人信息无障碍水平提升。论文从语料库选材原则和样本采集、语料标注规范和标注方案、辅助软件研发计划等几个方面详细说明了盲文语料库建设的主要内容和初步方案,并进一步指出其重点和难点问题。 展开更多
关键词 汉语盲文 盲文语料库 语料选材 语料标注
下载PDF
“全球汉语中介语语料库”的特点与功能 被引量:7
6
作者 张宝林 崔希亮 《世界汉语教学》 CSSCI 北大核心 2022年第1期90-100,共11页
"全球汉语中介语语料库"(1)是因应汉语作为第二语言教学的学科建设和科学研究的需要而设计建设的一个迄今为止规模最大的汉语中介语语料库,在设计理念、建设策略与方式、标注内容与方法、数据统计、检索方式等方面具有首创性... "全球汉语中介语语料库"(1)是因应汉语作为第二语言教学的学科建设和科学研究的需要而设计建设的一个迄今为止规模最大的汉语中介语语料库,在设计理念、建设策略与方式、标注内容与方法、数据统计、检索方式等方面具有首创性,是语料库建设2.0时代具有代表性的语料库。其动态建设功能可以使该库随着应用研究的不断深入而发现自身的问题与不足,并加以改进,逐步成为精品资源,更好地为汉语教学与研究服务。 展开更多
关键词 语料库建设 语料标注 数据统计 检索系统 综合平台
原文传递
基于群体智慧的语料标注方法研究 被引量:6
7
作者 柯永红 俞士汶 +1 位作者 穗志方 宋继华 《中文信息学报》 CSCD 北大核心 2017年第4期108-113,131,共7页
自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料。传统的人工标注方法难以满足大规模、高质量的深度语料标注需求,该文提出了基于群体智慧的语料标注方法,设计了标注模型,并就用户能力评测、语... 自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的深度标注语料。传统的人工标注方法难以满足大规模、高质量的深度语料标注需求,该文提出了基于群体智慧的语料标注方法,设计了标注模型,并就用户能力评测、语料筛选、任务管理、协作标注、行为分析、质量控制、决策加总、考核激励等具体环节进行分析,提出了解决方案。项目实践表明:基于群体智慧的语料标注方法在应对创新性很强的自然语言处理研究项目时具有明显的优势。 展开更多
关键词 群体智慧 语料标注 自然语言处理
下载PDF
学术文献术语抽取方案比较研究 被引量:5
8
作者 蒋婷 《信息资源管理学报》 CSSCI 2021年第1期112-122,共11页
术语抽取是学术文献知识挖掘的关键技术,其研究目标是提升学术文献领域术语抽取的效率。目前术语抽取主要分为三类方法,即基于规则的方法、基于统计学的方法、基于监督学习的方法。首先,本文对术语抽取中的代表方法进行了实验对比研究,... 术语抽取是学术文献知识挖掘的关键技术,其研究目标是提升学术文献领域术语抽取的效率。目前术语抽取主要分为三类方法,即基于规则的方法、基于统计学的方法、基于监督学习的方法。首先,本文对术语抽取中的代表方法进行了实验对比研究,包括语言学、统计学(TF-IDF、C-value、基于KL散度的方法等)、CRF及Bi-LSTM方法;其次,针对目前学术文献中术语抽取缺乏大量的手工标注语料的问题,提出了应用于当前学术文献术语抽取的改进模型;最后,总结了实验发现并提出了现阶段学术文献术语抽取及语料标注的方案。 展开更多
关键词 语义网 学术文献 术语抽取 知识图谱 语料标注 概念学习
下载PDF
基于词典的语料库词义标注研究 被引量:4
9
作者 肖航 杨丽姣 《语言文字应用》 CSSCI 北大核心 2010年第2期135-141,共7页
本文从主要难点、可实现性等方面对基于词典的语料库词义标注进行了分析。词义标注的主要难点可归纳为两个,一是词典词义区分不清晰带来的标注不一致性,二是词典提供的词义不能覆盖语料库中词语的所有语言使用情况。这些困难导致语料库... 本文从主要难点、可实现性等方面对基于词典的语料库词义标注进行了分析。词义标注的主要难点可归纳为两个,一是词典词义区分不清晰带来的标注不一致性,二是词典提供的词义不能覆盖语料库中词语的所有语言使用情况。这些困难导致语料库词义标注存在可实现与否的争论。本文通过华语文教材语料库词义标注实践指出,仅从词典词义划分来看,词义的准确区分具有操作上的明显困难;但若考虑词义在语料库中具体使用与分布,高准确率的词义标注是可以实现的。 展开更多
关键词 词义标注 词义消歧 词义区分 语料库标注
下载PDF
基于限定领域的平行语料库的设计 被引量:1
10
作者 毕雪华 吐尔根.依布拉音 《电脑知识与技术》 2005年第9期77-78,共2页
作为一项重要的基础资源,双语平行语料库在人工智能领域的研究起着举足轻重的作用。我国涉及少数民族语言的双语语料库的探索工作相对较少,本文介绍了汉维双语语料库的建立过程,并对语料的收集整理和组织做了初步的设想。
关键词 双语语料库 语料整理 语料标注 语料对齐
下载PDF
面向意图性的篇章话题结构分析研究与展望 被引量:4
11
作者 奚雪峰 孙庆英 周国栋 《计算机学报》 EI CSCD 北大核心 2019年第12期2769-2794,共26页
篇章话题结构分析主要针对篇章的意图性,是篇章语义分析的基础,其主要任务是从整体层次上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章.篇章分析既需要研究篇章的基本构成单元,更需要研究基本构成单元之间的篇章关系... 篇章话题结构分析主要针对篇章的意图性,是篇章语义分析的基础,其主要任务是从整体层次上分析出篇章结构及其构成单元之间的语义关系,并利用上下文理解篇章.篇章分析既需要研究篇章的基本构成单元,更需要研究基本构成单元之间的篇章关系.然而当前自然语言处理的研究重心大都集中在词法和句法领域,而忽略了对篇章内在规律的研究,缺乏对篇章话题结构展开有效分析的系统理论方法,这就极大阻碍了基于篇章语义分析的相关应用.本文首先从篇章衔接性和连贯性两个基本特征入手,讨论了篇章话题结构分析的国内外研究现状,从理论体系探索、语料库构建和计算模型三方面展开详细综述,分析对比了各类理论、资源及其模型的特点.其中,理论部分代表性的工作包括语域加衔接理论,Hobbs模型,修辞结构理论,PDTB体系,意图结构理论,宏观结构理论等;资源部分主要工作有修辞结构篇章树库、宾州篇章树库、MUC语料、ACE评测语料、ARRAU、OntoNotes和篇章图库等;在计算模型方面,主要围绕上述理论和技术资源展开相关研究;随后,特别讨论了汉语篇章话题结构的最新研究进展.基于上述讨论,本文分析探索了基于主述位理论的篇章微观话题结构表示体系,并描述了相应语料库资源的构建及其一致性检验;篇章微观话题结构形式化表示为一个三元组,其主要特征是一种链式结构,链结点为篇章基本话题(子句),其内部的主位或述位为连接端,连接端之间通过微观话题联接建立起连接关系,其实质是一种语义关联,体现篇章之间的衔接关系.最后,本文还对篇章话题结构研究的未来发展方向进行了总结展望. 展开更多
关键词 篇章话题结构 篇章理论 语料库标注 计算模型 篇章意图性 篇章语义分析
下载PDF
面向发电领域文本数据结构化方法研究与应用
12
作者 蓝梦琦 黄路遥 +3 位作者 魏宸 傅骏伟 俞佳雯 杨晓蓉 《工业控制计算机》 2024年第9期1-3,共3页
随着互联网的发展,发电领域从业者亟需利用智能化、自动化的手段来处理庞大的电力设备信息,而现有的标注工具难以支撑专业领域的文本数据标注工作以实现知识图谱的构建。因此基于深度学习设计了一种结合多种算法模型的文本数据结构化标... 随着互联网的发展,发电领域从业者亟需利用智能化、自动化的手段来处理庞大的电力设备信息,而现有的标注工具难以支撑专业领域的文本数据标注工作以实现知识图谱的构建。因此基于深度学习设计了一种结合多种算法模型的文本数据结构化标注工具,优化语料标注过程,实现语料的精准标注,从而支持发电领域知识图谱的构建,优化电厂设备故障数据管理。基于真实电厂设备故障数据分析结果,验证了所提出的文本标注工具,为建立发电设备故障诊断可视分析系统提供极大可能性,有效地提高了电厂的设备管理能力和智能化层次。 展开更多
关键词 语料标注 数据结构化 电力设备 知识图谱
下载PDF
基于PLSA的新闻评论情绪类别自动标注方法 被引量:2
13
作者 林江豪 顾也力 +1 位作者 周咏梅 阳爱民 《计算机系统应用》 2019年第1期207-211,共5页
针对大规模语料手动标注困难的问题,提出利用概率潜在语义分析(PLSA)模型的新闻评论自动标注方法.利用PLSA计算获得语料集的"文档-主题"和"词语-主题"概率矩阵;基于情感本体库和"词语-主题"概率矩阵,认... 针对大规模语料手动标注困难的问题,提出利用概率潜在语义分析(PLSA)模型的新闻评论自动标注方法.利用PLSA计算获得语料集的"文档-主题"和"词语-主题"概率矩阵;基于情感本体库和"词语-主题"概率矩阵,认为某一类情绪词汇出现的概率最高的主题与词汇的情绪类别相同,对主题进行情绪类别标注;最后,基于"文档-主题"概率矩阵,认为出现在某一主题概率最高的文档与主题的情绪类别相同,通过"词汇-主题-文档"三者的关系,达到自动标注的效果.实验结果表明,本文提出的方法准确率可达到90%以上. 展开更多
关键词 语料库 情绪类别 PLSA模型 语料标注 自动标注
下载PDF
汉语篇章级小句关系的标注体系 被引量:3
14
作者 吴云芳 徐艺峰 王恺然 《中文信息学报》 CSCD 北大核心 2015年第3期71-81,共11页
句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同... 句际关系自动分析属于篇章语义学研究的范畴,虽然英语句际关系的研究已有大量工作,但汉语句际关系的自动分析还只是刚刚起步。该文在RST理论框架下,结合汉语特点,提出了完整的汉语篇章级小句关系标注体系。将汉语话题和逻辑关系置于同一个框架下进行描述,将小句关系划分为事件附属关系和事件逻辑关系两大类。逻辑关系又包括6个中类、15个小类。目前已在人民日报语料上完成了8 000个句子的小句关系标注。抽取出其中1 000个句子检测了双盲标注的一致性,揭示了汉语意合性语言小句关系标注的困难;并基于标注数据对关系类型进行了定量分析,指示了汉语句际关系自动分析将面临的重点和难点。 展开更多
关键词 句际关系 小句关系 语料库标注
下载PDF
正则表达式在语料库研究中的应用 被引量:2
15
作者 吴进善 《河南理工大学学报(社会科学版)》 2015年第1期68-72,共5页
语料库技术的关键在于通过对大规模真实文本的自动化分析处理,探索自然语言的内在规律。计算机程序编辑中广泛使用的正则表达式技术,因其强大的文本批处理能力,被逐渐应用于语料库开发和复杂检索等相关技术中。本文的研究目的在于厘清... 语料库技术的关键在于通过对大规模真实文本的自动化分析处理,探索自然语言的内在规律。计算机程序编辑中广泛使用的正则表达式技术,因其强大的文本批处理能力,被逐渐应用于语料库开发和复杂检索等相关技术中。本文的研究目的在于厘清正则表达式的起源、概念和构造,并以任务驱动的方法,以几款常用的语料库工具为例,探讨正则表达式在文本清理、语料标注和检索等技术环节中的具体应用,从而进一步推动正则表达式在语料库研究中的普及和应用。 展开更多
关键词 正则表达式 语料库研究 文本处理 语料标注 索引分析
下载PDF
基于主动学习的中文电子病历命名实体识别研究 被引量:2
16
作者 胡佳慧 赵琬清 +1 位作者 方安 范云满 《中国数字医学》 2020年第11期6-9,共4页
目的:开展基于主动学习的中文电子病历命名实体识别研究,旨在优化机器学习模型,并降低标注成本。方法:分析比较信息熵、语料长度以及随机查询3种不同算法,采用CCKS 2018 CNER评测语料,识别病历文本中的解剖部位、手术、药物、独立症状... 目的:开展基于主动学习的中文电子病历命名实体识别研究,旨在优化机器学习模型,并降低标注成本。方法:分析比较信息熵、语料长度以及随机查询3种不同算法,采用CCKS 2018 CNER评测语料,识别病历文本中的解剖部位、手术、药物、独立症状、症状描述5类实体。结果:在字数成本节约方面,基于熵的方法相比基于长度的方法节省了41%的字数;在语料成本节约方面,基于熵的算法相比随机抽样节省了46%的语料。结论:基于信息熵的主动学习方法通过选择待选标注集中最不确定的语料进行标注,可显著减少对标注语料的依赖,降低人工标注成本。 展开更多
关键词 主动学习 命名实体识别 中文电子病历 信息熵 语料标注
下载PDF
基于语料库的翻译教学实证研究 被引量:1
17
作者 王小曼 《科教文汇》 2017年第17期177-178,共2页
英语专业的翻译教学所面临的主要问题是与现实脱节。基于语料库的翻译教学在实训过程中以大量实际运用的实例语篇为例,并通过语料标注的方式帮助语言能力较弱的学生分析句子成分的分布,同时通过大量翻译实践帮助英语专业学生提高实际运... 英语专业的翻译教学所面临的主要问题是与现实脱节。基于语料库的翻译教学在实训过程中以大量实际运用的实例语篇为例,并通过语料标注的方式帮助语言能力较弱的学生分析句子成分的分布,同时通过大量翻译实践帮助英语专业学生提高实际运用的能力。 展开更多
关键词 语料库 翻译教学 语料标注
下载PDF
用于细颗粒度挖掘的产品评论语料库构建技术 被引量:1
18
作者 刘远超 宋明凯 +1 位作者 刘铭 张想 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2012年第3期64-68,共5页
为了辅助进行产品评论中特征-观点对识别的挖掘工作,对细颗粒度产品评论语料库的构建技术进行了研究.介绍了用于产品评论细颗粒度挖掘的语料库构建方法,以及目前初步进行的语料标注工作.标注数据可以数据库形式存储,从而实现了无结构化... 为了辅助进行产品评论中特征-观点对识别的挖掘工作,对细颗粒度产品评论语料库的构建技术进行了研究.介绍了用于产品评论细颗粒度挖掘的语料库构建方法,以及目前初步进行的语料标注工作.标注数据可以数据库形式存储,从而实现了无结构化到结构化的转变,为自动查询等处理提供了极大方便.实验结果表明:虽然文中的标注方法以手机产品为例,但具有良好的移植性,可以应用到其他产品评论的细颗粒度语料库构建.相应的语料库构建对于高性能机器学习方法的应用、特征-观点对识别算法的性能提高以及自动评价等具有重要意义. 展开更多
关键词 产品意见挖掘 细颗粒度语料库构建 语料标注
下载PDF
关于汉语中介语语料库标注代码的思考
19
作者 赵焕改 林君峰 《海外华文教育》 2019年第1期103-114,共12页
目前汉语中介语语料库标注代码设计没有统一标准,不同语料库的分词及词性标注代码和偏误标注代码不一致等问题,造成了语料共享困难及标注工具的重复开发。本文从汉语中介语语料库标注代码设计的问题出发,考察了目前具有代表性的四个汉... 目前汉语中介语语料库标注代码设计没有统一标准,不同语料库的分词及词性标注代码和偏误标注代码不一致等问题,造成了语料共享困难及标注工具的重复开发。本文从汉语中介语语料库标注代码设计的问题出发,考察了目前具有代表性的四个汉语中介语语料库,分析了各库标注代码设计的优缺点,对汉语中介语语料库标注代码设计的原则及宜采用的标注代码系统提出了一些见解,以期为汉语中介语语料库标注代码设计的标准化提供参考。 展开更多
关键词 汉语中介语语料库 语料标注 标注代码
下载PDF
基于篇章的汉语句法结构树库 被引量:1
20
作者 卢露 矫红岩 +1 位作者 李梦 荀恩东 《自动化学报》 EI CAS CSCD 北大核心 2022年第12期2911-2921,共11页
为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主... 为快速构建一个大规模、多领域的高质树库,提出一种基于短语功能与句法角色组块的、便于标注多层次结构的标注体系,在篇章中综合利用标点、句法结构、表述功能作为句边界判断标准,确立合理的句边界与层次;在句子中以组块的句法功能为主,参考篇章功能、人际功能,以4个性质标记、8个功能标记、4个句标记来描写句中3类5种组块,标注基本句型骨架,突出中心词信息.目前已初步构建有质量保证的千万汉字规模的浅层结构分析树,包含60余万小句的9千余条句型结构库,语料涉及百科、新闻、专利等应用领域文本1万余篇;同时,也探索了高效的标注众包管理模式. 展开更多
关键词 语料库标注 树库 语块 句法分析
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部