期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于统计和规则相结合的科技术语自动抽取研究 被引量:36
1
作者 刘豹 张桂平 蔡东风 《计算机工程与应用》 CSCD 北大核心 2008年第23期147-150,共4页
科技术语自动抽取是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用。结合专利翻译任务,主要研究专利中科技术语的识别方法,在分析目前已有方法的基础之上,提出了一种使用条件随机场... 科技术语自动抽取是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用。结合专利翻译任务,主要研究专利中科技术语的识别方法,在分析目前已有方法的基础之上,提出了一种使用条件随机场模型进行标注识别,并结合规则对错误识别结果进行后处理的科技术语识别方法。实验结果表明,提出的统计和规则相结合的识别方法是有效的,开放测试结果F值达到了84.4%。 展开更多
关键词 条件随机场 科技术语抽取 术语识别
下载PDF
基于词向量和条件随机场的领域术语识别方法 被引量:24
2
作者 冯艳红 于红 +1 位作者 孙庚 赵禹锦 《计算机应用》 CSCD 北大核心 2016年第11期3146-3151,共6页
针对基于统计特征的领域术语识别方法忽略了术语的语义和领域特性,从而影响识别结果这一问题,提出一种基于词向量和条件随机场(CRF)的领域术语识别方法。该方法利用词向量具有较强的语义表达能力、词语与领域术语之间的相似度具有较强... 针对基于统计特征的领域术语识别方法忽略了术语的语义和领域特性,从而影响识别结果这一问题,提出一种基于词向量和条件随机场(CRF)的领域术语识别方法。该方法利用词向量具有较强的语义表达能力、词语与领域术语之间的相似度具有较强的领域表达能力这一特点,在统计特征的基础上,增加了词语的词向量与领域术语的词向量之间的相似度特征,构成基于词向量的特征向量,并采用CRF方法综合这些特征实现了领域术语识别。最后在领域语料库和Sogou CA语料库上进行实验,识别结果的准确率、召回率和F测度分别达到了0.985 5、0.943 9和0.964 3,表明所提的领域术语识别方法取得了较好的效果。 展开更多
关键词 词向量 条件随机场 术语识别 相似度特征
下载PDF
自动术语抽取研究综述 被引量:23
3
作者 张雪 孙宏宇 +2 位作者 辛东兴 李翠平 陈红 《软件学报》 EI CSCD 北大核心 2020年第7期2062-2094,共33页
自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较... 自动术语抽取是从文本集合中自动抽取领域相关的词或短语,是本体构建、文本摘要、知识图谱等领域的关键基础问题和研究热点.特别是,随着近年来对非结构化文本大数据研究的兴起,使得自动术语抽取技术进一步得到学者的广泛关注,取得了较为丰富的研究成果.以术语排序算法为主线,对自动术语抽取方法的理论、技术、现状及优缺点进行研究综述:首先概述了自动术语抽取问题的形式化定义和解决框架.然后围绕"浅层语言分析"中基础语言信息和关系结构信息两个层面的特征对近年来国内外的研究成果进行分类,系统总结了现有自动术语抽取方法的研究进展和面临的挑战.最后对术语抽取使用的数据资源及实验评价进行分析,并对自动术语抽取未来可能的研究趋势进行了探讨与展望. 展开更多
关键词 自动术语抽取 术语识别 文本处理 机器学习
下载PDF
现代翻译协作中的术语管理技术 被引量:19
4
作者 王华树 郝冠清 《中国科技翻译》 北大核心 2016年第1期18-21,共4页
在信息化时代,语言服务需求持续激增,呈现出翻译任务量大、语种多、交付周期短等特点,要求采用多人协作翻译的模式。本文首先讨论了现代翻译实践中进行翻译协作的必要性,分析了翻译协作中术语统一的困境,然后详细阐述了现代术语管理技... 在信息化时代,语言服务需求持续激增,呈现出翻译任务量大、语种多、交付周期短等特点,要求采用多人协作翻译的模式。本文首先讨论了现代翻译实践中进行翻译协作的必要性,分析了翻译协作中术语统一的困境,然后详细阐述了现代术语管理技术在翻译协作中的重要作用。 展开更多
关键词 翻译协作 术语管理 术语提取 术语识别 计算机辅助翻译
原文传递
基于混合策略的高精度长术语自动抽取 被引量:18
5
作者 梁颖红 张文静 周德富 《中文信息学报》 CSCD 北大核心 2009年第6期26-30,共5页
在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充... 在目前的术语自动抽取中,双字词的精度已经达到了90.36%,但是三字以上的词的抽取精度只有66.63%,多字词的抽取成为了术语自动抽取的一个难点。该文提出了NC-value参数和互信息相结合的混合策略来识别三字以上的长术语的方法。该方法充分发挥了NC-value参数在利用词语上下文信息和互信息参数在词语结合强度两方面的优势,两者相互约束和配合,更有利于找到准确的长术语边界。采用生物信息领域Yapex语料进行实验,结果表明,三字以上长术语抽取正确率和召回率分别达到88.5%和76.6%,F测量值达到82.2%,稍高于其他方法的结果。 展开更多
关键词 计算机应用 中文信息处理 术语抽取 NC-value 互信息
下载PDF
融合GCN远距离约束的非遗戏剧术语抽取模型构建及其应用研究 被引量:9
6
作者 任秋彤 王昊 +1 位作者 熊欣 范涛 《数据分析与知识发现》 CSSCI CSCD 北大核心 2021年第12期123-136,共14页
【目的】针对非遗传统戏剧提出一种效果更优的术语抽取模型,并构建出传统戏剧术语库。【方法】首先从术语类别、语义结构和文本长度上分析戏剧语言特征。根据以上语言特征,以BERT-BiLSTM-CRF模型为基础,在BERT获得的字符表示上加入词性... 【目的】针对非遗传统戏剧提出一种效果更优的术语抽取模型,并构建出传统戏剧术语库。【方法】首先从术语类别、语义结构和文本长度上分析戏剧语言特征。根据以上语言特征,以BERT-BiLSTM-CRF模型为基础,在BERT获得的字符表示上加入词性和领域特征。之后在BiLSTM后加入图卷积网络(GCN),更好地捕捉句子中远距离词语的约束关系。【结果】融合GCN和外部特征的术语抽取模型F1值达到91.11%,比主流的BERT-BiLSTM-CRF高出1.3个百分点。【局限】仅选择百度百科、非遗官网作为实验数据来源,并未验证将模型扩展到其他来源的自由文本中的识别效率。戏剧术语中某些类别的训练集偏少,且实验数据和模型中外部特征的选择不够全面。【结论】本文根据传统戏剧语言特征,提出一种融合GCN和外部特征的戏剧术语抽取模型,构建了传统戏剧术语库,并将模型应用于术语库的扩充,为后续构建传统戏剧知识图谱打下基础。 展开更多
关键词 传统戏剧 术语识别 图卷积网络 远距离约束
原文传递
针刺临床文献自然语言处理中术语的智能化标注和抽取方法 被引量:6
7
作者 刘华云 韩晨静 +3 位作者 熊婕 李海燕 雷蕾 刘保延 《中国针灸》 CAS CSCD 北大核心 2022年第3期327-331,共5页
分析针刺临床文献术语识别任务的特殊性,对比目前应用于中医药领域的3种命名实体识别(NER方法的优缺点,认为双向长短期记忆神经网络-条件随机场模型(Bi LSTM-CRF)能结合上下文信息,利用较少的特征规律完成NER,适合针刺临床文献的术语识... 分析针刺临床文献术语识别任务的特殊性,对比目前应用于中医药领域的3种命名实体识别(NER方法的优缺点,认为双向长短期记忆神经网络-条件随机场模型(Bi LSTM-CRF)能结合上下文信息,利用较少的特征规律完成NER,适合针刺临床文献的术语识别。在此模型基础上,提出针刺临床文献术语识别流程主要包括文献预处理、序列标注、模型训练及效果评价4个方面,为针刺临床文献术语结构化提供思路。 展开更多
关键词 针刺临床文献 术语识别 命名实体识别 双向长短期记忆神经网络-条件随机场模型
原文传递
基于深度学习的术语识别研究综述
8
作者 阮光册 钟静涵 张祎笛 《数据分析与知识发现》 EI CSCD 北大核心 2024年第4期64-75,共12页
【目的】梳理深度学习模型在术语识别中的研究现状与面临挑战。【文献范围】在中国知网和Web of Science中,分别以主题=“术语识别”+“术语抽取”、主题=“(extract terms OR term recognition OR technology detection OR relation cl... 【目的】梳理深度学习模型在术语识别中的研究现状与面临挑战。【文献范围】在中国知网和Web of Science中,分别以主题=“术语识别”+“术语抽取”、主题=“(extract terms OR term recognition OR technology detection OR relation classification)AND deep learning AND ner”作为检索式进行检索,共筛选73篇文献进行述评。【方法】对基于深度学习的术语识别一般框架、模型的选择及各模型的优缺点、未来发展趋势进行综述。【结果】基于深度学习的术语识别方法可划分为使用单一神经网络模型、复合神经网络模型和结合深度学习模型的术语识别三大类。从方法使用来看,以BiLSTM-CRF为核心及延伸的模型是术语识别的主流方法;BERT及BERT的优化模型是近年来的研究热点;在特定领域倾向于使用多任务模型代替神经网络模型;迁移学习以及主动学习的应用成为新的研究方向。【局限】仅对已有研究的不同模型及训练结果进行结构化分析,缺少对不同模型在同一数据集上的训练效果对比,待未来进一步研究。【结论】基于深度学习的术语识别未来可在术语标注模式、融合术语的多维特征、小数据集或零数据集的术语识别技术、跨领域模型泛化、结果可解释性和完善评价方法等方面深入研究。 展开更多
关键词 术语识别 深度学习 文本挖掘
原文传递
基于TValue融合领域度的术语抽取法 被引量:4
9
作者 杨雅娜 刘胜奇 《情报工程》 2015年第5期25-31,共7页
提出ATValue(Advanced TValue and Fieldhood Integration)术语抽取法。为提高术语抽取质量,在TValue五属性的基础上,提出领域度。通过相关性分析获得六属性组合值AValue,最后识别AValue高于术语可信度的词串来选择候选术语。能源行业... 提出ATValue(Advanced TValue and Fieldhood Integration)术语抽取法。为提高术语抽取质量,在TValue五属性的基础上,提出领域度。通过相关性分析获得六属性组合值AValue,最后识别AValue高于术语可信度的词串来选择候选术语。能源行业的实验结果表明:ATValue术语抽取法的F值约比TValue术语抽取法高出2个百分点,原因在于ATValue的领域度测算了词串中各种单词对领域的贡献。 展开更多
关键词 术语抽取 术语识别 数据挖掘 领域度
下载PDF
TValue术语抽取法 被引量:4
10
作者 刘胜奇 朱东华 《情报学报》 CSSCI 北大核心 2013年第11期1164-1173,共10页
提出TValue术语抽取法。为提高召回率,将词性固定搭配规则改为首尾词性规则。为提高准确率,设计首尾词性度、词长度;用中间最短母串修正母串对子串的影响,提出独立度;改进名词计分法为停用度;用语料中文档k外的文档集代替Weirdnes... 提出TValue术语抽取法。为提高召回率,将词性固定搭配规则改为首尾词性规则。为提高准确率,设计首尾词性度、词长度;用中间最短母串修正母串对子串的影响,提出独立度;改进名词计分法为停用度;用语料中文档k外的文档集代替Weirdness的对比领域,提出重要度。基于三个假设:术语库具代表性、文档可交换、文档中术语可交换,构建了TValue术语抽取法。首先,基于首尾词性规则进行词串抽取。然后,计算词串的首尾词性度、词长度、独立度、停用度、重要度,以及五属性组合值TValue。最后识别TValue高于术语可信度的词串,来选择获选术语。能源行业的中文术语抽取实验结果表明,该方法可有效的抽取低频术语、非名词术语,准确率约为84.08%,召回率约为94.49%。 展开更多
关键词 术语抽取 术语识别 能源行业 数据挖掘 技术监测
下载PDF
从术语知识发现视角看术语科学定名的重要性 被引量:2
11
作者 张榕 《中国科技术语》 2015年第3期14-17,共4页
科学的术语定名是术语工作的一项重要内容。一个科学的概念指称的创立,是术语推广、传播与术语标准化工作的前提条件。文章从术语知识发现这一新的视角论述了术语科学定名对于术语知识发现工程的重要作用,从应用角度进一步论证了术语科... 科学的术语定名是术语工作的一项重要内容。一个科学的概念指称的创立,是术语推广、传播与术语标准化工作的前提条件。文章从术语知识发现这一新的视角论述了术语科学定名对于术语知识发现工程的重要作用,从应用角度进一步论证了术语科学定名的重要性。 展开更多
关键词 术语定名 术语知识发现 术语定义抽取 术语定义聚类 术语识别
下载PDF
翻译项目的术语识别问题与策略探究 被引量:1
12
作者 陈亦炘 《文化创新比较研究》 2021年第11期144-147,共4页
全球化时代及信息时代共同推进了语言翻译与计算机科学技术的协作。然而术语识别问题仍是翻译过程中的难题。该文从术语学研究视角出发,梳理针对翻译的术语识别问题的研究现状,着重探究翻译项目中遇到的典型的术语识别问题,结合术语软... 全球化时代及信息时代共同推进了语言翻译与计算机科学技术的协作。然而术语识别问题仍是翻译过程中的难题。该文从术语学研究视角出发,梳理针对翻译的术语识别问题的研究现状,着重探究翻译项目中遇到的典型的术语识别问题,结合术语软件的使用,术语学与翻译学知识及语言学研究方法,提出行之有效的策略,旨在提升专门术语库创建与用途方面的准确性与地位,也为术语翻译或不同类别的翻译项目实践带来价值。 展开更多
关键词 术语 术语识别 术语翻译 策略
下载PDF
基于分类策略的术语识别系统融合 被引量:2
13
作者 张华 叶娜 +1 位作者 周俏丽 蔡东风 《小型微型计算机系统》 CSCD 北大核心 2015年第2期385-390,共6页
近年来,基于机器学习方法的术语识别取得了不错的效果.然而,不同系统往往由于采用不同的学习方法或特征集而各有特点,他们在统计意义上性能接近的同时,在具体表现上却存在差异,那么,如何融合各个系统的不同特点和差异以求进一步提升术... 近年来,基于机器学习方法的术语识别取得了不错的效果.然而,不同系统往往由于采用不同的学习方法或特征集而各有特点,他们在统计意义上性能接近的同时,在具体表现上却存在差异,那么,如何融合各个系统的不同特点和差异以求进一步提升术语识别的效果变得很有价值.针对该问题并结合这些系统自身的特点,提出一种基于分类策略的术语识别系统融合方法.该方法将融合问题看作一个二分类问题,同时,在分类器的设计过程中更加灵活和更多地整合了上下文信息和依存句法信息.在中文术语识别实验中的结果验证了该方法的有效性,融合后的结果好于每一个单系统. 展开更多
关键词 术语识别 系统融合 分类策略 机器学习
下载PDF
面向航空领域的技术与术语语料库构建 被引量:2
14
作者 张芙蓉 《长沙航空职业技术学院学报》 2021年第4期33-37,共5页
为实现航空类学术期刊刊载论文的自动校对,术语识别是一个关键的问题,为此,面向航空领域海量的专业术语构建航空术语语料库,可为该领域实现智能化处理,从自然语言处理的角度,为模型优化和算法实现奠定基础。首先,针对航空领域文本特点... 为实现航空类学术期刊刊载论文的自动校对,术语识别是一个关键的问题,为此,面向航空领域海量的专业术语构建航空术语语料库,可为该领域实现智能化处理,从自然语言处理的角度,为模型优化和算法实现奠定基础。首先,针对航空领域文本特点制定标注规范,开展语料的标注工作,构建一个面向航空领域的术语识别语料库。该语料库共标注了1328篇文章,包含3754个专业术语。实验结果表明,该语料库的术语识别性能F1值达到0.67,可为后续研究提供基础。 展开更多
关键词 航空领域 术语识别 智能编校系统 语料库
下载PDF
自动术语识别对翻译硕士汉英翻译质量和效率的影响研究
15
作者 袁煜 杨陇 《浙江外国语学院学报》 2022年第6期78-88,共11页
目前从实证角度探究自动术语识别技术对翻译质量和效率的影响的研究较少。考察自动术语识别与翻译过程的集成效益是应用翻译研究的一个重要切入点。本研究提出将基于非监督学习的概率化短语对齐方法与语言规则相结合,从大规模平行语料... 目前从实证角度探究自动术语识别技术对翻译质量和效率的影响的研究较少。考察自动术语识别与翻译过程的集成效益是应用翻译研究的一个重要切入点。本研究提出将基于非监督学习的概率化短语对齐方法与语言规则相结合,从大规模平行语料中识别、筛选候选术语对,生成自动术语表,辅助译者翻译。基于实验组与控制组的前测、后测数据和译者Translog工作记录,本研究采用统计建模方法分析自动术语表对不同水平译者翻译工作的影响。受试反馈使用的自动术语表包含绝大部分目标术语及其准确译文。混合效应建模发现,翻译中使用该自动术语表能显著提高中、低水平受试的译文质量,相应后测译文中正确翻译的术语数量显著增加,但使用该自动术语表仅对中水平受试的翻译效率产生了显著影响。 展开更多
关键词 术语识别 翻译质量 翻译效率 混合效应建模
下载PDF
术语抽取方法研究
16
作者 郑坤 薛明晰 纪传胤 《科学与信息化》 2021年第29期118-121,共4页
术语是通过语言或文字来表达或限定专业概念的约定性语言符号,本文首先对术语的定义、术语的特性以及术语抽取效果的评价方法进行概述,并在概述的基础上介绍了目前常见的术语抽取方法,包括基于规则、基于统计、基于词图模型、基于主题... 术语是通过语言或文字来表达或限定专业概念的约定性语言符号,本文首先对术语的定义、术语的特性以及术语抽取效果的评价方法进行概述,并在概述的基础上介绍了目前常见的术语抽取方法,包括基于规则、基于统计、基于词图模型、基于主题模型和基于深度学习的方法等。文章还对上述方法做了原理介绍和使用该方法进行术语抽取的流程,最后指出了术语抽取面临的挑战和研究展望。 展开更多
关键词 抽取 文本处理
下载PDF
计算机辅助核心译者发现系统的设计与实现
17
作者 霍跃红 姚振军 汪榕培 《计算机工程与设计》 CSCD 北大核心 2010年第17期3936-3938,F0003,共4页
为了解决人工判断核心译者主观性强、过分依赖于研究者个人喜好和知识背景的问题,设计了计算机辅助核心译者发现系统。该系统对选定的原文进行切分,利用常用词筛选和基于关联分析方法的术语频度计算方法进行术语识别,最后通过人机交互... 为了解决人工判断核心译者主观性强、过分依赖于研究者个人喜好和知识背景的问题,设计了计算机辅助核心译者发现系统。该系统对选定的原文进行切分,利用常用词筛选和基于关联分析方法的术语频度计算方法进行术语识别,最后通过人机交互筛选出最终术语集。通过以《典籍英译研究》(第一、二、三辑)作为原文进行了系统的实例分析和验证,发现了典籍英译领域中的核心译者,得到了理想的效果。 展开更多
关键词 计算机辅助 核心译者发现 关联分析 频度 术语识别
下载PDF
基于隐马尔科夫模型的中文术语识别研究 被引量:37
18
作者 岑咏华 韩哲 季培培 《现代图书情报技术》 CSSCI 北大核心 2008年第12期54-58,共5页
基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于... 基于对中文文本信息语法构成尤其是词性搭配的概率特征的分析,提出一种基于双层隐马尔科夫模型的中文泛术语识别和提取的思路和系统框架,并实现相关系统,基于训练语料对多个领域的文本信息进行术语提取测试。实验结果表明,所提出的基于隐马尔科夫模型的中文泛术语识别和提取思想具有较好的实践参考意义。 展开更多
关键词 中文术语识别和提取 隐马尔科夫 HMM
下载PDF
基于引文主路径文献共被引的主题演化分析 被引量:24
19
作者 祝清松 冷伏海 《情报学报》 CSSCI 北大核心 2014年第5期498-506,共9页
主题演化分析对于梳理领域发展脉络、把握领域发展规律和预测领域发展趋势具有重要的作用。本文提出了一种基于引文主路径文献共被引的主题演化分析方法,利用引文主路径分析进行演化路径识别,利用共被引分析和领域术语识别进行演化主... 主题演化分析对于梳理领域发展脉络、把握领域发展规律和预测领域发展趋势具有重要的作用。本文提出了一种基于引文主路径文献共被引的主题演化分析方法,利用引文主路径分析进行演化路径识别,利用共被引分析和领域术语识别进行演化主题识别。并以碳纳米管纤维领域作为研究对象进行实证研究,发现该方法基本能够揭示领域的演化情况,具有一定的实际意义和应用价值。 展开更多
关键词 主题演化分析 主路径分析 共被引分析 领域术语识别
下载PDF
面向领域中文文本信息处理的术语识别与抽取研究综述 被引量:17
20
作者 季培培 鄢小燕 岑咏华 《图书情报工作》 CSSCI 北大核心 2010年第16期124-129,共6页
领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、... 领域中文术语识别与抽取是领域中文文本信息处理的基础,对于提高中文文本索引与检索、文本挖掘、本体构建、潜在语义分析等的处理精度有着重要的意义。在对领域术语的内涵和特征的阐述基础上,重点对领域中文术语识别与抽取的研究现状、主要的方法以及典型的应用进行综述,最后指出其未来的发展趋势。 展开更多
关键词 术语抽取 术语识别 领域中文信息处理
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部