期刊文献+
共找到132篇文章
< 1 2 7 >
每页显示 20 50 100
基于多重冗余标记CRFs的句子情感分析研究 被引量:32
1
作者 王根 赵军 《中文信息学报》 CSCD 北大核心 2007年第5期51-55,86,共6页
本文提出了一种基于多重冗余标记的CRFs并将其应用于情感分析任务。该方法不仅能够有效地解决有序标记的分类问题,还能够在保证情感分析中各子任务能够使用不同特征的前提下,将情感分析中的主客观分类、褒贬分类和褒贬强弱分类任务统一... 本文提出了一种基于多重冗余标记的CRFs并将其应用于情感分析任务。该方法不仅能够有效地解决有序标记的分类问题,还能够在保证情感分析中各子任务能够使用不同特征的前提下,将情感分析中的主客观分类、褒贬分类和褒贬强弱分类任务统一在一个模型之中,在多个子任务上寻求联合最优,制约分步完成时误差的传播。实验证明,该方法有效地提高了句子情感分析任务的准确率。在理论上,该方法也为基于最大似然训练的算法解决序回归问题提供了一条途径。 展开更多
关键词 计算机应用 中文信息处理 句子情感分析 序回归 条件随机场 冗余标记
下载PDF
基于子词的双层CRFs中文分词 被引量:23
2
作者 黄德根 焦世斗 周惠巍 《计算机研究与发展》 EI CSCD 北大核心 2010年第5期962-968,共7页
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词... 提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度. 展开更多
关键词 中文分词 条件随机场 双层条件随机场 子词 子词过滤
下载PDF
临床试验电子数据采集系统的国内外现状和发展 被引量:20
3
作者 王瑾 汶柯 +1 位作者 王睿 王明伟 《解放军药学学报》 CAS 2013年第4期382-386,共5页
目的提高药物研究行业对药物临床试验数据电子化采集的理解认知,为我国药物临床试验信息化规范管理提供参考。方法综述电子数据采集(EDC)的定义、起源及国内外现状、相关法规、指南和标准,归纳总结EDC的优势并分析现阶段的发展趋势。结... 目的提高药物研究行业对药物临床试验数据电子化采集的理解认知,为我国药物临床试验信息化规范管理提供参考。方法综述电子数据采集(EDC)的定义、起源及国内外现状、相关法规、指南和标准,归纳总结EDC的优势并分析现阶段的发展趋势。结果加强我国EDC系统开发、EDC与CRS/HIS/CIS等系统联接、增强EDC的病例报告表设计功能是EDC的发展趋势。结论 EDC的普及使用是临床试验信息化管理趋势。 展开更多
关键词 电子数据采集 临床试验 信息化 病例报告表
下载PDF
基于层叠条件随机场的事件因果关系抽取 被引量:20
4
作者 付剑锋 刘宗田 +1 位作者 刘炜 周文 《模式识别与人工智能》 EI CSCD 北大核心 2011年第4期567-573,共7页
传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系.针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法.该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件... 传统的事件因果关系抽取方法只能覆盖文本中的部分显式因果关系.针对这种不足,提出一种基于层叠条件随机场模型的事件因果关系抽取方法.该方法将事件因果关系的抽取问题转化为对事件序列的标注问题,采用层叠(两层)条件随机场标注出事件之间的因果关系.第一层条件随机场模型用于标注事件在因果关系中的语义角色,标注结果传递给第二层条件随机场模型用于识别因果关系的边界.实验表明,本文方法不仅可以覆盖文本中的各类显式因果关系,并且均能取得较好的抽取效果,总体抽取效果的F1值达到85.3%. 展开更多
关键词 事件因果关系 事件序列 层叠条件随机场 条件随机场模型
原文传递
面向先秦典籍的知识本体构建技术研究 被引量:19
5
作者 何琳 陈雅玲 孙珂迪 《图书情报工作》 CSSCI 北大核心 2020年第7期13-19,共7页
[目的/意义]构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程]本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法... [目的/意义]构建面向典籍文本的语义本体,能够促进典籍文本的挖掘与分析。然而由于典籍文本与现代文本在语法上存在较大差异,给面向典籍的语义本体构建带来了困难。[方法/过程]本文运用自然语言处理技术探讨针对先秦典籍的本体构建方法。以国际上文化遗产领域通用的CIDOC CRM为框架,设计先秦典籍本体模型。针对典籍文本内容的特点及句法特征,将规则抽取与条件随机场方法相结合,提出一套本体实例自动获取技术,并以《左传》为实验语料进行测试。[结果/结论]实验表明,本文所提出的本体实例抽取技术能够较好地提高面向典籍文本的本体构建效率。基于规则的本体实例抽取实验F值在93%左右,基于条件随机场的本体实例抽取最佳特征模板的F值为82.51%。在本体实例获取中,词性信息和位置信息具有重要作用。 展开更多
关键词 先秦典籍 左传 本体构建 条件随机场 规则匹配
原文传递
HMM和CRFs在信息抽取应用中的比较研究 被引量:12
6
作者 王昊 邓三鸿 《现代图书情报技术》 CSSCI 北大核心 2007年第12期57-63,共7页
在比较HMM和CRFs数学理论的基础上,分别提出基于HMM词角色标注和基于CRFs字角色标注的人名实体抽取模型,并通过开放性测试和实践应用两次验证、比较两者的有效性,从而在实践中证明从理论比较中得出的结论:CRFs较之HMM更适合于解决序列... 在比较HMM和CRFs数学理论的基础上,分别提出基于HMM词角色标注和基于CRFs字角色标注的人名实体抽取模型,并通过开放性测试和实践应用两次验证、比较两者的有效性,从而在实践中证明从理论比较中得出的结论:CRFs较之HMM更适合于解决序列标注或对象分类问题。 展开更多
关键词 HMM crfs 信息抽取 人名实体抽取 角色标注 特征
下载PDF
基于知识融合的CRFs藏文分词系统 被引量:14
7
作者 洛桑嘎登 杨媛媛 赵小兵 《中文信息学报》 CSCD 北大核心 2015年第6期213-219,共7页
藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,... 藏文分词问题是藏文自然语言处理的基本问题之一,该文首先通过对35.1M的藏文语料进行标注之后,通过条件随机场模型对其进行训练,生成模型参数,再用模版对未分词的语料进行分词,针对基于条件随机场分词结果中存在的非藏文字符切分错误,藏文黏着词识别错误,停用词切分错误,未登录词切分错误等问题分别总结了规则,并对分词的结果利用规则进行再加工,得到最终的分词结果,开放实验表明该系统的正确率96.11%,召回率96.03%,F值96.06%。 展开更多
关键词 藏文 分词 条件随机场 知识融合
下载PDF
基于CRFs的角色标注人名识别模型在网络舆情分析中的应用 被引量:13
8
作者 王昊 苏新宁 《情报学报》 CSSCI 北大核心 2009年第1期88-96,共9页
本文在理论分析CRFs优于HMM和MEM等序列标注模型的基础上,提出一种基于CRFs的字角色标注人名识别模型。重点阐述了该模型的构建过程,包括角色定义、特征模板建立、特征函数生成及其参数训练、角色标注和基于模式的人名抽取等步骤,并... 本文在理论分析CRFs优于HMM和MEM等序列标注模型的基础上,提出一种基于CRFs的字角色标注人名识别模型。重点阐述了该模型的构建过程,包括角色定义、特征模板建立、特征函数生成及其参数训练、角色标注和基于模式的人名抽取等步骤,并通过实验验证模型的识别效果,探讨包括特征组合、字长窗口等在内的各种影响因素,探索模型的最佳识别条件,同时对CRFs和HMM在人名识别实验中进行了比较分析,认为CRFs在付出更大的实验复杂度的代价下,其人名识别效果明显优于HMM。论文最后通过实例探讨了CRFs—RL—PnR模型在网络舆情分析,包括新闻人物自动抽取、焦点人物时序分析等中的实践应用。 展开更多
关键词 条件随机场 字角色 特征模板 模式匹配 网络舆情分析
下载PDF
基于CRFs的专利文献领域术语抽取方法 被引量:11
9
作者 王健 殷旭 +1 位作者 吕学强 徐丽萍 《计算机工程与设计》 北大核心 2019年第1期279-284,共6页
通过对新能源汽车领域中文专利文献中术语特点的分析,提出利用条件随机场模型,分别基于三词位、四词位和六词位的字序列标注进行术语抽取的方法。以字为切分粒度,避免在术语抽取过程中因分词原因导致术语识别错误问题,并探讨不同词位标... 通过对新能源汽车领域中文专利文献中术语特点的分析,提出利用条件随机场模型,分别基于三词位、四词位和六词位的字序列标注进行术语抽取的方法。以字为切分粒度,避免在术语抽取过程中因分词原因导致术语识别错误问题,并探讨不同词位标注集对术语抽取性能的影响。实验结果表明,基于六词位字标注的条件随机场模型术语抽取的性能最好,准确率、召回率和F值优于对比方法中基于词、词性、词长等信息作为特征的抽取方法,验证了所提方法的有效性。 展开更多
关键词 中文专利术语 术语抽取 条件随机场 序列标注 新能源汽车领域
下载PDF
基于CRFs的领域爆发词识别的研究与实现 被引量:11
10
作者 逯万辉 马建霞 《情报科学》 CSSCI 北大核心 2014年第1期89-93,共5页
通过对爆发词识别问题的研究和剖析,本文采用了基于条件随机场模型的方法进行爆发特征提取,在此基础上设计了频次、频率和词频文档比三个指标进行计算,选取镍钴产业专利文本为例进行了领域爆发词识别实验,并实现了爆发词识别系统原型的... 通过对爆发词识别问题的研究和剖析,本文采用了基于条件随机场模型的方法进行爆发特征提取,在此基础上设计了频次、频率和词频文档比三个指标进行计算,选取镍钴产业专利文本为例进行了领域爆发词识别实验,并实现了爆发词识别系统原型的开发。 展开更多
关键词 爆发词 爆发特征 条件随机场 原型系统
原文传递
基于错误驱动学习策略的藏语句法功能组块边界识别 被引量:7
11
作者 王天航 史树敏 +2 位作者 龙从军 黄河燕 李琳 《中文信息学报》 CSCD 北大核心 2014年第5期170-175,191,共7页
藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(... 藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18 073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。 展开更多
关键词 错误驱动学习 藏语句法功能组块 组块边界识别 crfs TBL
下载PDF
基于条件随机场的汉语动宾搭配自动识别 被引量:9
12
作者 程月 陈小荷 《中文信息学报》 CSCD 北大核心 2009年第1期9-15,共7页
该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间... 该文提出一种基于机器自动学习的统计模型条件随机场的方法用于汉语动宾搭配的自动识别。实验比较了两种分词与词性标记集下的识别效果,并增加了词性筛选准则作为优化处理。在特征选择上,考察了动词次范畴特征、上下文特征以及它们之间的组合特征的不同实验结果。综合实验结果,基于树库分词和词性标记的最好结果F值是87.40%,基于北京大学标准的分词和词性标记的最好结果F值是74.70%。实验表明,条件随机场模型在词语搭配实例自动识别方面有效可行。 展开更多
关键词 计算机应用 中文信息处理 动宾搭配 自动识别 条件随机场 特征模板
下载PDF
CRF与规则相结合的维吾尔文地名识别研究 被引量:9
13
作者 买合木提.买买提 卡哈尔江.阿比的热西提 +2 位作者 艾山.吾买尔 吐尔根.依布拉音 王路路 《中文信息学报》 CSCD 北大核心 2017年第6期110-118,共9页
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、... 该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。 展开更多
关键词 命名实体 维吾尔文 地名 条件随机场 词向量
下载PDF
基于语境情感消岐的评论倾向性分析 被引量:6
14
作者 蔡肖红 刘培玉 王智昊 《郑州大学学报(理学版)》 CAS 北大核心 2017年第2期48-53,共6页
研究评论倾向性分析中情感词的动态极性变化问题.用Apriori算法在语境基础上挖掘情感歧义词语搭配,构建出(情感对象,情感词,情感倾向性)三元组形式的情感歧义词搭配词典,利用条件随机场模型(CRFs)序列标注方法从评论文本中抽取出情感要... 研究评论倾向性分析中情感词的动态极性变化问题.用Apriori算法在语境基础上挖掘情感歧义词语搭配,构建出(情感对象,情感词,情感倾向性)三元组形式的情感歧义词搭配词典,利用条件随机场模型(CRFs)序列标注方法从评论文本中抽取出情感要素,在构建的情感歧义词搭配词典基础上对评论文本进行了细粒度情感倾向性分析.在手机和电脑两个领域的评论语料集上进行多组实验,与传统方法的对比实验表明了方法的可行性,较为明显地提高了情感倾向性分析的准确率. 展开更多
关键词 情感歧义词 语境 细粒度 情感要素
下载PDF
基于全局变量CRFs模型的微博情感对象识别方法 被引量:7
15
作者 郝志峰 杜慎芝 +1 位作者 蔡瑞初 温雯 《中文信息学报》 CSCD 北大核心 2015年第4期50-58,66,共10页
微博行文具有较大的自由性,其中情感对象识别是一个困难的问题,尤其是情感对象未显性出现情况下的情感对象识别,暂未发现有效解决方法。该文针对这一难题,结合中文微博的特点,提出了一种改进的条件随机场的模型。该模型把情感对象识别... 微博行文具有较大的自由性,其中情感对象识别是一个困难的问题,尤其是情感对象未显性出现情况下的情感对象识别,暂未发现有效解决方法。该文针对这一难题,结合中文微博的特点,提出了一种改进的条件随机场的模型。该模型把情感对象识别看作一个序列标记问题,通过在传统的CRF序列标记模型上增加情感对象的全局节点,有效地结合上下文信息、句法依赖以及情感词典,从而可以识别出微博中的情感对象。该方法的优势在于能够应用于情感对象未显性出现的情况。实验结果表明该方法比现有方法能更有效地识别出微博中的情感对象。 展开更多
关键词 条件随机场 微博 情感对象识别 信息抽取 情感分析
下载PDF
基于百度热搜新闻词的社会风险事件5W提取研究 被引量:7
16
作者 许诺 唐锡晋 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2020年第2期334-342,共9页
当今中国处于经济转型升级的关键时期,社会主要矛盾发生了历史性变化,社会风险事件发生的频率比以往更高,危害社会稳定.将公众在线的搜索和关注数据映射为潜在的社会风险事件,如何有效地自动标注风险事件以及直观、清晰地描述社会风险... 当今中国处于经济转型升级的关键时期,社会主要矛盾发生了历史性变化,社会风险事件发生的频率比以往更高,危害社会稳定.将公众在线的搜索和关注数据映射为潜在的社会风险事件,如何有效地自动标注风险事件以及直观、清晰地描述社会风险事件是本文关注的重点.本文尝试定义风险事件的5W框架来结构化的描述社会风险,包括地点(where)、时间(when)、人物(who)、原因(why)和发生内容(what).风险事件的5W抽取可转化为不同的机器学习任务,包括命名实体识别、风险分类以及关键词抽取.依据5W的抽取任务进而探索有效的抽取方法.通过对风险事件5W的自动抽取,将现实中社会风险这种wicked问题转化为结构化问题进行分析,为研究社会风险提供一个新的视角,对政府部门进行舆情分析与风险监测具有重要意义. 展开更多
关键词 热搜新闻词 社会风险事件 5W 条件随机场 风险主题词
原文传递
汉语并列关系的识别研究 被引量:7
17
作者 郑略省 吕学强 +1 位作者 刘坤 林进 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期20-24,共5页
针对汉语并列关系的标注方式,提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息,进行角色标注,在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较,并列关系的召回率和... 针对汉语并列关系的标注方式,提出一种基于条件随机场模型的并列关系自动识别方法。从语料库中自动抽取并列关系的角色信息,进行角色标注,在条件随机场模型的基础上实现并列关系的识别。与基于图的依存分析方法比较,并列关系的召回率和正确率分别提高了9.1%和13.8%。 展开更多
关键词 依存句法分析 条件随机场 角色标注 并列关系
下载PDF
中文博客主题情感句自动抽取研究 被引量:3
18
作者 孙宏纲 陆余良 《计算机工程与应用》 CSCD 北大核心 2008年第20期165-168,221,共5页
博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客信息的情感分析也逐渐成为了信息挖掘领域的热点。目前,在研究情感分析时,多是通过计算词汇的倾向性来完成的。由于并不是所有的带有情感色彩的词汇都是主题相关的,因此,... 博客作为一种大众化的信息及文化载体被越来越多的人所接受,博客信息的情感分析也逐渐成为了信息挖掘领域的热点。目前,在研究情感分析时,多是通过计算词汇的倾向性来完成的。由于并不是所有的带有情感色彩的词汇都是主题相关的,因此,以词为粒度的情感分析存在一定的缺陷。为了解决这一问题,试图从句子层面进行分析,主要研究了与之相关的主题情感句的自动提取问题。为了有效地提取主题相关情感句,设计了一个新颖的基于二元切分的提取算法来获取主题词,然后利用TFIDF算法获取更多的次要主题词,并利用这些主题词重组了那些包含主题词的原始句。因此,如果主题情感句存在的话,那么它一定在这些重组的主题句集合中,只要对该重组句集合进行分析、提取,便能得到主题情感句。最后,利用CRFs将主题句提取问题有效转化为了中文chunking问题,并在抽取实验中取得了很好的结果。 展开更多
关键词 中文博客 情感分析 crfs
下载PDF
基于深度学习的法律文书识别方法研究 被引量:4
19
作者 孟昕 《电子科技》 2019年第12期84-86,共3页
为了提升数字化法律文书知识库的建设效率,文中提出了基于深度学习理论的法律文书识别方法。该方法基于长短期记忆(LSTM)网元结构构建深度神经网络,引入遗忘门进行网元的状态更新,使用Softmax函数作为非线性传播函数,实现自然语言中的... 为了提升数字化法律文书知识库的建设效率,文中提出了基于深度学习理论的法律文书识别方法。该方法基于长短期记忆(LSTM)网元结构构建深度神经网络,引入遗忘门进行网元的状态更新,使用Softmax函数作为非线性传播函数,实现自然语言中的实体识别。经测试,该方法可以有效的提取法律文书中的当事人姓名、案由和审判机构等;在文中所采用的测试集上,相较于CRFs算法,该方法在准确率、召回率和F上均可以取得约10%的提升。 展开更多
关键词 法律文书 自然语言处理 深度学习 实体识别 LSTM crfs
下载PDF
细粒度意见挖掘中维吾尔语文本情感分析研究 被引量:4
20
作者 罗亚伟 田生伟 +2 位作者 禹龙 吐尔根.依布拉音 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2016年第1期140-147 169,169,共9页
传统的情感分析研究通过分析,确定词语、句子或篇章的情感,但忽略了情感表达的主题。针对这一不足,该文提出了一种基于双层CRFs模型的细粒度意见挖掘中维吾尔语意见型文本陈述级情感分析方法。第一层模型识别意见型文本中的主题词和意见... 传统的情感分析研究通过分析,确定词语、句子或篇章的情感,但忽略了情感表达的主题。针对这一不足,该文提出了一种基于双层CRFs模型的细粒度意见挖掘中维吾尔语意见型文本陈述级情感分析方法。第一层模型识别意见型文本中的主题词和意见词,确定意见陈述的范围,并将识别结果传递给第二层模型,将其作为重要特征之一,用于陈述级情感分析。细粒度意见挖掘中情感分析的目标是构建<意见陈述,主题词,意见词,情感>四元组。该方法用于维吾尔语陈述级情感分析的准确率为77.41%,召回率为78.51%,证明了该方法在细粒度意见挖掘中情感分析任务上的有效性。 展开更多
关键词 细粒度 陈述级 情感分析 crfs 维吾尔语
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部