期刊文献+
共找到37篇文章
< 1 2 >
每页显示 20 50 100
基于最大熵模型的组块分析 被引量:58
1
作者 李素建 刘群 杨志峰 《计算机学报》 EI CSCD 北大核心 2003年第12期1722-1727,共6页
采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最... 采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最大熵模型来解决 .最大熵模型的关键是如何选取有效的特征 ,文中给出了相关的特征选择过程和算法 .最后给出了系统实现和实验结果 . 展开更多
关键词 自然语言处理 最大熵模型 组块分析 句法分析 信息处理
下载PDF
基于统计的汉语组块分析 被引量:27
2
作者 刘芳 赵铁军 +2 位作者 于浩 杨沐昀 方高林 《中文信息学报》 CSCD 北大核心 2000年第6期28-32,39,共6页
组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律 ,提出了一套符合汉语语言特点的汉语组块体系 ,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明 ,该方法能够... 组块分析是一种大大降低句法分析难度的有效手段。本文针对汉语普遍规律 ,提出了一套符合汉语语言特点的汉语组块体系 ,并在此基础上设计实现了一种统计与错误驱动相结合的、能够分析有限层次的组块自动识别算法。实验证明 ,该方法能够有效地处理真实文本中的浅层分析问题 ,具有较好的准确率和鲁棒性。 展开更多
关键词 组块分析 汉语句法分析 统计方法 组块识别
下载PDF
基于BERT和BiLSTM-CRF的生物医学命名实体识别 被引量:22
3
作者 许力 李建华 《计算机工程与科学》 CSCD 北大核心 2021年第10期1873-1879,共7页
在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高。针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型。首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析... 在生物医学领域,以静态词向量表征语义的命名实体识别方法准确率不高。针对此问题,提出一种将预训练语言模型BERT和BiLSTM相结合应用于生物医学命名实体识别的模型。首先使用BERT进行语义提取生成动态词向量,并加入词性分析、组块分析特征提升模型精度;其次,将词向量送入BiLSTM模型进一步训练,以获取上下文特征;最后通过CRF进行序列解码,输出概率最大的结果。该模型在BC4CHEMD、BC5CDR-chem和NCBI-disease数据集上的平均F1值达到了89.45%。实验结果表明,提出的模型有效地提升了生物医学命名实体识别的准确率。 展开更多
关键词 生物医学 命名实体识别 预训练语言模型 词性分析 组块分析
下载PDF
基于神经元网络的汉语短语边界识别 被引量:6
4
作者 奚晨海 孙茂松 《中文信息学报》 CSCD 北大核心 2002年第2期20-26,共7页
短语边界的识别是浅层句法分析或组块分析的基础 ,对真实文本的处理具有重要意义。在一个含有 6 442 6词的汉语树库的支持下 ,本文设计并实现了基于神经元网络的汉语短语边界自动识别模型。初步实验结果显示 ,该模型的界定准确率为 93 2... 短语边界的识别是浅层句法分析或组块分析的基础 ,对真实文本的处理具有重要意义。在一个含有 6 442 6词的汉语树库的支持下 ,本文设计并实现了基于神经元网络的汉语短语边界自动识别模型。初步实验结果显示 ,该模型的界定准确率为 93 2 4 % (封闭测试 )和 92 5 6 % (开放测试 )。 展开更多
关键词 汉语短语边界自动识别 神经元网络 中文信息处理 浅层句法分析 组块分析 文字识别
下载PDF
汉语组块分析研究综述 被引量:12
5
作者 李业刚 黄河燕 《中文信息学报》 CSCD 北大核心 2013年第3期1-8,共8页
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中... 组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。 展开更多
关键词 中文信息处理 浅层句法分析 组块分析 组块识别
下载PDF
基于SVM的组块识别及其错误驱动学习方法 被引量:6
6
作者 黄德根 王莹莹 《中文信息学报》 CSCD 北大核心 2006年第6期17-24,共8页
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集... 给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。 展开更多
关键词 计算机应用 中文信息处理 组块分析 错误驱动学习 支持向量机(SVM) 规则集
下载PDF
面向中英平行专利的双语术语自动抽取 被引量:8
7
作者 孙茂松 李莉 刘知远 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2014年第10期1339-1343,共5页
双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的... 双语术语自动抽取是自然语言处理领域的重要研究课题之一,对于跨语言检索、机器翻译,以及双语词典的构建等具有重要意义。该文提出了一种面向中英平行专利语料的无监督双语术语自动抽取算法。该算法利用基于短语的统计机器翻译模型中的短语对齐和基于条件随机场的组块分析,实现双语术语自动抽取,同时借助专利语料的领域主题信息进一步提高双语术语抽取的准确率。实验表明:该算法在5 867组电通信技术领域的中英平行专利文档上进行双语术语的自动抽取,准确率达到94.00%。 展开更多
关键词 短语对齐 条件随机场 组块分析 双语术语
原文传递
基于最大熵模型的汉语问句语义组块分析 被引量:5
8
作者 余正涛 樊孝忠 《计算机工程》 EI CAS CSCD 北大核心 2005年第17期3-5,8,共4页
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大... 问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。 展开更多
关键词 最大熵模型 问句分析 句法分析 组块分析 语义块
下载PDF
基于CRF的中文组块分析 被引量:7
9
作者 徐中一 胡谦 刘磊 《吉林大学学报(理学版)》 CAS CSCD 北大核心 2007年第3期416-420,共5页
提出一种基于条件随机域模型的方法用于中文文本组块分析.该方法将中文组块分析转化为对每个词语赋予一个组块标注符号,再根据条件随机域对标注好的训练语料建立模型,从而预测测试语料中每个词语的组块标注符号.使用北京大学中文树库的... 提出一种基于条件随机域模型的方法用于中文文本组块分析.该方法将中文组块分析转化为对每个词语赋予一个组块标注符号,再根据条件随机域对标注好的训练语料建立模型,从而预测测试语料中每个词语的组块标注符号.使用北京大学中文树库的测试结果为F1=85.5%,高于隐马尔可夫模型和最大熵马尔可夫模型.实验结果表明,条件随机域在中文组块识别方面有效,并避免了严格的独立性假设和数据归纳偏置问题. 展开更多
关键词 组块分析 条件随机域 特征函数
下载PDF
一种基于组块分析的共现词提取方法 被引量:6
10
作者 赵国荣 王文剑 杨光 《情报科学》 CSSCI 北大核心 2017年第12期129-135,共7页
【目的/意义】文献计量学方法是研究学科发展趋势、捕捉学科前沿热点的一种定量化的方法。共词分析是一种重要的文献计量学方法,一般将作者选定的关键词作为最常用的词源。但科技论文中作者给出的关键词个数有限,会存在缺失或者不能充... 【目的/意义】文献计量学方法是研究学科发展趋势、捕捉学科前沿热点的一种定量化的方法。共词分析是一种重要的文献计量学方法,一般将作者选定的关键词作为最常用的词源。但科技论文中作者给出的关键词个数有限,会存在缺失或者不能充分表达主题等情况,从而导致丢失一些重要的共现关系。【方法/过程】本文采用组块分析的方法从文章标题中提取短语或词作为作者给定关键词的有益补充。【结果/结论】以中文句法分析领域的文献作为研究对象进行实验,结果证明增补后的关键词列表增加了共现关系,优化了聚类结果。最后对中文句法分析领域发展趋势及研究热点进行了分析。 展开更多
关键词 组块分析 共词网络 战略图 社会网络分析 中文句法分析
原文传递
基于Internet的军事演习信息抽取系统 被引量:6
11
作者 李跃进 赵晶 林鸿飞 《计算机工程与应用》 CSCD 北大核心 2006年第14期214-218,共5页
论文论述了Web文档的信息抽取的基本方法,设计并实现了一个基于Internet上的军事演习信息抽取系统—SBIES。在系统中引入了分装器的机器学习算法来获取网页抽取规则,采用基于最大熵模型的组块分析方法进行部分语法分析,利用模式匹配的... 论文论述了Web文档的信息抽取的基本方法,设计并实现了一个基于Internet上的军事演习信息抽取系统—SBIES。在系统中引入了分装器的机器学习算法来获取网页抽取规则,采用基于最大熵模型的组块分析方法进行部分语法分析,利用模式匹配的方法实现信息的自动抽取,以数据库与XML相结合的方式组织信息库,并实现信息的Web表示和查询。系统测试结果表明,它具有较高的抽取召回率和抽准确率。 展开更多
关键词 信息抽取 最大熵模型 组块分析 模式匹配
下载PDF
基于神经元网络的汉语组块自动划分 被引量:2
12
作者 王荣波 池哲儒 《计算机工程》 CAS CSCD 北大核心 2004年第20期133-135,共3页
介绍一种基于三层神经元网络的汉语组块自动划分方法。输入信息为句子中每一个字本身及与前后字组合的划分情况,输出为句子中每个字的划分结果。对于一个新输入的汉语句子,在该方法中,并不对句子进行切词,这是与别的组块分析方法的不同... 介绍一种基于三层神经元网络的汉语组块自动划分方法。输入信息为句子中每一个字本身及与前后字组合的划分情况,输出为句子中每个字的划分结果。对于一个新输入的汉语句子,在该方法中,并不对句子进行切词,这是与别的组块分析方法的不同之处。实验表明,该方法是可行的,也是有效的。 展开更多
关键词 组块分析 神经元网络 中文信息处理
下载PDF
基于组块分析技术的中文机构名称识别 被引量:5
13
作者 尹继豪 樊孝忠 +1 位作者 赵攀超 于江德 《哈尔滨工程大学学报》 EI CAS CSCD 北大核心 2006年第B07期466-470,共5页
针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在... 针对中文机构名称自动识别提出了简化的一体化N最佳层叠模型,该模型实现了从汉语切分、词性标注、组块分析一直到机构名称的自动识别.N最佳层叠方法既能够在一定程度上抑制前一个阶段的错误在后面的传播,又大大地缩小了搜索空间.在实验过程中依次加入启发信息和机构名称缩写处理,使得实验结果有显著提高.在IEER99测试集上,中文机构名称识别的最终准确率和召回率分别为92.31%和81.01%. 展开更多
关键词 组块分析 中文机构名称识别 N最佳层叠模型 启发信息
下载PDF
基于中文电子病历的跨科室组块分析 被引量:3
14
作者 戴雪 蒋志鹏 关毅 《计算机应用研究》 CSCD 北大核心 2017年第7期2084-2087,共4页
针对医疗领域的研究,发现了不同科室间电子病历存在着差异,但是新语料的标注成本又非常高。为了解决这一问题,利用迁移学习的方法在中文电子病历中进行跨科室组块分析的研究。在构建的中文电子病历中,对比了SSVM与CRF模型在词性标注和... 针对医疗领域的研究,发现了不同科室间电子病历存在着差异,但是新语料的标注成本又非常高。为了解决这一问题,利用迁移学习的方法在中文电子病历中进行跨科室组块分析的研究。在构建的中文电子病历中,对比了SSVM与CRF模型在词性标注和组块分析上的实验结果,发现SSVM模型的效果更好并选择该模型作为基本标注模型;此外,使用了改进的结构对应学习算法(SCL)进行组块分析,使得该算法能适用于SSVM模型进行领域适应。实验结果表明该算法有效地改善了序列标注任务中跨科室的领域适应性问题。 展开更多
关键词 中文电子病历 词性标注 组块分析 领域适应 结构化支持向量机
下载PDF
基于HOWNET的汉语组块分析 被引量:1
15
作者 舒鑫柱 杨尔弘 《河南职业技术师范学院学报》 2001年第4期59-61,共3页
介绍了当前句法分析的研究现状 ,利用《知网——中文信息结构库》作为知识库 ,结合当前汉语句法分析中的组块分析方法 ,提出了一种基于《知网》
关键词 句法分析 组块分析 依存关系 汉语 HOWNET 知识库 语法
下载PDF
基于组块分析的路径自然语言语义角色标注方法 被引量:3
16
作者 张秀龙 李新德 戴先中 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第A01期127-131,共5页
为了进行路径自然语言研究,首先设计了路径自然语言收集方案,主要面向室内环境收集了一定的路径自然语言语料,通过手工标注建立了一个小型的语料库.其次,对路径自然语言的特征进行了一定的分析,在此基础上概括了几种常见的语义角色,主... 为了进行路径自然语言研究,首先设计了路径自然语言收集方案,主要面向室内环境收集了一定的路径自然语言语料,通过手工标注建立了一个小型的语料库.其次,对路径自然语言的特征进行了一定的分析,在此基础上概括了几种常见的语义角色,主要包括关于landmark和方位转换的语义角色.路径自然语言本身具有高度规律性,语义角色相对集中,因此语义分析采用了基于组块分析的语义角色标注方法,将语义分析问题转化为序列信号的切分和分类问题.最后,利用支持向量机进行了相关的组块标注实验.实验结果表明提出的方法具有较大的潜力. 展开更多
关键词 路径自然语言 语义角色标注 组块分析 支持向量机
下载PDF
基于多层协同纠错的中文层次句法分析 被引量:3
17
作者 蒋志鹏 关毅 董喜双 《中文信息学报》 CSCD 北大核心 2014年第4期29-36,共8页
层次句法分析是一种简单快速的完全句法分析方法,该方法将句法分析分解为词性标注、组块分析和构建句法树三个阶段。该文将其中的组块分析细分为基本块分析和复杂块分析,利用条件随机域模型代替最大熵模型进行序列化标注。由于层次句分... 层次句法分析是一种简单快速的完全句法分析方法,该方法将句法分析分解为词性标注、组块分析和构建句法树三个阶段。该文将其中的组块分析细分为基本块分析和复杂块分析,利用条件随机域模型代替最大熵模型进行序列化标注。由于层次句分析中错误累积问题尤为严重,该文提出了一种简单可行的错误预判及协同纠错算法,跟踪本层预判的错误标注结果进入下一层,利用两层预测分数相结合的方式协同纠错。实验结果表明,加入纠错方法后,层次句法分析在保证解析速度的同时,获得了与主流中文句法分析器相当的解析精度。 展开更多
关键词 层次句法分析 条件随机域模型 组块分析 多层协同纠错
下载PDF
基于改进图卷积神经网络的评论有用性识别 被引量:2
18
作者 李雪梅 蒋建洪 《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第11期38-51,共14页
【目的】充分建模评论中的特征观点语义偏差,提升评论有用性识别的性能。【方法】构建一种融合组块分析和特征隶属关系的FFGCN模型进行评论有用性识别。通过组块分析获得特征和观点词块作为图上节点,同时借助多粒度特征词库融入特征词... 【目的】充分建模评论中的特征观点语义偏差,提升评论有用性识别的性能。【方法】构建一种融合组块分析和特征隶属关系的FFGCN模型进行评论有用性识别。通过组块分析获得特征和观点词块作为图上节点,同时借助多粒度特征词库融入特征词间隶属关系构图,经过图上卷积进行评论二分类。【结果】FFGCN模型在两个数据集上的识别准确率分别为93.4%和93.9%,比基线模型最优结果分别提升0.9和1.0个百分点。【局限】选取手机评论数据进行实验,未将模型拓展到其他产品类型验证其识别性能。【结论】所提模型能够有效对评论文本进行建模,大大提高评论有用性识别的性能。 展开更多
关键词 评论有用性 组块分析 特征观点对 图卷积网络
原文传递
基于语序变换的藏文复述句生成方法 被引量:2
19
作者 柔特 才让加 孙茂松 《计算机工程》 CAS CSCD 北大核心 2018年第4期231-235,共5页
机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法... 机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法不同,该方法根据藏文句子中组块数量的不同,通过一个句子可以生成一个或多个,甚至上千个句义相同的复述句并且准确率达到93.4%,可应用于藏汉机器翻译、机器翻译评测和藏文问答系统等领域。 展开更多
关键词 复述生成 藏文 语序变换 句型结构 组块分析
下载PDF
基于神经元网络的问句组块分析
20
作者 付斌 樊孝忠 《计算机技术与发展》 2006年第10期94-96,100,共4页
问句分析是自动问答系统研究中的重点和难点。在中文问句的结构特点基础上,结合机器学习及组块分析理论,对问句进行组块分析,实现了基于神经网络的问句组块识别算法,并应用于银行领域自动问答系统中。测试结果表明,对问句组块的识别能... 问句分析是自动问答系统研究中的重点和难点。在中文问句的结构特点基础上,结合机器学习及组块分析理论,对问句进行组块分析,实现了基于神经网络的问句组块识别算法,并应用于银行领域自动问答系统中。测试结果表明,对问句组块的识别能够达到比较满意的效果。 展开更多
关键词 自动问答 组块分析 语义块 神经元网络
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部