期刊文献+
共找到18篇文章
< 1 >
每页显示 20 50 100
基于最大熵分类器的语义角色标注 被引量:73
1
作者 刘挺 车万翔 李生 《软件学报》 EI CSCD 北大核心 2007年第3期565-573,共9页
语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及... 语义角色标注是浅层语义分析的一种可行方案.描述了一个采用最大熵分类器的语义角色标注系统,该系统把句法成分作为语义标注的基本单元,用最大熵分类器对句子中谓词的语义角色同时进行识别和分类.最大熵分类器中使用了一些有用的特征及其组合.在后处理阶段,在具有嵌套关系的结果中,只有概率最高的语义角色被保留.在预测了全部能够在句法分析树中找到匹配成分的角色以后,采用简单的后处理规则去识别那些找不到匹配成分的角色.最终在开发集和测试集上分别获得了75.49%和75.60%的F1值,此结果是已知的基于单一句法分析结果中最好的.最后提出了对该任务的一些难点问题的解决方案以及对语义角色标注发展的一个初步展望. 展开更多
关键词 语义角色标注 浅层语义分析 最大熵分类器
下载PDF
中文语义角色标注的特征工程 被引量:39
2
作者 刘怀军 车万翔 刘挺 《中文信息学报》 CSCD 北大核心 2007年第1期79-84,共6页
基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词... 基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在Chinese Proposition Bank(CPB)语料数据上,使用最大熵分类器进行了实验,系统F-Score由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻找丰富有效的特征。 展开更多
关键词 计算机应用 中文信息处理 语义分析 语义角色标注 特征工程 最大熵分类器
下载PDF
基于依存句法分析的中文语义角色标注 被引量:23
3
作者 王步康 王红玲 +1 位作者 袁晓虹 周国栋 《中文信息学报》 CSCD 北大核心 2010年第1期25-29,47,共6页
依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。该文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使... 依存句法是句法分析的一种,相比于短语结构句法分析,依存句法具有更简洁的表达方式。该文采用英文语义角色标注的研究方法,实现了一个基于中文依存句法分析的语义角色标注系统。该系统针对中文依存关系树,采用有效的剪枝算法和特征,使用最大熵分类器进行语义角色的识别和分类。系统使用了两种不同的语料,一种是由标准短语结构句法分析(CTB5.0)转换而来,另一种是CoNLL2009公布的中文语料。系统分别在两种语料的标准谓词和自动谓词的基础上进行实验,在标准谓词上取得的F1值分别为84.30%和81.68%,在自动谓词上的F1值为81.02%和81.33%。 展开更多
关键词 计算机应用 中文信息处理 语义角色标注 依存关系 最大熵分类器
下载PDF
基于依存树的中文语义角色标注 被引量:7
4
作者 安强强 张蕾 《计算机工程》 CAS CSCD 北大核心 2010年第4期161-163,共3页
现有中文语义角色标注主要集中在基于短语结构句法树的标注。基于此,提出一种基于依存树的中文语义角色标注方法。将中文句子转化为标准的依存树,作为实验数据集,特征选取时结合知网,将语义信息引入特征集,以提高系统的召回率,并采用最... 现有中文语义角色标注主要集中在基于短语结构句法树的标注。基于此,提出一种基于依存树的中文语义角色标注方法。将中文句子转化为标准的依存树,作为实验数据集,特征选取时结合知网,将语义信息引入特征集,以提高系统的召回率,并采用最大熵分类器进行实验,获得90.68%的F值。结果表明,在标准的句法树上,当基于依存关系的标注系统中加入新特征时,该中文语义角色标注取得了比基于句法成分标注更好的成绩。 展开更多
关键词 最大熵分类器 语义角色标注 依存树
下载PDF
语义分析中谓词标识的特征工程 被引量:7
5
作者 汪红林 王红玲 周国栋 《计算机工程与应用》 CSCD 北大核心 2010年第9期134-137,共4页
谓词是句子中的最重要的成分,它的正确与否对语义分析的影响非常大。而众多的特征直接影响到谓词标识的性能,如何组织这些特征显得尤为重要。选取了7个基本特征和30多个新特征以及它们的组合,使用最大熵分类器,在基本特征的基础上通过... 谓词是句子中的最重要的成分,它的正确与否对语义分析的影响非常大。而众多的特征直接影响到谓词标识的性能,如何组织这些特征显得尤为重要。选取了7个基本特征和30多个新特征以及它们的组合,使用最大熵分类器,在基本特征的基础上通过增加有利特征的方法,使得谓词标注的F1值增长了约5%(由84.7%增加到89.8%),词义识别的F1值增长了约2%(由80.3%增加到82.1%),结果表明,这些新特征及其组合大大提高了性能。 展开更多
关键词 谓词标注和词义识别 语义分析 特征工程 最大熵分类器
下载PDF
一种半监督的汉语词义消歧方法 被引量:7
6
作者 张春祥 徐志峰 高雪瑶 《西南交通大学学报》 EI CSCD 北大核心 2019年第2期408-414,共7页
为了解决自然语言处理领域中的一词多义问题,本文提出了一种利用多种语言学知识和词义消歧模型的半监督消歧方法.首先,以歧义词汇左、右邻接词单元的词形、词性和译文作为消歧特征,来构建贝叶斯(Bayes)词义分类器,并以歧义词汇左、右邻... 为了解决自然语言处理领域中的一词多义问题,本文提出了一种利用多种语言学知识和词义消歧模型的半监督消歧方法.首先,以歧义词汇左、右邻接词单元的词形、词性和译文作为消歧特征,来构建贝叶斯(Bayes)词义分类器,并以歧义词汇左、右邻接词单元的词形和词性作为消歧特征,来构建最大熵(maximum entropy,ME)词义分类器;其次,采用Co-Training算法并结合大量无标注语料来优化词义消歧模型;再次,进行了优化实验,在实验中,使用SemEval-2007:Task#5的训练语料和哈尔滨工业大学的无标注语料来优化贝叶斯分类器和最大熵分类器;最后,对优化后的词义消歧模型进行测试.测试结果表明:与基于支持向量机(support vector machine,SVM)的词义消歧方法相比,本文所提出方法的消歧准确率提高了0.9%.词义消歧的性能有所提高. 展开更多
关键词 自然语言处理 词义消歧 最大熵 贝叶斯分类器
下载PDF
基于信息熵的半监督领域实体关系抽取研究 被引量:3
7
作者 郭剑毅 雷春雅 +3 位作者 余正涛 苏磊 赵君 田维 《山东大学学报(工学版)》 CAS 北大核心 2011年第4期7-12,共6页
针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出... 针对监督机器学习方法抽取实体关系受限于标注语料的规模问题,提出采用信息熵方法来不断扩展小规模训练数据的半监督领域实体关系抽取。结合领域词汇选取小规模训练数据,构建了一定准确率的初始最大熵分类器,用来从未标记数据中预测出候选新实例。采用信息熵方法,通过设定不同熵值,多次循环以选取可信度较高的新实例来扩展训练数据。使用扩展后的训练数据重新迭代训练分类器,分类器性能趋于稳定迭代终止,实现了半监督学习的领域实体关系抽取。实验表明,和已有方法相比,本文提出的半监督领域实体关系抽取通过结合信息熵方法,在小规模标注样本环境中取得了较好的学习效果。 展开更多
关键词 信息熵 半监督 最大熵分类器 未标记 可信度
原文传递
引入集成学习的最大熵短语调序模型 被引量:3
8
作者 何钟豪 苏劲松 +2 位作者 史晓东 陈毅东 黄研洲 《中文信息学报》 CSCD 北大核心 2014年第1期87-93,共7页
基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语调序模型训练方法。在大规模... 基于最大熵的括号转录语法模型具有翻译能力强、模型训练简单的优点,成为近些年统计机器翻译研究的热点。然而,该模型存在短语调序实例样本分布不平衡的缺点。针对该问题,该文提出了一种引入集成学习的短语调序模型训练方法。在大规模数据集上的实验结果表明,我们的方法能有效改善调序模型的训练效果,显著提高翻译系统性能。 展开更多
关键词 最大熵 短语调序 不平衡分类 集成学习
下载PDF
基于有监督学习方法的多文档文本情感摘要 被引量:3
9
作者 李艳翠 林莉媛 周国栋 《中文信息学报》 CSCD 北大核心 2014年第6期143-149,共7页
该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监... 该文研究有监督学习方法在多文档文本情感摘要中的应用。利用从亚马逊中文网和亚马逊英文网上收集的产品评论语料,抽取文本内特征、PageRank特征、情感特征和评论质量特征,基于有监督方法进行多文档文本情感摘要抽取。实验结果表明有监督学习方法比无监督学习方法在ROUGE值上有显著的提高,情感特征和评论质量特征均有助于文本情感摘要。 展开更多
关键词 情感摘要 评论质量 情感特征 有监督学习 最大熵分类器
下载PDF
A New Detection Approach Based on the Maximum Entropy Model
10
作者 DONG Xiaomei XIANG Guang YU Ge LI Xiaohua 《Wuhan University Journal of Natural Sciences》 CAS 2006年第6期1765-1768,共4页
The maximum entropy model was introduced and a new intrusion detection approach based on the maximum entropy model was proposed. The vector space model was adopted for data presentation. The minimal entropy partitioni... The maximum entropy model was introduced and a new intrusion detection approach based on the maximum entropy model was proposed. The vector space model was adopted for data presentation. The minimal entropy partitioning method was utilized for attribute diseretization. Experiments on the KDD CUP 1999 standard data set were designed and the experimental results were shown. The receiver operating eharaeteristie(ROC) curve analysis approach was utilized to analyze the experimental results. The analysis results show that the proposed approach is comparable to those based on support vector maehine(SVM) and outperforms those based on C4.5 and Naive Bayes classifiers. According to the overall evaluation result, the proposed approach is a little better than those based on SVM. 展开更多
关键词 intrusion detection maximum entropy model classifier support vector machine receiver operating characteristic curve
下载PDF
汉语显式篇章关系分析 被引量:1
11
作者 丁彬 孔芳 +1 位作者 李生 周国栋 《中文信息学报》 CSCD 北大核心 2014年第6期101-106,共6页
篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank,CTB)中的... 篇章关系分为显式和隐式两种。显式关系的显著特征是篇章的基本单元之间存在显式连接词。针对汉语显式篇章关系,构建了包括汉语连接词识别和篇章关系分类的显式篇章关系分析平台。该文选取汉语宾州树库(Chinese Penn Treebank,CTB)中的500篇文本进行了汉语显式篇章关系标注;结合连接词的中心词,采用最大熵分类器构建了汉语连接词识别模块,其性能F1值达到了66.79%;基于连接词及其词性等上下文特征,构建了篇章关系分类器,其在最顶层4大类语义关系上的分类性能的F1值为91.92%。 展开更多
关键词 连接词识别 语义关系分类 最大熵分类器
下载PDF
基于状态和行为描述的情感分类方法
12
作者 张慧 王中卿 +3 位作者 李寿山 杨欣欣 李培峰 朱巧明 《计算机工程》 CAS CSCD 2012年第8期147-149,152,共4页
为利用情感文本不同侧面的信息,提出一种基于状态和行为描述的情感分类方法。将情感文本的描述分为情感的状态和行为2个视图,并利用2个视图的融合进行情感分类。为自动获得2个视图,人工标注了相应的语料,通过二元分类器构建状态和行为... 为利用情感文本不同侧面的信息,提出一种基于状态和行为描述的情感分类方法。将情感文本的描述分为情感的状态和行为2个视图,并利用2个视图的融合进行情感分类。为自动获得2个视图,人工标注了相应的语料,通过二元分类器构建状态和行为检测系统。在此基础上采用组合分类器方法融合2个不同的视图。实验结果证明,该方法在3个领域中文情感分类任务上的分类效果均有所提高。 展开更多
关键词 中文信息处理 情感分析 监督学习 最大熵 分类器融合
下载PDF
基于特征比较和最大熵模型的统计机器翻译错误检测
13
作者 杜金华 王莎 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期81-87,共7页
首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率,分析其对错误检测性能的影响;然后,将其分别与语言学特征如词性、词及由LG句法分析器抽取... 首先介绍3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的词后验概率,分析其对错误检测性能的影响;然后,将其分别与语言学特征如词性、词及由LG句法分析器抽取的句法特征等进行组合,利用最大熵分类器预测翻译错误,并在汉英NIST数据集上进行实验验证和比较。实验结果表明,不同的单词后验概率对分类错误率的影响是显著的,并且在词后验概率基础上加入语言学特征的组合特征可以显著降低分类错误率,提高译文错误预测性能。 展开更多
关键词 错误检测 词后验概率 语言学特征 最大熵分类器
下载PDF
口语对话中冗余词汇识别方法研究
14
作者 翟飞飞 宗成庆 《中文信息学报》 CSCD 北大核心 2011年第3期104-111,122,共9页
冗余现象是口语对话中普遍存在的特殊语言现象之一,它的存在常常会影响口语句子的理解和翻译。该文基于真实口语对话语料对冗余现象进行了分析,并在词汇层面对冗余现象进行了分类,然后对口语中的冗余词汇进行了统计识别方法研究。通过... 冗余现象是口语对话中普遍存在的特殊语言现象之一,它的存在常常会影响口语句子的理解和翻译。该文基于真实口语对话语料对冗余现象进行了分析,并在词汇层面对冗余现象进行了分类,然后对口语中的冗余词汇进行了统计识别方法研究。通过对冗余词汇处理前后的口语句子翻译实验,结果表明,预先对冗余现象进行处理,能够改善口语翻译的译文质量。 展开更多
关键词 冗余现象 最大熵分类器 支持向量机 条件随机场
下载PDF
基于多特征的英汉术语译文质量自动评价
15
作者 林康静 李楠 +1 位作者 叶娜 蔡东风 《沈阳航空航天大学学报》 2014年第6期59-65,共7页
该文通过深入分析术语的语言学特点和领域特点,引入了能充分刻画术语译文流利度、紧密度和忠实度的三类特征,即术语构词、互信息和术语实例库,将其与基础特征进行组合,采用机器学习方法中的排序学习算法将列表排序问题分解成二分类问题... 该文通过深入分析术语的语言学特点和领域特点,引入了能充分刻画术语译文流利度、紧密度和忠实度的三类特征,即术语构词、互信息和术语实例库,将其与基础特征进行组合,采用机器学习方法中的排序学习算法将列表排序问题分解成二分类问题,最后利用最大熵分类器预测多个翻译系统的术语译文质量。实验结果表明,在评价英汉术语翻译任务上的多个系统的输出译文质量时,该文引入的特征,可以进一步提高术语译文质量评价结果和人工评价结果的一致性。 展开更多
关键词 术语 特征 质量评价 最大熵分类器
下载PDF
基于多特征融合的统计机器翻译译文错误检测
16
作者 王莎 杜金华 刘丁 《西安理工大学学报》 CAS 北大核心 2013年第1期32-37,共6页
抽取了3种典型的单词后验概率特征(基于固定位置的词后验概率、基于目标位置窗的词后验概率、基于词对齐的词后验概率)和3种语言学特征(词、词性、句法分析器抽取的句法特征),并在此基础上抽取了一个来自源端的单词特征,然后基于中英NIS... 抽取了3种典型的单词后验概率特征(基于固定位置的词后验概率、基于目标位置窗的词后验概率、基于词对齐的词后验概率)和3种语言学特征(词、词性、句法分析器抽取的句法特征),并在此基础上抽取了一个来自源端的单词特征,然后基于中英NIST数据集,采用最大熵分类器来验证不同单词后验概率特征(WPP)独立使用及与其它特征组合后使用时对错误检测性能的影响。实验结果表明,采用不同方法计算得到的单词后验概率特征对分类错误率的影响是显著的,并且在单词后验概率和语言学特征组合基础上加入源端单词特征,可以显著降低分类错误率(CER),提高译文错误检测能力。 展开更多
关键词 最大熵分类器 单词后验概率 语言学特征 源端单词特征 错误检测
下载PDF
语义角色标注中特征优化组合研究 被引量:7
17
作者 丁金涛 王红玲 +2 位作者 周国栋 朱巧明 钱培德 《计算机应用与软件》 CSCD 2009年第5期17-21,52,共6页
特征决定着语义角色标注的性能,但并非特征越多性能越高。因此,如何优化组合这些特征就显得非常重要。选取了当前语义角色标注系统中常用的56个特征,按其贡献进行了优化组合实验。在正确的句法分析上取得了91.22%的语义角色分类精确率,... 特征决定着语义角色标注的性能,但并非特征越多性能越高。因此,如何优化组合这些特征就显得非常重要。选取了当前语义角色标注系统中常用的56个特征,按其贡献进行了优化组合实验。在正确的句法分析上取得了91.22%的语义角色分类精确率,在自动句法分析上语义角色标注F1值达到了78.07%。实验表明提高性能并不需要很多特征,关键在于特征的优化组合;同时在句法分析中起重要作用的谓词和中心词特征在语义角色标中也发挥了重要作用。 展开更多
关键词 语义角色标注 特征工程 最大熵分类器
下载PDF
Multi-Level Max-Margin Analysis for Semantic Classification of Satellite Images
18
作者 HU Fan XIA Gui-Song SUN Hong 《Wuhan University Journal of Natural Sciences》 CAS CSCD 2015年第1期47-54,共8页
The performance of scene classification of satellite images strongly relies on the discriminative power of the low-level and mid-level feature representation. This paper presents a novel approach, named multi-level ma... The performance of scene classification of satellite images strongly relies on the discriminative power of the low-level and mid-level feature representation. This paper presents a novel approach, named multi-level max-margin analysis (M 3 DA) for semantic classification for high-resolution satellite images. In our M 3 DA model, the maximum entropy discrimination latent Dirichlet allocation (MedLDA) model is applied to learn the topic-level features first, and then based on a bag-of-words repre- sentation of low-level local image features, the large margin nearest neighbor (LMNN) classifier is used to optimize a multiple soft label composed of word-level features (generated by SVM classifier) and topic-level features. The categorization performances on 21-class land-use dataset have demonstrated that the proposed model in multi-level max-margin scheme can distinguish different categories of land-use scenes reasonably. 展开更多
关键词 satellite image classification topic model maximum entropy discrimination latent Dirichlet allocation large margin nearest neighbor classifier multi-level max-margin
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部