期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于最大熵模型的组块分析 被引量:58
1
作者 李素建 刘群 杨志峰 《计算机学报》 EI CSCD 北大核心 2003年第12期1722-1727,共6页
采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最... 采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最大熵模型来解决 .最大熵模型的关键是如何选取有效的特征 ,文中给出了相关的特征选择过程和算法 .最后给出了系统实现和实验结果 . 展开更多
关键词 自然语言处理 最大熵模型 组块分析 句法分析 信息处理
下载PDF
统计和规则相结合的汉语组块分析 被引量:21
2
作者 李素建 刘群 白硕 《计算机研究与发展》 EI CSCD 北大核心 2002年第4期385-391,共7页
从文本中获得的组块对机器翻译、信息检索等很多领域都非常有用.介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法.并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测试验证... 从文本中获得的组块对机器翻译、信息检索等很多领域都非常有用.介绍了规则和统计进行组块分析的处理策略,提出了规则与统计相结合的处理方法.并且结合组块分析的实际情况改进了一般评价系统性能的指标,通过封闭测试和开放测试验证,与单纯规则组块划分相比较,组块识别的精确率和召回率都得到了提高,组块划分错误率降低了7%. 展开更多
关键词 统计 规则 汉语组块分析 语料库 自然语言处理 计算机
下载PDF
汉语组块分析研究综述 被引量:12
3
作者 李业刚 黄河燕 《中文信息学报》 CSCD 北大核心 2013年第3期1-8,共8页
组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中... 组块分析作为浅层句法分析的代表,既可以满足很多语言信息处理系统对于句法功能的需求,又可以作为子任务,在词法分析和完全句法分析以及语义分析中间架起一座桥梁,为句子进行进一步深入分析提供有力的支持,因此众多的研究将注意力集中于组块分析上。该文主要对组块的定义和分类、组块识别方法、组块的标注和评测以及组块内部关系分析等几方面的研究进展进行详细的综述。最后,探讨了组块分析存在的问题并对未来的发展方向进行了展望。 展开更多
关键词 中文信息处理 浅层句法分析 组块分析 组块识别
下载PDF
基于领域本体和语块分析的信息抽取的研究与实现 被引量:9
4
作者 丁晟春 刘逶迤 +1 位作者 熊霞 梅健 《情报学报》 CSSCI 北大核心 2010年第1期53-58,共6页
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进... 为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究。结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率。 展开更多
关键词 领域本体 语块分析 信息抽取
下载PDF
基于最大熵模型的汉语问句语义组块分析 被引量:5
5
作者 余正涛 樊孝忠 《计算机工程》 EI CAS CSCD 北大核心 2005年第17期3-5,8,共4页
问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大... 问句分析是问答系统的关键,为降低问句完整语法分析的复杂度,该文应用浅层句法分析理论,采用问句语义组块方式来分析问句。以“知网”知识库为基础,提取和定义了表达汉语问句的6种语义块,定义了语义组块最大熵模型的特征表示,通过最大熵原理实现了语义组块特征抽取和特征选取学习算法,并以模型为基础实现了真实问句的语义块的标注,从而为在语义层面上理解汉语问句奠定了基础。实验结果说明最大熵模型应用于汉语问句语义组块分析具有较好的效果。 展开更多
关键词 最大熵模型 问句分析 句法分析 组块分析 语义块
下载PDF
基于SVM的组块识别及其错误驱动学习方法 被引量:6
6
作者 黄德根 王莹莹 《中文信息学报》 CSCD 北大核心 2006年第6期17-24,共8页
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集... 给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。 展开更多
关键词 计算机应用 中文信息处理 组块分析 错误驱动学习 支持向量机(SVM) 规则集
下载PDF
基于中英平行专利语料的短语复述自动抽取研究 被引量:7
7
作者 李莉 刘知远 孙茂松 《中文信息学报》 CSCD 北大核心 2013年第6期151-157,174,共8页
短语复述自动抽取是自然语言处理领域的重要研究课题之一,已广泛应用于信息检索、问答系统、文档分类等任务中。而专利语料作为人类知识和技术的载体,内容丰富,实现基于中英平行专利语料的短语复述自动抽取对于技术主题相关的自然语言... 短语复述自动抽取是自然语言处理领域的重要研究课题之一,已广泛应用于信息检索、问答系统、文档分类等任务中。而专利语料作为人类知识和技术的载体,内容丰富,实现基于中英平行专利语料的短语复述自动抽取对于技术主题相关的自然语言处理任务的效果提升具有积极意义。该文利用基于统计机器翻译的短语复述抽取技术从中英平行专利语料中抽取短语复述,并利用基于组块分析的技术过滤短语复述抽取结果。而且,为了处理对齐错误和翻译歧义引起的短语复述抽取错误,我们利用分布相似度对短语复述抽取结果进行重排序。实验表明,基于统计机器翻译的短语复述抽取在中英文上准确率分别为43.20%和43.60%,而经过基于组块分析的过滤技术后准确率分别提升至75.50%和52.40%。同时,利用分布相似度的重排序算法也能够有效改进抽取效果。 展开更多
关键词 自动抽取 短语 语料 专利 平行 统计机器翻译 自然语言处理 抽取技术
下载PDF
一种基于组块分析的共现词提取方法 被引量:6
8
作者 赵国荣 王文剑 杨光 《情报科学》 CSSCI 北大核心 2017年第12期129-135,共7页
【目的/意义】文献计量学方法是研究学科发展趋势、捕捉学科前沿热点的一种定量化的方法。共词分析是一种重要的文献计量学方法,一般将作者选定的关键词作为最常用的词源。但科技论文中作者给出的关键词个数有限,会存在缺失或者不能充... 【目的/意义】文献计量学方法是研究学科发展趋势、捕捉学科前沿热点的一种定量化的方法。共词分析是一种重要的文献计量学方法,一般将作者选定的关键词作为最常用的词源。但科技论文中作者给出的关键词个数有限,会存在缺失或者不能充分表达主题等情况,从而导致丢失一些重要的共现关系。【方法/过程】本文采用组块分析的方法从文章标题中提取短语或词作为作者给定关键词的有益补充。【结果/结论】以中文句法分析领域的文献作为研究对象进行实验,结果证明增补后的关键词列表增加了共现关系,优化了聚类结果。最后对中文句法分析领域发展趋势及研究热点进行了分析。 展开更多
关键词 组块分析 共词网络 战略图 社会网络分析 中文句法分析
原文传递
基于组块分析的路径自然语言语义角色标注方法 被引量:3
9
作者 张秀龙 李新德 戴先中 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第A01期127-131,共5页
为了进行路径自然语言研究,首先设计了路径自然语言收集方案,主要面向室内环境收集了一定的路径自然语言语料,通过手工标注建立了一个小型的语料库.其次,对路径自然语言的特征进行了一定的分析,在此基础上概括了几种常见的语义角色,主... 为了进行路径自然语言研究,首先设计了路径自然语言收集方案,主要面向室内环境收集了一定的路径自然语言语料,通过手工标注建立了一个小型的语料库.其次,对路径自然语言的特征进行了一定的分析,在此基础上概括了几种常见的语义角色,主要包括关于landmark和方位转换的语义角色.路径自然语言本身具有高度规律性,语义角色相对集中,因此语义分析采用了基于组块分析的语义角色标注方法,将语义分析问题转化为序列信号的切分和分类问题.最后,利用支持向量机进行了相关的组块标注实验.实验结果表明提出的方法具有较大的潜力. 展开更多
关键词 路径自然语言 语义角色标注 组块分析 支持向量机
下载PDF
基于HOWNET的汉语组块分析 被引量:1
10
作者 舒鑫柱 杨尔弘 《河南职业技术师范学院学报》 2001年第4期59-61,共3页
介绍了当前句法分析的研究现状 ,利用《知网——中文信息结构库》作为知识库 ,结合当前汉语句法分析中的组块分析方法 ,提出了一种基于《知网》
关键词 句法分析 组块分析 依存关系 汉语 HOWNET 知识库 语法
下载PDF
基于语序变换的藏文复述句生成方法 被引量:2
11
作者 柔特 才让加 孙茂松 《计算机工程》 CAS CSCD 北大核心 2018年第4期231-235,共5页
机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法... 机器理解藏文语句存在灵活性差和复杂性高的问题。为此,针对藏文相同语义句子的不同表达方式,设计复述句自动生成方法。通过对藏文句型结构、句子内部组块进行分析,利用全排列递归算法生成复述句。实验结果显示,与其他语言复述生成方法不同,该方法根据藏文句子中组块数量的不同,通过一个句子可以生成一个或多个,甚至上千个句义相同的复述句并且准确率达到93.4%,可应用于藏汉机器翻译、机器翻译评测和藏文问答系统等领域。 展开更多
关键词 复述生成 藏文 语序变换 句型结构 组块分析
下载PDF
Chunk Parsing and Entity Relation Extracting to Chinese Text by Using Conditional Random Fields Model 被引量:2
12
作者 Junhua Wu Longxia Liu 《Journal of Intelligent Learning Systems and Applications》 2010年第3期139-146,共8页
Currently, large amounts of information exist in Web sites and various digital media. Most of them are in natural lan-guage. They are easy to be browsed, but difficult to be understood by computer. Chunk parsing and e... Currently, large amounts of information exist in Web sites and various digital media. Most of them are in natural lan-guage. They are easy to be browsed, but difficult to be understood by computer. Chunk parsing and entity relation extracting is important work to understanding information semantic in natural language processing. Chunk analysis is a shallow parsing method, and entity relation extraction is used in establishing relationship between entities. Because full syntax parsing is complexity in Chinese text understanding, many researchers is more interesting in chunk analysis and relation extraction. Conditional random fields (CRFs) model is the valid probabilistic model to segment and label sequence data. This paper models chunk and entity relation problems in Chinese text. By transforming them into label solution we can use CRFs to realize the chunk analysis and entities relation extraction. 展开更多
关键词 Information EXTRACTION chunk parsing ENTITY RELATION EXTRACTION
下载PDF
基于神经元网络的问句组块分析
13
作者 付斌 樊孝忠 《计算机技术与发展》 2006年第10期94-96,100,共4页
问句分析是自动问答系统研究中的重点和难点。在中文问句的结构特点基础上,结合机器学习及组块分析理论,对问句进行组块分析,实现了基于神经网络的问句组块识别算法,并应用于银行领域自动问答系统中。测试结果表明,对问句组块的识别能... 问句分析是自动问答系统研究中的重点和难点。在中文问句的结构特点基础上,结合机器学习及组块分析理论,对问句进行组块分析,实现了基于神经网络的问句组块识别算法,并应用于银行领域自动问答系统中。测试结果表明,对问句组块的识别能够达到比较满意的效果。 展开更多
关键词 自动问答 组块分析 语义块 神经元网络
下载PDF
基于条件随机场的维吾尔文组块分析 被引量:1
14
作者 艾山.吾买尔 吐尔根.依布拉音 +3 位作者 卡哈尔江.阿比的热西提 早克热.卡德尔 买合木提.买买提 亚森.艾则孜 《中文信息学报》 CSCD 北大核心 2016年第3期90-95,共6页
该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。... 该文对维吾尔语树库标注体系进行分析,根据组块划分原则,在短语标记集的基础上制定了维吾尔语组块标记集,从已完成标注的3 000句语料库构建组块库。根据维文语言的特点,在英汉组块识别特征基础上,增加了词干、词缀、同义词标记等特征。该文中的性能评价指标采用了国际通用的准确率,召回率和F值,3 000个标注句子作为训练和测试语料库用,实验采用了交叉验证法,训练和测试语料库的比例分别为9∶1,8∶2,2∶1,召回率分别为80.34%,76.87%,66.76%。实验表明,语料库规模对模型性能影响较大。 展开更多
关键词 条件随机场 维吾尔 组块分析
下载PDF
基于SVM的句子组块识别
15
作者 林煜明 李优 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期33-36,84,共5页
阐述了基于统计的SVM(支持向量机)模型的汉语句子组块识别.SVM模型使用已进行组块标注的语料,通过多种特征参数选择和多分类划分,对数据进行统计学习得到训练模型后实现.给出模型的算法和识别结果,分析了统计模型的特点.
关键词 组块识别 组块特征 支持向量机
下载PDF
基于汉语组块产品特征——观点对提取与情感分析研究 被引量:4
16
作者 刘臣 韩林 +2 位作者 李丹丹 安咏雪 霍良安 《计算机应用研究》 CSCD 北大核心 2017年第10期2942-2945,共4页
针对用户评论中产品特征—观点对的提取及情感分析问题进行了研究。为了提高提取及分析的准确性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位... 针对用户评论中产品特征—观点对的提取及情感分析问题进行了研究。为了提高提取及分析的准确性,利用组块分析提取产品特征,从中寻找到频繁项集,并用逐点互信息量(PMI)对候选产品特征进行过滤,得到产品的特征集合;利用特征与情感词在位置上的邻近关系,提取情感词并组成特征—观点对,通过点互信息方法(SO-PMI)进行情感倾向分析。为验证该方法的有效性,以酒店评论文本为例,从中提取酒店的特征—观点对并进行情感分析,准确率为76.68%,召回率为70.84%。实验结果表明,引入组块分析可以有效地解决商品评论的细粒度情感分类问题。 展开更多
关键词 情感分析 汉语组块分析 特征-观点对提取 点互信息方法
下载PDF
汉语组块分析在产品特征提取中的应用研究 被引量:4
17
作者 杜思奇 李红莲 吕学强 《现代图书情报技术》 CSSCI 2015年第9期26-30,共5页
【目的】解决用户评论文本中的产品特征提取问题,尤其是名词性短语的识别问题。【方法】利用汉语组块分析进行产品特征提取,根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,从而实现对用户评论中产品... 【目的】解决用户评论文本中的产品特征提取问题,尤其是名词性短语的识别问题。【方法】利用汉语组块分析进行产品特征提取,根据Apriori产生频繁项集以及TF-IDF阈值对候选产品特征进行过滤,得到产品特征集合,从而实现对用户评论中产品特征的自动提取。【结果】为验证该方法的有效性,以汽车评论文本为例,从中提取汽车类产品的特征,平均召回率达到76.89%,平均准确率达到84.03%。【局限】该方法的召回率较低,存在名词块识别错误的问题。【结论】实验结果表明引入汉语组块分析可以准确识别名词性短语,提高产品特征提取的准确率。 展开更多
关键词 产品特征提取 名词性短语识别 汉语组块分析 关联规则
原文传递
基于规则的中文组块内部关系分析 被引量:2
18
作者 王贵荣 荀恩东 饶高琦 《郑州大学学报(理学版)》 北大核心 2022年第3期28-33,共6页
组块分析是浅层句法分析的典型任务,但目前的研究大多集中于组块边界识别和组块句法功能研究,缺少对组块内部关系的分析。采用基于规则的多结构融合方法进行块内关系分析,即将规则集与有限状态自动机、树结构、网格结构以及搭配知识进... 组块分析是浅层句法分析的典型任务,但目前的研究大多集中于组块边界识别和组块句法功能研究,缺少对组块内部关系的分析。采用基于规则的多结构融合方法进行块内关系分析,即将规则集与有限状态自动机、树结构、网格结构以及搭配知识进行有效融合,分析结果以三元组的形式表示。以宾州中文树库中gold standard数据集的共计2005句作为测试集进行了实验,最终F1值达到了85.82%。所提方法加深了句法分析的深度,推动了传统组块分析向完全句法分析的发展。 展开更多
关键词 组块 规则 块内分析 语言资源
下载PDF
自动获取大规模的汉语紧密组合词汇关联对 被引量:1
19
作者 邱晗 周强 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第9期1293-1297,共5页
词汇关联对(lexical cohesion pairs,LCP)是真实文本中出现的反映不同句法语义关联关系的实词组合对。可靠的词汇关联对可以在汉语文本的复合词分析、句法结构排歧、远距离依赖识别和语义排歧等研究中发挥重要作用。该文提出了一种将基... 词汇关联对(lexical cohesion pairs,LCP)是真实文本中出现的反映不同句法语义关联关系的实词组合对。可靠的词汇关联对可以在汉语文本的复合词分析、句法结构排歧、远距离依赖识别和语义排歧等研究中发挥重要作用。该文提出了一种将基本块分析和统计筛选相结合的处理方法,保证在较高的提取精度条件下,尽可能多地从大规模真实文本语料库中自动获取较可靠的汉语紧密组合词汇关联对。在约4 000万字规模的人民日报词语切分和词性标注库上进行的关联对获取实验结果表明:该方法可以在废弃35.6%的有效分析信息条件下,自动提取出约73万个汉语名和动名关联对,抽样提取精度达到了96%左右,显示了较好的处理效果。 展开更多
关键词 词汇关联对 基本块分析 统计筛选 文本挖掘 知识获取
原文传递
汉语组块分析在情感分类中的应用研究
20
作者 杜思奇 李红莲 吕学强 《计算机应用与软件》 CSCD 2016年第10期167-171,共5页
网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车... 网络产品评论的情感分析对网络用户的日常购买行为有着重要的决策作用,因此,如何利用细粒化的处理方法提高情感分析的准确率,成为了一个热门的研究话题。针对该问题提出一种基于汉语组块分析的情感识别方法,首先依靠汉语组块分析对汽车评论语料进行细粒化的处理并提取情感标签,再结合情感词本体和支持向量机模型对情感标签进行分类,从而实现情感倾向性的判别。实验表明,采用汉语组块分析的情感分类方法相比其他的分类算法平均准确率提高了4%。因此,基于汉语组块分析的情感分类可以降低分类器的输入特征维数,并有效提高分类器的分类性能。 展开更多
关键词 汉语组块分析 情感标签 情感词本体 情感分类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部