期刊文献+
共找到95篇文章
< 1 2 5 >
每页显示 20 50 100
AUTOMATIC PATENT DOCUMFNT SUMMARIZATION FOR COLLABORATIVE KNOWLEDGE SYSTEMS AND SERVICES 被引量:9
1
作者 Amy J.C. TRAPPEY Charles V. TRAPPEY Chun-Yi WU 《Journal of Systems Science and Systems Engineering》 SCIE EI CSCD 2009年第1期71-94,共24页
Engineering and research teams often develop new products and technologies by referring to inventions described in patent databases. Efficient patent analysis builds R&D knowledge, reduces new product development tim... Engineering and research teams often develop new products and technologies by referring to inventions described in patent databases. Efficient patent analysis builds R&D knowledge, reduces new product development time, increases market success, and reduces potential patent infringement. Thus, it is beneficial to automatically and systematically extract information from patent documents in order to improve knowledge sharing and collaboration among R&D team members. In this research, patents are summarized using a combined ontology based and TF-IDF concept clustering approach. The ontology captures the general knowledge and core meaning of patents in a given domain. Then, the proposed methodology extracts, clusters, and integrates the content of a patent to derive a summary and a cluster tree diagram of key terms. Patents from the International Patent Classification (IPC) codes B25C, B25D, B25F (categories for power hand tools) and B24B, C09G and H011 (categories for chemical mechanical polishing) are used as case studies to evaluate the compression ratio, retention ratio, and classification accuracy of the summarization results. The evaluation uses statistics to represent the summary generation and its compression ratio, the ontology based keyword extraction retention ratio, and the summary classification accuracy. The results show that the ontology based approach yields about the same compression ratio as previous non-ontology based research but yields on average an 11% improvement for the retention ratio and a 14% improvement for classification accuracy. 展开更多
关键词 Semantic knowledge service key phrase extraction document summarization text mining patent document analysis
原文传递
基于超图的文本摘要与关键词协同抽取研究 被引量:11
2
作者 莫鹏 胡珀 +1 位作者 黄湘冀 何婷婷 《中文信息学报》 CSCD 北大核心 2015年第6期135-140,共6页
文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标。尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性。尽管已有学者提出了... 文本摘要和关键词抽取是自然语言处理领域的两个重要研究课题,它们均以生成描述文本主旨内容的精简信息为目标。尽管这两个任务目标相似,但它们通常被作为两个独立的问题分别研究,而较少考虑其彼此间的自然关联性。尽管已有学者提出了基于图模型的协同抽取方法,该方法同时考虑了句子与句子、词与词、句子与词之间的各种关系,以迭代强化的方式同时生成文本摘要和关键词,但现有模型大多仅限于表达句子与词之间的各种二元关系,而忽视了不同文本单元间潜在的若干重要的高阶关系。鉴于此,该文提出了一种新的基于超图的协同抽取方法。该方法以句子作为超边,以词作为节点构建超图,在一个统一的超图模型下同时利用句子与词之间的高阶信息来生成摘要和关键词。在NLPCC 2015面向微博的新闻文本摘要任务数据集上的实验结果验证了所提方法的可行性和有效性。 展开更多
关键词 超图 文本摘要 关键词抽取 协同抽取
下载PDF
权衡熵和相关度的自动摘要技术研究 被引量:9
3
作者 罗文娟 马慧芳 +1 位作者 何清 史忠植 《中文信息学报》 CSCD 北大核心 2011年第5期9-16,共8页
生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡... 生成高质量的文档摘要需要用简约而不丢失信息的描述文档,是自动摘要技术的一大难题。该文认为高质量的文档摘要必须尽量多的覆盖原始文档中的信息,同时尽可能的保持紧凑。从这一角度出发,从文档中抽取出熵和相关度这两组特征用以权衡摘要的信息覆盖率和紧凑性。该文采用基于回归的有监督摘要技术对提取的特征进行权衡,并且采用单文档摘要和多文档摘要进行了系统的实验。实验结果证明对于单文档摘要和多文档摘要,权衡熵和相关度均能有效地提高文档摘要的质量。 展开更多
关键词 自动摘要 句子特征抽取 相关度
下载PDF
国外乡村公路交通安全水平 被引量:5
4
作者 高建刚 许诺 +1 位作者 陈磊 陈强 《中国安全科学学报》 CAS CSCD 2008年第12期101-105,共5页
收集和整理了美国、加拿大、英国、澳大利亚等国关于乡村公路交通安全的管理和研究成果;归纳国外乡村公路的定义;分析乡村公路在交通事故数量、伤亡人数、死伤率等方面的基本情况。笔者通过对国外乡村公路交通安全水平研究,有如下3个结... 收集和整理了美国、加拿大、英国、澳大利亚等国关于乡村公路交通安全的管理和研究成果;归纳国外乡村公路的定义;分析乡村公路在交通事故数量、伤亡人数、死伤率等方面的基本情况。笔者通过对国外乡村公路交通安全水平研究,有如下3个结论:第一,目前还没有一个被普遍接受的乡村公路的定义;第二,乡村公路的交通事故后果比城市道路严重得多;第三,乡村公路交通安全水平提高的速度比城市道路慢;吸取国外乡村公路交通安全管理经验,为我国农村公路交通安全水平的改善提供有益的借鉴。 展开更多
关键词 交通安全 乡村公路 城市道路 交通事故 文献综述
下载PDF
一种非负矩阵分解的快速稀疏算法 被引量:5
5
作者 宋金歌 杨景 +1 位作者 陈平 佘玉梅 《云南民族大学学报(自然科学版)》 CAS 2011年第4期262-266,共5页
提出了一种非负矩阵分解的快速稀疏算法,该算法有利于处理高维小样本数据.在非负矩阵分解的过程中,通过代数变换,将原高维n×m阶的非负矩阵分解转化成低维m×m阶非负矩阵分解,大大提高了分解速度.在目标函数中加入了约束稀松度... 提出了一种非负矩阵分解的快速稀疏算法,该算法有利于处理高维小样本数据.在非负矩阵分解的过程中,通过代数变换,将原高维n×m阶的非负矩阵分解转化成低维m×m阶非负矩阵分解,大大提高了分解速度.在目标函数中加入了约束稀松度的项,通过控制稀松度,提高分解得到的潜在语义信息,改进文档集的话题划分,并能快速提取主题相关的语句生成文摘. 展开更多
关键词 非负矩阵分解 快速稀疏 文本文摘
下载PDF
面向机构的智能文本分析系统的研究 被引量:3
6
作者 陈勇 张佳骥 戎纪光 《无线电工程》 2007年第2期31-33,共3页
随着电子文本信息在机构内部的快速增加,人们无法应对堆积如山的文档,许多文档无法实现其信息价值,如何充分利用这些文本信息资源已成为一个迫切需要解决的问题。介绍一种可用于机构内部的智能文本分析系统以及相关的关键技术,其功能包... 随着电子文本信息在机构内部的快速增加,人们无法应对堆积如山的文档,许多文档无法实现其信息价值,如何充分利用这些文本信息资源已成为一个迫切需要解决的问题。介绍一种可用于机构内部的智能文本分析系统以及相关的关键技术,其功能包括文档检索、文档自动摘要和话题自动识别与跟踪。利用智能文本分析系统能够充分实现文本文档的信息价值。 展开更多
关键词 智能文本处理 文档检索 文档摘要
下载PDF
Evolutionary Algorithm for Extractive Text Summarization 被引量:1
7
作者 Rasim ALGULIEV Ramiz ALIGULIYEV 《Intelligent Information Management》 2009年第2期128-138,共11页
Text summarization is the process of automatically creating a compressed version of a given document preserving its information content. There are two types of summarization: extractive and abstractive. Extractive sum... Text summarization is the process of automatically creating a compressed version of a given document preserving its information content. There are two types of summarization: extractive and abstractive. Extractive summarization methods simplify the problem of summarization into the problem of selecting a representative subset of the sentences in the original documents. Abstractive summarization may compose novel sentences, unseen in the original sources. In our study we focus on sentence based extractive document summarization. The extractive summarization systems are typically based on techniques for sentence extraction and aim to cover the set of sentences that are most important for the overall understanding of a given document. In this paper, we propose unsupervised document summarization method that creates the summary by clustering and extracting sentences from the original document. For this purpose new criterion functions for sentence clustering have been proposed. Similarity measures play an increasingly important role in document clustering. Here we’ve also developed a discrete differential evolution algorithm to optimize the criterion functions. The experimental results show that our suggested approach can improve the performance compared to sate-of-the-art summarization approaches. 展开更多
关键词 SENTENCE CLUSTERING document summarization DISCRETE DIFFERENTIAL EVOLUTION algorithm
下载PDF
基于Markov逻辑网的句子压缩方法 被引量:1
8
作者 金锋 黄民烈 朱小燕 《清华大学学报(自然科学版)》 EI CAS CSCD 北大核心 2011年第11期1686-1690,共5页
提出了一种基于Markov逻辑网通过删除单词进行英文句子压缩的方法。通过一阶逻辑公式表示单词的局部特征以及单词之间的相互依赖关系,确定单词是否应该删除。与现有方法相比,该方法把判别式学习和整数规划的优点相结合,既融合了丰富的... 提出了一种基于Markov逻辑网通过删除单词进行英文句子压缩的方法。通过一阶逻辑公式表示单词的局部特征以及单词之间的相互依赖关系,确定单词是否应该删除。与现有方法相比,该方法把判别式学习和整数规划的优点相结合,既融合了丰富的句子特征,又以逻辑公式方便地表示全局约束。在书面和口语两个新闻数据集上的实验结果表明:该方法与L3和SVTL系统相比具有明显优势,在压缩率接近时,以人工压缩结果为评测标准,压缩后句子的依存关系F-score有较大提高。 展开更多
关键词 句子压缩 文档摘要 MARKOV逻辑网
原文传递
文本摘要的建构渗透度特征模型
9
作者 任立园 谢振平 刘渊 《中文信息学报》 CSCD 北大核心 2018年第7期74-81,共8页
旨在实现从海量的文本数据中快速准确地获取关键信息。为探索新颖的摘要句特征因素,该文将文句中的关键词嵌入知识网络进行建模,并将文句映射至知识网络进行表达,进而提出文句的关键词建构渗透度特征模型,在摘要句判别中引入文句中关键... 旨在实现从海量的文本数据中快速准确地获取关键信息。为探索新颖的摘要句特征因素,该文将文句中的关键词嵌入知识网络进行建模,并将文句映射至知识网络进行表达,进而提出文句的关键词建构渗透度特征模型,在摘要句判别中引入文句中关键词组的宽度和深度的渗透特性。结合最大熵建模分类方法,针对领域语料库进行不同特征的影响系数建模,实现了监督学习下摘要句的有效分类和自动提取。文中实验结果良好,表明了新特征模型的有效性和在领域语料库中的稳定性,且特征计算方法简洁,具有良好的综合实用性。 展开更多
关键词 文本摘要 文句关键词 知识网络 渗透度
下载PDF
基于LDA主题特征的自动文摘方法 被引量:24
10
作者 张明慧 王红玲 周国栋 《计算机应用与软件》 CSCD 2011年第10期20-22,46,共4页
近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距... 近年来概率主题模型受到了研究者的广泛关注,LDA(Latent Dirichlet Allocation)模型是主题模型中具有代表性的概率生成模型之一,它能够检测文本的隐含主题。提出一个基于LDA模型的主题特征,该特征计算文档的主题分布与句子主题分布的距离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA模型的主题特征后,自动文摘的性能得到了显著的提高。 展开更多
关键词 自动文摘 LDA 主题模型 多文档
下载PDF
主题模型LDA的多文档自动文摘 被引量:23
11
作者 杨潇 马军 +2 位作者 杨同峰 杜言琦 邵海敏 《智能系统学报》 2010年第2期169-176,共8页
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型... 近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 展开更多
关键词 多文档自动文摘 句子分值计算 主题模型 LDA 主题数目
下载PDF
自动文摘评价方法综述 被引量:12
12
作者 张瑾 王小磊 许洪波 《中文信息学报》 CSCD 北大核心 2008年第3期81-88,共8页
评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘... 评价是自动文摘领域长期关注的焦点,对自动文摘技术的发展起着积极的促进作用。本文首先介绍了自动文摘评价方法的应用背景和面临的困难;然后对自动文摘评价方法进行了简单介绍和评价;接着在了解国内外研究现状的基础上详细分析了文摘评价方法的关键技术;最后对自动文摘评价方法未来的发展趋势进行了展望。 展开更多
关键词 计算机应用 中文信息处理 文本挖掘 自动文摘 自然语言处理 多文档文摘 文摘评价方法
下载PDF
多文档文摘中句子优化选择方法研究 被引量:13
13
作者 秦兵 刘挺 +1 位作者 陈尚林 李生 《计算机研究与发展》 EI CSCD 北大核心 2006年第6期1129-1134,共6页
在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在... 在多文档文摘子主题划分的基础上,提出了一种在子主题之间对文摘句优化选择的方法·首先在句子相似度计算的基础上,形成多文档集合的子主题,通过对各子主题打分,确定子主题的抽取顺序·以文摘中有效词的覆盖率作为优化指标,在各个子主题中选择文摘句·从减少子主题之间及子主题内部的信息的冗余性两个角度选择文摘句,使文摘的信息覆盖率得到很大提高·实验表明,生成的文摘是令人满意的· 展开更多
关键词 多文档文摘 子主题 句子优化选择
下载PDF
文本自动综述系统的研究与实现 被引量:2
14
作者 郑义 黄萱菁 吴立德 《计算机研究与发展》 EI CSCD 北大核心 2003年第11期1606-1611,共6页
文本自动综述是自动文摘在多文档上的推广.提出了一种基于统计的文本自动综述方法,并描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述.首先对文本进行分段实现信息分割;再对文本段进行聚类实现信... 文本自动综述是自动文摘在多文档上的推广.提出了一种基于统计的文本自动综述方法,并描述了它的实现过程.该方法利用文档内和文档之间段落的语义相关性,实现多文档的自动综述.首先对文本进行分段实现信息分割;再对文本段进行聚类实现信息凝聚;最后抽取代表段产生综述结果实现信息压缩.实验结果表明,该方法是有效的,具有一定的实用价值. 展开更多
关键词 文本自动综述 文本分段 文本聚类 向量空间模型
下载PDF
一种基于LDA的CRF自动文摘方法 被引量:13
15
作者 吴晓锋 宗成庆 《中文信息学报》 CSCD 北大核心 2009年第6期39-45,共7页
浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础... 浅层狄利赫雷分配(Latent Dirichlet Allocation,LDA)方法近年来被广泛应用于文本聚类、分类、段落切分等等,并且也有人将其应用于基于提问的无监督的多文档自动摘要。该方法被认为能较好地对文本进行浅层语义建模。该文在前人工作基础上提出了基于LDA的条件随机场(Conditional Random Field,CRF)自动文摘(LCAS)方法,研究了LDA在有监督的单文档自动文摘中的作用,提出了将LDA提取的主题(Topic)作为特征加入CRF模型中进行训练的方法,并分析研究了在不同Topic下LDA对摘要结果的影响。实验结果表明,加入LDA特征后,能够有效地提高以传统特征为输入的CRF文摘系统的质量。 展开更多
关键词 计算机应用 中文信息处理 自然语言处理 自动文摘 狄利赫雷分布 条件随机场
下载PDF
基于LDA重要主题的多文档自动摘要算法 被引量:11
16
作者 刘娜 路莹 +1 位作者 唐晓君 李明霞 《计算机科学与探索》 CSCD 北大核心 2015年第2期242-248,共7页
提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建... 提出了基于LDA(latent Dirichlet allocation)重要主题的多文档自动摘要算法。该算法与已有的基于主题模型的多文档自动摘要算法主要有两点区别:第一,在计算句子主题与文档主题相似度问题上,引入并定义了主题重要性的概念,将LDA模型建立的主题分成重要和非重要主题两类,计算句子权重时重点考虑句子主题和文档重要主题的相似性;第二,该方法同时使用句子的词频、位置等统计特征和LDA特征组成的向量计算句子的权重,既突出了传统的统计特征的显著优势,又结合了LDA模型的主题概念。实验表明,该算法在DUC2002标准数据集上取得了较好的摘要效果。 展开更多
关键词 多文档摘要 主题模型 重要主题
下载PDF
一种基于演化算法进行句子抽取的多文档自动摘要系统SBGA 被引量:10
17
作者 刘德喜 何炎祥 +1 位作者 姬东鸿 杨华 《中文信息学报》 CSCD 北大核心 2006年第6期46-53,共8页
SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法... SBGA系统将多文档自动摘要过程视为一个从源文档集中抽取句子的组合优化过程,并用演化算法来求得近似最优解。与基于聚类的句子抽取方法相比,基于演化算法进行句子抽取的方法是面向摘要整体的,因此能获得更好的近似最优摘要。演化算法的评价函数中考虑了衡量摘要的4个标准:长度符合用户要求、信息覆盖率高、更多地保留原文传递的重要信息、无冗余。另外,为了提高词频计算的精度,SBGA采用了一种改进的词频计算方法TFS,将加权后词的同义词频率加到了原词频中。在DUC2004测试数据集上的实验结果表明,基于演化算法进行句子抽取的方法有很好的性能,其ROUGE-1分值比DUC2004最优参赛系统仅低0.55%。改进的词频计算方法TFS对提高文档质量也起到了良好的作用。 展开更多
关键词 计算机应用 中文信息处理 多文档自动摘要 演化算法 句子抽取 评价函数 TFS
下载PDF
基于语义图的医学多文档摘要提取模型构建 被引量:11
18
作者 张晗 赵玉虹 《图书情报工作》 CSSCI 北大核心 2017年第8期112-119,共8页
[目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的... [目的/意义]针对医学文本的特点,提出一种基于语义图的多文档自动摘要方法,并利用其中的语义信息实现摘要主题的识别。[方法/过程]利用SemRep实现源文档概念及其语义关系的规范化抽取并构建语义图,从概念-关系-社区3个层次对网络图中的关键信息进行抽取并生成摘要,利用概念-语义类型-类型分组三级映射实现对概念的归类,结合语义搭配模式对摘要主题进行划分。[结果/结论]通过对5种疾病数据集进行测试,结果显示该方法能有效识别出文献集中的核心内容,语义图中所富含的语义信息能准确地对摘要进行主题划分。 展开更多
关键词 CLIQUE 语义图 多文档自动摘要 主题识别
原文传递
以关键词抽取为核心的文摘句选择策略 被引量:8
19
作者 马亮 何婷婷 +2 位作者 李芳 陈劲光 邵伟 《中文信息学报》 CSCD 北大核心 2008年第6期50-54,共5页
针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融... 针对面向查询的多文档自动文摘,该文提出了一种以关键词抽取为核心的文摘句选择策略。通过查询扩展的相关技术得到相关多文档集中词语的查询相关性特征,利用最大似然估计法得到语料中词语的话题相关性特征,并将这两个特征值进行特征融合得到词语的重要度以确定关键词。然后通过关键词的重要度来给候选句打分,进一步利用改进的MMR(Maximal Marginal Relevance)技术来调整候选句的得分,最后生成文摘。该文将特征融合引入到词语层面,在DUC2005的语料中测试取得了较好的效果。 展开更多
关键词 计算机应用 中文信息处理 多文档文摘 关键词抽取 文摘句选择
下载PDF
一种基于HITS算法的Blog文摘方法 被引量:7
20
作者 苗家 马军 陈竹敏 《中文信息学报》 CSCD 北大核心 2011年第1期104-109,共6页
Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合... Blog文章对应了大量评论信息,评论中又包含大量的噪声,因此如何结合Blog评论获取Blog文章的主要内容是许多基于Blog的应用所要面临的难题。以往提出的文摘方法大多是针对多文档文摘的通用方法,并未考虑Blog文章的特殊性,无法有效地结合评论来处理文章。该文通过分析Blog的特点提出了一种新的结合评论信息的Blog文摘方法。该方法首先基于特征计算出评论的权重,然后结合图模型使用HITS算法得到正文句子权重,进而得到文摘句。通过在凤凰博客数据集上的实验表明,该文方法在ROUGE测度上优于以往方法。 展开更多
关键词 文档自动摘要 BLOG 评论 HITS
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部