期刊文献+
共找到11篇文章
< 1 >
每页显示 20 50 100
基于语步识别的科技文献结构化自动综合工具构建 被引量:2
1
作者 刘熠 张智雄 +1 位作者 王宇飞 李雪思 《数据分析与知识发现》 EI CSSCI CSCD 北大核心 2024年第2期65-73,共9页
【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具... 【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具的建设思路,即通过语步识别与研究问题、研究方法、研究进展短语抽取,自动揭示单篇文献中的关键知识内容;通过层次聚类与类簇标签生成,实现多篇文献的知识整理归纳;通过设计树形综合结构,指导结构化综合结果输出。【结果】研发了结构化自动综合工具,能够自动综合文献集内容,并按照“研究问题-研究方法-研究进展”的树形结构揭示文献集的研究脉络与骨架。【局限】由于聚类技术的限制,目前还存在聚类准确率不足、聚类簇个数难以确定等问题,影响了自动综合效果。【结论】基于语步识别技术,构建面向实际应用的结构化自动综合工具,支持文献检索、自动综合、结果循证等功能,验证了基于语步识别实现结构化自动综合思路的可行性和有效性。 展开更多
关键词 科技文献 语步识别 结构化自动综合 短语抽取 层次聚类 类簇标签生成
原文传递
基于时序短语聚类的新兴技术主题识别方法研究
2
作者 冯岭 马斌 《竞争情报》 2023年第5期18-28,共11页
有效识别新兴技术对充分挖掘新兴技术应用潜力、优化国家重点产业布局具有重要意义。以专利为研究数据,提出基于时序短语聚类的新兴技术主题识别方法。首先,通过比较相邻时间阶段的技术短语集合之间的差异,筛选候选新兴技术短语;其次,... 有效识别新兴技术对充分挖掘新兴技术应用潜力、优化国家重点产业布局具有重要意义。以专利为研究数据,提出基于时序短语聚类的新兴技术主题识别方法。首先,通过比较相邻时间阶段的技术短语集合之间的差异,筛选候选新兴技术短语;其次,采用短语聚类方法,得到新兴技术的候选新兴技术主题;最后,针对新兴技术的特点,定义一系列影响性和增长性指数,对候选新兴技术主题进一步遴选,从而识别新兴技术主题。以“电池”作为研究对象,对美国专利进行实证研究,发现了“电池的新型材料”和“新型充电技术”等新兴技术主题。采用的基于短语聚类方法与传统方法相比,不仅在新兴技术主题识别上具有较好的效果,而且能清晰地反映出新兴技术的发展方向和趋势。 展开更多
关键词 新兴技术 短语聚类 短语集合差异 多指数
下载PDF
无监督中文名词短语指代消解研究 被引量:1
3
作者 高俊伟 孔芳 +2 位作者 朱巧明 李培峰 华秀丽 《计算机工程》 CAS CSCD 2012年第17期189-191,共3页
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台... 为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。 展开更多
关键词 无监督 名词短语 指代消解 聚类 自然语言 语料
下载PDF
语料对中文名词短语指代消解影响研究 被引量:1
4
作者 高俊伟 孔芳 +1 位作者 朱巧明 李培峰 《中文信息学报》 CSCD 北大核心 2013年第3期61-68,共8页
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的... 指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005,OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。 展开更多
关键词 指代消解 名词短语 无监督 聚类 语料
下载PDF
改进的维吾尔语Web文本后缀树聚类 被引量:1
5
作者 邹志华 田生伟 +1 位作者 禹龙 冯冠军 《中文信息学报》 CSCD 北大核心 2013年第2期118-126,共9页
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提... 该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。 展开更多
关键词 维吾尔语 后缀树 短语聚类 停用词表 文档频率
下载PDF
基于文本语义理解的学科发展趋势分析
6
作者 余丽 《农业图书情报学报》 2020年第3期29-36,共8页
[目的 /意义]学术论文是科技创新发展的重要战略资源,是反映学科研究动态的一手资料;为后续研究者提供了宝贵的方法论和创新基础。目前,学术论文的知识组织还缺乏细粒度知识的结构化描述,阻碍了科技情报服务向计算化和精准化的转型升级... [目的 /意义]学术论文是科技创新发展的重要战略资源,是反映学科研究动态的一手资料;为后续研究者提供了宝贵的方法论和创新基础。目前,学术论文的知识组织还缺乏细粒度知识的结构化描述,阻碍了科技情报服务向计算化和精准化的转型升级。[方法 /过程]首先提出一种深入文本内容的语义分析框架,半自动化从论文摘要中识别出"研究主题"和"关键技术";然后设计了一种短语级多层次聚类方法,水平方向上的聚类融合了同义词语,垂直方向上的聚类构建了层次关系;最后以地理信息科学领域的代表性期刊论文摘要为实验数据,运用文献计量分析方法,分析了地理信息科学领域近10年的热点研究主题和关键技术,及其随时间发展的脉络。[结果 /结论]研究方法可为面向文本内容理解的情报分析提供算法与数据支撑。 展开更多
关键词 人工智能 语义标注 神经网络 短语聚类 文献计量分析
下载PDF
基于改进BIRCH聚类算法的评价对象挖掘 被引量:2
7
作者 王梦遥 王晓晔 +1 位作者 洪睿琪 柴晓瑞 《软件》 2019年第11期9-12,61,共5页
本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再... 本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再通过对于剩下的簇使用K-means聚类算法来获得最优评价对象。这种修剪聚类方法与以往的基于PMI算法修剪然后基于K-means聚类算法相比,减少了评价对象修剪时对语料库的依赖,最终聚类的结果更加精准,而且BIRCH算法采用一次扫描数据库的策略,可以有效提高速度。 展开更多
关键词 名词词组模式 BIRCH聚类算法 K-MEANS聚类算法 PMI算法
下载PDF
基于知识图谱的中文关键短语提取算法 被引量:1
8
作者 徐远威 李劲华 《计算机应用与软件》 北大核心 2023年第6期250-256,265,共8页
针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系... 针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系,构建集成近邻传播(Affinity Propagation,AP)聚类和图的中心性算法来提取关键短语的框架。实验表明,与多种传统关键短语提取算法相比,该算法在准确率、召回率和F1值上有较明显的提升。 展开更多
关键词 关键短语提取 知识图谱 近邻传播聚类 中心性算法
下载PDF
一种基于聚类与分类结合的汉语隐喻短语识别方法
9
作者 符建辉 王石 曹存根 《中文信息学报》 CSCD 北大核心 2018年第2期22-28,49,共8页
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源... 隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。 展开更多
关键词 隐喻短语识别 中文隐喻短语 短语聚类
下载PDF
基于英汉双语短语级平行语料的类别知识挖掘研究 被引量:1
10
作者 王东波 韩普 +1 位作者 沈思 魏向清 《现代图书情报技术》 CSSCI 北大核心 2012年第11期40-46,共7页
在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确... 在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确定英汉双语词汇特征的性能优于单语。获取的类别知识可以直接应用到知识库、机器翻译模型的构建中,同时探究英汉两种词汇在类别知识获取过程中具体表现。 展开更多
关键词 CSSCI英汉双语短语级平行语料Bisecting K—means clustering算法类别知识
原文传递
基于查询相关性分析的检索结果聚类算法
11
作者 罗宏 陈黎 +3 位作者 王亚强 朱洪波 韩国辉 于中华 《小型微型计算机系统》 CSCD 北大核心 2011年第10期2021-2026,共6页
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐... 随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持. 展开更多
关键词 检索结果聚类 簇描述短语 查询相关性 标签驱动聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部