期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
11
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于语步识别的科技文献结构化自动综合工具构建
被引量:
2
1
作者
刘熠
张智雄
+1 位作者
王宇飞
李雪思
《数据分析与知识发现》
EI
CSSCI
CSCD
北大核心
2024年第2期65-73,共9页
【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具...
【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具的建设思路,即通过语步识别与研究问题、研究方法、研究进展短语抽取,自动揭示单篇文献中的关键知识内容;通过层次聚类与类簇标签生成,实现多篇文献的知识整理归纳;通过设计树形综合结构,指导结构化综合结果输出。【结果】研发了结构化自动综合工具,能够自动综合文献集内容,并按照“研究问题-研究方法-研究进展”的树形结构揭示文献集的研究脉络与骨架。【局限】由于聚类技术的限制,目前还存在聚类准确率不足、聚类簇个数难以确定等问题,影响了自动综合效果。【结论】基于语步识别技术,构建面向实际应用的结构化自动综合工具,支持文献检索、自动综合、结果循证等功能,验证了基于语步识别实现结构化自动综合思路的可行性和有效性。
展开更多
关键词
科技文献
语步识别
结构化自动综合
短语抽取
层次聚类
类簇标签生成
原文传递
基于时序短语聚类的新兴技术主题识别方法研究
2
作者
冯岭
马斌
《竞争情报》
2023年第5期18-28,共11页
有效识别新兴技术对充分挖掘新兴技术应用潜力、优化国家重点产业布局具有重要意义。以专利为研究数据,提出基于时序短语聚类的新兴技术主题识别方法。首先,通过比较相邻时间阶段的技术短语集合之间的差异,筛选候选新兴技术短语;其次,...
有效识别新兴技术对充分挖掘新兴技术应用潜力、优化国家重点产业布局具有重要意义。以专利为研究数据,提出基于时序短语聚类的新兴技术主题识别方法。首先,通过比较相邻时间阶段的技术短语集合之间的差异,筛选候选新兴技术短语;其次,采用短语聚类方法,得到新兴技术的候选新兴技术主题;最后,针对新兴技术的特点,定义一系列影响性和增长性指数,对候选新兴技术主题进一步遴选,从而识别新兴技术主题。以“电池”作为研究对象,对美国专利进行实证研究,发现了“电池的新型材料”和“新型充电技术”等新兴技术主题。采用的基于短语聚类方法与传统方法相比,不仅在新兴技术主题识别上具有较好的效果,而且能清晰地反映出新兴技术的发展方向和趋势。
展开更多
关键词
新兴技术
短语聚类
短语集合差异
多指数
下载PDF
职称材料
无监督中文名词短语指代消解研究
被引量:
1
3
作者
高俊伟
孔芳
+2 位作者
朱巧明
李培峰
华秀丽
《计算机工程》
CAS
CSCD
2012年第17期189-191,共3页
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台...
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。
展开更多
关键词
无监督
名词短语
指代消解
聚类
自然语言
语料
下载PDF
职称材料
语料对中文名词短语指代消解影响研究
被引量:
1
4
作者
高俊伟
孔芳
+1 位作者
朱巧明
李培峰
《中文信息学报》
CSCD
北大核心
2013年第3期61-68,共8页
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的...
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005,OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。
展开更多
关键词
指代消解
名词短语
无监督
聚类
语料
下载PDF
职称材料
改进的维吾尔语Web文本后缀树聚类
被引量:
1
5
作者
邹志华
田生伟
+1 位作者
禹龙
冯冠军
《中文信息学报》
CSCD
北大核心
2013年第2期118-126,共9页
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提...
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。
展开更多
关键词
维吾尔语
后缀树
短语聚类
停用词表
文档频率
下载PDF
职称材料
基于文本语义理解的学科发展趋势分析
6
作者
余丽
《农业图书情报学报》
2020年第3期29-36,共8页
[目的 /意义]学术论文是科技创新发展的重要战略资源,是反映学科研究动态的一手资料;为后续研究者提供了宝贵的方法论和创新基础。目前,学术论文的知识组织还缺乏细粒度知识的结构化描述,阻碍了科技情报服务向计算化和精准化的转型升级...
[目的 /意义]学术论文是科技创新发展的重要战略资源,是反映学科研究动态的一手资料;为后续研究者提供了宝贵的方法论和创新基础。目前,学术论文的知识组织还缺乏细粒度知识的结构化描述,阻碍了科技情报服务向计算化和精准化的转型升级。[方法 /过程]首先提出一种深入文本内容的语义分析框架,半自动化从论文摘要中识别出"研究主题"和"关键技术";然后设计了一种短语级多层次聚类方法,水平方向上的聚类融合了同义词语,垂直方向上的聚类构建了层次关系;最后以地理信息科学领域的代表性期刊论文摘要为实验数据,运用文献计量分析方法,分析了地理信息科学领域近10年的热点研究主题和关键技术,及其随时间发展的脉络。[结果 /结论]研究方法可为面向文本内容理解的情报分析提供算法与数据支撑。
展开更多
关键词
人工智能
语义标注
神经网络
短语聚类
文献计量分析
下载PDF
职称材料
基于改进BIRCH聚类算法的评价对象挖掘
被引量:
2
7
作者
王梦遥
王晓晔
+1 位作者
洪睿琪
柴晓瑞
《软件》
2019年第11期9-12,61,共5页
本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再...
本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再通过对于剩下的簇使用K-means聚类算法来获得最优评价对象。这种修剪聚类方法与以往的基于PMI算法修剪然后基于K-means聚类算法相比,减少了评价对象修剪时对语料库的依赖,最终聚类的结果更加精准,而且BIRCH算法采用一次扫描数据库的策略,可以有效提高速度。
展开更多
关键词
名词词组模式
BIRCH聚类算法
K-MEANS聚类算法
PMI算法
下载PDF
职称材料
基于知识图谱的中文关键短语提取算法
被引量:
1
8
作者
徐远威
李劲华
《计算机应用与软件》
北大核心
2023年第6期250-256,265,共8页
针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系...
针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系,构建集成近邻传播(Affinity Propagation,AP)聚类和图的中心性算法来提取关键短语的框架。实验表明,与多种传统关键短语提取算法相比,该算法在准确率、召回率和F1值上有较明显的提升。
展开更多
关键词
关键短语提取
知识图谱
近邻传播聚类
中心性算法
下载PDF
职称材料
一种基于聚类与分类结合的汉语隐喻短语识别方法
9
作者
符建辉
王石
曹存根
《中文信息学报》
CSCD
北大核心
2018年第2期22-28,49,共8页
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源...
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。
展开更多
关键词
隐喻短语识别
中文隐喻短语
短语聚类
下载PDF
职称材料
基于英汉双语短语级平行语料的类别知识挖掘研究
被引量:
1
10
作者
王东波
韩普
+1 位作者
沈思
魏向清
《现代图书情报技术》
CSSCI
北大核心
2012年第11期40-46,共7页
在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确...
在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确定英汉双语词汇特征的性能优于单语。获取的类别知识可以直接应用到知识库、机器翻译模型的构建中,同时探究英汉两种词汇在类别知识获取过程中具体表现。
展开更多
关键词
CSSCI英汉双语短语级平行语料Bisecting
K—means
clustering
算法类别知识
原文传递
基于查询相关性分析的检索结果聚类算法
11
作者
罗宏
陈黎
+3 位作者
王亚强
朱洪波
韩国辉
于中华
《小型微型计算机系统》
CSCD
北大核心
2011年第10期2021-2026,共6页
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐...
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.
展开更多
关键词
检索结果聚类
簇描述短语
查询相关性
标签驱动聚类
下载PDF
职称材料
题名
基于语步识别的科技文献结构化自动综合工具构建
被引量:
2
1
作者
刘熠
张智雄
王宇飞
李雪思
机构
中国科学院文献情报中心
中国科学院大学经济与管理学院信息资源管理系
出处
《数据分析与知识发现》
EI
CSSCI
CSCD
北大核心
2024年第2期65-73,共9页
基金
中国科学院特别研究助理资助项目(项目编号:E1290905)
国家科技图书文献中心(NSTL)专项(项目编号:2022XM28)的研究成果之一。
文摘
【目的】借鉴文献综合(Synthesis)的思想,利用人工智能技术构建科技文献结构化自动综合工具,以结构化的形式自动梳理文献集的研究脉络与研究骨架,揭示文献集的要点与看点。【方法】提出了一种基于语步识别的科技文献结构化自动综合工具的建设思路,即通过语步识别与研究问题、研究方法、研究进展短语抽取,自动揭示单篇文献中的关键知识内容;通过层次聚类与类簇标签生成,实现多篇文献的知识整理归纳;通过设计树形综合结构,指导结构化综合结果输出。【结果】研发了结构化自动综合工具,能够自动综合文献集内容,并按照“研究问题-研究方法-研究进展”的树形结构揭示文献集的研究脉络与骨架。【局限】由于聚类技术的限制,目前还存在聚类准确率不足、聚类簇个数难以确定等问题,影响了自动综合效果。【结论】基于语步识别技术,构建面向实际应用的结构化自动综合工具,支持文献检索、自动综合、结果循证等功能,验证了基于语步识别实现结构化自动综合思路的可行性和有效性。
关键词
科技文献
语步识别
结构化自动综合
短语抽取
层次聚类
类簇标签生成
Keywords
Scientific
and
Technological
Literature
Move
Recognition
Automatic
Structured
Synthesis
phrase
Extraction
Hierarchical
clustering
Label
Generation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
G35 [自动化与计算机技术—计算机科学与技术]
原文传递
题名
基于时序短语聚类的新兴技术主题识别方法研究
2
作者
冯岭
马斌
机构
华北水利水电大学信息工程学院
中国科学技术信息研究所科学计量与评价研究中心
出处
《竞争情报》
2023年第5期18-28,共11页
基金
河南省软科学研究计划项目“结合技术属性差异与多指数的颠覆性技术发现方法研究”(编号:222400410445)
河南省知识产权软科学“基于孪生网络的高质量专利识别方法研究”(编号:20230106038)
科技大数据湖北省重点实验室项目“结合技术属性差异与多指标的颠覆性技术发现方法研究”的研究成果之一。
文摘
有效识别新兴技术对充分挖掘新兴技术应用潜力、优化国家重点产业布局具有重要意义。以专利为研究数据,提出基于时序短语聚类的新兴技术主题识别方法。首先,通过比较相邻时间阶段的技术短语集合之间的差异,筛选候选新兴技术短语;其次,采用短语聚类方法,得到新兴技术的候选新兴技术主题;最后,针对新兴技术的特点,定义一系列影响性和增长性指数,对候选新兴技术主题进一步遴选,从而识别新兴技术主题。以“电池”作为研究对象,对美国专利进行实证研究,发现了“电池的新型材料”和“新型充电技术”等新兴技术主题。采用的基于短语聚类方法与传统方法相比,不仅在新兴技术主题识别上具有较好的效果,而且能清晰地反映出新兴技术的发展方向和趋势。
关键词
新兴技术
短语聚类
短语集合差异
多指数
Keywords
emerging
technology
phrase
clustering
differences
of
phrase
set
multi-indicators
分类号
G203 [文化科学—传播学]
下载PDF
职称材料
题名
无监督中文名词短语指代消解研究
被引量:
1
3
作者
高俊伟
孔芳
朱巧明
李培峰
华秀丽
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
出处
《计算机工程》
CAS
CSCD
2012年第17期189-191,共3页
基金
国家自然科学基金资助项目(90920004
60970056
+2 种基金
61070123
61003153)
江苏省高校自然科学重大基础研究基金资助项目(08KJA520002)
文摘
为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。
关键词
无监督
名词短语
指代消解
聚类
自然语言
语料
Keywords
unsupervised
noun
phrase
coreference
resolution
clustering
natural
language
corpus
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
语料对中文名词短语指代消解影响研究
被引量:
1
4
作者
高俊伟
孔芳
朱巧明
李培峰
机构
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2013年第3期61-68,共8页
基金
国家自然科学基金资助项目(90920004
60970056
+2 种基金
61070123
61003153)
江苏省高校自然科学重大基础研究资助项目(08KJA520002)
文摘
指代是自然语言中一种常见的语言现象,对简化语言,减少冗余有很大的作用。指代消解是用计算机找出这些指代现象的一个过程。近几年英文指代消解研究取得了很大的成就,然而,中文指代消解研究目前还较少,一方面是由于中文自然语言处理的研究起步较晚,相关的知识较少,另外一方面就是中文相关的语料库较少,目前已知的仅有ACE2005,OntoNotes等。为了探讨语料库对中文名词短语指代消解的影响,该文实现了一个基于有监督学习方法的中文名词短语指代消解平台和一个基于无监督聚类方法的中文名词短语指代消解平台,在此平台的基础上从语料库的数量和质量两个方面来探讨语料对中文名词短语指代消解的影响。
关键词
指代消解
名词短语
无监督
聚类
语料
Keywords
coreference
resolution
noun
phrase
unsupervised
clustering
corpus
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
改进的维吾尔语Web文本后缀树聚类
被引量:
1
5
作者
邹志华
田生伟
禹龙
冯冠军
机构
新疆大学信息科学与工程学院
新疆大学软件学院
新疆大学网络中心
新疆大学人文学院
出处
《中文信息学报》
CSCD
北大核心
2013年第2期118-126,共9页
基金
国家自然科学基金资助项目(60963017
61262064)
+1 种基金
国家社会科学基金资助项目(10BTQ045
11XTQ007)
文摘
该文提出了改进的维吾尔语Web文本后缀树聚类算法STCU,其中后缀树的构建以维吾尔语句子为基本单位。针对维吾尔语语言和Web文本特点,文中对词语进行词干提取,构建了维吾尔语绝对停用词表和相对停用词表,采用文档频率和词性结合的方法提取关键短语,改进了合并基类的二进制方法,根据语料类别数自动调整聚类类别阈值,利用最一般短语对聚类类别进行描述,有效地改善了文本聚类的质量。与传统的后缀树聚类算法相比,聚类全面率提高了44.51%,聚类准确率提高了11.74%,错误率降低了0.94%。实验结果表明:改进的后缀树算法在Web文本聚类的精度和效率方面具有较强的优越性。
关键词
维吾尔语
后缀树
短语聚类
停用词表
文档频率
Keywords
Uyghur
suffix
tree
phrase
clustering
stop
word
list
document
frequency
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文本语义理解的学科发展趋势分析
6
作者
余丽
机构
中国科学院文献情报中心
资源与环境信息系统国家重点实验室
出处
《农业图书情报学报》
2020年第3期29-36,共8页
基金
国家自然科学基金青年基金项目“中文网络文本的地理实体语义关系标注与评价”(项目编号:41801320)
资源与环境信息系统国家重点实验室开放基金。
文摘
[目的 /意义]学术论文是科技创新发展的重要战略资源,是反映学科研究动态的一手资料;为后续研究者提供了宝贵的方法论和创新基础。目前,学术论文的知识组织还缺乏细粒度知识的结构化描述,阻碍了科技情报服务向计算化和精准化的转型升级。[方法 /过程]首先提出一种深入文本内容的语义分析框架,半自动化从论文摘要中识别出"研究主题"和"关键技术";然后设计了一种短语级多层次聚类方法,水平方向上的聚类融合了同义词语,垂直方向上的聚类构建了层次关系;最后以地理信息科学领域的代表性期刊论文摘要为实验数据,运用文献计量分析方法,分析了地理信息科学领域近10年的热点研究主题和关键技术,及其随时间发展的脉络。[结果 /结论]研究方法可为面向文本内容理解的情报分析提供算法与数据支撑。
关键词
人工智能
语义标注
神经网络
短语聚类
文献计量分析
Keywords
artificial
intelligence
semantic
annotation
neural
network
phrase
clustering
bibliometric
analysis
分类号
G251 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于改进BIRCH聚类算法的评价对象挖掘
被引量:
2
7
作者
王梦遥
王晓晔
洪睿琪
柴晓瑞
机构
天津市智能计算及软件新技术重点实验室
计算机视觉与系统省部共建教育部重点实验室
出处
《软件》
2019年第11期9-12,61,共5页
基金
大学生创新训练计划项目(201810060141)的资助
文摘
本文对于意见挖掘领域中的评价对象的修剪和聚类问题,提出使用K-means聚类算法和BIRCH聚类算法相结合的方式来进行评价对象的修剪和聚类。利用BIRCH算法类别聚类的功能对评价对象进行聚类,并删除包含较少数据的簇来实现修剪评价对象;再通过对于剩下的簇使用K-means聚类算法来获得最优评价对象。这种修剪聚类方法与以往的基于PMI算法修剪然后基于K-means聚类算法相比,减少了评价对象修剪时对语料库的依赖,最终聚类的结果更加精准,而且BIRCH算法采用一次扫描数据库的策略,可以有效提高速度。
关键词
名词词组模式
BIRCH聚类算法
K-MEANS聚类算法
PMI算法
Keywords
Noun
phrase
pattern
BIRCH
clustering
algorithm
K-means
clustering
algorithm
PMI
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于知识图谱的中文关键短语提取算法
被引量:
1
8
作者
徐远威
李劲华
机构
青岛大学数据科学与软件工程学院
出处
《计算机应用与软件》
北大核心
2023年第6期250-256,265,共8页
基金
山东省重大科技创新工程项目(2019JZZY020101)。
文摘
针对传统的中文关键短语算法没有充分考虑到语义关系、涵盖信息量少和准确率低等问题,提出一种基于知识图谱来提取关键短语的算法。该算法运用知识图谱的语义网络结构来挖掘文本中两个词之间的潜在关系,通过赋予边权值具体量化潜在关系,构建集成近邻传播(Affinity Propagation,AP)聚类和图的中心性算法来提取关键短语的框架。实验表明,与多种传统关键短语提取算法相比,该算法在准确率、召回率和F1值上有较明显的提升。
关键词
关键短语提取
知识图谱
近邻传播聚类
中心性算法
Keywords
Key
phrase
extraction
Knowledge
graph
Affinity
propagation
clustering
Centrality
algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于聚类与分类结合的汉语隐喻短语识别方法
9
作者
符建辉
王石
曹存根
机构
中国科学院计算技术研究所智能信息处理实验室
中国科学院大学
出处
《中文信息学报》
CSCD
北大核心
2018年第2期22-28,49,共8页
基金
国家自然科学基金(30973713
61035004
+4 种基金
61173063
61203284
91224006)
国家社科基金(10AYY003)
科技部项目(201303107)
文摘
隐喻识别是自然语言处理的一个重要研究分支。目前人们越来越清楚地认识到隐喻在思维及语言中所处的重要地位。本研究在前人工作的实验和考察基础上,发现基于分类器来识别隐喻的方法存在数据稀疏的问题,即当训练语料中缺少需要识别的源域词数据时,分类的结果将不会太好。应对数据稀疏问题,该文提出了一种基于聚类与分类结合的隐喻短语获取方法。该方法将包含源域词S的短语进行聚类。将聚类的结果作为分类的一类特征。实验表明,使用聚类产生的特征训练出来的分类器,不仅能很好地识别训练语料中存在源域词数据的情况,也能很好地识别训练语料中缺少源域词数据的情况,具有很高的召回率。
关键词
隐喻短语识别
中文隐喻短语
短语聚类
Keywords
metaphor
phrase
recognition
Chinese
metaphor
phrase
phrase
s
clustering
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于英汉双语短语级平行语料的类别知识挖掘研究
被引量:
1
10
作者
王东波
韩普
沈思
魏向清
机构
南京农业大学信息科学技术学院
南京大学信息管理学院
南京大学双语词典研究中心
出处
《现代图书情报技术》
CSSCI
北大核心
2012年第11期40-46,共7页
基金
国家高技术研究发展计划(863计划)"以科技文献服务为主的搜索引擎研制"(项目编号:2011AA01A206)
国家社会科学基金重点项目"人文社会科学汉英动态术语数据库的构建研究"(项目编号:11AYY002)
江苏省研究生培养创新工程"基于异构社会网络数据的信息集成与检索研究"(项目编号:CXZZ12-0073)的研究成果之一
文摘
在已有聚类算法的基础上,基于英汉双语短语级人文社会科学平行语料,进行类别知识挖掘的实验。根据实验数据并结合具体的研究需求,确定相应的聚类算法和英语形态转换的算法。通过对汉语、英语和英汉双语词汇级知识聚类的性能进行对比,确定英汉双语词汇特征的性能优于单语。获取的类别知识可以直接应用到知识库、机器翻译模型的构建中,同时探究英汉两种词汇在类别知识获取过程中具体表现。
关键词
CSSCI英汉双语短语级平行语料Bisecting
K—means
clustering
算法类别知识
Keywords
CSSCI
English-
Chinese
parallel
corpus
in
phrase
level
Bisecting
Kmeans
clustering
algorithm
Category
knowledge
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于查询相关性分析的检索结果聚类算法
11
作者
罗宏
陈黎
王亚强
朱洪波
韩国辉
于中华
机构
四川大学计算机学院
出处
《小型微型计算机系统》
CSCD
北大核心
2011年第10期2021-2026,共6页
文摘
随着互联网的普及和网页数量的飞速增长,搜索引擎已经成为从网上获取信息的首选工具.然而,目前主流的搜索引擎在响应用户提交的检索请求时,往往以较长的一维列表形式分页展示结果,为了找到自己所需要的信息,用户必须对该结果列表进行耐心的浏览.为了进一步提高用户获取信息的效率和质量,减轻用户的劳动强度,研究者提出了对检索结果进行再挖掘、再组织的问题,聚类就是其中的研究热点之一.本文在分析现有检索结果聚类算法存在的问题的基础上,提出了基于查询相关性分析的标签驱动聚类算法,该算法通过分析短语与查询项的关联程度,提取作为候选簇标签的短语,然后根据这些标签确定网页摘要隶属的候选簇,最后基于对候选簇和标签的评价进行簇筛选和归并,得到聚类结果及每个簇的标签.在相同环境下进行的对比实验表明,所提出的算法优于相关工作,而且需要更少的信息资源支持.
关键词
检索结果聚类
簇描述短语
查询相关性
标签驱动聚类
Keywords
search
result
clustering
cluster
description
phrase
query
relevance
label-driven
clustering
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于语步识别的科技文献结构化自动综合工具构建
刘熠
张智雄
王宇飞
李雪思
《数据分析与知识发现》
EI
CSSCI
CSCD
北大核心
2024
2
原文传递
2
基于时序短语聚类的新兴技术主题识别方法研究
冯岭
马斌
《竞争情报》
2023
0
下载PDF
职称材料
3
无监督中文名词短语指代消解研究
高俊伟
孔芳
朱巧明
李培峰
华秀丽
《计算机工程》
CAS
CSCD
2012
1
下载PDF
职称材料
4
语料对中文名词短语指代消解影响研究
高俊伟
孔芳
朱巧明
李培峰
《中文信息学报》
CSCD
北大核心
2013
1
下载PDF
职称材料
5
改进的维吾尔语Web文本后缀树聚类
邹志华
田生伟
禹龙
冯冠军
《中文信息学报》
CSCD
北大核心
2013
1
下载PDF
职称材料
6
基于文本语义理解的学科发展趋势分析
余丽
《农业图书情报学报》
2020
0
下载PDF
职称材料
7
基于改进BIRCH聚类算法的评价对象挖掘
王梦遥
王晓晔
洪睿琪
柴晓瑞
《软件》
2019
2
下载PDF
职称材料
8
基于知识图谱的中文关键短语提取算法
徐远威
李劲华
《计算机应用与软件》
北大核心
2023
1
下载PDF
职称材料
9
一种基于聚类与分类结合的汉语隐喻短语识别方法
符建辉
王石
曹存根
《中文信息学报》
CSCD
北大核心
2018
0
下载PDF
职称材料
10
基于英汉双语短语级平行语料的类别知识挖掘研究
王东波
韩普
沈思
魏向清
《现代图书情报技术》
CSSCI
北大核心
2012
1
原文传递
11
基于查询相关性分析的检索结果聚类算法
罗宏
陈黎
王亚强
朱洪波
韩国辉
于中华
《小型微型计算机系统》
CSCD
北大核心
2011
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部