-
题名基于稀疏分布式表征的英文著者姓名消歧研究
被引量:7
- 1
-
-
作者
翟晓瑞
韩红旗
张运良
李仲
-
机构
中国科学技术信息研究所富媒体数字出版内容组织与知识服务重点实验室
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第12期3534-3538,共5页
-
基金
国家自然科学基金资助项目(71473237)
中国工程科技知识中心建设项目(CKCEST-2018-1-26)
-
文摘
为将稀疏分布式表征理论应用到著者姓名消歧,了解其在解决姓名消歧问题时的效果,提出了基于稀疏分布式表征的英文文献著者姓名消歧方法。该方法选择论文摘要文本信息作为消歧特征,将其生成二进制表示的SDR码。根据待消歧论文的SDR与同名作者的论文SDR相似度对比来实现著者姓名消歧。最终得到的结果为准确率98. 21%,召回率76. 75%,F值86. 17%,证明提出的消歧方法具有较好的效果。通过将该方法与利用合著者特征进行消歧的方法进行对比,说明该方法能够较好地解决文献著者姓名歧义问题。此外,该方法还可将作者未收录在作者库中的论文识别出来并将其指派给新作者,无须重新学习和更新模型。
-
关键词
姓名消歧
稀疏分布式表征
语义指纹
层级时序记忆模型
-
Keywords
name disambiguation
sparse distributed representation
semantic fingerprint
hierarchical temporal memory
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于语义指纹和LCS的文本去重方法
被引量:4
- 2
-
-
作者
陈露
吴国仕
李晶
-
机构
北京邮电大学软件学院
-
出处
《软件》
2014年第11期25-30,共6页
-
文摘
为了解决传统中文文本去重准确率低的问题,本文提出了一种基于语义指纹和LCS的文本去重方法。针对中文文本,预处理后抽取出文本摘要,然后使用tf-idf算法分别得出文本内容特征向量和摘要特征向量,分别将这两个向量作为simhash算法的输入,计算得到文章的内容指纹和摘要指纹。计算两个文本对应的两个指纹的汉明距离,代入本文公式,最终得到这两文本的指纹距离;使用指纹对文本对进行初步筛选,对判定为相似的两个文本使用LCS算法进行进一步对比,避免误判,最终实现中文文本快速去重。实验过程中,通过与LCS算法、simhash算法等多种算法的结果进行对比,可以体现该方法在算法精确度方面的优势,同时,该方法的运行速度优势也能较好地支持大数据量文本的去重操作。
-
关键词
理论计算机科学
语义指纹
simhash
LCS
文本去重
-
Keywords
Theoretical computer science
semantic fingerprint
Simhash
LCS
Duplicate detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
TP391.41
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于语义指纹的海量文本快速相似检测算法研究
被引量:3
- 3
-
-
作者
姜雪
万正景
梁燕
陶以政
-
机构
中国工程物理研究院计算机应用研究所
-
出处
《电脑知识与技术》
2016年第12X期175-177,共3页
-
文摘
相似检测算法在海量文本信息处理中具有广泛的应用,尤其是Simhash算法因其指纹局部敏感特性、检测效率高在文本查重、网页检测等大规模数据处理中都十分常见。针对传统Simhash算法无法支持近义词、多义词等自然语言处理上的语义问题,通过对现有同义词扩展方案的研究,提出基于语义指纹的相似检测算法。在Simhash算法基础上,融入同义词扩展编码信息,生成文本语义指纹进行匹配检测,以提高文本相似度检测性能。另外,根据文本语义指纹建立多层分段索引,实现在海量文本信息中快速匹配出相似文档。通过与传统的Simhash算法进行实验对比,体现出该方法在准确率、效率等方面的优势。
-
关键词
文本相似
语义指纹
Simhash
同义词扩展
互信息
-
Keywords
document similarity
semantic fingerprint
simhash
synonym expansion
mutual information
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名社交网络中意见领袖的敏感舆论倾向识别
被引量:1
- 4
-
-
作者
宋振
徐雅斌
-
机构
北京信息科技大学计算机学院
北京信息科技大学网络文化与数字传播北京市重点实验室
-
出处
《计算机工程与设计》
北大核心
2021年第11期3293-3300,F0003,共9页
-
基金
国家自然科学基金项目(61672101)
网络文化与数字传播北京市重点实验室基金项目(ICDDXN004)
信息网络安全公安部重点实验室开放课题基金项目(C18601)。
-
文摘
为准确识别意见领袖的敏感舆论倾向,有效把控敏感类舆情的发展,提出基于多任务学习的敏感舆论倾向识别模型(MTL-SA-LSTM)和基于指纹汇聚技术的快速识别模型。以准确识别意见领袖的敏感舆论倾向为目标,兼顾其识别效率。采用指纹汇聚技术关联原始敏感词和变形敏感词,采用语义指纹技术快速识别重复或相似度较高文本的敏感舆论倾向,通过MTL-SA-LSTM模型,对文本中的敏感舆论及舆论倾向两个任务进行识别。对比实验结果表明,该模型具有较高的识别准确率及识别效率。
-
关键词
社交网络
敏感舆论倾向
多任务学习
指纹汇聚
语义指纹
-
Keywords
social network
sensitive public opinion tendency
multi-task learning
fingerprint aggregation
semantic fingerprint
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名USPTO专利发明人重名辨识方法综述
被引量:1
- 5
-
-
作者
于永胜
董诚
韩红旗
李仲
-
机构
中国科学技术信息研究所
-
出处
《天津科技》
2018年第2期22-27,共6页
-
基金
国家自然科学基金资助项目“科学合作网络的不连通问题研究”(71473237)
中国工程科技知识中心建设项目“知识组织体系建设”(CKCEST-2017-1-12)
中国科学技术信息研究所创新研究基金面上项目“基于词系统的知识服务平台应用示范”(MS2017-03)的资助
-
文摘
英文专利发明人姓名歧义现象越来越严重,极大阻碍了英文专利数据的研究应用。为了解英文专利发明人重名辨识方法的研究现状,进行了方法调研和总结:首先,介绍专利发明人重名辨识研究的意义及困难;其次,对国内外现有的专利发明人重名辨识方法进行梳理,主要将其分为基于规则的方法和基于机器学习的方法;最后,对发明人重名辨识方法的优缺点进行总结分析,并对未来方法研究进行展望。建议将深度学习算法和语义指纹算法融入到专利发明人重名辨识方法中,以便更加高效准确地进行发明人重名辨识。
-
关键词
重名辨识
机器学习
语义指纹
聚类
-
Keywords
name disambiguation
machine learning
semantic fingerprint
clustering
-
分类号
G35
[文化科学—情报学]
-
-
题名基于语义指纹的中文文本快速去重
被引量:5
- 6
-
-
作者
李纲
毛进
陈璟浩
-
机构
武汉大学信息资源研究中心
-
出处
《现代图书情报技术》
CSSCI
北大核心
2013年第9期41-47,共7页
-
基金
国家自然科学基金项目"科研团队动态演化规律研究"(项目编号:71273196)的研究成果之一
-
文摘
针对中文文本,抽取出文本内容特征,结合Simhash算法生成中文文本的语义指纹,通过语义指纹的海明距离判断文本间相似程度。整合Single-Pass快速聚类算法对语义指纹快速聚类,所得的语义指纹聚类即为文本去重的最终结果,从而实现面向中文文本的快速去重流程。实验过程中,通过与Shingle算法对比,可以体现该方法在算法精确度、鲁棒性等方面的优势,同时该方法的运行速度优势也能较好地支持大数据量文本的去重操作。
-
关键词
语义指纹
Simhash
Single—Pass
文本去重
-
Keywords
semantic fingerprint Simhash Single- Pass Duplicate detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-