FPC-Kmeans++专利聚类分析与技术主题识别研究———以无人机领域为例

Research on Patent Clustering Analysis and Technical Topic Recognition Based on FPC-Kmeans++in the Field of Unmanned Aerial Vehicle Field

下载PDF

导出

摘要针对专利技术主题识别效率偏低、识别难度大等问题,文章提出了FPC-Kmeans++(Kmeans plus plus with feature phrase clusters)专利聚类分析与技术主题识别方法,该方法创新性地使用特征短语替代传统的分词结果,作为专利数据分析的基础。文章以无人机专利为例,对该方法进行了实证检验。实验结果表明,相较于传统的Kmeans++(Kmeans plus plus)和LDAKmeans++(Kmeans plus plus with Latent Dirichlet Allocation)方法,该方法能更精确地判断出最佳主题数和得到层次更鲜明的聚类效果,展现了其在专利主题识别上的优势。并且,相较于其他对比算法,文章提出的NER-FPP(Named Entity Recognition with Feature Phrase Probability)算法在专利特征短语提取上效果最好,F1值分数最高,达到了93.36%。 In view of the low efficiency and high difficulty of patent technical topic recognition,this paper proposes a FPC-Kmeans++(Kmeans Plus Plus with Feature Phrase Clusters)patent clustering analysis and technical topic recognition method,which innovatively uses feature phrases instead of traditional word segmentation results as the basis for patent data analysis.Taking patents of Unmanned Aerial Vehicle(UAV)as examples,this method is empirically tested.The experimental results show that compared to traditional Kmeans++and LDAKmeans++(Kmeans Plus Plus with Latent Dirichlet Allocation)methods,the proposed method can more accurately determine the optimal number of topics and achieve more distinct hierarchical clustering effects,demonstrating its advantages in patent topic recognition.Furthermore,compared to other contrast algorithms,the proposed NER-FPP(Named Entity Recognition with Feature Phrase Probability)algorithm performs best in extracting patent feature phrases,with the highest F1 score reaching 93.36%.

作者刘俊王修来 LIU Jun;WANG Xiulai(School of Computer,Nanjing University of Information Science and Technology,Nanjing 210044,China;Nanjing Jinling Hospital,Affiliated Hospital of Medical School,Nanjing University,Nanjing 210016,China)

机构地区南京信息工程大学计算机学院南京大学附属金陵医院

出处《软件工程》 2024年第5期14-20,共7页 Software Engineering

基金 2022年国家社科基金一般项目(22BGL282)。

关键词主题识别专利聚类 NER TF-IDF topic recognition patent clustering NER TF-IDF

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献11

1梁江海,吴集,刘书雷.运用专利计量分析的类脑智能技术评估综述[J].华中科技大学学报（自然科学版）,2022,50(2):96-104. 被引量：2
2陈力,肖晨剑,常旭华.基于专利引用和文本信息的自动驾驶技术演化[J].同济大学学报（自然科学版）,2022,50(8):1198-1206. 被引量：4
3姚长青,杜永萍.降维技术在专利文本聚类中的应用研究[J].情报学报,2014,33(5):491-497. 被引量：12
4张国锋,吴国文.基于核函数的改进k-means文本聚类[J].计算机应用与软件,2019,36(9):281-284. 被引量：12
5钟熙,孙祥娥.基于Kmeans++聚类的朴素贝叶斯集成方法研究[J].计算机科学,2019,46(B06):439-441. 被引量：27
6兰晓芳,刘卓,许志豪,肖毅.基于TF-IDF和TextRank结合的中文文本关键词提取方法——以体育新闻为例[J].软件工程,2023,26(8):6-10. 被引量：5
7翟羽佳,田静文,赵玥.基于BERT-BiLSTM-CRF模型的算法术语抽取与创新演化路径构建研究[J].情报科学,2022,40(4):71-78. 被引量：21
8康怡琳,孙璐冰,朱容波,李梦瑶.深度学习中文命名实体识别研究综述[J].华中科技大学学报（自然科学版）,2022,50(11):44-53. 被引量：14
9Surya Bahadur Bam,Tej Bahadur Shahi.Named Entity Recognition for Nepali Text Using Support Vector Machines[J].Intelligent Information Management,2014,6(2):21-29. 被引量：3
10冀振燕,孔德焱,刘伟,董为,桑艳娟.基于深度学习的命名实体识别研究[J].计算机集成制造系统,2022,28(6):1603-1615. 被引量：11

二级参考文献105

1任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
2李凯,李昆仑,崔丽娟.模型聚类及在集成学习中的应用研究[J].计算机研究与发展,2007,44(z2):203-207. 被引量：7
3贺玲,吴玲达,蔡益朝.数据挖掘中的聚类算法综述[J].计算机应用研究,2007,24(1):10-13. 被引量：228
4张建萍,刘希玉.基于聚类分析的K-means算法研究及应用[J].计算机应用研究,2007,24(5):166-168. 被引量：124
5Grazia D D. Corporate Strategic Technological Partnership in the European Information and Communications Technology Industry [ J ]. Research Policy, 2000, 29 (9) :1015-1013. 被引量：1
6Reitzig M. Strategic Management of Intellectual Property [J]. MIT Sloan Management Review, 2004, 45 (3) : 35-40. 被引量：1
7William K. Innovation Needs Patents Reform [ J ]. Research Policy, 2001, 30( 3 ) :403-423. 被引量：1
8Bradley P S, Fayyad U M. Refining Initial Points for K- Means Clustering [ C ]. Advances in Computer Science and Engineering, 2007,1 ( 1 ) :61-72. 被引量：1
9Dhillon I S, Modha D S. A data-clustering Algorithm on Distributed Memory Multiprocessor [ M ]// Moharnmed J Zok Ching-Tien H., Large-Scale Parallel Data Mining, Beam : Springor,2000 : 245-260. 被引量：1
10Strehl A, Ghosh J. A Scalable Approach to Balanced, High Dimensional Clustering of Market Baskets [ C ]. Lecture Notes in Computer Science Volume 1970, 2000 : 525-536. 被引量：1

共引文献117

1文辉,徐永林,于敬.基于主动学习的领域知识多模式抽取框架[J].新一代信息技术,2022,5(6):137-143.
2周劲松,宋天保.一氧化氮对培养的大鼠垂体组织催乳素释放的影响[J].西安医科大学学报,2000,21(2):95-96. 被引量：2
3李红,杨向飞.专利地图在R&D机会发现领域的应用综述[J].科技进步与对策,2015,32(16):155-160. 被引量：10
4葛文镇,刘柏嵩,王洋洋,赵福青.基于层级类别信息的标题自动分类研究[J].计算机应用研究,2016,33(7):2030-2033. 被引量：6
5王伟,王洪伟.面向竞争力的特征比较网络:情感分析方法[J].管理科学学报,2016,19(9):109-126. 被引量：20
6吴志祥,王昊,王雪颖,祁磊,苏新宁.基于奇异值分解的专利术语层次关系解析研究[J].情报学报,2017,36(5):473-483. 被引量：6
7万业号,刘利军,黄青松.基于层叠条件随机场的中文医疗机构名识别[J].济南大学学报（自然科学版）,2017,31(1):61-66. 被引量：2
8齐丽花,张妮妮,秦晓梅.基于K-means的专利文本聚类分析[J].电脑知识与技术,2018,14(8):206-207. 被引量：8
9贾犇,钟建伟,戴小剑,田波,龙玉雪,解国伦.基于K-means聚类与支持向量机相结合的短期负荷预测[J].数字技术与应用,2019,37(8):72-74. 被引量：1
10崔晴洋,梁小峰,倪静,李帅,张生,仲梁维.基于卫星装配工艺的短文本聚类研究[J].软件工程,2020,23(4):7-11. 被引量：2

1王源,翟广宇.基于LDA模型的中国大气污染治理政策主题演进分析[J].芜湖职业技术学院学报,2024,26(1):48-55.
2陈见飞,高军,杨世军,马越,狄广义.基于卷积神经网络的仓储评论数据分类系统研究[J].信息与电脑,2024,36(2):112-114.
3马向伟.炼厂硫磺回收装置专利技术综述[J].化工管理,2024(12):85-88.
4龚惠群,郑婷玉.ChatGPT相关领域研究发展态势的专利数据分析[J].科技管理研究,2024,44(5):178-191.
5分子植物育种论文编写指南[J].分子植物育种,2024,22(9).
6乔晗,徐君如.基于LDA模型与政策工具的中国数据主权政策研究[J].中国科学院院刊,2024,39(3):498-508. 被引量：1
7孟欢欢,靳军宝,郑玉荣,白光祖,曹琨,付爽.全球储能专利技术发展态势分析[J].科技管理研究,2024,44(7):96-105. 被引量：1
8QIAO Ye.宝水(节选)[J].Frontiers of Literary Studies in China-Selected Publications from Chinese Universities,2023,17(4):335-340.
9Miranda Claire Gilbert,Tahereh Setayesh,Yu-Jui Yvonne Wan.The contributions of bacteria metabolites to the development of hepatic encephalopathy[J].Liver Research,2023,7(4):296-303.
10苑秋辰,魏晓蕾,高瑞,李淑萍,梁涛.基于隐含狄利克雷分布模型老年数字护理专利布局与发展趋势分析[J].军事护理,2024,41(4):80-84.

软件工程

2024年第5期

浏览历史

内容加载中请稍等...

FPC-Kmeans++专利聚类分析与技术主题识别研究———以无人机领域为例

参考文献11

二级参考文献105

共引文献117

相关作者

相关机构

相关主题

浏览历史