STNLTP:一种基于集成策略的中文专利摘要生成模型被引量：1

STNLTP: Generating Chinese Patent Abstracts Based on Integrated Strategy

导出

摘要【目的】提出一种基于集成策略的中文专利摘要生成模型(STNLTP),以改善现有的自动文本摘要技术在处理长文档摘要生成时存在的生成重复问题和长程依赖问题。【方法】引入专利术语词典,运用基于SAT模型的义原词向量对“中药材”专利文本进行表示。基于集成策略,运用TextRank、Lead4和NMF三种抽取方法抽取专利说明书文本的关键句,经过聚类并去重,选出最优关键句。最后最优关键句通过基于Transformer字向量的指针生成网络得到最终的生成摘要。【结果】STNLTP模型实现了抽取式和生成式方法的结合,相较于对比模型RLCPAR,在ROUGE-1、ROUGE-2和ROUGE-L评价指标上分别提升2.00、9.73和2.35个百分点。【局限】生成摘要的部分结果存在一些常识性错误。【结论】STNLTP模型优于对比模型,可以改善中文专利摘要生成的效果。 [Objective] This paper proposes an abstracting model for Chinese patents based on integration strategy(STNLTP), aiming to reduce the duplication and long document dependency issues of the existing automatic abstracting techniques. [Methods] First, we introduced a patent term dictionary, and used the sememe vector based on SAT model to represent traditional Chinese medicine patents. Then, with the help of integration strategy,we utilized the TextRank, Lead4 and NMF models to extract key sentences from the patents. Third, we identified the optimal key sentences with the clustering and redundancy removing. Finally, we processed these optimal key sentences with the pointer-generator network based on Transformer character vector to create the abstracts.[Results] Our new model successfully combined the extractive and generative methods. Compared with the existing RLCPAR model, we improved the evaluation indicators of ROUGE-1, ROUGE-2 and ROUGE-L by2.00%, 9.73% and 2.35%, respectively. [Limitations] There are still some errors in the new abstracts.[Conclusions] The new STNLTP model could effectively generate Chinese patent abstracts.

作者张乐杜一凡吕学强董志安 Zhang Le;Du Yifan;Lü Xueqiang;Dong Zhian(Beijing Key Laboratory of Internet Culture and Digital Dissemination Research,Beijing Information Science and Technology University,Beijing 100101,China)

机构地区北京信息科技大学网络文化与数字传播北京市重点实验室

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2022年第7期107-117,共11页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目(项目编号:62171043)的研究成果之一。

关键词专利摘要义原词向量字向量指针生成网络 Patent Abstract Sememe Word Vector Character Vector Pointer-Generator Network

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1万小丽,朱雪忠.专利价值的评估指标体系及模糊综合评价[J].科研管理,2008,29(2):185-191. 被引量：216
2张乐,冷基栋,吕学强,崔卓,王磊,游新冬.RLCPAR:一种基于强化学习的中文专利摘要改写模型[J].数据分析与知识发现,2021,5(7):59-69. 被引量：3
3章成志,童甜甜,周清清.基于细粒度评论挖掘的书评自动摘要研究[J].情报学报,2021,40(2):163-172. 被引量：12
4邝砾,施如意,赵雷浩,张欢,高洪皓.大粒度Pull Request描述自动生成[J].软件学报,2021,32(6):1597-1611. 被引量：1
5朱永清,赵鹏,赵菲菲,慕晓冬,白坤,尤轩昂.基于深度学习的生成式文本摘要技术综述[J].计算机工程,2021,47(11):11-21. 被引量：18
6王帅,赵翔,李博,葛斌,汤大权.TP-AS:一种面向长文本的两阶段自动摘要方法[J].中文信息学报,2018,32(6):71-79. 被引量：12
7谭金源,刁宇峰,杨亮,祁瑞华,林鸿飞.基于BERT-SUMOPN模型的抽取-生成式文本自动摘要[J].山东大学学报（理学版）,2021,56(7):82-90. 被引量：9
8束云峰,王中卿.基于专利结构的中文专利摘要研究[J].计算机科学,2020,47(S01):45-48. 被引量：3

二级参考文献45

1姚建民,周明,赵铁军,李生.基于句子相似度的机器翻译评价方法及其有效性分析[J].计算机研究与发展,2004,41(7):1258-1265. 被引量：17
2姜秋,王宁.基于模糊综合评价的知识产权价值评估[J].技术与创新管理,2005,26(6):73-76. 被引量：31
3郭双颜,霍志军,杜哲培.基于层次分析法与模糊评价的城市可持续能力评估[J].集团经济研究,2006(03S):175-176. 被引量：2
4张峰,胡艳连.模糊综合评判和层次分析法在高校教学评价中的应用[J].长春师范学院学报（自然科学版）,2006,25(3):10-13. 被引量：37
5张涛,李刚.企业知识产权价值及其评价研究[J].改革与战略,2006,22(8):23-26. 被引量：18
6张震,于天彪,梁宝珠,王宛山.基于层次分析法与模糊综合评价的供应商评价研究[J].东北大学学报（自然科学版）,2006,27(10):1142-1145. 被引量：79
7赵晨.专利价值评估的方法与实务[J].电子知识产权,2006(11):24-27. 被引量：34
8师朝阳.中国专利摘要改写中“有益效果”问题的研讨[J].专利文献研究,2007(2):9-13. 被引量：1
9日本将推行专利价值评估以实施知识产权战略[EB/OL].http://www.cofortune.com.cn/moftec_cn/dsbgx/asia/rb-157.html. 被引量：1
10专利的价值评估[EB/OL].http://www.bjknowhow.com/html/2006/0529/2448.html. 被引量：2

共引文献266

1陈康.专利侵权纠纷中的赔偿量化与司法决策——基于广东省专利侵权司法案例的实证分析[J].湘江青年法学,2021(1):146-168.
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3赵振洋,齐舒月,李实秋.科技型中小企业专利证券化质量评价研究[J].科研管理,2021,42(12):56-64. 被引量：8
4赵炎,肖彦,孟庆时.组合式创新中的知识产权价值实现——基于林至科技案例[J].创新与创业管理,2022(1):34-44.
5金泳锋,余翔.专利风险的特征及其影响研究[J].知识产权,2008,18(6):84-88. 被引量：15
6汪志波,郑新章,邱纪青,郑路,孟庆华.烟草企业知识产权发展的影响因素分析及对策建议[J].中国烟草学报,2008,14(6):62-69. 被引量：3
7朱雪忠,万小丽.竞争力视角下的专利质量界定[J].知识产权,2009,19(4):7-14. 被引量：68
8郭俊华,黄思嘉,吕守军.知识产权政策评估指标体系的构建及其应用研究[J].中国软科学,2009(7):19-27. 被引量：22
9张彦巧,张文德.企业专利价值量化评估实证研究[J].电子知识产权,2009(10):30-35. 被引量：11
10漆苏,朱雪忠,陈沁.企业自主创新中的专利风险评价研究[J].情报杂志,2009,28(12):1-4. 被引量：9

同被引文献10

1黄波,刘传才.基于加权TextRank的中文自动文本摘要[J].计算机应用研究,2020,37(2):407-410. 被引量：20
2秦兵,刘挺,李生.多文档自动文摘综述[J].中文信息学报,2005,19(6):13-20. 被引量：51
3仇丽青,刘瑞,张辉.基于词频统计的多文档自动摘要生成方案[J].微计算机信息,2009,25(6):181-182. 被引量：4
4张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法[J].计算机应用与软件,2011,28(10):20-22. 被引量：24
5王玮.基于C-R神经网络的生成式自动摘要方法[J].计算机与数字工程,2020,48(1):112-118. 被引量：3
6吴世鑫,黄德根,张云霞.基于多特征融合模型的自动摘要[J].计算机工程与设计,2020,41(3):650-655. 被引量：3
7吕国俊,曹建军,郑奇斌,翁年凤.基于SIF文本特征的跨模态相似性度量[J].计算机仿真,2020,37(9):382-385. 被引量：2
8朱玉佳,祝永志,董兆安.基于TextRank算法的联合打分文本摘要生成[J].通信技术,2021,54(2):323-326. 被引量：9
9龚永罡,王嘉欣,廉小亲,裴晨晨.基于Siamese LSTM的中文多文档自动文摘模型[J].计算机应用与软件,2021,38(3):287-290. 被引量：2
10唐晓波,翟夏普.基于混合机器学习模型的多文档自动摘要[J].情报理论与实践,2019,42(2):145-150. 被引量：8

引证文献1

1王楠,曾曼玲.一种改进的TextRank多文档文摘自动抽取模型[J].软件导刊,2023,22(5):1-6.

1王洪宇.专利摘要[J].铸造,2022,71(7):933-934.
2公司[J].小康,2022(22):14-14.
3段建勇,鲁朝阳,王昊,李欣,何丽.语义知识驱动的论文摘要关键词抽取方法[J].情报工程,2022,8(3):3-12.
4王东江.基于TFT-LCD原理的计算机面板设计[J].电子技术（上海）,2022,51(6):4-6. 被引量：2
5韦婷婷,江涛,郑舒玲,张建桃.融合LSTM与逻辑回归的中文专利关键词抽取[J].数据分析与知识发现,2022,6(2):308-317. 被引量：6
6肖悦珺,李红莲,张乐,吕学强,游新冬.特征融合的中文专利文本分类方法研究[J].数据分析与知识发现,2022,6(4):49-59. 被引量：8
7岳国亮,杨莹.从化学领域STN漏检案例看追踪检索的必要性[J].化学工程与装备,2022(7):252-253.
8李航,黄容鑫,黄伟刚,孙竞丹,覃晓.《骆越演义》知识关系可视化系统设计与实现[J].南宁师范大学学报（自然科学版）,2022,39(1):94-99.
9邵闻睿,汪远,张羽菲,范雨昕.基于改进DenseNet的图像分类[J].中国宽带,2022,18(8):64-66. 被引量：1
10喜讯!计为振动式物位开关已获四项国家发明专利[J].化工自动化及仪表,2022,49(4):468-468.

数据分析与知识发现

2022年第7期

浏览历史

内容加载中请稍等...

STNLTP:一种基于集成策略的中文专利摘要生成模型被引量：1

参考文献8

二级参考文献45

共引文献266

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

STNLTP:一种基于集成策略的中文专利摘要生成模型 被引量：1

参考文献8

二级参考文献45

共引文献266

同被引文献10

引证文献1

相关作者

相关机构

相关主题

浏览历史

STNLTP:一种基于集成策略的中文专利摘要生成模型被引量：1