一种基于机器学习的相似度算法在文本相似度比较中的应用--以法律文本比较为例被引量：1

Application of Text Similarity Comparison Based on Machine Learning:A Case Study on Text of Law

下载PDF

导出

摘要随着法律文本的大量公开,在文本挖掘中发挥越来越重要的作用,同时随着机器学习与自然语言处理技术的发展,其与大数据的融合运用逐渐普及,将两者结合起来进行相似度判别分析,有利于对法律文本的充分挖掘利用,对于帮助用户了解案情,同时基于法律文本相似度分析可拓展更多应用,对于促进国家法制化建设具有重要意义。使用了一种基于机器学习的相似度算法,通过与不同词向量结合的方式,能够有效提升文本相似度对比的准确率。通过在真实民间借贷类法律文本比较案例中实验取得明显效果,准确率提升10%,具有较好的使用前景。 With the large number of legal texts being published,they have played an increasingly important role in text mining.At the same time,with the development of machine learning and natural language processing technologies,the integration and use of big data has gradually become popular.Similarity calculation analysis is conducive to the full mining and utilization of legal texts.It is helpful for users to understand the case.At the same time,it can expand more applications based on the similarity analysis of legal texts.This paper uses a similarity algorithm based on machine learning,which can effectively improve the accuracy of text similarity comparison by combining with word vectors.The experiment has achieved obvious results in a comparative case of real civil lending legal texts,and the accuracy rate is improved by 10%,which has a good prospect for use.

作者骆浩楠汪峥李峰 Luo Haonan

机构地区东南大学自动化学院东南大学信息科学与工程学院

出处《工业控制计算机》 2020年第6期3-5,共3页 Industrial Control Computer

关键词民间借贷法律文本相似度计算机器学习自然语言处理 private loan legal text similarity calculation machine learning natural language processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP181 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献4

1李兰君,周俊生,顾颜慧,曲维光.基于改进孪生网络结构的相似法律案例检索研究[J].北京大学学报（自然科学版）,2019,55(1):84-90. 被引量：7
2王君泽,马洪晶,张毅,杨兰蓉.裁判文书类案推送中的案情相似度计算模型研究[J].计算机工程与科学,2019,41(12):2193-2201. 被引量：17
3徐浩广..基于自然语言处理的法务服务系统的设计与实现[D].中国科学院大学,2018:
4徐浩广,王宁,刘佳明,邱燕.基于自然语言检索的综合相似度计算算法[J].计算机系统应用,2017,26(6):170-175. 被引量：7

二级参考文献13

1晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：27
2霍华,冯博琴.基于压缩稀疏矩阵矢量相乘的文本相似度计算[J].小型微型计算机系统,2005,26(6):988-990. 被引量：7
3徐德智,王怀民.基于本体的概念间语义相似度计算方法研究[J].计算机工程与应用,2007,43(8):154-156. 被引量：34
4戴祖旭,洪帆.基于词性标记序列逆序数的文本信息隐藏算法[J].计算机工程与应用,2007,43(14):160-161. 被引量：4
5宋玲,郭家义,张冬梅,汤晓兵,高楠.概念与文档的语义相似度计算[J].计算机工程与应用,2008,44(35):163-167. 被引量：7
6张海军,史树敏,朱朝勇,黄河燕.中文新词识别技术综述[J].计算机科学,2010,37(3):6-10. 被引量：39
7庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
8嵇旋,徐雅斌.面向裁判文书的隐私内容检测方法[J].重庆邮电大学学报（自然科学版）,2015,27(5):639-646. 被引量：1
9杜丽萍,李晓戈,于根,刘春丽,刘睿.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报（自然科学版）,2016,52(1):35-40. 被引量：46
10马成虎,董洪伟.一种基于深度学习的多尺度深度网络的场景标注算法[J].计算机工程与科学,2016,38(7):1356-1361. 被引量：6

共引文献27

1邓矜婷.同案同判中同案认定标准的可计算化研究[J].法制与社会发展,2024,30(5):205-224.
2孙海波.类案检索在何种意义上有助于同案同判?[J].清华法学,2021,15(1):79-97. 被引量：52
3祝斌,亓合媛,马俊才.基于16S rRNA序列物种鉴定的改进向量空间模型算法[J].计算机系统应用,2018,27(9):163-169. 被引量：1
4陈梓华,李敬兆.煤矿安全隐患智能语义采集与智慧决策支持系统[J].工矿自动化,2018,44(11):7-13. 被引量：7
5张璐,芦天亮,杜彦辉.基于WMF_LDA主题模型的文本相似度计算[J].计算机应用研究,2019,36(10):2916-2919. 被引量：10
6郑浩然.基于动态回归和通道注意力的孪生网络的目标跟踪[J].信息与电脑,2019,0(17):18-19.
7衡宇峰,李俊,彭望龙,黄元稳,房冬丽.基于语义分析的政策法规智能审核研究与实现[J].通信技术,2020,53(4):937-942. 被引量：3
8党鹏飞.网络多媒体数据库相似信息检索方法研究[J].新一代信息技术,2019,2(23):84-88.
9赵承鼎,郭军军,余正涛,黄于欣,刘权,宋燃.基于非对称孪生网络的新闻与案件相关性分析[J].中文信息学报,2020,34(3):99-106. 被引量：1
10康嘉钰,苏凡军.基于生成对抗网络的长短兴趣推荐模型[J].计算机技术与发展,2020,30(6):35-39. 被引量：1

同被引文献5

1姚卫峰,陈蓉,孙毓庆,肖珊珊,胡育筑(指导).基于数据预处理的板蓝根注射液指纹图谱模式识别[J].计算机与应用化学,2008,25(3):337-341. 被引量：4
2王化坤.轻烃录井技术研究及应用[J].中国石油和化工标准与质量,2011,31(4):52-52. 被引量：3
3赵宏波,刘小宁,梁院科,周鹏飞,王洪君.鄂尔多斯盆地油水层轻烃录井解释评价方法[J].录井工程,2012,23(4):31-35. 被引量：7
4李媚,陈盛君,王协和,姜众会,李玲玲,徐以亮,狄留庆,高铸烨.清心解瘀方标准汤剂多指标成分含量测定及UPLC指纹图谱研究[J].南京中医药大学学报,2021,37(3):419-427. 被引量：8
5樊杉杉,唐洁,乐细选,杨强,刘源才,陈双,徐岩,范文来,陈申习.基于HS-SPME-Arrow-GC-MS和化学计量学的小曲清香型原酒等级判别[J].食品与发酵工业,2021,47(13):254-260. 被引量：14

引证文献1

1黄亚璇,杨永强,李涛涛,黄子舰,刘波,方铁园.轻烃分析技术在储层评价中的应用研究[J].录井工程,2021,32(3):76-79. 被引量：1

二级引证文献1

1刘涛,乔德民,晏巍,刘永炜,方铁园,赵培鹏.录井资料处理与模式识别技术在长庆油田录井解释评价中的应用[J].录井工程,2022,33(4):84-91.

1张涛,马海群,易扬.文本相似度视角下我国大数据政策比较研究[J].图书情报工作,2020,64(12):26-37. 被引量：36
2杨凯.《烟雨濛濛》与《情深深雨濛濛》的影视文本比较分析[J].艺术评鉴,2020(12):156-159.
3戴璞.机器学习算法在金融行业中的应用[J].时代金融,2020(11):103-104. 被引量：1
4孔令先,崔延哲.依法治校的评估主体、指标和方法研究综述[J].创新创业理论研究与实践,2020(7):10-12. 被引量：1
5张瑞.改革开放以来党内政治生活准则的演进——基于新旧《准则》的文本比较研究[J].当代世界社会主义问题,2020(2):50-56. 被引量：1
6侍磊,周麟坤,陈月芳,丁玉,刘会霞,王霄.基于CBR的叶片智能化CAPP系统研究[J].工具技术,2020,54(7):60-64. 被引量：7
7王之石,费超.关于做好新形势下高校信访工作的思考与探索研究[J].青年与社会,2020(16):60-61.
8蒋怡,霍晓强,王清.文本相似度计算在军事装备故障诊断方面的应用[J].中国设备工程,2020(15):169-171.
9赵倩.基于PBFT算法的区块链用户隐私数据保护与查找问题研究[J].甘肃科技纵横,2020,49(6):4-7. 被引量：3
10周巨,罗兵.基于多特征分层的视频摘要提取算法[J].五邑大学学报（自然科学版）,2020,34(2):39-45.

工业控制计算机

2020年第6期

浏览历史

内容加载中请稍等...

一种基于机器学习的相似度算法在文本相似度比较中的应用--以法律文本比较为例被引量：1

参考文献4

二级参考文献13

共引文献27

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于机器学习的相似度算法在文本相似度比较中的应用--以法律文本比较为例 被引量：1

参考文献4

二级参考文献13

共引文献27

同被引文献5

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种基于机器学习的相似度算法在文本相似度比较中的应用--以法律文本比较为例被引量：1