-
题名基于知识块摘要和词转移距离的高效司法文档分类
被引量:5
- 1
-
-
作者
马建刚
张鹏
马应龙
-
机构
中国人民大学法学院
国家检察官学院
河南省人民检察院
华北电力大学控制与计算机工程学院
-
出处
《计算机应用》
CSCD
北大核心
2019年第5期1293-1298,共6页
-
基金
国家重点研发计划项目(2018YFC0830605
2018YFC0831404)
中国博士后科学基金资助项目(2016M591317)~~
-
文摘
随着全国司法机关智能化建设的深入推进,通过信息化建设应用所积累的海量司法文书为开展司法智能服务提供了司法数据分析基础。通过司法文书的相似性分析实现类案推送,可以为司法人员提供智能辅助办案决策支持,从而提高办案的质量和效率。针对面向通用领域的文本分类方法因没有考虑特定司法领域文本的复杂结构和知识语义而导致司法文本分类的效能低问题,提出一种基于司法知识块摘要和词转移距离(WMD)的高效司法文档分类方法。首先为司法文书构建领域本体知识模型,进而基于领域本体,利用信息抽取技术获取司法文档中核心知识块摘要;然后基于司法文本的知识块摘要利用WMD进行司法文档相似度计算;最后利用K最近邻算法进行司法文本分类。以两个典型罪名的案件文档集作为实验数据,与传统的WMD文档相似度计算方法进行对比,实验结果表明,所提方法能明显提高司法文本分类的正确率(分别有5.5和9.9个百分点的提升),同时也降低了文档分类所需的时间(速度分别提升到原来的52.4和89.1倍)。
-
关键词
智慧检务
领域本体模型
文本分类
相似度计算
知识块摘要
词转移距离
-
Keywords
smart procuratorate
domain ontology model
document classification
similarity computation
knowledge block summarization
Word Mover’s Distance(WMD)
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-
-
题名语义驱动的司法文档学习分类方法
被引量:2
- 2
-
-
作者
马建刚
马应龙
-
机构
中国人民大学法学院
国家检察官学院
河南省人民检察院
华北电力大学控制与计算机工程学院
-
出处
《计算机应用》
CSCD
北大核心
2019年第6期1696-1700,共5页
-
基金
国家重点研发计划项目(2018YFC0831404,2018YFC0830605)
中国博士后科学基金资助项目(2016M591317)~~
-
文摘
基于海量的司法文书进行的高效司法文档分类有助于目前的司法智能化应用,如类案推送、文书检索、判决预测和量刑辅助等。面向通用领域的文本分类方法因没有考虑司法领域文本的复杂结构和知识语义,导致司法文本分类的效能很低。针对该问题提出了一种语义驱动的方法来学习和分类司法文书。首先,提出并构建了面向司法领域的领域知识模型以清晰表达文档级语义;然后,基于该模型对司法文档进行相应的领域知识抽取;最后,利用图长短期记忆模型(Graph LSTM)对司法文书进行训练和分类。实验结果表明该方法在准确率和召回率方面明显优于常用的长短期记忆(LSTM)模型、多类别逻辑回归和支持向量机等方法。
-
关键词
司法大数据
领域知识模型
文本分类
智慧检务
图长短期记忆模型
-
Keywords
judicial big data
domain knowledge model
text categorization
smart procuratorate
Graph Long Short-Term Memory(Graph LSTM) model
-
分类号
TP309
[自动化与计算机技术—计算机系统结构]
-