摘要
现有图书馆采选查重系统只能实现对书号、题名的重复检查,但图书出版同质化日益严重,针对异号相似图书查重困难的问题,构建基于自然语言处理技术的查重策略。首先选择主题词、内容提要和目录作为图书内容特征的指标进行建模,利用Word2Vec和WMD技术实现不同长度特征文本语义化相似度计算;然后,采用AHP方法计算特征相似度的权系数,得到图书相似度的综合评价指标;最后以西南大学图书馆数据为实验对象,验证查重策略的可行性。
s and catalogues are chosen as the evaluation elements to build model with library.Then,calculate the semantic similarity of context with Word2Vec and WMD,get the weight of similarity by AHP method.Then get comprehensive evaluation of book similarity.Finally,verify the duplication checking strategy with the library data of Southwest University.
作者
漆月
石璐
QI Yue;SHI Lu(Southwest University,Chongqing 400715,China;Nokia Shanghai Bell Co.Engeneering Department,Beijing 100010,China)
出处
《数字图书馆论坛》
CSSCI
2019年第11期61-66,共6页
Digital Library Forum
基金
重庆市教育科学“十三五”规划2019年度规划课题“面向碎片化学习的生态型智慧教学平台构建研究”(编号:2019-GX-306)资助
关键词
采选查重
文本相似度
语义分析
评价指标体系
Book Duplicate-Checking
Context Similarity
Semantic Analysis
Evaluation Index System