基于语义相似的中文数据清洗方法

Chinese Data Cleaning Method Based on Semantic Similarity

下载PDF

导出

摘要目前关于数据清洗的研究大多针对英文数据,相关算法较为成熟,而对中文文本数据的清洗研究较少,且中英文差距较大,面向英文的清洗方法不完全适应于中文。基于此提出一种面向中文的相似重复数据清洗方法,充分考虑中文存在的一词多义与多词一义现象,在中文文本向量化过程中引入位置向量,降低文本数据转为数学表达后语义信息的丢失程度。 At present,most of the research on data cleaning focuses on English data,and the relevant algorithms are relatively mature,while the research on Chinese text data cleaning is less,and there is a big gap between Chinese and English,so the English oriented cleaning method is not completely suitable for Chinese.Based on this,a Chinese oriented similar duplicate data cleaning method is proposed,which takes full account of the phenomenon of polysemy and polysemy in Chinese,and introduces position vector in the process of Chinese text vectorization to reduce the loss of semantic information after text data is transformed into mathematical expression.

作者李碧秋王佳斌刘雪丽 LI Biqiu;WANG Jiabin;LIU Xueli(College of Engineering,Huaqiao University,Quanzhou 362000)

机构地区华侨大学工学院

出处《现代计算机》 2021年第19期58-61,共4页 Modern Computer

基金厦门市科技局产学研创新项目(No.3502Z20173046)。

关键词中文文本数据清洗相似重复数据文本向量化聚类 Chinese Text Data Cleaning Similar Duplicate Data Text Vectorization Clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

1龚申才.把握数学核心素养的三个“活动点”[J].新一代（理论版）,2021(7):232-232.
2杜建新.SQL注入攻击检测与防御技术研究[J].中国新技术新产品,2021(9):26-28. 被引量：2
3苗长新,李昊,王霞,韩丽,马也,李衡.基于数据驱动和深度学习的超短期风电功率预测[J].电力系统自动化,2021,45(14):22-29. 被引量：34
4张震,谷雨,耿小航,俞海亮.基于预训练模型和特征融合的事件触发词抽取[J].杭州电子科技大学学报（自然科学版）,2021,41(4):40-47. 被引量：4
5姜昊辰,刘衍青,彭镜铨,李嘉茂,朱冬晨,张晓林.基于语义先验和深度约束的室内动态场景RGB-D SLAM算法[J].信息与控制,2021,50(3):275-286. 被引量：6
6张云婷,叶麟,方滨兴,张宏莉.基于词频-逆文档频率和法律本体的相似案例检索算法[J].智能计算机与应用,2021,11(5):229-234. 被引量：2
7李滨,陈嘉程,严康,陈碧云.社会服务类汽车充电站选点规划评价体系构建与应用[J].电力系统及其自动化学报,2021,33(7):29-40. 被引量：3
8余本功,王胡燕.基于SFM-DCNN的层次特征文本分类研究[J].情报科学,2021,39(7):99-107. 被引量：1

现代计算机

2021年第19期

浏览历史

内容加载中请稍等...

基于语义相似的中文数据清洗方法

相关作者

相关机构

相关主题

浏览历史