概率式关联可信中文知识图谱——“文脉”

Wenmai-A Probablistic-Like Association Reliable Chinese Knowledge Graph

下载PDF

导出

摘要国内现有的中文知识图谱往往以维基百科、百度百科等群体智能贡献的知识库作为资源抽取得到,但这些知识图谱利用的主要是百科的实体名片信息和分类体系信息。然而,这些百科中也有大量的内部链接信息,其中蕴含了大量知识。故而该文中利用维基百科的内部链接构造边,并统计目标实体在源实体定义文本中出现的频度,利用其对应的TF-IDF值作为边权,构造了一个概率式中文知识图谱。该文还提出了一种可信链接筛选算法,对偶发链接进行了去除,使知识图谱更加可信。基于上述方法,该文挖掘出了一个概率式关联可信中文知识图谱,命名为“文脉”,将其在GitHub上进行了开源,以期能对知识指导的自然语言处理以及其他下游任务有所襄助。 The existing Chinese knowledge graphs are derived from Wikipedia and Baidu Baike by leveraging the information of the entity infobox and categorical system.Differently,This article proposes a Chinese knowledge graph with probabilistic links by treat the hyperlinks in these resources as entity relations,weighted by the TF-IDF value of the mention frequency of the target entity in the entry article of the source entity.A reliable link screening algorithm is further desgned to remove the occasional links to make the knowledge graph more reliable.Based on the above methods,this article has constructed a probabilistically probabilistic-like association reliable Chinese knowledge graph named"Wenmai",which is public available in GitHub as a support for knowledge-guided natural language processing.

作者李文浩刘文长孙茂松矣晓沅 LI Wenhao;LIU Wenchang;SUN Maosong;YI Xiaoyuan(The Department of Computer Science and Technology,Tsinghua University,Beijing 100084,China;Institute for Artificial Intelligence,Tsinghua University,Beijing 100084,China;Beijing National Center for Information Science and Technology,Beijing 100084,China;The Department of Computer Science,University of California,Davis,Davis,CA 95616,USA;Jiangsu Collaborative Innovation Center for Language Ability,Jiangsu Normal University,Xuzhou,Jiangsu 221009,China;Microsoft Research Asia,Beijing 100080,China)

机构地区清华大学计算机科学与技术系清华大学人工智能研究院北京信息科学与技术国家研究中心加州大学戴维斯分校计算机科学系江苏高校语言能力协同创新中心微软亚洲研究院

出处《中文信息学报》 CSCD 北大核心 2022年第12期67-73,共7页 Journal of Chinese Information Processing

基金国家社会科学基金(18ZDA238)

关键词维基百科知识图谱构建可信链接筛选 Wikipedia knowledge graph construction reliable link screening

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Hailong Jin,Chengjiang Li,Jing Zhang,Lei Hou,Juanzi Li.XLORE2: Large-scale Cross-lingual Knowledge Graph Construction and Application[J].Data Intelligence,2019,1(1):77-98. 被引量：8
2Bo Xu,Jiaqing Liang,Chenhao Xie,Bin Liang,Lihan Chen,Yanghua Xiao.CN-DBpedia2: An Extraction and Verification Framework for Enriching Chinese Encyclopedia Knowledge Base[J].Data Intelligence,2019,1(3):271-288. 被引量：14

共引文献19

1马鹤桐,任建松,王序文,方安,孙月萍,李姣.双语癌症平行语料库构建[J].医学信息学杂志,2019,40(9):77-82. 被引量：1
2梁野,李小元,许航,胡伊然.CLOpin:一种面向舆情分析与预警领域的跨语言知识图谱架构[J].数据分析与知识发现,2020,4(6):1-14. 被引量：8
3邱凌,张安思,李少波,张仪宗,沈明明,周鹏.航空制造知识图谱构建研究综述[J].计算机应用研究,2022,39(4):968-977. 被引量：15
4兰格,王瑾瑜,孙羽菲,张玉志.基于知识图谱的图匹配文本分类[J].数据与计算发展前沿,2022,4(2):39-49. 被引量：1
5邓凯,杨频,李益洲,杨星,曾凡瑞,张振毓.一种可快速迁移的领域知识图谱构建方法[J].计算机科学,2022,49(S01):100-108. 被引量：2
6李华昱,刘烨宸,李家瑞,闫阳.基于异质数据源的计算机学科知识图谱构建[J].计算机系统应用,2022,31(6):10-18. 被引量：2
7范媛媛,李忠民.中文医学知识图谱研究及应用进展[J].计算机科学与探索,2022,16(10):2219-2233. 被引量：20
8翟增林,王天一.融合知识图谱与深度学习的羊病诊断方法[J].计算机与数字工程,2022,50(12):2831-2836. 被引量：1
9邱云飞,邢浩然,李刚.矿井建设知识图谱构建研究综述[J].计算机工程与应用,2023,59(7):64-79. 被引量：3
10许淞源,李成赞,刘峰.基于知识图谱和主题模型的短文本特征增强方法[J].数据与计算发展前沿,2023,5(2):97-105. 被引量：1

1路小静,江翠平,姚永春.百科全书出版传播中的公众参与及启示——以《百科全书》《不列颠百科全书》和维基百科为例[J].出版广角,2022(21):76-80. 被引量：1
2赵志全.全国1183家三级甲等医院院训的分析与思考[J].中医药管理杂志,2022,30(22):205-208. 被引量：2
3刘建强,卢为党,黄国兴,马宁.基于深度学习的互联网虚假信息识别研究[J].情报工程,2022,8(5):86-99. 被引量：1
4裴高乐,史涛,李世星.NSCT与AR-PCNN相结合的医学图像融合研究[J].激光杂志,2022,43(10):222-228. 被引量：2
5赵谦,郑超,尹怡晨,马文越.基于视频图像的坩埚气泡三维测量方法[J].国外电子测量技术,2022,41(10):178-184. 被引量：1
6张仟煜.为什么总有人摆脱不了“恋爱脑”[J].北方人,2022(22):4-7.
7葛子涵,张云华.基于TF-IDF与混合回归的PPP政策对PPP项目规模的影响研究[J].项目管理技术,2023,21(1):30-35.
8韩玉文.基于大数据技术的电路基础课程思政线上辅助教学系统研究[J].信息与电脑,2022,34(20):240-242. 被引量：2
9郭威,武泽慧,吴茜琼,李锡星.基于交叉指纹分析的公共组件库特征提取方法[J].计算机科学,2023,50(1):373-379.
10李文秀.中国区域服务业政策的事实特征与发展趋势——基于各时期服务业政策文本的NVivo分析[J].公共治理研究,2022,34(6):93-99. 被引量：1

中文信息学报

2022年第12期

浏览历史

内容加载中请稍等...

概率式关联可信中文知识图谱——“文脉”

参考文献2

共引文献19

相关作者

相关机构

相关主题

浏览历史