摘要
获取高质量的训练数据一直是知识库算法研发过程中非常重要的一环。传统的监督学习算法,往往通过人工标注来获得训练数据。单纯扩大人工标注的规模难以满足大数据处理需求。远程监督学习,利用知识库中的结构化知识,自动从维基百科的自然文本中获取训练数据,在降低对人工标注依赖的同时,还可以保证训练数据的质量。论文介绍了远程监督学习基本原理、关键技术及常用模型,对目前活跃的几个应用领域进行了讨论,最后对其发展前景如扩展到图像识别等领域进行了展望。
基金
北京市教育委员会社科计划一般项目"基于大数据的企业商务智能决策分析方法研究"(SM201714073001)