-
题名文本配图系统的设计与实现
被引量:1
- 1
-
-
作者
张明西
乐水波
李学民
董一鹏
-
机构
上海理工大学
-
出处
《包装工程》
CAS
北大核心
2020年第19期252-258,共7页
-
基金
国家自然科学基金(62002225)
上海市自然科学基金(16ZR1422800)
+1 种基金
上海理工大学国家级项目培育基金(16HJPY-QN04)
国家新闻出版广电总局准重点实验室招标课题(ZBKT201809)。
-
文摘
目的设计并开发文本配图系统,实现面向文本数据的在线自动配图。方法基于图片和文本之间的描述关系构建“图片-标签”二分网络,然后基于“图片-标签”的二分网络,利用重启随机游走模型进行图片与标签之间的相关性计算。采用TextRank模型提取关键字,并将关键字构成的集合作为查询,将关键字视为标签。基于离线计算结果,在线整合标签与图片之间的相关性,得到文本与图片的相关性。依据相关性由大到小进行排序,并返回前k个最相关的图片。结果实验结果表明,前5个返回结果的MAP值能够达到0.839,能够准确地返回用户期望的图片。结论系统能够依据输入文本进行准确的图片匹配。
-
关键词
TF-IDF模型
文本配图
重启随机游走
textrank模型
-
Keywords
TF-IDF model
text matching picture
random walk with restart
textrank model
-
分类号
TP317.4
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于中文专利的产业概念层次体系构建方法研究
- 2
-
-
作者
李贞贞
钟永恒
-
机构
中国科学院武汉文献情报中心
科技大数据湖北省重点实验室
-
出处
《情报杂志》
CSSCI
北大核心
2020年第9期73-80,共8页
-
基金
中国科学院武汉文献情报中心前瞻性项目“领域术语自动抽取方法研究”(编号:Y9KZ401)研究成果之一。
-
文摘
[目的/意义]构建丰富的产业概念层次体系,有助于对产业数据资源进行有序组织,研究构建过程中关键词识别与层级关系确定的方法。[方法/过程]以产业中文专利数据为来源,引入平衡语料与平均信息熵提取通用词并过滤;融合位置、词性、TF-IDF与外部知识库特征,改进TextRank模型有效识别关键词;最后结合产业专家知识、深度学习和近邻传播聚类(AP)算法生成产业概念层次体系。[结果/结论]实验选取“汽车制造”产业进行实证分析,结果显示在关键词抽取上较传统方法有了明显的提高,自动生成的三层次体系包含6个一级关键词和23个二级关键词。该方法能够有效提升构建效率,实现高效的动态更新,为产业数据资源科学管理提供新思路。
-
关键词
产业概念层次体系
中文专利
textrank模型
近邻传播聚类算法
通用词
平均信息熵
-
Keywords
industrial concept hierarchy
Chinese patent
textrank model
affinity propagation clustering algorithm
general word
average information entropy
-
分类号
G350
[文化科学—情报学]
-