-
题名基于自编码器语义哈希的大规模文本预处理
被引量:3
- 1
-
-
作者
张忠林
杨朴舟
-
机构
兰州交通大学
-
出处
《计算机仿真》
北大核心
2019年第3期225-229,260,共6页
-
基金
国家自然科学基金(61662043)
-
文摘
展示了一种从大规模文本中学习文本索引的深层图形模型,深层图形模型采用自编码器作为基础结构。该图模型最终输出的值具有较强的解释性,并且比潜在语义索引更好地表示每个文档。当最深层使用少数二进制变量输出时(例如32位),图形模型将文档通过语义散列的方式映射到存储器对应的地址上,使得语义上相似的文档位于附近的地址处。然后可以通过访问所有仅相差几位的地址来找到类似于查询文本的文本。通过查询文件地址的方式,基于近似匹配方式的散列编码的效率比局部敏感散列快得多,通过使用语义哈希来过滤采用TF-IDF表示的文本,将实现更高的准确性。
-
关键词
自编码器
语义哈希
潜在语义索引
文本索引
-
Keywords
Self-encoder
semantic hash
potential semantic index
Text index
-
分类号
TP183
[自动化与计算机技术—控制理论与控制工程]
-
-
题名多类型分类器融合的文本分类方法研究
被引量:3
- 2
-
-
作者
李惠富
陆光
-
机构
东北林业大学信息与计算机工程学院
-
出处
《计算机应用研究》
CSCD
北大核心
2019年第3期752-755,共4页
-
基金
黑龙江省自然科学基金资助项目(F201201)
-
文摘
传统的文本分类方法大多数使用单一的分类器,而不同的分类器对分类任务的侧重点不同,就使得单一分类方法有一定的局限性,同时每个特征提取方法对特征词的考虑角度不同。针对以上问题,提出了多类型分类器融合的文本分类方法。该模型使用了word2vec、主成分分析、潜在语义索引以及TFIDF特征提取方法作为多类型分类器融合的特征提取方法。在多类型分类器加权投票方法中忽略了类别信息的问题,提出了类别加权的分类器权重计算方法。通过实验结果表明,多类型分类器融合方法在二元语料库、多元语料库以及特定语料库上都取得了很好的性能,类别加权的分类器权重计算方法比多类型分类器融合方法在分类性能方面提高了1. 19%。
-
关键词
文本分类
分类器融合
主成分分析
潜在语义索引
-
Keywords
text classification
classifier fusion
principal component analysis
potential semantic index
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名“机设基础”精品课程智能答疑系统研究与设计
被引量:1
- 3
-
-
作者
刘建强
-
机构
西安航空技术高等专科学校高教所
-
出处
《西安航空技术高等专科学校学报》
2008年第3期77-80,共4页
-
文摘
针对《机械设计基础》精品课程,提出了一个基于潜在语义索引的智能答疑系统,并对其中的中文分词技术和句子相似度计算进行了研究,对系统进行了设计,给出了实现方法。
-
关键词
精品课程
智能答疑
中文分词
潜在语义索引
-
Keywords
Sophisticated Curricula
Intelligent Interrogation
Chinese Character Division
potential semantic index
-
分类号
G423.07
[文化科学—课程与教学论]
-