期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于BERT和LightGBM的文本关键词提取方法 被引量:5
1
作者 何传鹏 尹玲 +4 位作者 黄勃 王明胜 郭茹燕 张帅 巨家骥 《电子科技》 2023年第3期7-13,共7页
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选... 传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。 展开更多
关键词 主题模型 词向量 BERT LightGBM 候选关键词 关键词提取 文本主题 关键词
下载PDF
基于候选主题词与话题分类的人物行为研究
2
作者 刘晓芳 欧荣安 +4 位作者 罗欢 刘芳婷 张辉极 韩冰 赵建强 《计算机技术与发展》 2022年第4期44-50,共7页
如何从海量聊天数据获取聊天主题和聊天人物行为是案件智能化分析的热点问题之一。传统词嵌入方法,将文本中的所有词汇映射到向量空间,存在词汇特征冗余的问题。为了缓解这一问题,该文提出一种基于候选主题词的话题分类算法—CTW(candid... 如何从海量聊天数据获取聊天主题和聊天人物行为是案件智能化分析的热点问题之一。传统词嵌入方法,将文本中的所有词汇映射到向量空间,存在词汇特征冗余的问题。为了缓解这一问题,该文提出一种基于候选主题词的话题分类算法—CTW(candidate topic words)。该算法使用LDA主题模型抽取聊天文本中的关键词,使用预训练词向量得到显著的语义特征,同时为增强特征,将字符特征与获取的词汇特征进行融合。传统方法同时还存在只关注话题无法更精确地刻画人物行为的问题。针对该问题,该文提出了同时获取聊天话题和人物行为的方案:针对已归类的话题,该方案使用群成员互动强度、群成员活跃度作为人物行为网络中的权值,构建话题参与人的行为网络图;最后通过成员在群中的备注给人物赋予不同的社会标签,以丰富人物行为。实验表明,提出的话题分类算法,在实际搜集的数据集上比基线模型拥有更佳的性能,在获取群聊话题的同时得到了更丰富的人物行为描述。 展开更多
关键词 聊天主题 候选主题词 话题分类 人物行为 互动强度 群成员活跃度 社会标签
下载PDF
Semantic Model for Voice Controlled Telephone Dialing and Inquiry Systems
3
作者 张建平 王作英 《Tsinghua Science and Technology》 EI CAS 2000年第2期217-221,共5页
A new scheme is presented to detect a large number ofKeywordsin voice controlled switchboard tasks. The new scheme is based on two stages. In the first stage, N best syllable candidates with their corresponding acous... A new scheme is presented to detect a large number ofKeywordsin voice controlled switchboard tasks. The new scheme is based on two stages. In the first stage, N best syllable candidates with their corresponding acoustic scores are generated by an acoustic recognizer. In the second stage, a semantic model based parser is applied to determine the optimum keywords by searching through the lattice of N best candidates. The experimental results show that when the spoken input deviates from the predefined syntactic constraints, the parser can also demonstrate high performance. For comparison purposes, the most common way to incorporate the syntactic knowledge of the task directly into the acoustic recognizer in the form of a finite state network is also investigated. Furthermore, to address the sparse data problems, out of domain data in the form of newspaper text are used to obtain a more robust combined semantic model. The experiments show that the combined semantic model can improve the keywords detection rate from 90.07% to 92.91% when 80 ungrammatical sentences which do not conform to the task grammar are used as testing material. 展开更多
关键词 Key words semantic model language model keywords spotting context free grammar N best candidates PERPLEXITY
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部