期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于语义的聚焦爬虫算法研究 被引量:9
1
作者 孙红光 +2 位作者 姬传德 杨凤芹 冯国忠 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期51-57,共7页
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型... 针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%. 展开更多
关键词 聚焦爬虫 LDA 主题模型 向量空间模型(VSM) 语义相似度
下载PDF
基于Levenshtein和TFRSF的文本相似度计算方法 被引量:6
2
作者 孙红光 +2 位作者 杨凤芹 冯国忠 尹良亮 《计算机与现代化》 2018年第4期84-89,共6页
在社交网络中查找和收集个人信息可以建立一个包含目标履历、生活、爱好以及朋友等属性的信息体系,但是不同社交网络中存在大量同名用户。为了解决同名歧义问题,采用计算用户信息相似度,可以判断2个用户是否属于同一个人。由于文档中描... 在社交网络中查找和收集个人信息可以建立一个包含目标履历、生活、爱好以及朋友等属性的信息体系,但是不同社交网络中存在大量同名用户。为了解决同名歧义问题,采用计算用户信息相似度,可以判断2个用户是否属于同一个人。由于文档中描述信息位置颠倒会导致计算机误判,为此,本文通过对莱文斯坦(Levenshtein)和词频相关字符串频率(TFRSF)方法融合计算词频和编辑距离,判断属性值是否相同。实验结果表明,本文提出的计算文本相似度方法在多种评价指标上准确性都有所提高,准确率(Precision)、召回率(Recall)、F1值(F1 Measure)均大于87%。 展开更多
关键词 个人信息 社交网络 莱文斯坦 词频相关字符串频率 相似度
下载PDF
基于Doc2Vec和BiLSTM的老年患者疾病预测研究 被引量:3
3
作者 左美云 郭鑫鑫 《计算机工程与科学》 CSCD 北大核心 2020年第12期2273-2279,共7页
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。... 基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。 展开更多
关键词 上下文 Doc2Vec 双向长短时记忆网络BiLSTM 数据挖掘 疾病预测
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部