期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
3
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于语义的聚焦爬虫算法研究
被引量:
9
1
作者
孙红光
藏
润
强
+2 位作者
姬传德
杨凤芹
冯国忠
《东北师大学报(自然科学版)》
CAS
CSCD
北大核心
2018年第2期51-57,共7页
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型...
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.
展开更多
关键词
聚焦爬虫
LDA
主题模型
向量空间模型(VSM)
语义相似度
下载PDF
职称材料
基于Levenshtein和TFRSF的文本相似度计算方法
被引量:
6
2
作者
藏
润
强
孙红光
+2 位作者
杨凤芹
冯国忠
尹良亮
《计算机与现代化》
2018年第4期84-89,共6页
在社交网络中查找和收集个人信息可以建立一个包含目标履历、生活、爱好以及朋友等属性的信息体系,但是不同社交网络中存在大量同名用户。为了解决同名歧义问题,采用计算用户信息相似度,可以判断2个用户是否属于同一个人。由于文档中描...
在社交网络中查找和收集个人信息可以建立一个包含目标履历、生活、爱好以及朋友等属性的信息体系,但是不同社交网络中存在大量同名用户。为了解决同名歧义问题,采用计算用户信息相似度,可以判断2个用户是否属于同一个人。由于文档中描述信息位置颠倒会导致计算机误判,为此,本文通过对莱文斯坦(Levenshtein)和词频相关字符串频率(TFRSF)方法融合计算词频和编辑距离,判断属性值是否相同。实验结果表明,本文提出的计算文本相似度方法在多种评价指标上准确性都有所提高,准确率(Precision)、召回率(Recall)、F1值(F1 Measure)均大于87%。
展开更多
关键词
个人信息
社交网络
莱文斯坦
词频相关字符串频率
相似度
下载PDF
职称材料
基于Doc2Vec和BiLSTM的老年患者疾病预测研究
被引量:
3
3
作者
藏
润
强
左美云
郭鑫鑫
《计算机工程与科学》
CSCD
北大核心
2020年第12期2273-2279,共7页
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。...
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。
展开更多
关键词
上下文
Doc2Vec
双向长短时记忆网络BiLSTM
数据挖掘
疾病预测
下载PDF
职称材料
题名
基于语义的聚焦爬虫算法研究
被引量:
9
1
作者
孙红光
藏
润
强
姬传德
杨凤芹
冯国忠
机构
东北师范大学信息科学与技术学院
智能信息处理吉林省重点实验室
吉林大学计算机科学与技术学院
出处
《东北师大学报(自然科学版)》
CAS
CSCD
北大核心
2018年第2期51-57,共7页
基金
国家自然科学基金青年基金资助项目(11501095)
吉林省科技创新人才培育计划项目(20170520051JH)
+1 种基金
吉林省科技发展计划项目(20170204002GX)
吉林省发改委引导项目(2015Y056)
文摘
针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%.
关键词
聚焦爬虫
LDA
主题模型
向量空间模型(VSM)
语义相似度
Keywords
focused crawler
LDA
topic model
vector space model(VSM)
semantic similarity
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Levenshtein和TFRSF的文本相似度计算方法
被引量:
6
2
作者
藏
润
强
孙红光
杨凤芹
冯国忠
尹良亮
机构
东北师范大学信息科学与技术学院
智能信息处理吉林省高校重点实验室
出处
《计算机与现代化》
2018年第4期84-89,共6页
基金
国家自然科学基金青年科学基金资助项目(11501095)
吉林省科技创新人才培育计划项目(20170520051JH)
+1 种基金
吉林省科技发展计划项目(20170204002GX)
吉林省发改委引导项目(2015Y056)
文摘
在社交网络中查找和收集个人信息可以建立一个包含目标履历、生活、爱好以及朋友等属性的信息体系,但是不同社交网络中存在大量同名用户。为了解决同名歧义问题,采用计算用户信息相似度,可以判断2个用户是否属于同一个人。由于文档中描述信息位置颠倒会导致计算机误判,为此,本文通过对莱文斯坦(Levenshtein)和词频相关字符串频率(TFRSF)方法融合计算词频和编辑距离,判断属性值是否相同。实验结果表明,本文提出的计算文本相似度方法在多种评价指标上准确性都有所提高,准确率(Precision)、召回率(Recall)、F1值(F1 Measure)均大于87%。
关键词
个人信息
社交网络
莱文斯坦
词频相关字符串频率
相似度
Keywords
personal information
social network
Levenshtein
TFRSF
similarity
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Doc2Vec和BiLSTM的老年患者疾病预测研究
被引量:
3
3
作者
藏
润
强
左美云
郭鑫鑫
机构
中国人民大学信息学院智慧养老研究所
出处
《计算机工程与科学》
CSCD
北大核心
2020年第12期2273-2279,共7页
基金
中央高校基本科研业务费专项资金(19XNH121)。
文摘
基于电子病历的疾病预测一般是根据病人的症状预测疾病,而很少研究疾病之间的时间顺序关系。引入一种新的电子病历表示法,该表示法考虑了具有时序性的医疗疾病上下文信息,利用Doc2Vec将每种疾病转换成一个类似于其“语义”的数字向量。基于这些向量采用BiLSTM模型来预测老年患者未来的疾病,可以起到对老年疾病的预警作用。最后通过使用真实的医院诊断数据进行实验验证,结果发现模型能够有效地预测出老年人新的疾病,且在保证预测准确率的同时还具有一定的稳定性。
关键词
上下文
Doc2Vec
双向长短时记忆网络BiLSTM
数据挖掘
疾病预测
Keywords
contextual
Doc2Vec
Bi-directional long short-term memory(BiLSTM)
data mining
disease prediction
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于语义的聚焦爬虫算法研究
孙红光
藏
润
强
姬传德
杨凤芹
冯国忠
《东北师大学报(自然科学版)》
CAS
CSCD
北大核心
2018
9
下载PDF
职称材料
2
基于Levenshtein和TFRSF的文本相似度计算方法
藏
润
强
孙红光
杨凤芹
冯国忠
尹良亮
《计算机与现代化》
2018
6
下载PDF
职称材料
3
基于Doc2Vec和BiLSTM的老年患者疾病预测研究
藏
润
强
左美云
郭鑫鑫
《计算机工程与科学》
CSCD
北大核心
2020
3
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部