-
题名面向网页的主题概念挖掘
被引量:1
- 1
-
-
作者
刘琼琼
左万利
王英
-
机构
吉林大学计算机科学与技术学院
吉林大学符号计算与知识工程教育部重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2015年第5期62-66,共5页
-
基金
国家自然科学青年基金项目(20130206051GX)
吉林省重点科技攻关项目(20130206051GX)资助
-
文摘
网页主题挖掘对自然语言处理如网页文本分类、文摘自动生成、信息融合等具有重要意义。挖掘网页主题可以帮助用户更好地理解网页内容。尽管已有一些从普通文本中挖掘概念的工作,但其很少考虑单词所属标签和位置对单词权重的影响,且没有工作给出上述两种影响因子的计算方法。借助WordNet,将网页主题从词语扩展到概念层次,提出了使用词性标注和词义消歧确定网页中单词词义并充分利用标签影响因子和位置影响因子对网页正文文本特征进行权重修正的主题概念挖掘方法,给出了两种影响因子的计算公式。在DMOZ数据集上的实验结果表明,修正权重可以明显提高主题挖掘精度,最高可达到0.95。
-
关键词
词性标注
词义消歧
标签影响因子
位置影响因子
权重修正
-
Keywords
Speech tagging, Word sense disambiguation, Label impact factor, Location impact factor, Adjusted weights
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名从文档集推导html标签影响因子的算法
- 2
-
-
作者
邓剑勋
邢永康
-
机构
重庆大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2007年第10期226-228,共3页
-
基金
本研究得到国家自然科学基金青年基金资助(编号:60403009)。
-
文摘
在Web文档中,同一个关键词处在不同html标签中,其对中心思想影响程度各不相同。选择合适的标签影响因子,对于构建文档的数学模型至关重要。本文在总结前人研究基础之上,提出了一种新的推导算法,该算法提出了ttf(标引词标签频率)和itf(逆标签频率)等定义,构造出行序为标签、列序为关键词的文档矩阵。从中抽取每个文档的某一特定行向量组构成一个新的向量集合,根据这个新集合中各个向量到质心的平均距离,就能得出该特定行向量集合所代表的标签的影响因子(针对训练文档集合)。如果训练文档集合的容量放大到足够,就可以近似认为这个影响因子具有一般意义。通过试验验证,推导出的影响因子作用于新的文档集合的时候,在一定程度上改善了检索的性能。
-
关键词
TTF
ITF
规范化因子
质心
平均距离
标签影响因子向量
-
Keywords
ttf, itf, Standardization factor, Centroid, Average distance, Tags influence factor
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-