-
题名基于概念类的索引方法
被引量:1
- 1
-
-
作者
孙铁利
曹晶
-
机构
东北师范大学计算机学院
-
出处
《长春理工大学学报(自然科学版)》
2006年第1期79-83,共5页
-
基金
国家自然科学基金资助项目(69973012)
-
文摘
传统的信息检索方法一般都采用对文本内容的词频进行分析的统计方法,这种索引方法仅仅考虑词语在文本中的出现率,因此不能抽取出表达文本语义的索引词。为了解决这个问题,本文提出了一种新的信息检索方法,即基于概念的权重索引方法。本方法引入了概念类的概念,并且提出了用概念之间存在的关系来表示文档中的词汇和概念的语义重要度。本方法比单纯的词汇信息更能体现文本的概念特征,提高信息检索的性能;同时还能降低文本向量的维数,减少计算量,提高检索效率。
-
关键词
索引权重
词汇链
概念类
检索
WORDNET
-
Keywords
indexing weight
lexical lain
concept cluster
information retrieval
WordNet
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名专业信息检索系统中索引项提取策略的研究
- 2
-
-
作者
熊桂喜
陆壮飞
-
机构
北京航空航天大学计算机学院
-
出处
《计算机技术与发展》
2008年第9期19-21,25,共4页
-
基金
"十五"国家科技攻关计划(2005BA414B04)
-
文摘
索引项(Index Unit)的提取是中文全文检索领域的关键技术之一。将通用搜索引擎的索引项提取策略应用于某一专业领域的检索系统中,会出现因标引词典无法覆盖该领域的专业词汇而造成的查准率偏低和因辞典不断加入专业词汇而造成检索效率降低的矛盾。介绍了一种面向专业领域的索引项提取策略,通过在提取过程中区分索引项和专业索引项并分别计算其权值,提升专业索引项与目标文档的相似度。在北京公安交通管理领域的网页数据集进行实验,证明该索引策略在查询专业领域信息时可提供较高的查准率并显著提高检索效率。
-
关键词
专业检索
索引权重
倒排文件
-
Keywords
domain - oriented information retrieval
index weight
inverted file
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名文本索引词项相对权重计算方法与应用
被引量:9
- 3
-
-
作者
蓝海洋
周杰韩
张和明
-
机构
清华大学自动化系
-
出处
《计算机工程与应用》
CSCD
北大核心
2003年第15期68-70,共3页
-
基金
国家自然科学基金项目"虚拟样机环境下复杂产品多领域协同建模方法研究"(课题编号:NSFC60274044)
-
文摘
文本索引词权重计算方法决定了文本分类的准确率。该文提出一种文本索引词项相对权重计算方法,即文本索引词项权重根据索引词项在该文本中的出现频率与在整个文本空间出现的平均频率之间的相对值进行计算。该方法能有效地提高索引词对文本内容识别的准确性。
-
关键词
知识管理
文本分类
索引词权重
-
Keywords
Knowledge management ,Text classification,Term weighting
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于索引项权重的文本特征选择方法
被引量:4
- 4
-
-
作者
王海鹃
韩立新
甄志龙
-
机构
通化师范学院数学系
河海大学计算机及信息工程学院
通化师范学院计算机科学系
-
出处
《计算机工程与设计》
CSCD
北大核心
2010年第5期1149-1151,共3页
-
基金
国家自然科学基金项目(60673186)
-
文摘
为改善文本分类的效率和效果,降低计算复杂度,在分析了经典的特征选择方法后,提出加权的文本特征选择方法。该方法不仅利用数据集中文本的个数,还充分考虑到索引项的权重信息,并构造新的评估函数,改进了信息增益、期望交叉熵以及文本证据权。利用KNN分类器在Reuters-21578标准数据集上进行训练和测试。实验结果表明,该方法能够选出有效特征,提高文本分类的性能。
-
关键词
文本分类
特征选择
索引项权重
信息增益
期望交叉熵
文本证据权
-
Keywords
text categorization
feature selection
term weight
information gain
expected cross entropy
weight of evidence for text
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-