期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
一种基于文档相似度的检索结果重排序方法 被引量:9
1
作者 周博 岑荣伟 +3 位作者 刘奕群 张敏 金奕江 马少平 《中文信息学报》 CSCD 北大核心 2010年第3期19-23,36,共6页
对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了... 对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。 展开更多
关键词 计算机应用 中文信息处理 相关反馈 文档重排序 信息检索
下载PDF
Context-Sensitive Document Ranking 被引量:2
2
作者 常利军 于旭 秦璐 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第3期444-457,共14页
Ranking is a main research issue in IR-styled keyword search over a set of documents. In this paper, we study a new keyword search problem, called context-sensitive document ranking, which is to rank documents with an... Ranking is a main research issue in IR-styled keyword search over a set of documents. In this paper, we study a new keyword search problem, called context-sensitive document ranking, which is to rank documents with an additional context that provides additional information about the application domain where the documents are to be searched and ranked. The work is motivated by the fact that additional information associated with the documents can possibly assist users to find more relevant documents when they are unable to find the needed documents from the documents alone. In this paper, a context is a multi-attribute graph, which can represent any information maintained in a relational database, where multi-attribute nodes represent tuples, and edges represent primary key and foreign key references among nodes. The context-sensitive ranking is related to several research issues, how to score documents, how to evaluate the additional information obtained in the context that may contribute to the document ranking, how to rank the documents by combining the scores/costs from the documents and the context. More importantly, the relationships between documents and the information stored in a relational database may be uncertain, because they are from different data sources and the relationships are determined systematically using similarity match which causes uncertainty. In this paper, we concentrate ourselves on these research issues, and provide our solution on how to rank the documents in a context where there exist uncertainty between the documents and the context. We confirm the effectiveness of our approaches by conducting extensive experimental studies using real datasets. We present our findings in this paper. 展开更多
关键词 document ranking uncertain ranking structure cost SIMILARITY
原文传递
基于本体的林业领域文档特征权重模型 被引量:3
3
作者 张乃静 鞠洪波 纪平 《计算机工程与应用》 CSCD 2013年第18期20-23,共4页
传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关... 传统文档特征权重模型仅考虑关键词本身,文档内其他相关词汇并没有参与计算,信息检索时无法返回全面和准确的结果。为解决该问题提出了一种基于本体的林业领域文档特征权重模型。该模型计算TF-IDF特征权重;结合林业领域本体,分别获取关键词和林业领域内其他词汇的语义距离、语义重合度和概念的层次差,并计算语义相关度;结合TF-IDF和语义相似度的结果计算特征权重。实验证明该模型可以提高文本检索的查准率和查全率,使检索结果更加满足用户的需求。 展开更多
关键词 本体 林业领域 文档特征 权重模型 语义相似度
下载PDF
基于图的特征词权重算法及其在文档排序中的应用 被引量:2
4
作者 黄云 洪佳明 颜一鸣 《计算机系统应用》 2012年第6期216-218,194,共4页
信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词... 信息检索的核心工作包括文档的分类和排序等操作,如何对文档中的特征词权重进行有效度量是其中的一项关键技术。利用词的共现等关系为每个文档建立文本图,基于邻接词间重要性相互影响的思路,结合文档中特征词的词频特性,迭代计算每个词的权重,进一步结合文本图的密度等全局特性,对信息检索的结果进行排序。实验证实,算法在标准数据集上具有良好的效果。 展开更多
关键词 文本图 共现关系 文档排序 特征词权重
下载PDF
基于主题词对的文档重排方法 被引量:2
5
作者 何婷婷 许婷 +1 位作者 瞿国忠 涂新辉 《计算机工程与应用》 CSCD 北大核心 2007年第11期161-163,共3页
提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索... 提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。 展开更多
关键词 主题词对 概率潜在语义索引 文档重排
下载PDF
结合查询相关性的关键词查询排序方法 被引量:1
6
作者 杨书新 徐慧琴 谭伟 《计算机工程与设计》 CSCD 北大核心 2013年第9期3136-3140,共5页
针对关系数据库关键词查询系统中的结果排序问题,提出了一种新的排序方法。该方法结合了查询相关性和结构权重,将单个元组看作是一个虚拟文档,通过对元组引入信息检索(information retrieval,IR)式评分方式,采用标准化词频和标准化逆文... 针对关系数据库关键词查询系统中的结果排序问题,提出了一种新的排序方法。该方法结合了查询相关性和结构权重,将单个元组看作是一个虚拟文档,通过对元组引入信息检索(information retrieval,IR)式评分方式,采用标准化词频和标准化逆文档频率说明元组与查询条件之间的相关性程度,对整个结果采用结构权重来反应结果的语义强度。相比于以往只考虑结构权重的排序方法,该方法能更有效的将与查询高度相关的结果排在前面。实验结果表明,结合查询相关性的排序方法可以有效的对结果进行排序。 展开更多
关键词 关键词查询 结构权重 虚拟文档 相关性 结果排序
下载PDF
基于Markov网络的结果重排技术
7
作者 曹瑛 涂伟 甘丽新 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2013年第6期859-864,共6页
信息检索中通过网页链接信息提取文档内部关系进行搜索结果重排可以提升检索系统的性能。通过Markov网络来展现文档内部关系,该网络更直观地解释了文档间的语义相关性,利用这种文档内部语义关系计算文档重要性对检索结果进行重排。根据... 信息检索中通过网页链接信息提取文档内部关系进行搜索结果重排可以提升检索系统的性能。通过Markov网络来展现文档内部关系,该网络更直观地解释了文档间的语义相关性,利用这种文档内部语义关系计算文档重要性对检索结果进行重排。根据文档分布特征阐述了Markov文档网络的构造算法,讨论了Top-k及其相关文档的重要性评分算法,修正初始检索的文档评分。通过这种方式,既保持了文档图的查询相关性,又丰富了文档内部关系,扩大了重排序范围。实验表明,在多个标准文档集上基于Markov网络的结果重排技术对检索性能有较大的稳定提升。 展开更多
关键词 信息检索 结果重排 MARKOV网络
原文传递
基于文档重排列的中文信息检索系统(英文)
8
作者 陈禹 史晓东 《心智与计算》 2007年第4期448-457,共10页
对于文本信息检索,用户都希望从被检索出来的前N篇文章中得到更多的相关信息。本文介绍一个基于文档重排列的中文信息检索系统。为了通过重排列初检索文本来提高检索结果的精确率,该系统按照初检索结果中前100个排列文档中的关键词的分... 对于文本信息检索,用户都希望从被检索出来的前N篇文章中得到更多的相关信息。本文介绍一个基于文档重排列的中文信息检索系统。为了通过重排列初检索文本来提高检索结果的精确率,该系统按照初检索结果中前100个排列文档中的关键词的分布对结果中的所有1000个文档进行重排列。实验中使用NTCIR-3正式的中文测试数据作为测试集,结果表明,该系统对中文文本检索精确率的提高取得一定的效果。 展开更多
关键词 中文信息系统 文档重排序 扩展查询
原文传递
Leveraging Document-Level and Query-Level Passage Cumulative Gain for Document Ranking
9
作者 Zhi-Jing Wu Yi-Qun Liu +2 位作者 Jia-Xin Mao Min Zhang Shao-Ping Ma 《Journal of Computer Science & Technology》 SCIE EI CSCD 2022年第4期814-838,共25页
Document ranking is one of the most studied but challenging problems in information retrieval(IR).More and more studies have begun to address this problem from fine-grained document modeling.However,most of them focus... Document ranking is one of the most studied but challenging problems in information retrieval(IR).More and more studies have begun to address this problem from fine-grained document modeling.However,most of them focus on context-independent passage-level relevance signals and ignore the context information.In this paper,we investigate how information gain accumulates with passages and propose the context-aware Passage Cumulative Gain(PCG).The fine-grained PCG avoids the need to split documents into independent passages.We investigate PCG patterns at the document level(DPCG)and the query level(QPCG).Based on the patterns,we propose a BERT-based sequential model called Passage-level Cumulative Gain Model(PCGM)and show that PCGM can effectively predict PCG sequences.Finally,we apply PCGM to the document ranking task using two approaches.The first one is leveraging DPCG sequences to estimate the gain of an individual document.Experimental results on two public ad hoc retrieval datasets show that PCGM outperforms most existing ranking models.The second one considers the cross-document effects and leverages QPCG sequences to estimate the marginal relevance.Experimental results show that predicted results are highly consistent with users'preferences.We believe that this work contributes to improving ranking performance and providing more explainability for document ranking. 展开更多
关键词 document ranking neural network passage cumulative gain
原文传递
基于词句协同排序的单文档自动摘要算法 被引量:8
10
作者 张璐 曹杰 +1 位作者 蒲朝仪 伍之昂 《计算机应用》 CSCD 北大核心 2017年第7期2100-2105,共6页
对于节录式自动摘要需要从文档中提取一定数量的重要句子,以生成涵盖原文主旨的短文的问题,提出一种基于词句协同排序的单文档自动摘要算法,将词句关系融入以图排序为基础的句子权重计算过程中。首先给出了算法中词句协同计算的框架;然... 对于节录式自动摘要需要从文档中提取一定数量的重要句子,以生成涵盖原文主旨的短文的问题,提出一种基于词句协同排序的单文档自动摘要算法,将词句关系融入以图排序为基础的句子权重计算过程中。首先给出了算法中词句协同计算的框架;然后转化为简洁的矩阵表示形式,并从理论上证明了收敛性;最后进一步通过去冗余方法提高自动摘要的质量。真实数据集上的实验表明,基于词句协同排序的自动摘要算法较经典的TextRank算法在Rouge指标上提升13%~30%,能够有效提高摘要的生成质量。 展开更多
关键词 自动摘要 节录式摘要 单文档 图排序 词句协同
下载PDF
词句协同排序的自动摘要算法 被引量:5
11
作者 陈晨 张璐 伍之昂 《江苏大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第4期443-449,共7页
为了提高自动摘要的质量,研究了基于图模型的词句协同排序的自动摘要算法技术.自动摘要试图从原始文本中提取一定数量的重要句子形成节录式摘要,句排序是实现自动摘要的典型手段,已有工作大多通过构建词或句关联网络,再使用PageRank计... 为了提高自动摘要的质量,研究了基于图模型的词句协同排序的自动摘要算法技术.自动摘要试图从原始文本中提取一定数量的重要句子形成节录式摘要,句排序是实现自动摘要的典型手段,已有工作大多通过构建词或句关联网络,再使用PageRank计算节点排序分值,该算法考虑词与句之间的互影响,提出词句协同排序的自动摘要算法,在句关联网络上融入词对句子排序分值的影响,而词的重要性由包含其句子的排序分值所决定.在句排序结果基础上,提出基于冗余度的句选择方法,以进一步提升自动摘要质量.在10篇中文文档上的试验结果表明,较之于单纯的句排序方法,所提出方法能有效提升自动摘要的准确率和召回率. 展开更多
关键词 自动摘要 单文本文摘 节录式摘要 词句协同排序 PAGERANK
下载PDF
基于协同图排序的对比新闻自动摘要 被引量:4
12
作者 黄小江 万小军 肖建国 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2013年第1期31-38,共8页
采用协同图排序模型,为两个可比的新闻话题自动生成对比摘要。利用一个话题内句子之间的相似性,以及不同话题中句子之间的对比性,采用迭代增强的方法,同时计算两个话题中每个句子的重要程度,并考虑信息的新颖程度,选择适当的句子组成对... 采用协同图排序模型,为两个可比的新闻话题自动生成对比摘要。利用一个话题内句子之间的相似性,以及不同话题中句子之间的对比性,采用迭代增强的方法,同时计算两个话题中每个句子的重要程度,并考虑信息的新颖程度,选择适当的句子组成对比摘要。实验结果表明了该方法的有效性。 展开更多
关键词 对比新闻摘要 对比文本挖掘 多文档摘要 图排序
下载PDF
基于混合方法的多语言多文档自动摘要系统构建及实现 被引量:4
13
作者 柯修 王惠临 《图书馆学研究》 CSSCI 北大核心 2013年第2期66-72,共7页
文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块... 文章基于"指代消解"、"文本外部特征"、"图排序"的混合方法实现多语言多文档新闻摘要系统。该系统由四大模块组成,分别为:原文预处理;基于文本外部特征的摘要计算;基于图排序的摘要计算与;摘要生成模块。首先对新闻文本进行预处理和指代消解,然后在第二模块使用文本外部特征(如:主题词、线索词语、关键词与其同义词、时间、地点、命名实体等)来计算原文中句子的重要程度,句子与新闻主题的相关度,并且对每个句子第一次打分。然后在第三模块采用图排序的算法再从原文中计算句子之间的连贯程度,并且第二次对每个句子打分。最后在第四模块通过两个不同算法的得分计算原文中句子的总得分并且按原文中句子出现的顺序摘出新闻文本的摘要。文章以汉语、英语、孟加拉语为例,实现该系统并进行摘要测试。实验表明系统能够从三个不同语种的多文档新闻文本中有效地摘出摘要。 展开更多
关键词 多语言自动摘要 多文档自动摘要 图排序算法 文本外部特征
原文传递
一种新型的文本无监督特征选择方法 被引量:2
14
作者 何中市 徐浙君 《重庆大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第6期77-79,83,共4页
结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法,对比DFF... 结合文档频数DF(Document Frequency)和特征相似度FS(Feature Similarity)方法,提出一种新的无监督特征选择方法DFFS。该方法利用文档频数过滤掉90%的特征之后,再借助特征相似度移除尽可能多的冗余特征。采用K-均值方法,对比DFFS方法与其他3种常用特征选择方法(DF,TC,TS)的聚类性能。实验一:当特征数量由6000减少到1047时,DF方法的聚类性能急剧下降,而DFFS方法则有提高,甚至当特征数量进一步减少到350时,DFFS方法也没有下降。实验二:在保持10%~2%的特征时,DFFS方法优于其他3种方法,特别是在只保留2%的特征时,DFFS方法的明显优于其他方法。 展开更多
关键词 自然语言处理 特征选择 文档频数 单词权 单词熵
下载PDF
查询无关排序主题模型
15
作者 肖智博 车丰 +2 位作者 吴镝 李庆丰 鲁明羽 《模式识别与人工智能》 EI CSCD 北大核心 2014年第7期623-630,共8页
主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按照重要... 主题模型已成为机器学习和自然语言处理等领域研究的重要工具,它可发现大规模语料库中的隐含主题.随着语料库规模增大,发现的主题规模也随之增大.绝大多数主题模型以词袋模型为基础,无法描述词项间的顺序关系,使得主题之间无法按照重要性区分.文中提出查询无关排序主题模型框架,利用主题间各种关系排序主题,得到有序主题列表.主题关系从主题层面评价主题影响度,继而提出词项贡献度,从词项语义层面评价主题,削弱流行但语义空泛的排序主题.由于排序主题模型尚未有公认的评价标准,将有序主题作为特征进行多文档自动文摘生成,通过文摘效果间接评价主题排序的效果.实验结果证明有序主题模型优于非排序主题模型的结果. 展开更多
关键词 排序主题模型 主题模型评价 多文档自动文摘 抽取性文摘 文摘句排序
下载PDF
基于文档间距离的重排序算法研究
16
作者 尚冬娟 《运城学院学报》 2012年第5期50-53,共4页
分析了现有搜索引擎重排序方法的不足,并在此基础上提出了基于文档间距离的重排序算法。利用相关性函数,表示出文档间的相关性与文档间距离的关系,通过计算得到文档之间距离的大小顺序,进而得到文档的相关性大小顺序,然后根据文档所属... 分析了现有搜索引擎重排序方法的不足,并在此基础上提出了基于文档间距离的重排序算法。利用相关性函数,表示出文档间的相关性与文档间距离的关系,通过计算得到文档之间距离的大小顺序,进而得到文档的相关性大小顺序,然后根据文档所属主题概率,最终得到文档的排序。实验表明,该算法大大提高了用户的检索速度与质量,优化了搜索引擎的性能。 展开更多
关键词 文档间距离 相关性函数 重排序 变化矩阵 主题概率
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部