期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
开放域问答技术研究进展 被引量:17
1
作者 张志昌 张宇 +1 位作者 刘挺 李生 《电子学报》 EI CAS CSCD 北大核心 2009年第5期1058-1069,共12页
问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足... 问答技术是信息检索和自然语言理解中的研究热点.本文对开放域问答技术在近年来的研究进展进行了总结.针对不同类型的问题,比较了问答系统中问题分析、文档和句段检索、答案抽取各个部分不同实现方法的特点,讨论了这些技术中存在的不足.最后,对问答技术未来的研究趋势进行了分析与展望. 展开更多
关键词 开放域问答 问题分析 相关文档检索 句段检索 答案抽取
下载PDF
一种通过内容和结构查询文档数据库的方法(英文) 被引量:9
2
作者 王晓玲 文继荣 +2 位作者 栾金锋 马维英 董逸生 《软件学报》 EI CSCD 北大核心 2003年第5期976-983,共8页
文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化 文件的检索,提出了一种新的计算相似... 文档是有一定逻辑结构的,标题、章节、段落等这些概念是文档的内在逻辑.不同的用户对文档的检索,有不同的需求,检索系统如何提供有意义的信息,一直是研究的中心任务.结合文档的结构和内容,对结构化 文件的检索,提出了一种新的计算相似度的方法.这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节.基于这种方法实现了一个问题回答系统,测试集是微软的百科全书Encarta,通过与系统方法实验比较,证明通过这种方法检索的文章片断更合理、更有效. 展开更多
关键词 文档数据库 结构查询 结构化文档 计算相似度
下载PDF
基于WWW的在线答疑系统 被引量:2
3
作者 董少春 金莹 《现代远程教育研究》 2001年第4期45-47,共3页
基于WWW方式的网络远程教学是远程教育中的主要发展模式,它提供了一系列辅助网络课程教学的功能,在线答疑即是其中重要的一个部分。在线答疑系统的建设,解决了网络教学这种非面对面教学形式中学生与教师之间交流的难题。本文主要就基于... 基于WWW方式的网络远程教学是远程教育中的主要发展模式,它提供了一系列辅助网络课程教学的功能,在线答疑即是其中重要的一个部分。在线答疑系统的建设,解决了网络教学这种非面对面教学形式中学生与教师之间交流的难题。本文主要就基于WWW方式的在线答疑系统的功能及实现方法进行了讨论,并给出了实际的解决方法。 展开更多
关键词 在线答疑系统 文件下载 全文检索 ASP SQL SERVER
下载PDF
Automatic Question Answering from Web Documents 被引量:4
4
作者 LI Xin HU Dawei +3 位作者 LI Huan HAO Tianyong CHEN Enhon LIU Wenyin 《Wuhan University Journal of Natural Sciences》 CAS 2007年第5期875-880,共6页
A passage retrieval strategy for web-based question answering (QA) systems is proposed in our QA system. It firstly analyzes the question based on semantic patterns to obtain its syntactic and semantic information a... A passage retrieval strategy for web-based question answering (QA) systems is proposed in our QA system. It firstly analyzes the question based on semantic patterns to obtain its syntactic and semantic information and then form initial queries. The queries are used to retrieve documents from the World Wide Web (WWW) using the Google search engine. The queries are then rewritten to form queries for passage retrieval in order to improve the precision. The relations between keywords in the question are employed in our query rewrite method. The experimental result on the question set of the TREC-2003 passage task shows that our system performs well for factoid questions. 展开更多
关键词 question answering(QA) passage retrieval semantic pattern
下载PDF
一种提高Web信息检索精度的分段检索方法 被引量:2
5
作者 宋睿华 马少平 张敏 《广西师范大学学报(自然科学版)》 CAS 2003年第A01期151-155,共5页
在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的... 在Web上存在一些长文档,它们包含着多个子主题,如果把这样的文档分成段,每个段的内容只围绕一个主题,将会提高检索质量.阐述了使用HTML结构中带有语义特征的标记来将多主题的文档分成段,在此基础上,对10G规模的Web数据实现了分段检索的方法,并通过使用TREC-9的查询做实验,比较了分段检索方法和传统的文档检索方法的检索质量.实验结果显示,在多主题文档集上分段检索方法比文档检索方法的11点平均准确率提高了大约9%,而在所有文档集上分段检索比文档检索提高了大约1.6%.分析发现,分段检索方法可以明显改善结果的排序,而且实际检索质量提高的幅度比现有的评价结果显示的更显著. 展开更多
关键词 信息检索 分段检索 Web数据 HTML结构
下载PDF
基于位置语言模型的中文信息检索系统的研究 被引量:3
6
作者 陈雅兰 胡小华 +1 位作者 涂新辉 何婷婷 《计算机科学》 CSCD 北大核心 2015年第7期265-269,共5页
在大多数现有的检索模型中常常忽略了如下事实:一个文档中匹配到的查询词项的近邻性和打分时所基于的段落检索也可以被用来促进文档的打分。受此启发,提出了基于位置语言模型的中文信息检索系统,首先通过定义位置传播数的概念,为每个位... 在大多数现有的检索模型中常常忽略了如下事实:一个文档中匹配到的查询词项的近邻性和打分时所基于的段落检索也可以被用来促进文档的打分。受此启发,提出了基于位置语言模型的中文信息检索系统,首先通过定义位置传播数的概念,为每个位置单独地建立语言模型;然后通过引入KL-divergence检索模型,并结合位置语言模型给每个位置单独打分;最后由多参数打分策略得到文档的最终得分。实验中还重点比较了基于词表和基于二元两种中文索引方法在位置语言模型中的检索效果。在标准NTCIR5、NTCIR6测试集上的实验结果表明,该检索方法在两种索引方式上都显著改善了中文检索系统的性能,并且优于向量空间模型、BM25概率模型、统计语言模型。 展开更多
关键词 位置语言模型 近邻性 段落检索 传播数
下载PDF
基于段落检索和段落内容分析的知识化检索系统设计 被引量:1
7
作者 付鸿鹄 张晓林 《情报理论与实践》 CSSCI 北大核心 2007年第5期681-685,共5页
设计了一个基于段落检索和段落内容关系分析的知识化检索系统,分析了系统数据流,介绍了系统功能框架,包括段落检索和段落内容关系分析等核心模块,重点解决了段落鉴别、段落关系分析方法等问题。
关键词 信息检索 段落检索 检索系统
下载PDF
一种基于内容权值的结构化文档检索方法
8
作者 范轶彦 朱利群 郭国强 《辽宁工学院学报》 2004年第6期18-21,共4页
结构化文档由标题、章节、段落等逻辑结构组成。利用文本文档中自然层次结构的优点,提出了一种新的相似度查找方法,用问题回答系统来实现。主要任务就是从底层的结构化文档集合中找到用户需要的最合适的答案。这种方法可以提供多粒度的... 结构化文档由标题、章节、段落等逻辑结构组成。利用文本文档中自然层次结构的优点,提出了一种新的相似度查找方法,用问题回答系统来实现。主要任务就是从底层的结构化文档集合中找到用户需要的最合适的答案。这种方法可以提供多粒度的文档内容的检索,包括从单词、短语到段落或者章节。用微软百科全书Encarta作为测试集,实验结果表明本文的方法能获得更加准确、简短的答案,同时提供更多关于问题的上下文信息,从而更好地理解答案。 展开更多
关键词 结构化文档 基于内容 文本文档 文档内容 权值 相似度 上下文 答案 检索方法 百科全书
下载PDF
Hierarchical Subtopic Segmentation of Web Document
9
作者 ZHANG Yun-tao GONG Ling WANG Yong-cheng 《Wuhan University Journal of Natural Sciences》 EI CAS 2006年第1期47-50,共4页
The paper proposes a novel method for subtopics segmentation of Web document. An effective retrieval results may be obtained by using subtopics segmentation. The proposed method can segment hierarchically subtopics an... The paper proposes a novel method for subtopics segmentation of Web document. An effective retrieval results may be obtained by using subtopics segmentation. The proposed method can segment hierarchically subtopics and identify the boundary of each subtopic. Based on the term frequency matrix, the method measures the similarity between adjacent blocks, such as paragraphs, passages. In the real-world sample experiment, the macro-averaged precision and recall reach 73.4 % and 82.5 %, and the micro-averaged precision and recall reach 72.9% and 83. 1%. Moreover, this method is equally efficient to other Asian languages such as Japanese and Korean, as well as other western languages. 展开更多
关键词 subtopic segmentation Web document passage retrieval DISCOURSE
下载PDF
A novel dense retrieval framework for long document retrieval
10
作者 Jiajia WANG Weizhong ZHAO +1 位作者 Xinhui TU Tingting HE 《Frontiers of Computer Science》 SCIE EI CSCD 2023年第4期225-227,共3页
1 Introduction.Inspired by the impressive success of BERT[1]in various NLP applications,researchers have attempted to apply pretrained language models to information retrieval,and existing BERT-based retrieval models ... 1 Introduction.Inspired by the impressive success of BERT[1]in various NLP applications,researchers have attempted to apply pretrained language models to information retrieval,and existing BERT-based retrieval models obtain improved performance on passage retrieval[2-4].Since BERT has the limitation that the maximum length of tokens is only 512,however,simply applying those models to the task of long document retrieval derives suboptimal results. 展开更多
关键词 passage retrieval TOKEN
原文传递
Extracting Variable-Depth Logical Document Hierarchy from Long Documents:Method,Evaluation,and Application
11
作者 Rong-Yu Cao Yi-Xuan Cao +1 位作者 Gan-Bin Zhou Ping Luo 《Journal of Computer Science & Technology》 SCIE EI CSCD 2022年第3期699-718,共20页
In this paper,we study the problem of extracting variable-depth"logical document hierarchy"from long documents,namely organizing the recognized"physical document objects"into hierarchical structure... In this paper,we study the problem of extracting variable-depth"logical document hierarchy"from long documents,namely organizing the recognized"physical document objects"into hierarchical structures.The discovery of logical document hierarchy is the vital step to support many downstream applications(e.g.,passage-based retrieval and high-quality information extraction).However,long documents,containing hundreds or even thousands of pages and a variable-depth hierarchy,challenge the existing methods.To address these challenges,we develop a framework,namely Hierarchy Extraction from Long Document(HELD),where we"sequentially"insert each physical object at the proper position on the current tree.Determining whether each possible position is proper or not can be formulated as a binary classification problem.To further improve its effectiveness and efficiency,we study the design variants in HELD,including traversal orders of the insertion positions,heading extraction explicitly or implicitly,tolerance to insertion errors in predecessor steps,and so on.As for evaluations,we find that previous studies ignore the error that the depth of a node is correct while its path to the root is wrong.Since such mistakes may worsen the downstream applications seriously,a new measure is developed for a more careful evaluation.The empirical experiments based on thousands of long documents from Chinese financial market,English financial market and English scientific publication show that the HELD model with the"root-to-leaf"traversal order and explicit heading extraction is the best choice to achieve the tradeoff between effectiveness and efficiency with the accuracy of 0.972,6,0.729,1 and 0.957,8 in the Chinese financial,English financial and arXiv datasets,respectively.Finally,we show that the logical document hierarchy can be employed to significantly improve the performance of the downstream passage retrieval task.In summary,we conduct a systematic study on this task in terms of methods,evaluations,and applications. 展开更多
关键词 logical document hierarchy long documents passage retrieval
原文传递
段落检索及其相关算法研究 被引量:3
12
作者 付鸿鹄 张晓林 《现代图书情报技术》 CSSCI 北大核心 2007年第2期39-43,共5页
总结段落检索及其涉及的段落划分和相关算法,讨论文本分割和段落抽取的差别,介绍并比较几种常用的段落划分方法以及几类段落检索算法,在此基础上对段落检索的研究方向进行展望。
关键词 段落检索 信息检索 文本分割
下载PDF
基于查询语义特性的稠密文本检索模型
13
作者 赵铁柱 林伦凯 杨秋鸿 《计算机应用研究》 CSCD 北大核心 2024年第5期1388-1393,共6页
针对现有稠密文本检索模型(dense passage retrieval,DPR)存在的负采样效率低、易产生过拟合等问题,提出了一种基于查询语义特性的稠密文本检索模型(Q-DPR)。首先,针对模型的负采样过程,提出了一种基于近邻查询的负采样方法。该方法通... 针对现有稠密文本检索模型(dense passage retrieval,DPR)存在的负采样效率低、易产生过拟合等问题,提出了一种基于查询语义特性的稠密文本检索模型(Q-DPR)。首先,针对模型的负采样过程,提出了一种基于近邻查询的负采样方法。该方法通过检索近邻查询,快速地构建高质量的负相关样本,以降低模型的训练成本。其次,针对模型易产生过拟合的问题,提出了一种基于对比学习的查询自监督方法。该方法通过建立查询间的自监督对比损失,缓解模型对训练标签的过拟合,从而提升模型的检索准确性。Q-DPR在面向开放领域问答的大型数据集MSMARCO上表现优异,取得了0.348的平均倒数排名以及0.975的召回率。实验结果证明,该模型成功地降低了训练的开销,同时也提升了检索的性能。 展开更多
关键词 查询 稠密文本检索 近邻 对比学习 自监督
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部