期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
基于语料库的《呼啸山庄》检索分析 被引量:21
1
作者 任培红 《沈阳大学学报》 CAS 2008年第4期75-78,共4页
运用语料库语言学的研究方法,使用Wordsmith Tools语料库索引软件对小说《呼啸山庄》进行文本主旨、情景发展以及人物性格塑造方面的分析;以图形、列表、统计等量化结果分析文本,清晰地把握了小说的总体特征,得到对文本更加理性的诠释。
关键词 语料库检索 文本索引 主题 故事情节 人物刻画
下载PDF
名与实的悖论——《真诚最重要》的语料库检索分析 被引量:12
2
作者 吴琦 李文中 《外语电化教学》 CSSCI 2007年第3期13-16,共4页
王尔德在其《真诚最重要》(The Importance of Being Ernest)中通过对主角名字双关的玩弄,刻画人物,展开情节,对其书中人物进行了轻松的嘲弄和讽喻。以文本为基础,借助索引软件对该剧进行数据提取和分析,是语料库方法在辅助文学... 王尔德在其《真诚最重要》(The Importance of Being Ernest)中通过对主角名字双关的玩弄,刻画人物,展开情节,对其书中人物进行了轻松的嘲弄和讽喻。以文本为基础,借助索引软件对该剧进行数据提取和分析,是语料库方法在辅助文学批评中的应用之一。通过对比分析得到主题词(keywords)表和词图(plot),可以直观地了解该剧人物、剧情的信息以及作者独特的用词特点,为该剧的主题研究和语言风格分析提供了量化依据。 展开更多
关键词 王尔德 文本索引 主题词 语料库
原文传递
Google搜索引擎及其实现技术 被引量:4
3
作者 唐培和 杨新伦 刘浩 《广西工学院学报》 CAS 2004年第2期29-33,共5页
详细分析了Google搜索引擎的体系结构、数据结构、索引及其实现过程等技术,对学习、借鉴、研究搜索引擎技术具有很好的参考价值。
关键词 GOOGLE 索引 文本索引 信息库
下载PDF
分布式海量文本检索系统研究 被引量:3
4
作者 张英武 杜凯 +1 位作者 杨树强 韩伟红 《微电子学与计算机》 CSCD 北大核心 2006年第z1期32-34,共3页
文章利用分布式中间件技术和数据库技术实现海量数据高速加载与快速检索系统,针对数据库系统文本索引较慢等问题,采用并行索引方式来实现了一种可线性扩展的分布式海量文本数据检索系统。
关键词 海量数据 全文检索 文本索引 海量加载
下载PDF
基于Oracle的文献资料库全文检索技术 被引量:4
5
作者 李晓晖 朱毅 +1 位作者 唐慧佳 王燮 《成都信息工程学院学报》 2003年第2期110-114,共5页
介绍使用OracleText对文献资料库进行全文检索的技术。
关键词 全文检索 文献资料库 OracleText 检索原理 检索方法 文本索引
下载PDF
汉英法律文献的子条级自动索引和对齐 被引量:2
6
作者 吕学强 李清隐 +1 位作者 陈文亮 姚天顺 《中文信息学报》 CSCD 北大核心 2002年第4期52-59,共8页
本文提出了基于结构标识的法律文献层次结构模型 ,该模型描述了汉英法律文献的层次结构特征及章、条、子条的连续性和对应性。根据该模型实现了汉英法律文献的子条级自动索引和对齐 ,系统具有纠错和容错能力。实验结果表明每篇文献的平... 本文提出了基于结构标识的法律文献层次结构模型 ,该模型描述了汉英法律文献的层次结构特征及章、条、子条的连续性和对应性。根据该模型实现了汉英法律文献的子条级自动索引和对齐 ,系统具有纠错和容错能力。实验结果表明每篇文献的平均索引时间为 3 31ms ,对齐准确率为 98 6 %。与基于词汇的方法结合后 ,对齐准确率为 99 3%。 展开更多
关键词 法律文献 子条级自动索引 文本索引 文本对齐 结构标识 层次结构模型 汉语 英语
下载PDF
基于自编码器语义哈希的大规模文本预处理 被引量:3
7
作者 张忠林 杨朴舟 《计算机仿真》 北大核心 2019年第3期225-229,260,共6页
展示了一种从大规模文本中学习文本索引的深层图形模型,深层图形模型采用自编码器作为基础结构。该图模型最终输出的值具有较强的解释性,并且比潜在语义索引更好地表示每个文档。当最深层使用少数二进制变量输出时(例如32位),图形模型... 展示了一种从大规模文本中学习文本索引的深层图形模型,深层图形模型采用自编码器作为基础结构。该图模型最终输出的值具有较强的解释性,并且比潜在语义索引更好地表示每个文档。当最深层使用少数二进制变量输出时(例如32位),图形模型将文档通过语义散列的方式映射到存储器对应的地址上,使得语义上相似的文档位于附近的地址处。然后可以通过访问所有仅相差几位的地址来找到类似于查询文本的文本。通过查询文件地址的方式,基于近似匹配方式的散列编码的效率比局部敏感散列快得多,通过使用语义哈希来过滤采用TF-IDF表示的文本,将实现更高的准确性。 展开更多
关键词 自编码器 语义哈希 潜在语义索引 文本索引
下载PDF
基于位置的web搜索索引研究 被引量:1
8
作者 周英华 金培权 +1 位作者 岳丽华 龚育昌 《中国科学技术大学学报》 CAS CSCD 北大核心 2007年第2期147-152,共6页
针对基于位置的web搜索需要将网页中位置信息和文本信息相结合进行索引的应用需求,提出了先倒排表再R-tree索引和先R-tree再倒排表索引两种混合索引结构,同时处理文本和位置信息.大规模真实数据集上的实验表明,这两种方法在查询效率上... 针对基于位置的web搜索需要将网页中位置信息和文本信息相结合进行索引的应用需求,提出了先倒排表再R-tree索引和先R-tree再倒排表索引两种混合索引结构,同时处理文本和位置信息.大规模真实数据集上的实验表明,这两种方法在查询效率上明显优于已有的倒排表和R-tree相互独立的索引模式. 展开更多
关键词 基于位置的 WEB搜索 位置索引 文本索引
下载PDF
高性能文本索引系统的设计与实现 被引量:1
9
作者 路炜 张宇 +2 位作者 周美孜 刘燕兵 王春露 《中国科技论文》 CAS 北大核心 2014年第1期92-95,107,共5页
针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器... 针对传统文本索引技术空间消耗大、分词不准确等问题,设计并实现了高性能文本索引系统。该系统采用压缩的全文自索引算法,节省了空间开销,避免了自然语言分词方法的影响,配合通配符搜索算法扩展了模糊搜索的功能,在众核CPU高性能处理器上可实现多线程并行处理,提高了处理速度,整个系统的实现是基于Web方式的,可以跨平台运行。实验结果表明,该系统将文本索引的空间消耗降为原文本的50%左右,具有较高的实用价值。 展开更多
关键词 计算机应用 文本索引 全文索引 索引 通配符搜索
下载PDF
面向文本数据库管理系统FIMS的文本索引及检索 被引量:1
10
作者 刘秉毅 《软件》 北大核心 1994年第3期20-25,共6页
本文主要讨论面向文本数据库管理系统FIMS文本索引检索的语义、特点、设计及实现等问题。文中给出了文本索引检索的总体结构。并简述了基于索引时间戳技术的动态特文件管理机制的基本设计思想。
关键词 数据库管理系统 文本索引 文本检索
下载PDF
《仓央嘉措情歌》用词特征分析 被引量:1
11
作者 董颖红 《云南师范大学学报(哲学社会科学版)》 CSSCI 2006年第5期112-115,共4页
本文利用计算机作为分析工具,对流传在藏族地区的第六世达赖喇嘛创作的《仓央嘉措情歌》进行了词频统计和文本搭配索引,并根据计算机的处理结果对《仓央嘉措情歌》的用词特点作出了简要分析。
关键词 词频统计 文本索引 仓央嘉措情歌
下载PDF
DICV文本分类研究框架
12
作者 李纲 夏晨曦 《情报学报》 CSSCI 北大核心 2007年第6期803-807,共5页
文本分类实验包括实验文本集准备、文本索引、特征降维、分类以及性能评估等多个步骤,每个步骤都有很多方法可供选择,而每个不同的选择都会对最终的实验结果产生影响。比较同一步骤中适用的不同算法的性能时,需要保证其他步骤使用相... 文本分类实验包括实验文本集准备、文本索引、特征降维、分类以及性能评估等多个步骤,每个步骤都有很多方法可供选择,而每个不同的选择都会对最终的实验结果产生影响。比较同一步骤中适用的不同算法的性能时,需要保证其他步骤使用相同的方法,使它们在相同的条件下运行。本文提出了文本分类的DICV研究框架,该框架包括核心数据(core data)、文本索引(text indexing)、分类算法(classification algorithm)和可视化界面(visualization interface)4个模块。该框架设计的重点在于:①提炼一个统一的文本分类模型,为每个步骤的算法提供一个接口,实现了这个接口的算法就可以通过简单的配置应用于框架中,这使得研究者可以方便地选择各种文本索引、特征降维和分类算法,或添加新的文本集和算法,来完成其需要的文本分类实验。②自动记录文本分类实验各个步骤使用的算法、参数和结果,这使得系统能够将研究者的选择和实验步骤的中间结果记录下来,供研究者在后续研究中使用,可避免不必要的重复性工作,提高文本分类研究的效率。 展开更多
关键词 文本分类 文本索引 特征降维
下载PDF
一种全文索引的压缩方法
13
作者 杨炜鸿 张猛 《情报科学》 CSSCI 北大核心 2010年第11期1710-1713,共4页
全文索引广泛应用于数据库、数据压缩、模式匹配算法以及信息生物学等领域。本文研究了后缀自动机全文索引结构,针对后缀自动机空间占用大的问题提出了一种边压缩方法。该方法通过后缀链接函数模拟实现自动机的跳转边,从而删除部分跳转... 全文索引广泛应用于数据库、数据压缩、模式匹配算法以及信息生物学等领域。本文研究了后缀自动机全文索引结构,针对后缀自动机空间占用大的问题提出了一种边压缩方法。该方法通过后缀链接函数模拟实现自动机的跳转边,从而删除部分跳转边。在最终的压缩结构中,跳转边的数量与状态数量一致,而在后缀自动机中跳转边的数量是状态数量的一倍。证明了对于因子判定等问题,压缩的后缀自动机与后缀自动机具有相同的时间复杂度。 展开更多
关键词 文本索引 后缀自动机 压缩
原文传递
互联网上的图像信息检索
14
作者 李子臣 张丽宁 《互联网世界》 2001年第10期74-76,共3页
关键词 互联网 图像信息技术 文本索引 信息检索
下载PDF
CoSTUR:面向用户评级的空间文本竞争选址
15
作者 李晨伟 默梓鹏 赵梦霏 《计算机系统应用》 2024年第8期176-186,共11页
随着GPS定位技术和移动互联网的发展,各类LBS(location-based service)应用积累了大量带有位置和文本标记的空间文本数据,这些数据广泛应用于市场营销、城市规划等设施选址决策中.空间文本选址的目标是从候选位置集合中挖掘最佳地点新... 随着GPS定位技术和移动互联网的发展,各类LBS(location-based service)应用积累了大量带有位置和文本标记的空间文本数据,这些数据广泛应用于市场营销、城市规划等设施选址决策中.空间文本选址的目标是从候选位置集合中挖掘最佳地点新建设施,以期影响最多空间文本对象,如用户或车辆等,其中空间距离越接近且文本越相似则影响力越大.现有方案未考虑现实普遍存在的同行竞争,也忽略了用户对设施的评价因素.为更合理地在同行竞争环境结合用户评级进行选址决策,本文提出新的空间文本竞争选址问题CoSTUR.通过引入权衡影响的确定性和数量的阈值,解决传统模型中对象只能被单一设施影响的局限,建模了用户可能同时受多个设施影响的真实情况.借鉴经典的竞争均分模型,实现了不同评级设施间竞争量化.为降低大规模数据导致的高昂计算代价,构建了新型空间文本索引结构TaR-tree,并结合阈值设计基于影响范围的两个剪枝策略,实现基于分支定界思想的空间连接和范围查询两种方案.在真实和合成数据集上的实验结果显示,相比基线算法计算效率能够提升近一个量级,说明提出方法的有效性. 展开更多
关键词 空间文本数据 选址问题 空间文本索引 竞争影响 多设施影响 用户评级
下载PDF
空间多关键词Skyline查询算法 被引量:3
16
作者 李星罗 秦小麟 +2 位作者 王宁 周杨淏 鲍斌国 《小型微型计算机系统》 CSCD 北大核心 2019年第10期2175-2181,共7页
近年来,随着用户对于查询偏好性需求的增加,基于关键词的Skyline查询逐渐成为研究热点.针对实际应用中用户从当前空间位置及对象文本属性多角度审视某一数据集的需求,充分研究空间多关键词Skyline查询问题.在分析现有查询算法的不足基础... 近年来,随着用户对于查询偏好性需求的增加,基于关键词的Skyline查询逐渐成为研究热点.针对实际应用中用户从当前空间位置及对象文本属性多角度审视某一数据集的需求,充分研究空间多关键词Skyline查询问题.在分析现有查询算法的不足基础上,建立了基于加权距离的空间文本支配模型,并提出了一种空间文本索引结构STR-Tree.该索引将空间区域信息与区域内的对象文本信息相结合,对查询无关区域进行快速且有效的剪枝.在此基础上,给出了一种空间多关键词Skyline查询算法SKS,通过采用最小值过滤等剪枝策略,进一步提升查询效率.最后,分别采用模拟数据集和真实数据集进行实验,结果表明SKS算法可以高效地处理空间多关键词Skyline查询. 展开更多
关键词 SKYLINE查询 空间关键词 空间文本索引 空间数据库
下载PDF
OIQ-tree:一种支持大规模空间文本数据流上连续k近邻查询的索引 被引量:2
17
作者 杨茸 牛保宁 《计算机学报》 EI CAS CSCD 北大核心 2021年第8期1732-1750,共19页
空间文本数据流上连续k近邻查询(Continuous k-nearest neighbor Queries over Spatial-Textual data streams,CkQST)能在空间文本对象组成的数据流上检索并实时更新k个包含指定关键字的空间邻近对象,是空间文本数据流上连续查询(Contin... 空间文本数据流上连续k近邻查询(Continuous k-nearest neighbor Queries over Spatial-Textual data streams,CkQST)能在空间文本对象组成的数据流上检索并实时更新k个包含指定关键字的空间邻近对象,是空间文本数据流上连续查询(Continuous Queries over Spatial-Textual data streams,CQST)的一种,以预订(subscribe)的方式广泛应用于广告定位、微博分析、地图导航等领域.求解CkQST采用CQST的求解框架——构建空间文本混合索引组织查询,利用索引的空间过滤和文本过滤能力,为不断到来的对象匹配查询.该框架的求解效率取决于索引的过滤能力,提高索引过滤能力的主要途径是将查询的空间搜索范围映射到索引结构的最小区域,减少需要验证的查询数量.这一途径适用于查询空间搜索范围很少变化的情况.对于CkQST,覆盖k个最邻近对象的空间范围随着符合文本匹配条件的对象的数量的变化而变化,与之对应的索引项需要同步更新,代价高.针对这一问题,本文选择能够高效支持空间范围变化的Quad-tree和关键字查找的倒排索引,构成空间文本混合索引,组织CkQST.在空间过滤方面,提出内存代价模型VUMBCM(Verification and Update of Memory-Based Cost Model,VUMBCM),通过平衡索引更新代价和验证代价,优化查询空间搜索范围到Quad-tree节点的映射.在文本过滤方面,采用基于块的有序倒排索引,组织Quad-tree节点内的查询,以快速定位需要验证的查询,避免对倒排列表中大量不可能匹配查询的访问;批量处理包含共同文本项的对象,提高文本验证时的对象吞吐量.由此构建的混合索引,称为OIQ-tree.实验表明,OIQ-tree中的代价模型及基于块的有序倒排索引能够支持CkQST的高效求解.与目前先进的索引技术相比,当查询规模达到2000万时,因数据流中对象的变化导致的索引平均更新时间降低了46%,数据流中对象的平均处理时间降低了22%. 展开更多
关键词 空间文本查询 数据流 空间文本索引 K近邻 连续查询
下载PDF
索引时间戳:一种高效的文本索引系统设计方法 被引量:2
18
作者 刘秦毅 《计算机工程与科学》 CSCD 1994年第2期1-6,共6页
特征文件索引、时间戳排序技术是数据库技术研究方面的两个重要课题,前者通常用于支持文本数据的索引和检索操作,后者为实现数据库并发控制的两个基本方法之一。本文主要讨论面向文本数据库管理系统(FIMS)基于索引时间戳概念的... 特征文件索引、时间戳排序技术是数据库技术研究方面的两个重要课题,前者通常用于支持文本数据的索引和检索操作,后者为实现数据库并发控制的两个基本方法之一。本文主要讨论面向文本数据库管理系统(FIMS)基于索引时间戳概念的文本对象索引模型的形式化描述、检索相关性计算及特征文件系统逻辑设计等问题。 展开更多
关键词 文本索引系统 设计方法 时间戳
下载PDF
在hadoop下运用Mapreduce构建文本索引
19
作者 樊超 《电子制作》 2013年第13期56-56,共1页
Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引... Hadoop是开源的一个分布式系统基础架构,借助Hadoop,可以在不了解分布式底层细节的情况下,开发分布式程序。文本索引在生产生活中有着广泛的应用,从搜索引擎的倒排索引到操作系统的指令都需要使用文本索引。在hadoop环境中构建文本索引,能够为搜索引擎和文档全文索引提供支持,并且同时兼顾了分布式系统的优点。在Hadoop环境中构建本索引的主要价值有:在分布式平台Hadoop建立倒排索引可以提高建立索引的速度,能够方便的存储大数据量,有着良好的扩展性以便实现在大规模系统中等优点。 展开更多
关键词 HADOOP MAPREDUCE 文本索引 倒排索引
下载PDF
基于概念空间的文本语义索引 被引量:7
20
作者 李源 郑毅 +1 位作者 何清 史忠植 《计算机科学》 CSCD 北大核心 2002年第1期20-22,共3页
1 引言据统计,在现今的联机存储信息中,80%以上的信息以文本的形式存在.信息的多元化、复杂化,致使信息的自动索引成为急需解决的问题.本文研究的内容是建立一个基于概念空间的文本语义索引.
关键词 概念空间 文本语义索引 HOPFIELD神经网络 索引 INTERNET 信息检索
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部