摘要
80年代以来,全文检索(Fulltext Retrieval)作为一种有效的情报检索方法,得到迅速发展.文中介绍了利用大型数据库管理系统的Client/Server结构来实现汉字全文检索的设计方案.针对汉字特点,为提高检索和查全率,采用单汉字索引辅以词索引的结构.汉字(词)索引是一多级索引结构:汉字(词)文献号集合文献内的位置①指出某汉字(词)出现在哪些文献里,②指出该汉字(词)在文献内所处的位置.字(词)索引均采用分表结构:①素引表H_(序号):②文献内位置表W_(序号):其中,H_(序号)中序号及区间内字(词)编号分别根据汉字内码或词编号(2Bytes)的高、低字节转换成数字来确定;W_(序号)中序号及区间内文献号分别根据文献编号(4Bytes)的高3位字节和低字节转换成数字来确定.这里的词表未必是主题词表.词表项用两个字节对其进行编号.建立索引时,按文献号依次处理每篇文献:建立临时表,填入该篇文献中出现的汉字(词)的编号及位置,按编号进行排序;根据字(词)编号修改用应的H表;然后根据当前文献号,将整张临时表追加入相应W表中,“区间内文献号”字段均用当前文献号的低一位字节填入.用户的检索要求应尽量转换成利用词索引进行检索.为便于描述,文中定义了检索项.检索单元、基本检索单元及最大匹配和最小覆盖原则,讨沦了词的划分;为提?
This article introduces the fulltext retrieval technique in Chinese electronic library information retrieval system, and provides a design scheme which makes use of large scale database management system to achieve Chinese fulltext retrieval. In this scheme, they optimize the structure of the indexes of Chinese single words and vocabulary to make the modification of indexes easier and build up the performance of the fulltext retrieval. Furthermore, the method of the Semantic Net is used to discuss the separation of retrieval string and the expanding retrieval. They also mention some existing problems in these aspects.
出处
《计算机工程》
CAS
CSCD
北大核心
1996年第S1期279-279,共1页
Computer Engineering
关键词
电子图书馆
全文检索
信息系统
语义网
electronic library/fulltext retrieval/information system/semantic net