-
题名汉字全文检索的实现与探讨
被引量:3
- 1
-
-
作者
顾春庆
于玉
顾永立
胡运发
-
机构
复旦大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
1998年第2期69-72,共4页
-
文摘
文中介绍了一个利用大型数据库管理系统结合文件系统来完成汉字会文检索的实现方案.之后引入语义网,探讨了检索词的划分和扩位问题.最后,对目前汉字全文检索方面仍存在的一些问题进行了探讨.
-
关键词
汉字全文检索
电子图书馆
文献检索系统
-
Keywords
Chinese fulltext retrieval
Semantic net
Electronic library
-
分类号
G354.4
[文化科学—情报学]
-
-
题名图书馆信息系统中汉字全文检索的实现
- 2
-
-
作者
顾春庆
于玉
胡运发
刘耀东
-
机构
复旦大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
1996年第S1期279-279,共1页
-
文摘
80年代以来,全文检索(Fulltext Retrieval)作为一种有效的情报检索方法,得到迅速发展.文中介绍了利用大型数据库管理系统的Client/Server结构来实现汉字全文检索的设计方案.针对汉字特点,为提高检索和查全率,采用单汉字索引辅以词索引的结构.汉字(词)索引是一多级索引结构:汉字(词)文献号集合文献内的位置①指出某汉字(词)出现在哪些文献里,②指出该汉字(词)在文献内所处的位置.字(词)索引均采用分表结构:①素引表H_(序号):②文献内位置表W_(序号):其中,H_(序号)中序号及区间内字(词)编号分别根据汉字内码或词编号(2Bytes)的高、低字节转换成数字来确定;W_(序号)中序号及区间内文献号分别根据文献编号(4Bytes)的高3位字节和低字节转换成数字来确定.这里的词表未必是主题词表.词表项用两个字节对其进行编号.建立索引时,按文献号依次处理每篇文献:建立临时表,填入该篇文献中出现的汉字(词)的编号及位置,按编号进行排序;根据字(词)编号修改用应的H表;然后根据当前文献号,将整张临时表追加入相应W表中,“区间内文献号”字段均用当前文献号的低一位字节填入.用户的检索要求应尽量转换成利用词索引进行检索.为便于描述,文中定义了检索项.检索单元、基本检索单元及最大匹配和最小覆盖原则,讨沦了词的划分;为提?
-
关键词
电子图书馆
全文检索
信息系统
语义网
-
Keywords
electronic library/fulltext retrieval/information system/semantic net
-
分类号
TP399
[自动化与计算机技术—计算机应用技术]
-