WWW中文信息自动分类方法研究被引量：9

Study on Automatic Categorizing Method of Chinese Information for World Wide Web

下载PDF

导出

摘要本文采用一种基于词的归类技术。在类别词专指度的计算中 ,考虑了类别词在语料中的频度、集中度和分布性等因素。根据HTML语言的标记特性 ,应用三维加权分类算法计算类别权值。采用Bayes公式变型 ,计算WWW中文信息文件归类可信度 ,并按可信度最大归类。对 10 8篇试语料进行测试 ,封闭测试的归类正确率为98 1% ,开放测试的正确率为 83 3%。 The word-based categorization is adopted in the paper.It not only uses the frequency,concentrated degree and distribution,but also uses amount of the every corpus to determine the specialty of the category-word.This paper analyses the tag of HTML,discusses the research on the three-dimensional weighted algorithm to calculate the classification weight.The algorithm uses the frequency,location and specialty.The reliability is calculated by Bayes algorithm and the document is categorized to the kind which reliability is maximum.Close testing and open testing are done in the experiment system.The recall ratio of close testing is 98.1%,the accuracy of open testing is 83.3%.

作者郑家恒宋文中

机构地区山西大学计算机科学系

出处《情报学报》 CSSCI 北大核心 2002年第5期532-536,共5页 Journal of the China Society for Scientific and Technical Information

关键词类别权值可信度 WWW 中文信息自动分类文本自动分类类别词 WWW,Chinese information automatic categorization,text automatic categorization,category-word.

分类号 G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献3

1邹涛,王继成,黄源,张福炎.中文文档自动分类系统的设计与实现[J].中文信息学报,1999,13(3):26-32. 被引量：45
2刘开瑛郑家恒.文献自动分类技术研究.机器翻译研究进展[M].电子工业出版社,1992.. 被引量：1
3程学旗余智华等.WWW站点的自动信息提取与分类.计算机语言文集[M].清华大学出版社,1999.. 被引量：1

二级参考文献4

1吴立德，大规模中文文本处理，1997年被引量：1
2揭春雨，中文信息学报，1989年，3卷，1期，1页被引量：1
3Salton G，Communications ACM，1975年，18卷，613页被引量：1
4揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55

共引文献44

1刘峰,王秀坤,杨南海,马霖.中英文专业搜索引擎中数据采集加工的设计与实现[J].计算机应用研究,2004,21(10):155-157. 被引量：5
2王冠,裘正定.结合中文网页自动分类系统的AIP平台[J].微机发展,2005,15(3):136-138.
3李兴鹏,武伟.基于内容和地址的电子邮件过滤系统的研究及实现[J].上海应用技术学院学报（自然科学版）,2005,5(1):35-37.
4武子英.基于模糊模式识别的中文文本分类器的设计与实现[J].科技情报开发与经济,2005,15(16):228-230. 被引量：1
5刘华.词典编撰的领域词语自动获取与选择[J].计算机工程与应用,2006,42(24):176-178. 被引量：2
6夏绪虎,杨炳儒.海量信息搜索共享服务系统的设计与实现[J].计算机工程与应用,2006,42(28):164-166.
7马春梅,王文发.新时期高校图书馆管理系统的设计探讨[J].教育与职业,2006(32):191-192. 被引量：2
8蒋引娣.数字图书馆数据挖掘的基础研究[J].图书馆学研究,2007(4):28-30. 被引量：3
9王艳,张帆.基于Web挖掘技术的信息检索系统设计与实现[J].情报学报,2007,26(3):339-343. 被引量：3
10姚晨光,杨炳儒.一种Internet专业信息搜索共享系统[J].现代电子技术,2007,30(14):153-156.

同被引文献134

1孙迪.科技文献标引问题探析——以国家图书馆为例[J].图书馆建设,2020,0(1):101-108. 被引量：3
2赵衍,张永娟,陈成材,陈恒.一种提高计算机自动赋词标引准确性的综合方法——基于创新型CBA数据库的实证分析[J].情报杂志,2012,31(5):185-191. 被引量：5
3丁芹.基于格式语义格的自动标引和词相似度计算[J].情报理论与实践,2004,27(4):363-366. 被引量：6
4许增福,梁静国,田晓宇.基于FVSM和自组织映射网络的Web文本自动分类方法[J].哈尔滨工业大学学报,2004,36(9):1168-1172. 被引量：2
5李素建,王厚峰,俞士汶,辛乘胜.关键词自动标引的最大熵模型应用研究[J].计算机学报,2004,27(9):1192-1197. 被引量：93
6李淑文.试论文本自动分类[J].现代计算机,2004,10(7):38-41. 被引量：2
7侯汉清 ,章成志 ,郑红 .Web概念挖掘中标引源加权方案初探[J].情报学报,2005,24(1):87-92. 被引量：32
8谭金波,李艺,杨晓江.文本自动分类的测评研究进展[J].现代图书情报技术,2005(5):46-49. 被引量：13
9白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4
10胡健,陆一鸣,马范援.基于HTML文档结构的向量空间模型的改进[J].情报学报,2005,24(4):433-437. 被引量：10

引证文献9

1朱丽红,赵燕平.Web挖掘研究综述[J].情报杂志,2004,23(7):2-5. 被引量：16
2杨应全,文汝.网络环境下文本自动分类分析[J].科技文献信息管理,2005,19(1):31-34.
3王兰成,李留英,秦蓁珍,李超.中文网页信息标引技术及其在内容搜索中的应用[J].信息管理（上海）,2005,18(3):53-57.
4梁刚健,赵春晖,许增福.基于级连式支持向量机的文本自动分类算法[J].黑龙江大学自然科学学报,2006,23(6):814-817.
5刘海峰,王倩,王元元.基于Web的文本检索位置加权模型研究[J].情报科学,2007,25(3):451-455. 被引量：5
6刘竟,侯汉清.学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验[J].情报学报,2009,28(1):114-120. 被引量：2
7谢娟文,秦淑娟,焦爱胜.人工智能在搜索引擎资源获取中的应用[J].机械研究与应用,2009,22(2):121-122. 被引量：1
8焦莉娟,冯丽萍.Web页面分类中特征提取方法的改进[J].科技广场,2009(9):39-40. 被引量：1
9史雅莉,贺红钰.2003—2023年我国自动标引研究及实践进展[J].情报探索,2024(4):120-127. 被引量：1

二级引证文献26

1邓江华,张朝阳,牛冀平.基于B^+树的大规模XMARK数据存储算法研究[J].黄冈师范学院学报,2005,25(6):62-65.
2程志,桂占吉.Web挖掘的方法及教育应用[J].中国电化教育,2006(7):98-101. 被引量：2
3贾虹.基于Web使用挖掘的数字图书馆个性化服务[J].河南图书馆学刊,2006,26(4):58-62. 被引量：5
4李琳,吴成东,韩中华,胡静.基于Web的数据挖掘技术[J].自动化与仪表,2007,22(2):74-77. 被引量：6
5申丽君,孟凡荣.基于XML的Web文本挖掘模型的研究与设计[J].计算机工程与设计,2007,28(10):2287-2290. 被引量：4
6张英,赵艳君.数字图书馆中多媒体数据挖掘的体系结构和方法[J].现代情报,2008,28(1):92-94. 被引量：10
7刘海峰,王元元,张学仁,刘守生.文本分类中一种基于正交变换的特征降维方法[J].计算机科学,2008,35(5):125-126. 被引量：3
8刘海峰,王元元,张学仁,姚泽清.文本分类中基于位置和类别信息的一种特征降维方法[J].计算机应用研究,2008,25(8):2292-2294. 被引量：9
9焦金涛.基于结构挖掘和使用挖掘的Web挖掘算法研究[J].武夷学院学报,2008,27(5):44-47. 被引量：5
10黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,27(1):94-99. 被引量：115

1韩翠玲.公文主题词标引存在的问题与对策[J].甘肃联合大学学报（社会科学版）,2001,0(S1):190-192.
2秦继东.真实的新闻来自现实生活[J].传媒观察,1994,0(5):24-25.
3金岩.网络信息计量学方法研究[J].图书情报工作,2001,45(12):78-78.
4皮远喜.归档文件归类的具体方法[J].中小学实验与装备,2004,14(3):46-48.
5李令,刘淑娥,马静.浅淡独立学院图书馆文化建设[J].中国科技纵横,2012(1):222-223.
6石明利.从类别词入手规范公文主题词标引[J].秘书之友,1999(8):36-36.
7秦建宁.HTML语言及其在图书馆中的应用[J].图书馆杂志,1998,17(3):36-39. 被引量：6
8卜其银.妥善处理文书立卷的几个矛盾关系[J].档案与建设,1993,0(3):59-59.
9李盼池.高校图书馆Web数据库的开发及管理[J].科技文献信息管理,2001,15(2):20-21. 被引量：1
10赵燕群,曾世荣.检索刊物主题索引初析[J].情报学报,1983,2(4):289-297. 被引量：1

情报学报

2002年第5期

浏览历史

内容加载中请稍等...

WWW中文信息自动分类方法研究被引量：9

参考文献3

二级参考文献4

共引文献44

同被引文献134

引证文献9

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

WWW中文信息自动分类方法研究 被引量：9

参考文献3

二级参考文献4

共引文献44

同被引文献134

引证文献9

二级引证文献26

相关作者

相关机构

相关主题

浏览历史

WWW中文信息自动分类方法研究被引量：9