名人网页的相关度评价被引量：9

The Relevance Evaluation of the Celebrities' WebPages

下载PDF

导出

摘要本文介绍了北京大学天网知名度系统的设计与开发工作,重点论述了中文名人网页相关度评价的因素、算法和相应的检索结果。针对目前搜索引擎服务的不足之处,该工作旨在改进网上信息服务的质量,提高个性化网上信息服务的能力。本系统在北京大学天网搜索引擎的基础上,利用自然语言处理、特别是中文信息提取的新技术,结合网页信息的特点,针对名人网页的检索提出了一种新的网页相关度评价算法,改善了检索结果排序的合理性,提高了名人网页检索服务的质量。 This paper introduced the design and implementation of Tianwang Fame System. It mainly discussed on the factors and algorithms that affect matching of a named entity with Chinese webpages' relevance evaluation on the celebrities. Aiming at shortages of the current Search Engines, the project is to improve the quality of the web information services, and to enhance the ability of the personalizing services. Based on the Tianwang Search Engine of Peking University, the Fame System adopted new techniques in Nature Language Processing, especially in Chinese information extraction according to the features of webpage information. The paper proposed a new method to the relevance evaluation of webpages against attributes of named enties. This method optimizes the order of the search results, and improves the service quality of Tianwang Fame System.

作者昝红英苏玉梅孙斌俞士汶

机构地区北京大学计算语言学研究所

出处《中文信息学报》 CSCD 北大核心 2003年第5期27-33,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(69973005) 863资助项目(2001AA14040) 北大-IBM创新研究院资助项目

关键词计算机应用中文信息处理相关度检索服务信息提取特征信息 computer application Chinese information processing relevance searching service information extraction feature information

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1孙斌.中文信息提取系统设计与若干相关基础问题的研究[R].北京大学博士后研究工作报告,2002.5. 被引量：1
2冯是聪.搜索引擎个性化查询服务研究[R].北京大学博士生开题报告(电子版),2002.6. 被引量：1
3施水才肖诗斌等.TSR中文文本信息检索技术的发展[A]..中国中文信息学会二十周年学术会文论文集[C].清华大学出版社,2001,11.(79—88). 被引量：1
4昝红英,俞士汶.CCD及其应用[J].广西师范大学学报（自然科学版）,2003,21(A01):98-103. 被引量：7
5Dayne Freitag. Information Extraction from HTML: Application of a General Machine Learning Approach. American Association for Artificial Intelligence (www. aaai. org). 1998. 被引量：1
6A. Douthat. The Message Understanding Conference Scoring Software User's Manual. MUC- 7 Proceedings. SAIC 1999. 被引量：1
7S. Chakrabarti, B. E. Dom, et al. Mining the web's link structure. COMPUTER, 1999,32:60-67. 被引量：1
8J. M. Kleinberg. Authoritative sources in a hyperlinked environment. Journal of ACM, 1999,46:604 -632. 被引量：1
9Jiawei Han, Micheline Kamber. Data Mining-Concept and Tachniques. Academic Press, 2000. 被引量：1
10Ray, Deborah S. Mastering Html 4.0 1998. 被引量：1

二级参考文献1

1刘扬,俞士汶.CCD构造模型及VACOL辅助软件的设计与实现[A]第一届学生计算语言学研讨会论文集,2002. 被引量：1

共引文献6

1肖丁,万里,吴斌,陈平.社群网络中基于链接分类的研究与应用[J].广西师范大学学报（自然科学版）,2006,24(4):155-158. 被引量：1
2徐建民,唐万生.基于查询术语同义词的扩展信念网络检索模型[J].计算机工程,2007,33(10):28-30. 被引量：4
3沙芸,张国英,孟凡亮.基于关键词提取的娱乐新闻文档去重算法[J].广西师范大学学报（自然科学版）,2007,25(2):30-33. 被引量：3
4徐建民,陈振亚,白彦霞.利用查询术语同义词关系扩展信念网络检索模型[J].情报学报,2008,27(3):363-368. 被引量：6
5石金铭,昝红英,韩英杰.大规模汉语词汇语义知识库的构建[J].山西大学学报（自然科学版）,2015,38(4):581-587. 被引量：2
6李伟,胡韧奋.信息处理用词语知识库建设现状与发展研究[J].曲靖师范学院学报,2016,35(2):78-85.

同被引文献111

1余克健,张程,乐毅,吴云志.基于GPT修正农业病虫害命名实体识别方法[J].内蒙古农业大学学报（自然科学版）,2023,44(5):34-43. 被引量：2
2刘晓莉,彭波.基于概率模型的名人网页相关度评价[J].清华大学学报（自然科学版）,2005,45(S1):1887-1891. 被引量：2
3张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：49
4俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6
5钟杰,钱铭怡.中文情绪形容词检测表的编制与信效度研究[J].中国临床心理学杂志,2005,13(1):9-13. 被引量：46
6张晓艳,王挺,陈火旺.命名实体识别研究[J].计算机科学,2005,32(4):44-48. 被引量：66
7熊德兰,柴玉梅,昝红英.基于内容的名人网页褒贬性评价[J].平顶山工学院学报,2005,14(4):47-49. 被引量：1
8李克荣.我国应急体系建设中的问题探讨与对策[J].中国安全生产科学技术,2005,1(5):52-55. 被引量：30
9洪辉,刘子敬,李石君,欧伟杰.智能WEB信息提取系统的研究和设计[J].微计算机信息,2005,21(11X):71-74. 被引量：8
10朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326

引证文献9

1俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5):1-10. 被引量：29
2彭林峰.信息化与建设和谐社会[J].职业,2005(10):52-53. 被引量：2
3熊德兰,柴玉梅,昝红英.基于内容的名人网页褒贬性评价[J].平顶山工学院学报,2005,14(4):47-49. 被引量：1
4柴玉梅,熊德兰,昝红英.Web文本褒贬倾向性分类研究[J].计算机工程,2006,32(17):89-91. 被引量：4
5熊德兰,柴玉梅.领域内文本褒贬倾向性分类中的特征提取技术[J].微计算机信息,2006(12X):263-264. 被引量：2
6陈争艳,朱保锋.名人网页相关度评价的概率模型研究[J].河南教育学院学报（自然科学版）,2008,17(1):39-41.
7李斌,彭勤科,张晨.突发公共事件网络在线评论序列的特征分析[J].计算机应用研究,2008,25(9):2809-2812. 被引量：2
8李源,蔡忠祥,李娜,黄子鸣.基于CiteSpace的国内命名实体识别技术的知识图谱分析[J].现代信息科技,2024,8(15):124-128.
9昝红英,孙斌,俞士汶.甄别商贸兴衰信息的特征词汇初探[J].术语标准化与信息技术,2004(1):27-30. 被引量：1

二级引证文献41

1林素絮,曾颖.电子政务知识库建设[J].情报探索,2005(3):7-9. 被引量：3
2柏晓静,俞士汶.面向中文学术专著的机器辅助翻译研究[J].中国翻译,2006,27(2):78-84. 被引量：6
3苏祺,李芸,王洪俊.用于产品信息评价的术语库构建及应用[J].术语标准化与信息技术,2006(1):33-36.
4柴玉梅,熊德兰,昝红英.Web文本褒贬倾向性分类研究[J].计算机工程,2006,32(17):89-91. 被引量：4
5俞士汶,柏晓静.计算语言学与外语教学[J].外语电化教学,2006(5):3-11. 被引量：8
6董金华.信息化与和谐社会的构建[J].科学对社会的影响,2006,50(4):39-42.
7顾铮,顾平.信息抽取技术在中医研究中的应用[J].医学信息（西安上半月）,2007,20(1):27-30. 被引量：11
8昝红英,张坤丽,柴玉梅,俞士汶.现代汉语虚词知识库的研究[J].中文信息学报,2007,21(5):107-111. 被引量：27
9俞士汶.建设综合型语言知识库的理念与成果的价值[J].中文信息学报,2007,21(6):3-12. 被引量：12
10索娟娟.信息时代计算语言学在英语教学中的应用[J].毕节学院学报（综合版）,2008,26(1):117-119.

1刘晓莉,彭波.基于概率模型的名人网页相关度评价[J].清华大学学报（自然科学版）,2005,45(S1):1887-1891. 被引量：2
2陈争艳,朱保锋.名人网页相关度评价的概率模型研究[J].河南教育学院学报（自然科学版）,2008,17(1):39-41.
3杨学明,刘柏嵩.基于本体的网络爬虫技术研究[J].情报学报,2007,26(5):723-727. 被引量：7
4贾丽柯.基于校园网的搜索引擎排序算法研究[J].商丘职业技术学院学报,2008,7(2):32-35.
5雨佳.亿唐,MBA扎堆的地方[J].中国科技信息,2000(8):31-32.
6孙明节.校园网与图书馆网上信息服务[J].西南石油大学学报（社会科学版）,2001(3):63-64.
7邵发,李淑琴.Lucene的一种融合额外影响因子的排序方法[J].北京信息科技大学学报（自然科学版）,2015,30(4):71-74.
8刘菁菁,董静,林鸿飞,叶正.基于锚文本相似度的链接算法[J].郑州大学学报（理学版）,2007,39(2):96-99. 被引量：1
9王璐,于超,王博,王国春,林金花,李辉.本体语义检索系统[J].长春工业大学学报,2013,34(6):726-730. 被引量：6
10高广太.网页检索加速[J].电脑知识与技术（过刊）,2001,8(17):50-51.

中文信息学报

2003年第5期

浏览历史

内容加载中请稍等...

名人网页的相关度评价被引量：9

参考文献10

二级参考文献1

共引文献6

同被引文献111

引证文献9

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

名人网页的相关度评价 被引量：9

参考文献10

二级参考文献1

共引文献6

同被引文献111

引证文献9

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

名人网页的相关度评价被引量：9