基于HTML或MXL描述的Web页信息抽取技术研究被引量：2

Study on Information Extraction Technology Based on Web Pages Descrbed with HTML or XML

下载PDF

导出

摘要从同类企业挖掘有价值的信息是企业信息化的重要任务,目前Web企业信息描述大多数是用HTML表示的,但基于XML描述的企业信息Web页面逐渐增加,Web数据抽取是Web企业信息挖掘的关键,本文提出了一种面向HTML和XML描述的Web页面的Web数据抽取模型并阐述了实现过程。 Worthy information mining from kindred enterprise is important task of enterprise information system, currently Web enterprise information depiction almost uses HTML, but Web page based XML is increasing. Web data extraction is a key procedure of Web enterprise information Mining, This article proposes a Web data described with HTML or XML extraction model and discusses achieving procedure.

作者谢维成吕先竞宋玉忠

机构地区西华大学电气信息学院西华大学图书馆

出处《情报科学》 CSSCI 北大核心 2005年第9期1398-1402,共5页 Information Science

基金国家社会科学基金项目(02BTQ013)

关键词 WEB 企业信息挖掘 HTML XML 数据抽取 web enterprise information Mining HTML XML data extraction

分类号 F270.7 [经济管理—企业管理]

引文网络
相关文献

参考文献5

1许龄艺,徐小丽.南京市制造业企业信息系统实施现状及可行性研究[J].情报科学,2004,22(7):884-888. 被引量：4
2李长河,王维花,张二虎.基于多层次数据库的智能Web挖掘系统[J].计算机工程,2004,30(5):93-94. 被引量：6
3黄豫清,戚广志,张福炎.从WEB文档中构造半结构化信息的抽取器[J].软件学报,2000,11(1):73-78. 被引量：47
4Myllymaki, Jussi. Effective Web Data Extraction with Standard XML Technologies. International Journal of Computer and Telecommunication Networking In: 10th intl[J]. World Wide Web Conf. Hong Kong,2001. (5) :87 - 94. 被引量：1
5Chamberlin D D,Robie J,Florescu D.Quilt:An XML Query Language for Heterogeneous Data Sources:In:Proc.Of the Third Intl[J].Workshop on the Web and Database,Dallas,Texas,u.S.A.,2000,(5):53-62 被引量：1

二级参考文献11

1[1]Fayyad U, Piateskey Shapiro G, Smyth P. The KDD Process for Extracting Useful Knowledge form Volumes of Data[J]. Comm- unications of the ACM,2000,39(11) 被引量：1
2[2]Zaiane O R. Resource and Knowledge Discovery from the Internet and Multimedia Repositories[D]. Vancouver: Simon Fraser University, 2000 被引量：1
3[3]Dunja M. Text Learning and Intelligence Agents[R]. Slovenia Jozef: Stefan Institue, 2001 被引量：1
4[4]Balabanovic M, Fab S Y. Content-based, Collaborative Recommen- dation[J]. Communication of the ACM, 2000, 40(3) 被引量：1
5[5]Park J, Chen M,Yu P. An Effective Hash-based Algorithm for Mining Association Rules[J]. IEEE Trans. on Knowledge and Data Engineer- ing, 2001,9(5):813-825 被引量：1
6许龄艺徐小丽.南京市制造业企业信息化调查报告[R].南京:南京大学国家信息资源管理南京研究基地,2003.. 被引量：2
7.[EB/OL].http://www.amteam.org.,. 被引量：1
8.[EB/OL].http://www.erper.com.,. 被引量：1
9.[EB/OL].http://lwww.sunlike.corn.,. 被引量：1
10.[EB/OL].http://www.netup.tom.cn.,. 被引量：1

共引文献52

1明廷波,左志宏,史永刚,林琳.Web信息抽取中基于神经网络的规则学习方法[J].南京大学学报（自然科学版）,2005,41(z1):1-6. 被引量：1
2胡晓江,苑伟政,朱名铨.IIE环境下数字民航的虚拟数据仓库研究[J].小型微型计算机系统,2003,24(1):68-71. 被引量：4
3GU Ning.A Semantic Approach for Web Document Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):82-85.
4李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
5李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
6刘金红,夏阳,陆余良.基于Ontology的网络元数据抽取系统的研究与实现[J].安徽电子信息职业技术学院学报,2004,3(5):10-13. 被引量：3
7程渤,浮花玲,杨国纬.基于工作流及集成中间件技术的电力信息一体化设计及实现[J].电力系统自动化,2004,28(19):80-83. 被引量：15
8许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
9张阔,徐鹏,李涓子,王克宏.基于优化层次聚类的文档逻辑结构抽取[J].清华大学学报（自然科学版）,2005,45(4):471-474. 被引量：2
10冯伟华,苗长芬.基于Web的网页信息抽取方法的研究[J].洛阳工业高等专科学校学报,2005,15(3):30-31. 被引量：4

同被引文献27

1蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志,2005,24(1):38-39. 被引量：28
2包昌火 ,赵刚 ,李艳 ,黄英 .竞争情报的崛起——为纪念中国竞争情报专业组织成立10周年而作[J].情报学报,2005,24(1):3-19. 被引量：68
3陈朵玲,胡肖锋.基于Web文本挖掘技术的企业竞争情报系统研究[J].情报杂志,2005,24(6):22-24. 被引量：15
4Jan P HERRING. Key Intelligence Topics : a Process to Identifyand Define Intelligence Needs [ J ] Competitive Intelligence Re-view, 2007,10(2) :21-26. 被引量：1
5Yi Zhang, Douglas K R Robinson, Alan L Porter, et al. Tech- nology Road Mapping for Competitive Technical Intelligence r J ]. Technological Forecasting & Social Change, 2015 ( 11 ) : 12 -23. 被引量：1
6Alexander Brem, Volker Bilgram. The Search for Innovative Partners in Co-creation:Indentifying Lead Users in Social Media Through Netnography and Crowdsourcing [ J ]. Journal of Engi- neering and Technology Management, 2015, 7(37) :40-51. 被引量：1
7Brabhamdc. Crowd Sourcing as a Model for Problem Solving:an Introduction and Cases [ J ]. The International Journal of Reach into New Media Technologies, 2008, 14( 1 ) :75-90. 被引量：1
8Ferrara E, De Moo P, Femora G, et al. Web Data Extraction. Applications and Techniques: A Survey [ J ] . Knowledge-based Systems, 2014, 70:301-323. 被引量：1
9Chesbourgh H. Open Innovation, The New Imperative for Crea- ting and Profiting from Technology[ M]. Boston, MA:Harvard Business School Press, 2003, 34( 1 ) :122-123. 被引量：1
10Howe J. The Rise of Crowdsourcing[J]. Wired, 2006, 14(6) : 176-183. 被引量：1

引证文献2

1廖开际,张艺.基于信息融合的企业竞争情报系统构建[J].情报杂志,2012,31(10):1-5. 被引量：5
2唐燕,孟繁玥,李健.基于众包的逆向物流企业竞争情报服务系统研究[J].情报杂志,2016,35(3):61-65. 被引量：4

二级引证文献9

1化柏林.多源信息融合方法研究[J].情报理论与实践,2013,36(11):16-19. 被引量：61
2金泳锋.中国矿用风机产业技术竞争态势研究——基于专利的视角[J].情报杂志,2015,34(1):49-54. 被引量：12
3丁月华.协同学视角下企业竞争情报系统协同的形成和实现机制研究[J].情报理论与实践,2015,38(10):57-63. 被引量：8
4陈果,朱茜凌,肖璐.任务分解视角下企业产品多源融合型竞争情报研究[J].图书情报工作,2017,61(22):127-133. 被引量：7
5王鲁萍,万校基.基于熵权二元语义的物流企业竞争情报评价研究[J].科技与经济,2018,31(6):71-75.
6位志广,陈思,朱庆华.基于内容分析法的产业竞争情报服务模式构建[J].情报理论与实践,2020,43(5):24-30. 被引量：12
7郑荣,杨竞雄,张薇,常泽宇.多源数据驱动的产业竞争情报智慧服务研究[J].情报学报,2020,39(12):1295-1304. 被引量：35
8王君,李品,李璟致.众包情报的四象限模型在科技安全风险预警中的应用[J].情报杂志,2024,43(5):116-122.
9徐杨娇,支凤稳,郑彦宁.我国竞争情报服务实证研究综述[J].竞争情报,2024,20(3):20-30.

1国内招标项目公告[J].中国招标,2014(34):58-62.
2雷燕,刘传领.利用XML的Web数据挖掘技术[J].武汉职业技术学院学报,2005,4(3):51-53.
3涂智寿.Web数据挖掘在商业智能中的应用[J].统计与决策,2005,21(05S):124-125. 被引量：4
4王安纲,高香玲.新形态下的医院工作绩效系统的发展趋势[J].中小企业管理与科技,2015(36):11-11. 被引量：1
5孙雪.Web企业信息数据挖掘的研究与设计[J].科技情报开发与经济,2006,16(3):219-220. 被引量：1
6李威.基于征信的企业官网信息抽取应用研究[J].科技传播,2015,7(3):120-122.
7贺安坤,苏平,姜红花.银行CRM系统数据抽取的研究[J].计算机应用与软件,2008,25(3):278-279. 被引量：5
8马兵,马路.企业级管理信息系统设计[J].自动化技术与应用,2002(2):46-47.
9刘其云,李中言.信息抽取的功能和实现方法[J].情报杂志,2005,24(5):67-68. 被引量：4
10刘健生.会计电算化实务中报表数据抽取的思考[J].林业财务与会计,2003(12):35-36.

情报科学

2005年第9期

浏览历史

内容加载中请稍等...

基于HTML或MXL描述的Web页信息抽取技术研究被引量：2

参考文献5

二级参考文献11

共引文献52

同被引文献27

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于HTML或MXL描述的Web页信息抽取技术研究 被引量：2

参考文献5

二级参考文献11

共引文献52

同被引文献27

引证文献2

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于HTML或MXL描述的Web页信息抽取技术研究被引量：2