基于IFC标准的BIM自适应分词方法被引量：3

A model adaptive method for Chinese word segmentation using IFC-based building information model

下载PDF

导出

摘要建筑信息模型(BIM)已经成为建筑行业信息技术应用的有效方案。随着BIM数据不断增长,为了高效使用BIM数据,很多研究将自然语言处理(NLP)引入BIM应用中。在中文环境中,由于缺乏建筑行业的术语特征,导致基础环节的中文分词在建筑领域BIM应用中的适应性较差。通过分析当前流行的BIM数据格式工业基础类(industry foundation class,IFC)文件,从中提取BIM模型特征,配合建筑领域术语特征加入分词模型中,以提高中文分词在建筑领域的性能。实验结果表明,与原始条件随机场(CRF)分词模型相比,在建筑领域测试集上,分词模型的F-measure提高了1.26%,其中,在仅加入BIM模型特征时,F-measure提升了0.10%,说明在分词模型中加入BIM模型特征对于提高中文分词在建筑领域的性能是有效的。同时,在BIM模型测试集上,相较于仅加入建筑领域术语特征,在加入BIM模型特征后,准确率从46.97%提升至87.74%,召回率从67.60%提升至94.77%,F-measure从55.43%提升至91.12%,提升了35.69%,有效提高了中文分词在建筑领域的BIM模型自适应性。 The building information model(BIM)has become an effective solution to information technology applications in the construction industry.With the continuous increase of BIM data,natural language processing(NLP)has been introduced into BIM applications in many studies to effectively utilize BIM data.In the Chinese language environment,due to the absence of terminology features in the building field,Chinese word segmentation cannot be efficiently adapted in BIM application.By analyzing the currently popular industry foundation class(IFC)files in BIM data format,this study extracted BIM model features from IFC files and added them together with architectural terminology characteristics into the statistical word segmentation model,thus improving the adaptability of Chinese word segmentation in the building field.The experimental results show that compared with the original conditional random fields(CRF)based word segmentation model,on the domain test set,the F-measure increased by 1.26%,and F-measure still increased by 0.10%with BIM model features added alone,indicating that appending BIM model features to the segmentation model can effectively improve the performance of Chinese word segmentation in the building field.Meanwhile,on the model test set,compared with the case of architectural terminology characteristics being appended alone,after BIM model features were appended,the precision rate increased from 46.97%to 87.74%,the recall rate from 67.60%to 94.77%,and the F-measure from 55.43%to 91.12%(by 35.69%),thereby effectively boosting the BIM model adaptability of Chinese word segmentation in the building field.

作者张鑫周小平王佳 ZHANG Xin;ZHOU Xiao-ping;WANG Jia(School of Electrical and Information Engineering,Beijing University of Civil Engineering and Architecture,Beijing 100044,China;Beijing Key Laboratory of Intelligent Processing for Building Big Data,Beijing 102616,China)

机构地区北京建筑大学电气与信息工程学院建筑大数据智能处理方法研究北京市重点实验室

出处《图学学报》 CSCD 北大核心 2021年第2期316-324,共9页 Journal of Graphics

基金国家自然科学基金项目(71601013) 北京市自然科学基金项目(4202017) 北京市青年拔尖人才培育项目(CIT&TCD201904050) 北京建筑大学青年英才项目北京建筑大学市属高校基本科研业务费专项资金(X20039)。

关键词建筑信息模型工业基础类中文分词模型自适应建筑信息提取 building information model industry foundation classes Chinese word segmentation model adaptation building information extraction

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1王煜,邓晖,李晓瑶,邓逸川.自然语言处理技术在建筑工程中的应用研究综述[J].图学学报,2020,41(4):501-511. 被引量：16
2黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
3邓丽萍,罗智勇.基于半监督CRF的跨领域中文分词[J].中文信息学报,2017,31(4):9-19. 被引量：19
4张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：44

二级参考文献31

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28
7杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
9罗智勇,宋柔.基于多特征的自适应新词识别[J].北京工业大学学报,2007,33(7):718-725. 被引量：14
10Nianwen Xue.Chinese word segmentation as character tagging[J]. International Journal of Computational Linguistics and Chinese Language Processing,2003,8(1):29-48. 被引量：1

共引文献307

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2刘泳奇,吴环宇,陈珂.智能建造技术在工程造价管理中的应用研究综述[J].建筑经济,2022,43(S01):245-252. 被引量：29
3李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
4王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
5宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
6于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
7丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
8赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
9李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
10麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9

同被引文献44

1金星.铁路勘测设计BIM应用基础研究[J].铁道建筑,2014,54(7):136-138. 被引量：12
2闵世平,赵亮亮.三维GIS技术在铁路全生命周期中的应用探讨[J].铁道工程学报,2014,31(10):15-20. 被引量：24
3李春喜.轨道交通精细化设计管理体系研究[J].现代交通技术,2015,12(3):83-87. 被引量：4
4程耀东,潘永健,朱奕蓓,杨军.高速铁路综合图自动生成关键技术研究[J].铁道标准设计,2015,59(10):42-45. 被引量：2
5易思蓉,聂良涛.基于虚拟地理环境的铁路数字化选线设计系统[J].西南交通大学学报,2016,51(2):373-380. 被引量：37
6徐博.基于BIM技术的铁路工程正向设计方法研究[J].铁道标准设计,2018,62(4):35-40. 被引量：126
7柳婷,陈小松,张伟.无人机倾斜摄影辅助BIM+GIS技术在城市轨道交通规划选线中的应用[J].测绘通报,2017(S1):197-200. 被引量：64
8陈光,薛梅,胡章杰,刘一臻.轨道交通GIS+BIM三维数字基础空间框架[J].测绘通报,2019(S2):262-266. 被引量：19
9李杨,阎志远,朱建军,戴琳琳.铁路客票系统关系型数据库的困境和出路研究[J].铁路计算机应用,2017,26(12):22-25. 被引量：3
10邵艳,余绍淮,徐乔.基于机载激光扫描的山区高速公路环保选线研究[J].中外公路,2019,39(3):312-314. 被引量：8

引证文献3

1傅志浩,吕彬,杨楚骅,王存慧.基于IFC的水利水电工程信息扩展实现与应用[J].人民珠江,2021,42(11):8-15. 被引量：7
2吴祥龙,高华,解兴申,刘辉.基于BIM+GIS的城市轨道交通选线应用研究[J].铁道标准设计,2022,66(3):18-22. 被引量：13
3杨文成,霍磊,郑玢,赵鹏,乔俊飞,张小虎.基于IFC标准和数据库技术的铁路站场自动化BIM建模方法[J].铁道标准设计,2023,67(10):78-85. 被引量：4

二级引证文献24

1张毅,赵京胜,神洲.基于IFC标准的存储格式优化研究[J].计算机应用文摘,2022,38(5):86-88.
2黄子懿,付卢萱.智能勘测技术在铁路选线中的应用研究[J].铁道建筑技术,2022(10):176-179. 被引量：5
3石硕.GIS+BIM技术在轨道交通工程建造管理中的应用研究[J].铁道标准设计,2022,66(11):29-35. 被引量：13
4张哲远.基于Civil3D+Dynamo+Revit的桥梁BIM快速建模研究[J].铁道勘测与设计,2023(2):74-77. 被引量：1
5李壤,黄锦鹏,胡绪宝,陈蔚华,张周文.基于BIM技术的闸站工程三维设计应用研究[J].人民珠江,2023,44(5):67-72. 被引量：3
6苏东升,李薇,段一峰,张丽媛,崔峰.内河船闸水工结构参数化建模系统开发应用[J].中国港湾建设,2023,43(6):24-28.
7周杰.水利水电工程信息模型共享技术应用方法研究[J].中国高新科技,2023(12):133-135.
8冯子健,陈玉华.基于GIS的城市道路信息集成系统[J].信息与电脑,2023,35(8):24-26.
9李俊松,董佳淇,汪明,曹力.基于IFC及AHP的轨道交通工程盾构施工安全管控信息标准与决策分析研究[J].铁道标准设计,2023,67(9):116-122. 被引量：1
10刘强,张银虎,明杰,马文静.铁路三维大场景虚拟踏勘及线路设计要素系统研究[J].铁道标准设计,2023,67(10):27-34. 被引量：1

1周翠翠.英语教师如何营造全英文的教学环境[J].读天下（综合）,2020(35):0229-0229.
2朱慧娴,徐照.装配式建筑自上而下设计信息协同与模型构建[J].图学学报,2021,42(2):289-298. 被引量：12
3张兰兰.基于小样本采集环境下的合同智能化应用研究[J].数字技术与应用,2021,39(3):59-61.
4李相方,冯东,张涛,孙政,何敏侠,刘庆,刘文远,赵文,李靖.毛细管力在非常规油气藏开发中的作用及应用[J].石油学报,2020,41(12):1719-1733. 被引量：25
5杨建,詹国卫,赵勇,任春昱,屈重玖.川南深层页岩气超临界吸附解吸附特征研究[J].油气藏评价与开发,2021,11(2):184-189. 被引量：8
6张沛,吴楠,宋志军,邰正福.响应面法优化大孔树脂纯化黄芪毛蕊异黄酮工艺[J].食品工业科技,2021,42(10):209-214. 被引量：15
7曾铁.高校务须重视拉抬大学生中文写作能力——基于一些观察体悟[J].丽江师范高等专科学校学报,2020,5(4):42-50. 被引量：1
8唐山国丰钢铁有限公司[J].冶金管理,2020(23):199-199.
9樊志强,柴尔青.急性缺血性脑卒中患者静脉溶栓预后不良的影响因素分析[J].四川解剖学杂志,2021,29(1):37-39. 被引量：1
10Qixiu Kang,Jing Tang,Yuming Wang.Product Promotion Prediction Model Based on Evaluation Information[J].Modern Electronic Technology,2021,5(1):10-14.

图学学报

2021年第2期

浏览历史

内容加载中请稍等...

基于IFC标准的BIM自适应分词方法被引量：3

参考文献4

二级参考文献31

共引文献307

同被引文献44

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于IFC标准的BIM自适应分词方法 被引量：3

参考文献4

二级参考文献31

共引文献307

同被引文献44

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于IFC标准的BIM自适应分词方法被引量：3