中亚语种通用语料库构建研究被引量：1

Research of Construction of the Central Asian Languages General Corpus

下载PDF

导出

摘要面向中亚国家“一带一路”网络舆情分析这一应用目标,探讨如何构建中亚国家通用语料库。首先利用爬虫完成新闻语料采集,其次在语料预处理的基础上,对其进行唯一编码并利用关系数据库完成语料的结构化组织和持久存储,并采用人机结合的标注方式对语料内容按照主题进行分类,最后研究语料库的信息服务方式以最大化其价值。目前,语料库词语容量已达到1.5亿,且还在持续更新,但仍然属于生语料,后续需根据具体应用领域完成相应标注工作。以文章构建的语料库为基础,不仅为分析中亚国家“一带一路”网络舆情提供可依托的语料库,还可用于中亚国家语言的研究学习和教学科研等相关场景。 For the application goal of‘Belt and Road’network public opinion analysis in central Asian countries,the present study discusses how to build a general corpus for Central Asian countries.Firstly,the source media are sorted out and the crawler is used to complete the news corpus collection.Secondly,based on the corpus preprocessing,the corpus is uniquely coded and its structured organization and permanent storage is completed by utilizing relational databases.Then,by means of human-computer integration,the corpus is classified according to the theme.Finally,the mode of corpus information service is studied so as to maximize the value of this corpus.At present,the word capacity of corpus has reached 150 million,which has been updated,but it still belongs to the raw corpus,which shall be marked according to the specific application field.Based on the corpus constructed in this paper,it can not only improve a reliable corpus for the analysis of‘Belt and Road’network public opinion in Central Asian countries,but also be used for the research and learning of languages in Central Asian countries,teaching and scientific research and other relevant scenes.

作者席耀一王小明云建飞高鑫 XI Yaoyi;WANG Xiaoming;YUN Jianfei;GAO Xin(Information Engineering University, Zhengzhou 450001, China)

机构地区信息工程大学

出处《信息工程大学学报》 2020年第6期741-746,751,共7页 Journal of Information Engineering University

基金国家社会科学基金青年项目(19CXW027)。

关键词语料库中亚国家一带一路 corpus central asian countries the belt and road initiative

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1杨惠中主编,卫乃兴等编著..语料库语言学导论[M].上海:上海外语教育出版社,2002:408.
2李绍哲..俄语语料库研究[M].北京/西安:世界图书出版公司,2016:303.
3徐琳宏,林鸿飞,赵晶.情感语料库的构建和分析[J].中文信息学报,2008,22(1):116-122. 被引量：110
4马海群,张涛.文献信息视阈下面向智慧服务的语料库构建研究[J].情报理论与实践,2019,42(6):124-130. 被引量：19
5吴蕊珠,李晗静,吕会华,姚登峰.面向ELAN软件的手语汉语平行语料库构建[J].中文信息学报,2019,33(2):43-50. 被引量：12
6俞士汶,朱学锋,段慧明.大规模现代汉语标注语料库的加工规范[J].中文信息学报,2000,14(6):58-64. 被引量：30
7袁江林,郭志刚,陈刚,魏晗,孙一贺.基于深度学习的文本自动生成技术研究综述[J].信息工程大学学报,2018,19(5):616-620. 被引量：10

二级参考文献47

1刘超朋.平行语料库概述[J].燕山大学学报（哲学社会科学版）,2007,8(S1):120-121. 被引量：10
2徐琳宏,林鸿飞.基于语义特征和本体的语篇情感计算[J].计算机研究与发展,2007,44(z2):356-360. 被引量：13
3张普.关于大规模真实文本语料库的几点理论思考[J].语言文字应用,1999(1):35-44. 被引量：49
4李益婷.文献信息学研究回顾与展望[J].图书馆学研究（应用版）,2010(2):7-10. 被引量：4
5朱学锋,俞士汶,王惠.现代汉语五万词语归类的实践[J].语言文字应用,1997(4):89-95. 被引量：8
6胡百华,李行德,汤志祥.香港的语料库和相关研究概况[J].语言文字应用,1997(2):51-56. 被引量：8
7刘连元.现代汉语语料库研制[J].语言文字应用,1996(3):3-9. 被引量：28
8段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20
9周明,黄昌宁.面向语料库标注的汉语依存体系的探讨[J].中文信息学报,1994,8(3):35-52. 被引量：39
10吴淑娟,屈福志.论文献信息学的理论体系[J].图书与情报,2006(4):65-68. 被引量：2

共引文献173

1司震飞.高校B站账号内容发布特点和提升策略——基于20所高校发布视频的分析[J].新媒体研究,2023,9(2):62-66. 被引量：1
2梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
3孙成志.基于语料库的汉日新闻语篇转述话语对比研究——以“英国脱欧”为例[J].日语教育与日本学,2020(2):1-11. 被引量：1
4徐翔,董洁芸.社交网络内容生产中用户“信息茧房”的情感偏向研究[J].全球传媒学刊,2022,9(4):78-99. 被引量：9
5包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
6贾巴春阳.微博上粉丝脱粉回踩偶像现象的心理学思考——以“陈学冬被脱粉回踩事件”为例[J].东南传播,2019(12):106-109.
7张虎,郑家恒,刘江.语料库词性标注一致性检查方法研究[J].中文信息学报,2004,18(5):11-16. 被引量：9
8俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述[J].语言文字应用,2001(3):21-26. 被引量：6
9牛洪梅,吐尔根,伊不拉音.维吾尔语的词性标注校对初探[J].微型电脑应用,2006,22(12):45-47. 被引量：1
10吴江宁,朱国华.基于改进线图分析算法的浅层汉语句法分析器的设计与实现[J].计算机应用研究,2007,24(9):164-167. 被引量：4

同被引文献8

1高玉霞,任东升.中国海洋政治话语翻译语料库的构建与研究[J].中国海洋大学学报（社会科学版）,2020(6):107-116. 被引量：6
2冯鸾鸾,李军辉,李培峰,朱巧明.面向国防科技领域的技术和术语语料库构建方法[J].中文信息学报,2020,34(8):41-50. 被引量：19
3邢丹,饶高琦,荀恩东,王诚文.基于大规模语料库的介词结构搭配库构建[J].中文信息学报,2020,34(11):1-8. 被引量：8
4许津彰,王琛,宋继华,郭冬冬.英语母语者汉语口语语料的采集分析与语料库构建[J].云南师范大学学报（对外汉语教学与研究版）,2021,19(1):13-25. 被引量：10
5王贵荣,饶高琦,荀恩东.基于大规模语料库的现代汉语动宾搭配知识库构建[J].中文信息学报,2021,35(1):34-42. 被引量：4
6林玉萍,龙红,李彪,郭钦钵,王娟,岳婕.基于医学影像和病历文本的甲状腺多模态语料库构建与应用[J].西北大学学报（自然科学版）,2021,51(2):198-206. 被引量：8
7黄水清,王东波.国内语料库研究综述[J].信息资源管理学报,2021,11(3):4-17. 被引量：46
8李翔,朱晓旭,刘承伟.面向新闻评论的汉语反问句语料库构建[J].山西大学学报（自然科学版）,2021,44(3):403-410. 被引量：4

引证文献1

1张芙蓉.面向航空领域的技术与术语语料库构建[J].长沙航空职业技术学院学报,2021,21(4):33-37. 被引量：2

二级引证文献2

1严豫.基于BERT模型的涉警舆情语料库系统[J].信息技术与信息化,2022(7):132-135.
2戴均豪.基于Word2vec的铁路工程地质语料库构建与词嵌入[J].科技创新与应用,2022,12(35):89-92. 被引量：1

1周旭,窦川川,彭咏梅,刘海舟,王艳萍,吴勇奇,朱卫丰.循证医学专业英语语料库建设研究[J].医学信息学杂志,2020,41(10):43-47. 被引量：3
2丁应平.煤矿矿山机电设备维修中的问题及解决措施[J].内蒙古煤炭经济,2020(16):138-139. 被引量：1
3孙金星.新媒体时代公共图书馆知识传播策略研究[J].科技资讯,2021,19(2):196-200. 被引量：1
4陈旭佳."结构化"视野的小学数学课堂教学重构分析[J].语文新读写,2020(16):190-190.
5李嘉盛,陈龙赞,李进,江雨田,薛晓鹏.韩江-榕江-练江三江水系连通工程调水水流可视化技术研究及应用[J].人民珠江,2021,42(1):1-6. 被引量：2
6刘家水,谈永进,马逢时,宋丽雅,赵红国.矩阵二维码在药用植物、中药标本信息化教学中的应用[J].包头医学院学报,2019,35(11):89-91. 被引量：1
7王恩鹏,田华伟,张明旺.大型活动食品安全毒害危险物数据库建设研究[J].法制与经济,2020,29(11):143-146. 被引量：1
8冯丽君.贾平凹小说汉英平行语料库建设[J].商洛学院学报,2021,35(1):7-11. 被引量：3
9赵景云.目标管理在医保管理中的价值研究[J].中国卫生标准管理,2021,12(4):29-32. 被引量：4
10王一军.大学课程新使命:再造知识发现、加工与传播的连续体[J].清华大学教育研究,2020,41(4):115-129. 被引量：9

信息工程大学学报

2020年第6期

浏览历史

内容加载中请稍等...

中亚语种通用语料库构建研究被引量：1

参考文献7

二级参考文献47

共引文献173

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中亚语种通用语料库构建研究 被引量：1

参考文献7

二级参考文献47

共引文献173

同被引文献8

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

中亚语种通用语料库构建研究被引量：1