期刊文献+

北京大学CCL语料库的研制 被引量:40

The building of the CCL corpus:Its design and implementation
下载PDF
导出
摘要 北京大学中国语言学研究中心CCL语料库是面向语言学本体研究和语言教学的大规模语料库,目前包括现代汉语、古代汉语和汉英句对齐平行语料,规模超过7亿汉字。CCL语料库检索系统以包括汉字、字母、标点等在内的字符为基本索引单位,提供普通查询、批量查询、模式查询等多种检索方式。同时该系统支持限定范围查询、基于复杂检索表达式的查询、统计模式频次、对查询结果进行排序、下载查询结果等功能。本文介绍CCL语料库的建设情况与主要功能,具体涉及语料分布概况、语料库查询功能和使用方式、语料库索引与检索技术架构等。 The CCL corpus of Peking University is a large corpus for theoretical linguists and applied linguists alike.It currently includes modern Chinese,classical Chinese and Chinese-English sentence-aligned parallel texts.The total tokens go over 700 million Chinese characters.The basic unit of the CCL corpus indexing system is character,which consists of Chinese characters,letters,punctuations,etc.Based on the index system,CCL corpus’s search engine provides three query modes,namely basic query,batch query,and pattern query.Other features include restricted query,advanced query expression,the display of pattern frequency,sorting and downloading the results.This paper provides the background information of the construction and main functions of the CCL corpus in some detail,for instance,the structure of the corpus files and the overall statistical information of the CCL corpus,the query functions and usage guide,the technical framework of corpus indexing and retrieval.
作者 詹卫东 郭锐 常宝宝 谌贻荣 陈龙 ZHAN Weidong;GUO Rui;CHANG Baobao;CHEN Yirong;CHEN Long
机构地区 北京大学
出处 《语料库语言学》 2019年第1期71-86,116,共17页 Corpus Linguistics
基金 2015年度教育部人文社科重点研究基地重大项目(15JJD740002)的支持
  • 相关文献

参考文献2

二级参考文献5

共引文献285

同被引文献423

引证文献40

二级引证文献90

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部