在大数据时代,人、事、物都被数据化,承载人类知识和思想的书籍也不例外。自2004年底开始,谷歌公司采用定制的自动翻页设备陆续对哈佛、牛津等40多所顶级大学图书馆藏书和出版社赠书进行了数字化工程。这个最新数据库包括了从1800年到2...在大数据时代,人、事、物都被数据化,承载人类知识和思想的书籍也不例外。自2004年底开始,谷歌公司采用定制的自动翻页设备陆续对哈佛、牛津等40多所顶级大学图书馆藏书和出版社赠书进行了数字化工程。这个最新数据库包括了从1800年到2012年间出版的800多万本书籍(8116746本)的8613亿个词汇量(Lin et al.,2012),涉及语种包括英语、法语、西班牙语、德语、汉语(简体)和俄语,如表1所示。书籍是承载人类知识和思想的主要载体,只要书籍有足够的代表性,展开更多
文摘在大数据时代,人、事、物都被数据化,承载人类知识和思想的书籍也不例外。自2004年底开始,谷歌公司采用定制的自动翻页设备陆续对哈佛、牛津等40多所顶级大学图书馆藏书和出版社赠书进行了数字化工程。这个最新数据库包括了从1800年到2012年间出版的800多万本书籍(8116746本)的8613亿个词汇量(Lin et al.,2012),涉及语种包括英语、法语、西班牙语、德语、汉语(简体)和俄语,如表1所示。书籍是承载人类知识和思想的主要载体,只要书籍有足够的代表性,