‌·

人文学的“数字眼镜”

来源:南方都市报     2016年01月24日        版次:GB09    作者:刘铮

    编辑心水

    “大数据”之风,不只在科技、商业领域刮,也吹入了人文、社科领域。《可视化未来:数据透视下的人文大趋势》这本书的书名没起好,若叫《大数据在人文学科的应用》,或者干脆叫《大数据人文学》,也许要醒豁得多。

    《可视化未来》的两位作者占有的数据资源和使用的统计方法,说起来是很简单的:资源就是谷歌图书扫描过的书,方法就是挑几个关键词在数据里搜索。据两位作者介绍,迄今人类历史上出现过的书籍总量大约是1.3亿,在他们开始构建所谓“n元词组词频查看器”时,利用了这个总量的4%,到2012年时,该数字上升到6%。尽管6%这个数字看起来似乎没什么代表性,但就西方世界而言,其实可以说流布最广的那些书已经包括在里面,而很少有人阅读过的书则构成长长的“长尾”。

    我不认为这种利用大数据查词频的方式能为人文学带来多少振奋人心的发现。当然,它也绝非一无是处,毕竟“数字是客观的”。我倒觉得,这副“数字眼镜”的作用,与其说是探索性的———让我们看得更深、更远,还不如说是矫正性的———让我们意识到以往的偏好、偏差或偏见。

    举一个最通俗的例子,两位作者以出现词频为依据,统计了1800年至1949年的150年间哪些人是最有名的。每一年都由当年出生的最有名的人来代表。假如你的先辈出生在1893年,那很不幸,他再怎么努力可能都成不了那一年最有名的人,因为毛泽东也是那一年出生的。好了,现在我们就从这份名单来看看我说的偏好、偏差或偏见是怎么回事。

    1832年出生的最有名的人,他叫莱斯利·斯蒂芬(LeslieStephen);1849年出生的最有名的人,他叫埃德蒙·戈斯(Edm undG osse)。你听说过这两个人吗?现在,莱斯利·斯蒂芬为人们所记忆,多半因为他是弗吉尼亚·伍尔夫的父亲;而埃德蒙·戈斯,则多半因为他讲述父子关系的回忆录《父与子》。当然,因为我对维多利亚时代的文学批评家下过些功夫,所以他俩的论著、随笔集我都读过不止一部,可是一般人,哪怕是欧美国家的,也未必知道这两位。而他们居然是当年最有名的人!这是怎么回事呢?只能说,这是英语世界文学批评家在当年活字世界的影响力的一种体现。现在,书籍不那么重要了,文学不那么重要了,英国文学也不那么重要了,英国文学批评家就更见鬼去罢。莱斯利·斯蒂芬、埃德蒙·戈斯就是那个时代的偏好、偏差或偏见。 □ 刘铮

    《可视化未来:数据透视下的人文大趋势》,(美)埃雷兹·艾登、(法)让-巴蒂斯特·米歇尔著,浙江人民出版社2015年11月版,54.90元。

返回奥一网 意见反馈