当前位置:首页 > 法律热点

必读新闻报道:谷歌数字图书馆,谷歌相关书籍

阅读:

<?xml version="1.0" encoding="utf-8" standalone="no"?>

|第2章| 四个生日和一个葬礼 语言本质的新视域

Big Data as a Lens on Human Culture

到2007年,针对不规则动词展开的研究使我们逐步相信,统计词的出现频次便可以追踪某类文化演进的过程。但是,有一点需要注意,不规则动词大多出现得较为频繁,追踪起来也比较容易。例如,went一词在大约5000个词中就会出现一次,或者说每20页中就会出现一次。在我们读过的书中,went一词会反复出现。然而,如果打算更进一步地探索不规则动词以外的词,那你很快就会发现齐夫定律的副作用:像went这样频繁出现的词仍属于少数,绝大部分词都是极为不常见的。

文化中的大数据

假如我们尝试追踪一些更有挑战性的事物,譬如被称为“大脚怪”(Sasquatch)的喜马拉雅山雪人。在英文书中,Sasquatch在每1 000万个词中大约会出现一次,或者说在每100本书中出现一次。由此可见,追踪Sasquatch一词要比追踪不规则动词困难得多。虽然如此,伴随着文化的不断发展,Sasquatch还是可以被追踪到。相比而言,“尼斯湖水怪”(Loch Ness Monster)则更加让人难以捉摸,因为每200本书中才会出现一次。对于想要利用词频统计的方式寻找神秘物种的人而言,如果打算检验自己的毅力,那可以尝试去寻找“吸血怪”(Chupacabra)。我们只知道,该嗜血物种最早于1995年在波多黎各被人类发现。除此之外,一无所知。不过,我们可以告诉你:Chupacabra要比Sasquatch罕见得多——每1.5亿个词中才出现一次,或者说每1 500本书中才出现一次。一个阅读量非常大的人一生之中才有可能碰到Chupacabra一次(见图2-1),而我们这本书很可能就是Chupacabra最后一次出现的地方,珍惜这一刻吧!

图2-1大脚怪、尼斯湖水怪和吸血怪等词的出现频次

为了追踪此类不常见的词,我们需要阅读数百万本书。这就是一种大数据。如今,只有一个地方有这样的大数据。

谷歌数字图书馆之梦

2002年,谷歌开始全速发展,其创始人之一拉里·佩奇也得以有时间停下来进行思考。谷歌接下来该做什么?谷歌的使命是组织全世界的信息。而佩奇明白,书中就蕴含着丰富的信息。

佩奇在想:如果将现实世界里的实体图书馆变成虚拟世界中的数字图书馆,到底有多困难?没有人知道答案。于是,佩奇和时任谷歌产品经理的玛丽莎·梅耶尔(Marissa Mayer)决定做个试验:他们按照节拍器的节奏逐页翻完了一本300页的书,整个过程花费了40分钟。按照这一速度,全部翻完一个有700万卷藏书的图书馆需要大约500年。实不相瞒,佩奇的母校密歇根大学就有这样一个图书馆。当然,密歇根大学的藏书只是所有书籍的一部分。如果要把全世界的书都翻完,对每一页进行扫描,并将其转化成机器可读的格式,将花费1000年,甚至更久。[10]这样看来,这一想法根本不可能实现。

当然,这位29岁的亿万富翁并不这么想。他是互联网时代的巨人,而且他的公司很快就将进入世界《财富》500强的行列。他认为,对公司而言,一件个人不可能完成的事情却恰好可以作为一种商品。

密歇根大学的校长玛丽·休·科尔曼(Mary Sue Coleman)告诉佩奇,对密歇根大学里的所有藏书进行数字化需要1000年。听到科尔曼这么说,佩奇向其展示了谷歌的技术,并告诉她,谷歌只需要6年就能完成。

从那时起,谷歌便开始对世界上的书进行数字化,目的是建造一个包罗一切的图书馆,并将之存储在计算机硬盘上。

3000万本!“谷歌图书”的9年成果

在开始获取和扫描所有书之前,谷歌需要一张图书清单——记录哪些书需要获取,而哪些书已经扫描过了。于是,谷歌从数百个图书馆和公司搜集了图书目录信息,然后将这些目录合并成了一张新的图书清单,这是谷歌得到的最完整的图书清单了,上面记录着人类曾经写过的几乎每一本书。或者,更精确地说,这张清单包括了所有保留至今的书。亚历山大图书馆拥有最丰富的古籍收藏,它被焚毁时遗失的书并不算在这张清单里。最终,谷歌得到的这张图书清单包括1.3亿本书。

接下来,谷歌需要去获取和扫描这些书了。有时候,出版商可以直接送一本样书给谷歌。在这种情况下,谷歌可以“破坏性”地对书进行扫描:谷歌员工将书的装订拆开,分成单个页面逐页扫描。这项工作可以快速完成,而书则最终以图片的格式被储存在计算机里。至于其他书,谷歌会和世界各地的图书馆联系,以整个书架、整个藏书分区,甚至整个图书馆的方式进行一次性借阅。所有馆藏图书都一样,借出去的书是需要归还的,哪怕是谷歌也不希望支付过期的罚款。于是,谷歌开发了一种“非破坏性”扫描系统:仿照佩奇和梅耶尔的做法,在一些员工对书进行扫描时,另一些员工从早到晚专门负责翻书。在过去10年间,他们已经时刻不停地翻了数十亿个页面了。因此,时不时地,就会有一个拇指印出现在这些图像上。

最后,光学字符识别技术被派上了用场,它的原理是:通过计算机程序将图像中包含的字母识别出来,从而将扫描到的数字图像转化成文本。谷歌最后得到的图书文本文件,和使用文本编辑器对图书内容进行录入的结果是一样的——整本书的内容都包含于其中。

佩奇的理念最终成为了现实,谷歌数字化图书的举措取得了巨大的成功。在佩奇和梅耶尔一起翻书的10年后,也是佩奇宣布谷歌开启图书项目的9年后,谷歌完成了3000多万本书的数字化工作。

如此巨大的文本集合只有计算机才能进行分析。如果哪个人想阅读这个文本集合,按照每分钟200个词的正常速度,不吃不睡无间断地阅读,也需要两万年。

大数据透镜

看待这一大数据的一种方式是将其看作一项对于所有图书的调查。这项调查到底有多全面呢?直接来看,你可以这样想象一下,人类曾经出版过的图书总数约为1.3亿本,大致相当于美国已经注册的投票人数(1.37亿)。2012年美国总统大选的前5天,盖洛普进行民调时抽查了2 700个投票人,相当于每5 000个投票人中抽出一个。谷歌数字图书馆包括3 000多万本书,相当于每4本书中抽出1本。谷歌的调查还在继续,且最终将变得非常全面:关于人类文化的一个史无前例的调查。

与谷歌达成合作共识

我们根本无法像谷歌那样构建一个巨大的数字图书馆。因此,我们需要借助谷歌的力量。但是,怎样才能做到呢?

2007年,机会来了。埃雷兹(本书作者之一)的妻子阿维娃·艾登应邀到谷歌总部Googleplex领取一个奖项。获奖者一般都是为计算机科学作出贡献的女性。埃雷兹陪她一起去了谷歌,并设法进入了谷歌研发总监彼得·诺维格的办公室。

诺维格是人工智能领域的先驱,曾出过一本有关人工智能的教科书。他做每场报告时,众多追随者都会慕名而来。例如,2011年秋天,诺维格和另一位人工智能专家塞巴斯蒂安·特龙(Sebastian Thrun)讲授了世界上第一节大规模开放在线课程(massive open online course, MOOC)。这一由斯坦福大学主办的人工智能课程取得了巨大的成功——超过16万名学生注册了该课程,并由此开启了一场高等教育界的革命。

诺维格的交谈方式异于常人,他不喜欢多说话。或许,唯一比阅读谷歌数字图书全集更难的事情,就是“阅读”诺维格在听你说话时面无表情的脸。在听你讲了一段时间之后,他一般会说上一些或许见解深刻又或许毫不相干的话。而你由此可以看出,你的言语是否打动了他。

在听了埃雷兹一个小时的介绍之后,诺维格最后亮出了底牌。

“听上去很不错,不过,我们怎么才能在不侵犯著作者版权的情况下构建一个数字图书馆呢?”

《财富》500强法务部门的心理

当谷歌在2004年公开宣称要对世界上的所有书进行数字化时,出版业感到很不安,这一点可以理解。如果所有书都可以在网上被搜索到,那对出版商们来说,意味着什么呢?谷歌打算与公众分享哪些图书呢?即使谷歌愿意遵守《版权法》,对于任意一本书,谷歌又如何才能知道谁拥有版权呢?或许像苹果i Tunes对音乐所做的那样,谷歌打算颠覆整个出版业吗?

很快,法律诉讼蜂拥而至。2005年9月20日,代表诸多作者的美国作家协会(Authors Guild)向法院提交了一份集体诉讼。10月19日,美国出版商协会(American Associationof Publishers)也提起诉讼,它代表着包括麦格劳-希尔公司(Mc Graw-Hill)、企鹅出版社、西蒙与舒斯特出版社(Simon&Schuster)、培生教育出版集团(Pearson Education)和约翰·威立父子公司(John Wiley)等在内的大出版商。这两起诉讼都宣称,谷歌的行为是“大规模的侵权行为”。2006年,法国和德国的出版商加入了这场论战。2007年3月,谷歌的竞争者们也加入了进来。微软的一位高级律师托马斯·鲁宾(Thomas Rubin)发表了一系列精心准备的评论,来抨击谷歌的图书数字化项目。他指出,谷歌所采取的方法“系统性地侵犯了版权”,“动摇了人们进行智力创造的动力”。因此,“谷歌图书”项目迅速成为了大数据历史上最重要的法律纠纷导火索。

“谷歌图书”项目遭遇的这一系列法律纠纷是大数据后续研究所要面临的法律问题的前兆。最有趣的大数据集经常被掌握在大企业手中,譬如,谷歌、Facebook、亚马逊和Twitter。值得注意的是,数据只是被掌握在这些企业手中,而它们不一定拥有。数据通常是由一个个用户创造的,无论写书、设计网页或发布照片。这些人持有数据的所有权——这也是他们应该拥有的,因为他们是数据的创造者。而他们的所有权将以多种形式体现,例如,版权、隐私权、知识产权或者其他附属权利。数据不是公共的,但也不是私有的。相反,数据是一种数字资源,是一块“无主地”——数百万人对它感兴趣,但没有人具有完整的权威将其占有,而在法律中的地位也相对模糊。

对科学家而言,大数据是规则改变者。我们过去习惯于这样的世界:我们制造数据或者获得数据,如果有必要,我们还可以分析数据,而这些最多也只需要获得伦理方面的授权而已。但是,如果采用这种传统方法,我们前面提到的,其中一些运用大数据进行的研究将变得不合法,也不合乎伦理。在大数据的世界中,“获取所有然后对其进行分析”的概念无论在实践上还是道德上都是不可行的。那么,如果没有人愿意(哪怕他们有这个权利)共享数据,我们又该怎样利用大数据呢?诺维格的问题戳中了大数据研究的关键。

大投影,应对隐私泄漏之殇的密钥

让谷歌将全世界图书的文本内容交给我们使用是不切实际的。令我们感到幸运的是,我们无须向谷歌提出这种要求。

这要归功于大数据投下的大投影。投影是实物的影子,呈黑色,是一种视觉变换,保留着原始物体某些方面的信息。类似地,数据投影也保留着原始数据的部分信息。投影更像是一门艺术而非纯粹的科学,对于大数据而言,这一点非常关键。错误的投影在伦理上是可疑的,在法律上很棘手,而在科学上则毫无用处。然而,如果能够选择正确的角度对大数据进行投影,那么我们就有可能做到既模糊化原始数据在伦理和法律上的敏感部分,又能保留数据的很多重要功用。

如果你非常幸运,那么数据投影可能会很容易。例如,在很多情况下,一个大数据集面临的问题可能仅仅是它会暴露敏感的个人信息。如果是这样的话,我们似乎只要剔除掉与数据记录相关联的人名就足够了。但是,这种简单的情况毕竟只占少数。麻烦在于,很多大数据集包含的信息过于丰富,以至于人名信息对于标识数据记录而言都是多余的了。换句话说,数据记录本身包含着很多足以明确识别一个人的信息。在这种情况下,剔除人名信息起不了多大作用。

文化中的大数据

2006年,美国在线公司(America Online, AOL)就通过自己惨痛的经历领悟了这一点。为了能慷慨地支持科学研究,美国在线公司公开发布了超过65万个用户的搜索日志。当然,它对搜索日志进行了处理:用户的名字并没有被包含在发布的数据中,用户标识符也被替换成了一个没有任何意义的数值。美国在线公司认为,这样做就能保护用户隐私。但是,它大错特错了。

通过检查这些被公开的搜索日志,并和其他公开可获取的数据进行对照,人们有可能推断出用户的身份。《纽约时报》的记者迈克尔·巴巴罗(Michael Barbaro)和汤姆·泽勒(Tom Zeller)就做到了这一点。美国在线公司发布数据的几天后,巴巴罗和泽勒注意到,在跨度3个月的数百条用户查询中,用户“4417749”搜索过“佐治亚州利尔本市的庭园设计师”(landscapers in Lilbourn, GA),搜索过叫“阿诺德”(Arnold)这一姓氏的人。对照一下全美公共电话簿,他们发现,这个用户很可能是一位居住在利尔本市名叫特尔玛·阿诺德(Thelma Arnold)的62岁老太太。巴巴罗和泽勒联系到阿诺德女士,在为她读了一些从用户“4417749”的搜索日志中抽取出的查询信息后,阿诺德女士对美国在线公司所做的事情感到非常震惊,她说道:“我们都有隐私权,没有人可以公开他人的搜索日志。”

美国在线公司在意识到这个错误后,试图弥补。在数据发布仅仅3天后,公司就把数据从互联网上删除了,还进行了公开道歉、解雇了发布日志数据的研究人员以及主管。几周后,美国在线公司的首席技术官辞职。然而为时已晚,这些数据已经在万维网上扩散开了。虽然美国在线公司本着推动科学研究的高尚初衷发布了数据,却由于糟糕的执行而适得其反。它招致的负面影响和大量集体诉讼,也只能说是其应得的惩罚。这场灾难证明了:大数据时代下的隐私保护极其困难。对企业而言,如果出于公益的想法公开数据,那么美国在线公司就是一个前车之鉴。它从这次发布的数据中一无所获,最终只得到了代价高昂的教训。

诺维格脑海里一定清晰地记得这一点。

当然,并非只有名字会给数据带来麻烦。“谷歌图书”项目就面临着截然相反的问题。对于图书而言,唯一可以公开且不用担心法律诉讼的内容就是作者的名字,而其他内容则都是受《著作权法》保护的。

大数据的投影如何才能够帮助我们打破这个僵局呢?

大数据透镜

为了使用大数据,我们需要找出一种满足四个重要标准的投影方式:第一,数百万人共同创造了原始数据,数据投影需要能够保护这些人的权利;第二,数据投影必须是令人感兴趣的;第三,数据投影不能和数据持有公司的目的相违背;第四,产生数据投影的方法要切实可行。

美国在线公司的问题不在于它发布了用户搜索日志的数据,而在于它发布的数据投影不够模糊,极大地侵犯了数据原始创造者的权利。当工程师杰里米·金斯伯格创建“谷歌流感趋势”(Google Flu Trends)时,他也发布了源于用户搜索日志的信息。只不过,他的数据投影方式,除了流感病毒的相关信息以外,没有提及任何人。

数据投影既能够保护数据中的信息,还能让我们利用大数据开展工作。当然,从中受益的并不只有研究人员。理想的数据投影在伦理上和法律上都是无害的,因此,数据持有者更有可能被说服,然后与公众共享数据。

大数据透镜

大数据的大投影将严密保护的数据集转变成了一种强大的公共资源,任何人都可以使用,无论是科学家、人文学家、企业家,还是高校的学生。在和企业沟通时,我们喜欢把数据投影说成是一种数据形式的慈善活动:捐赠信息和捐钱一样使人受益,而且明显比捐钱更廉价。

在“谷歌图书”的投影中

为简单起见,我们可以把“谷歌图书”的原始数据看成一张包含所有图书内容的列表,其中有每本书的元信息——书名、作者的名字和出生日期、来自哪个图书馆、出版日期等。“谷歌图书”能够投下什么样的大投影呢?它有很多投影,但是并非每个投影都同等重要。

有这样一个投影,只包含每本书的书名。该投影包含大约1亿个词。不过,与“谷歌图书”的全部数据相比,它是微不足道的,也难以推动科研工作的进展。另外,这个投影还面临着一些问题:谷歌将书名视为商业秘密,因为谷歌不希望它的竞争者知道哪些书被扫描过以及哪些书没有被扫描。因此,书名不是一个好的投影。

另一个投影是所有公版书的内容。公版书是指版权已经失效的图书。这是一个非常有趣的数据集,且没有麻烦的版权问题。然而,它有两个缺点:首先,由于版权期非常长,1920年后出版的书几乎都还没有成为公版书。这意味着,20世纪大部分时间和21世纪早期这段时间出版的书并不算公版书,但它们却是使“谷歌图书”成为史无前例的大数据的主力。其次,之前的《著作权法》常常使一些图书的版权状况模糊不清,所以影响了“谷歌图书”中的很大一部分。谷歌并不十分明确哪些图书应该被列为公版书,因此这样的数据投影非常难以创建。

对此,诺维格有什么建议吗?

此时,我们想起了凯伦·赖默的《传奇、词汇、唠叨的爱》。如果迅速翻阅赖默的书,你就会有这样一种体验:词的出现频次能够揭示出书的思想和作者的寓意。如果我们关注的对象从一本书变成了西方文明的历史记录,而记录者就变成了我们每个人,那么赖默采用的这种方式无疑将非常有趣。

对于赖默这本将词按照字母顺序排列的小说,我们思考得越深入,就越觉得这种写作方式似乎暗示着一种投影方式——这种方式既非常简单,又十分优美。那么,我们为什么不在“谷歌图书”项目中采用同样的方式?

更确切地说,我们可以创建这样一个数据投影集,为书中出现的每个英语单词和每条短语单独建立一条记录。在计算机科学中,这些单词和短语有一个优雅的名字:n元词组(n-gram)。譬如,“3.14159”是一元词组,“bananasplit”是二元词组,而“the United Statesof America”是五元词组。每个单词和每条短语所对应的记录是一个长长的数字列表,列表中的数字表示该n元词组在书中出现的次数,逐年排列,一直可以追溯到5个世纪前。这个数据投影方式不仅非常有趣,而且在法律上也很安全。因为赖默可从来没有因为出版了某本书的字母排序版而受到控告。

不过,这样的数据投影仍然面临着一种危险:倘若黑客能够根据单词和短语的出现频次重新构建所有书的内容,该怎么办?从这些零碎的、彼此重叠的文本片段中组织出一大段文本,似乎并非不可能。实际上,类似的方法早已被科学家们用于现代基因序列测序中——使用这样的方法,科学家们可以从细胞中读取其DNA。

为了解决该问题,我们需要借助于这样一个统计方式:在读任何一本书时,你都可能会碰到唯一的表达形式(You don’t have to go far in any given book to bump into a unique formulation)。例如,我们刚才写的这句话很可能就是唯一包含短语“bump into a unique formulation”的句子,或者说,在我们写出这句话时确实如此。于是,我们对前面的数据投影进行了一个简单的修正:出现频次较少的单词和短语不包含于其中。由于这个修正,根据前述数据投影重新构建出图书全文在数学意义上就不可能实现了。

最终得到的n元词组数据投影看上去已经令人非常满意了。首先,版权保护问题不再存在(投影方式的标准一)。从我们对不规则动词的介绍以及赖默的小说可以看出,仅仅追踪单个词的出现频次便可以得出很多有价值的见解(投影方式的标准二)。这样的数据投影方式提供了对概念进行搜索的一种强大的新方式,对于基于搜索的公司而言很有吸引力(投影方式的标准三)。在计算机科学中,对单词进行计数可能是最简单的问题了(投影方式的标准四)。

当然,如果我们仅局限于n元词组数据,那么单词就将脱离上下文,变得莫名其妙。如此一来,若是某人在书中写到“伊莱亚·卡赞”(Elia Kazan)时,单凭书中提到的“红色恐怖”(Red Scare),我们根本无法知悉作者是在说伊莱亚·卡赞是一位伟大的导演,还是在说他背叛过朋友。然而,这不是缺点,而是优点:正是上下文使得数据在法律上非常敏感。正是由于缺少了上下文,我们才可以断定,这一数据投影以及基于数据投影开发的工具,不仅可以在我们两人之间共享、在研究人员之间共享,而且还可以在全世界共享。我们的数据投影恰到好处:这是在不违背法律原则的情况下所能得到的最有价值的数据投影了。

n元词组就是我们的答案。诺维格一分钟内就想出了这个想法,并认为这值得一试。他帮助我们组建了团队:谷歌工程师乔恩·奥沃顿(Jon Orwant)和马特·格雷(Matt Gray),还有我们的一个实习生沈渊(Yuan Shen,音译)。

突然间,我们能够访问历史上最大的单词集了。

自由词的领导者

语言由单词组成。然而,什么是单词呢?

这是一个重要的问题。我们以政治人物为例来加以说明。在美国前总统小布什的整个政治生涯中,他时不时地就会在语言上发挥创意,譬如,在单词underestimated(低估)前面加上前缀“mis-”之类的做法。小布什的这类做法使其经常成为美国人茶余饭后的笑柄和晚间电视节目的调侃对象。政治人物的语言非常讲究,像拼写不规范之类的微小细节都可能让他们陷入舆论的洪流。在美国前副总统丹·奎尔(Dan Quayle)的回忆录中,他描述过这样一段经历,他曾经将potato(土豆)拼成了potatoe。他说那“不仅仅是一种失态,而是一种最难以想象的尴尬”。曾作为美国共和党副总统候选人的萨拉·佩林(Sarah Palin)也曾因在Twitter中使用了单词refudiated(拒绝,正确写法为repudiated),而被公众嘲讽。她说,和其他政治人物一样,她遭遇了双重标准。随后,她在Twitter上发推文说:“英语是一种活的语言。莎士比亚也喜欢创造新词儿。”

萨拉是对的。莎士比亚的戏剧中的确充满了新词儿。实际上,和小布什一样,莎士比亚是一个保守主义者和“前缀”自由主义者。就像小布什使用前缀“mis-”造出单词misunderestimate一样,莎士比亚也经常以这样的方式创造新词。但是,和小布什不同,莎士比亚不仅未受到嘲讽和指责,还随着他创造出的新词被广泛采用而给后人留下了丰厚的词汇遗产。例如,他使用前缀“lack-”(缺少)创造了新词lack-beard(无胡须的)、lack-brain(没头脑的)、lack-love(缺乏爱的)和lack-luster(没光泽的),等等。和政治人物相比,大多数诗人更喜欢灵活的词语使用方式。英国作家刘易斯·卡罗尔(Lewis Carroll)的诗歌《炸脖龙》(Jabberwocky)中的大部分词汇都是卡罗尔自创的。如果他知道这些词中有多少后来被今天的英语所采用,那么一定会得意地chortle——笑出声来,卡罗尔的自创词(见图2-2)。

图2-2刘易斯·卡罗尔自创的一些词

那么,哪些词是可以用的,而哪些词会让我们成为被调侃的对象呢?

是词?非词?

词典编纂者,词典的作者、公益体力劳动者……

——塞缪尔·约翰逊,《英语词典》,1755年

至少从理论上讲,词典可以解决哪些是单词而哪些不是的问题。毕竟,词典收集了官方认可了的单词,还收录了其对应的语义。很多词典都是被人们作为参考工具使用的。譬如,《美国传统词典》(American Heritage&nbsp;Dictionary),该词典的第4版收录了11.6万个单词。[11]而有些词典更全面,比如《牛津英语词典》多达23卷,1928年出版第一版,而最新的版本中收录了44.6万个单词。如果你想知道哪些单词是比较官方的,那词典绝对是你的首选。词典里出现的,就是;词典里没有出现的,就不是。

即便如此,我们还是很困惑。那些词典编纂者是怎么知道哪些词应该被收录在词典里的呢?

对于此,人们通常持有两种观点。

第一种观点基于的理论是:词典编纂者的工作是指令式的。他们能掌管哪些词可以出现在语言和词典中,确定哪些词是合法的,哪些词是非法的。这就是西奥多·罗斯福总统对词典编纂方式的偏激看法。1906年,他下令让美国政府印刷局(Government Printing Office)采用一种彻底简化的拼写方式。例如,将“I have answered your grotesque telephone”简化为“I hav anserd yur grotesk telefone”。该命令未能得到美国国会的认可。原来的拼写方式最终保留不变。这种将词典编纂行为视为指令式工作的观点,如今在法国仍然处于主导地位——法国政府经常会发布官方文件,通告正确的单词使用方式和拼写方式。2013年1月,法国《政府公告报》(Journal Offciel)推荐使用mot-dièse替代。当然,Twitter空间(Twitterverse)中人们用大量的“ROFL”来对此进行回应。[12]2指令式工作所面临的问题是:没有人在切实掌管语言,实际上也不应该有人掌管语言。语言凌驾于任何政府、伦理和国籍之上。

第二种观点认为,词典编纂者的工作不是指令式的——告诉我们该做什么,而是描述式的——描述我们目前在做什么。这种观点在今天被视为主流,特别是在美国。按照这种观点,词典编纂者不是独裁者,而是探索者。词典是他们探索出的描述世界的一幅地图。

不过,这种观点也存在一个问题。如果词典编纂者决定哪些是单词的行为不是指令式的,那么他们就有可能在确定哪些是单词方面犯错。如此一来,我们又在多大程度上可以信任词典呢?

毕竟,词典编纂者也是普通人。没错,他们可能会比大街上的普通人对词汇用法的细微差别更感兴趣。但是,在判断哪些单词应该被包含在词典里时,词典编纂者所做的事情和我们普通人所做的别无二致。他们去听人们在说什么,进行大量阅读,并尽可能地从中发现某种用词趋势:人们在用哪些新词?哪些词人们不再用了?在其他词典中出现了哪些条目?

一旦形成个人印象并识别出了某个候选单词,词典编纂者就会开始判断这个候选词是不是真正的单词。我们认识一位词典编纂者,他在进行判断时常会采用这样的标准:是否能够在互不相关的文章中找出候选词的4个样本。词典编纂团队之间达成一致是可取的,不过对于专业术语,譬如石墨烯(graphene),可能还是交给物理学领域的专家来判定比较好。词典编纂不是一项科学工作,而是一项历史悠久的艺术工作。

以《美国传统词典》为例,它的第4版于2000年出版,距离第3版已有8年。在这8年间,一些新词被人们使用得十分频繁。《美国传统词典》的编辑们尽可能地搜集这些词,并记录下来。他们的胜利果实包括:交磁放大机(amplidyne)——一种发电机,法国蔬菜沙拉(mesclun)——一种沙拉,网络礼节(netiquette)——互联网上的礼节,植物营养素(phytonutrient)——使植物产生颜色/气味的化学物质。那么,他们的工作成果到底怎么样呢?

如图2-3所示,《美国传统词典》编纂者们的工作最多只能说是好坏参半。在有些情况下,像mesclun和netiquette,这些词他们仅仅是收录得晚了一些。如果纯粹基于词的出现频次,那么这两个词在1992年就应该被收录其中。而amplidyne早已经过时了。实际上,amplidyne的出现频次的高峰期是20世纪中期。虽然已经尽了最大努力,但是词典编纂者们还是很难及时地发现新词,甚至可能会滞后几十年。

我们意识到,对词典编纂者而言,点击一下鼠标就能阅读数十亿个句子简直是天赐良机,至少在识别单词方面是这样的。

图2-3《美国传统词典》编纂者们的工作成果

自己动手编词典

我们决定创建一部我们自己的描述式词典,它包含当代英语中出现的所有词汇。我们的想法很简单:如果一个字符串在当代英语文本中出现得非常频繁,它就算得上是一个词。那么,怎样才算非常频繁呢?一个很自然的选择是将词典中最不常见的词所出现的频次作为阈值,大约是英文文本中每10亿个词中出现一次的词。[13]于是,我们对“什么是单词”的回答是这样的:

一个英语单词是一个一元词组。平均而言,在英文文本中,每10亿个词中该一元词组至少会出现一次。

这明显不是单词的完美定义。英文文本中包含嵌在英文段落中的西班牙语单词吗?文本要求是最近的吗?文本要节选自书中吗?从演讲转换而来的文本可以算吗?互联网上的文本呢?像excesss这样的常见拼写错误是单词吗?像l8r这样部分是数字的字符串可以作为单词吗?为什么像“strawman”这样的二元词组称不上是单词呢?

尽管有如此多的缺点,但是我们提出的这个单词定义实际上还是非常精确的。有了这样一个精确的定义,再加上足够多的参考文本和一些计算机,我们就可以编纂出一部客观的英语词典了。从这一点上讲,我们的定义好于人们采用的大部分高度主观性的定义。

我们希望,这部新的“齐夫式词典”能够代表英语的当代用法,因此我们没有借鉴所有图书,而是从整个数据集中抽取了一系列长度为10年的截面数据——1990—2000年间出版的所有图书。这个图书集包括超过500亿个一元词组。根据我们选择单词的标准——在10亿个词中一元词组至少会出现一次,能够作为单词的一元词组至少需要在这个图书集中出现50次。最终得到的单词列表涵盖了1489337个单词,包括unhealthiness、6.24、psychopathy和Augustean等(见图2-4)。

图2-4“齐夫式词典”的工作成果

我们的“齐夫式词典”是一个很方便的参考工具。如果一个词没有出现在我们的单词列表中,那就意味着它的出现频次比已出版的词典里出现频次最低的词更低。因此,我们不将其视为单词也在情理之中。如果一个词出现在这个列表中,则意味着它出现得非常频繁,使其能够出现在已出版的词典中。而如果这个词没有在已出版的词典中出现,那么我们就需要问问为什么了。

这就是拥有一部客观词典的有趣之处。多年以来,无论是在学校还是在玩拼字游戏时,我们都将已出版的词典作为标准。而现在情况完全不同了,凭借客观词典这样一种评估词汇的独立方式,我们就可以测试词典的准确性,并进而考核词典编纂者了。数世纪以来,考核词典编纂者的人一直存在。但是,只有拥有了n元词组,我们才能真正成为词典编纂学家——研究词典编纂工作和词典编纂者的人。

接下来,我们要问一个词典编纂学中最根本的问题:已出版的词典包括了我们这个“齐夫式词典”中的多少个单词呢?

答案是,少得令人吃惊!最全面的英语词典——《牛津英语词典》只囊括了不到50万个单词。它的词汇量大约是我们单词列表的1/3。与之相比,其他词典的词汇量则更小。

怎么会这样?难道词典编纂者真的没有意识到语言发生了哪些变化?

词汇暗物质

我们的论证结果给出的似乎有些草率,因为大部分已出版的词典原本就没有声称要包含所有的英语单词。事实上,很多词典还会根据一些原则仔细地剔除掉某些类型的词汇,而不管它们出现得多么频繁,包括:

(1)不全由英文字母组成的词,像3.14和l8r。

(2)复合词,像whalewatching。

(3)拼写不规范的词,像untill。

(4)难以定义语义的词,像AAAAAAARGH。

正因如此,和已出版的词典比较谁收录的词汇更多是不公平的,因为那些词典原本就没有打算包含某些词。为了直观地认识已出版的词典原本没打算遗漏却遗漏的词汇量,我们估计了我们的词表中有多少比例的词属于上述4个类别。

去除上述4类词之后,我们的词汇表所包含的词汇量从接近150万降到了100万多一点。我们的词典所收录的单词仍然比《牛津英语词典》收录单词的两倍还要多!也就是说,最全面的英语词典也遗漏了很多词。这些未被收录的单词包括丰富的概念,例如,aridification(干旱化:一个地区变得干旱的过程)、slenthem(一种乐器)和deletable(可删除的)(见图2-5)。

那么,是什么让已出版的词典栽了跟头呢?

图2-5《牛津英语词典》未收录的3个单词

文化中的大数据

事实表明,词典收录了大部分的高频词。在收录每100万个词中出现过一次的词方面,像dynamite,词典编纂者的表现堪称完美——收录率为100%。如果一个词平均在10本书中出现过至少一次,那词典就会记录下它,并对其进行解释,譬如clockwork。

然而,在收录那些不常见的词方面,词典编纂者们的表现就差强人意了。当一个词的出现频次低于每100万个词中出现一次时,它被词典编纂者忽略的可能性就会飙升。对于每10亿个词中出现一次的词,只有1/4的可能性会出现在词典中。

如果一定要记住一点儿有关齐夫的工作成果的话,那就是:大部分词都是不常见的。因此,如果词典会遗漏不常见的词,那么它就遗漏了大部分词,仅此而已。

结果,英语中52%的词,也就是书中出现的大部分词变成了词汇暗物质(lexical dark matter)。和构成宇宙绝大部分的暗物质一样,词汇暗物质构成了语言的绝大部分,却被标准的参考工具所遗漏了。[14]

随着传统词典编纂方式的弊端日益凸显,这个领域开始寻求改变。进入这个领域的新来者,例如,wordnik.com、wiktionary.com和urbandictionary.com等,依靠客观词典编纂方式试图构建更全面的在线词典。实际上,它们在尝试使用众包的方式记录词汇暗物质。像《牛津英语词典》这样的词典也开始寄希望于用大数据改善词典编纂效果。为了使词典中的条目跟得上时代发展的速度,他们开始使用数据驱动的词典编纂方式作为传统编纂方式的补充。

对于词典编纂而言,上述发展趋势无疑是一个好消息。尽管如此,经过了数个世纪的努力,词典编纂的大部分工作仍没有完成。

总的来说,英语还是一块未经开发的处女地。

语言不是在变化,而是在生长

新词总是能够让人兴奋。美国方言协会(American Dialect Society)每年都会举行一次会议以纪念所有新词。协会成员会经过投票产生一些榜单,例如,“年度词汇”、“最离谱的词”、“最不可能成功的词”,等等。我们编纂的“齐夫式词典”收录的一个词culturomics就在2010年进入了“最不可能成功的词”这一榜单里。1991年以来,年度词汇包括cyber(1994年)、e-(1998年)、metrosexual(2003年)以及最近的hashtag(法国政府将其读作mot-dièse)等。美国方言协会编纂的这些词汇列表说明,语言一直在欢迎和庆祝新生词汇的诞生。

但是,在词汇生命周期的另一端,却没有类似的活动。似乎没有人想要为“死去”的词汇举行葬礼。因此,我们很难说清楚,词汇的出生率是否超过了死亡率——英语是在扩张、收缩,还是一成不变?

为了弄清楚这个问题,我们编纂了另外两部基于词频的词典。在编纂第一部这样的词典时,我们使用了1990—2000年间出版的书,得到了一部当代英语词典。这一次,我们更为关注以下两个历史时期:1900年之前的时期和1950年之前的时期。

我们发现,到1900年时,我们的词典中已经包含了超过55万个词,比今天的《牛津英语词典》中收录的单词还要多。在接下来的50年内,似乎没有发生多少变化,语言规模保持着稳定。生日和葬礼保持着相当的数目。

但是,1950—2000年间,英语进入了一个生长期,规模扩大了近一倍,新增了几十万个新词(见图2-6)。新生词汇在数量上大大超过了“死去”的词汇量。目前,每年英语中出现的新词汇大约为8400个,也就是说,每天有20多个新词诞生。

图2-6“齐夫式词典”的词汇量

英语不只发生着变化,而且还在生长。

为什么会这样呢?和幂率分布的成因类似,没有人知道真正的原因。于是,各种猜测开始盛行。有人认为,社会中人和人之间的联系变得越来越紧密了——世界变得越来越小了,两个人之间的距离仅相隔一根电话线或一次飞机旅行,新词也因而不断涌现。还有人认为,科学、医学和技术的进步将各行业的词汇带入了公众视野,成为新生词汇。还有另外一种可能,就是本书所说的多元化,这也是我们基于词的出现频次构建“齐夫式词典”的基础。20世纪后半期,社会各界开始出版图书,书的作者围绕众多话题广泛地使用方言进行创作,从而将更多的词带到了我们的讨论范畴内。

事实上,就这一问题而言,没有人确切地知道答案。由于我们不知道语言的生长原动力来自何处,也就很难猜测它最终会走向哪里。新生词汇会逐年增加吗?词典收录词汇的上限是多少?下一代的语言和我们这一代的语言会有多大不同?

大数据透镜

大数据的视角照亮了我们的语言,也照亮了通往新的科学高地的路。在那条路上,哪怕是大脚怪也将无处藏身。

我们使用的词汇能比我们的语言讲述更多的故事。词汇是一扇使知识照亮我们思想、习俗和整个社会的窗。

那么,我们就将注意力从沟通机制上移开,然后转向我们的思想吧!

老爸,保姆来自哪里?

20世纪中期,让保姆照看婴儿被认为是一个好主意。因此,人们对“婴儿”(baby)和“保姆”(sitter)这两个词越来越感兴趣,它们在一起的时间也就开始多了起来,故而baby sitter逐渐频繁地出现在人们的话语和文章中。

很快,人们开始用一个连字符将baby和sitter两个词连在一起,于是就有了baby-sitter。随着baby和sitter的关系越来越亲密,baby-sitter出现得也越来越频繁,最终取代了baby sitter(见图2-7)。

图2-7 babysitter的由来

后来,baby和sitter“认识”到,它们是天造地设的一对。于是,它们便结合了,并“孕育”了一个孩子babysitter。亲爱的孩子,这就是你的父母让我来照看你的原因。我就是babysitter。