1981年,在我九岁的时候,父亲带我去看了《夺宝奇兵》,虽然看到一些可怕的场景的时候我会不由得眯起眼睛,但我还是很喜欢这部电影——因为我相当确定哈里森·福特扮演的角色(印第安纳·琼斯)原型是我爸爸。我父亲是芝加哥大学的古生物学家,我和他一起去过几次洛基山脉进行实地考察,山上的他似乎变成了一个挥舞着铁锤的超级英雄。
作者的父亲,在野外的Jack Sepkoski。所有图片由作者提供。
不过在几年之后这种错觉就破碎了,在我发现了他其实真正在做什么的时候:和花费时间攀爬危险的峭壁和挖掘恐龙化石不同,Jack Sepkoski职业生涯的大部分时间都坐在电脑前,忙着建造会成为第一个生命化石记录的综合数据库。他和同事所进行的分析促进了人们对物种多样化和灭绝等现象的新认识,并改变了古生物学家的工作方式。但他和印第安纳·琼斯几乎是天壤之别。我父亲和他的学科之间交织的故事,包含了当前的算法分析和人工智能(AI)时代的经验教训,并指出了我们“看待”数据的充满价值的方式。
我的父亲是古生物学创新者团体的一员,他们被认定为“古生物生物学家”——这意味着他们的科学研究并不是作为地质学的一个分支,而是作为一门研究过去生命的生物学和进化的学科。自查尔斯·达尔文时代以来,古生物学——尤其是对海洋无脊椎动物的研究——涉及到描述性的任务,比如将化石与地球的地层(被称为地层学)进行分类或关联。一些无脊椎动物古生物学家也研究进化,但他们的这些研究通常被进化生物学家和遗传学家视为“集邮”。
使用计算机来分析大数据集改变了这一形象,特别是因为它使得古生物学家,如我父亲和他在芝加哥大学的同事大卫·劳普,能够揭示在生命长河中只在很长时间尺度上出现的模式。他们的标志性贡献之一就是发现了在地球历史上,生命经历了至少五次重大灾难性的物种大灭绝(这就是为什么现在许多人把目前的生物多样性称为“第六次大灭绝”)。
在上世纪80年代中期,一场始于小型反传统运动的运动取得了相当惊人的成功。一个印证时刻在1984年来了,当英国遗传学家约翰•梅纳德•史密斯——臭名昭著地怀疑古生物学对进化分析的价值——在1984年《自然》发表了一篇论文,论文中邀请古生物学家到进化生物学的“贵宾席”上(指在牛津和剑桥大学的餐厅里研究员和教授坐在升高了的平台上)。
大灭绝的图表。
我父亲开创的分析、数据驱动的古生物学现在已经成为一种家庭手工业。就像基因组学使用算法来自动化数据分析一样,威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的一组研究人员最近宣布了一个名为“古深度潜水”(PaleoDeepDive)的项目,这是一个“统计机器阅读和学习系统,可以自动地从科学文献中找到和提取出现的化石数据”。古生物学的成功与计算机和互联网的出现并驾齐驱,似乎是科技对科学的决定性影响的一个明显例子。
然而,实际情况要更复杂一些。事实上我父亲和他的同事们并没有“发明”使用数据分析生命历史的方法,早在计算机出现之前,在19世纪30年代和40年代,这种方法就已经引入到这门学科了,那时候古生物学还是一个全新的学科。
19世纪德国古生物学家海因里希·格奥尔格·布隆(Heinrich Georg Bronn)是最早利用数据探索生命历史的科学家之一。在Bronn的一生中,他是欧洲最杰出的自然学家之一;他死后的名声与他作为达尔文《物种起源》(1859年)的首批译者之一的身份有关。但Bronn工作的一个有趣特点是他把生命的历史看作是数据的历史。就像古生物学家今天所做的那样,他煞费苦心地积累了一些类似于一个巨大的、纸质的化石群“数据库”的东西,这使他能够随着时间的推移对种群进行定量分析。他发现,从数据上看,生命的历史揭示了一种巨大的动态演替模式:随着一些生物群体的上升和壮大,另一些则明显以一种协调一致的方式走向灭绝。
Bronn通过数百页的数据表和统计摘要整理自己的理论证据,提出了自己的理论观点。19世纪早期的其他几位博物学家还在探索分类学的数值方法时,Bronn比任何人都走得更远,并把它作为古生物学的一种新方法加以推广。除了他的统计表,Bronn还以现在被称为“主轴图”的形式提出了他创新的数据可视化形式。这些描述了一个更高的分类学单位(比如一个科)的多样性变化,一条线的厚度随其所包含的物种或属的数量而变化。
Bronn的图。
如果这一方法是如此古老的话,那为什么古生物学家被长期视为“集邮者”,而现代古生物学则被视为是“革命性的”?电脑确实在这个故事中扮演了重要的角色,但它其实并不像乍看起来那样具有决定性。虽然Bronn和其他人在整个19世纪都提倡一种分析方法,但这种方法在当时并没有流行起来。一些古生物学家反对基于一个非常零碎的记录(无可否认,在当时确实非常零碎)做出跨度大的理论论断;另一些人则拒绝采用数据驱动的方法,因为它的结果经常与达尔文关于渐进的、不间断的进化发展的预期相冲突(相反,它的结果指出了生命发展中不规则的节奏)。
但是现代古生物学在Bronn和其他人失败的地方取得了成功,原因有二。首先,到20世纪70年代,一些生物学家——尤其是斯蒂芬·杰伊·古尔德(Stephen Jay Gould)等古生物学家——更愿意挑战达尔文的渐进进化假设。古尔德(他是我父亲在哈佛大学毕业时的导师)提出了一种“间断平衡”理论——一种观点认为血统可以几乎没有变化地持续很长一段时间,然后被快速进化的时期所打断。同样地,我父亲和其他人记录的物种大灭绝促使达尔文主义信念的修正:即在整个地质历史中,生命的多样性基本上是稳定的。
其次,更广泛地说,文化已经发生了巨大的变化。计算机已经允许比笔和纸更快更强大的统计分析,但更根本的是,它们改变了我们“看”数据的方式。在19世纪早期,像Bronn(或其他视觉化形式,如线形图)这样的图形相对来说比较新颖,而且它们还没有普及开来,然而,在我们这个时代,理解大型复杂现象的最佳方式通常是通过计算机“处理”数字,并将结果以可视化的摘要形式呈现出来。
这不是一件坏事,但它带来了一些挑战。在许多科学领域,从遗传学到经济学再到古生物学,一种隐含的信任被置于图像和产生这些图像的算法中。通常观众几乎不知道它们是如何构造的。计算机的复杂性使数据分析成为一个人类难以窥探的黑盒子。与此同时,像我爸爸这样的电脑奇兵也获得了一种新的文化地位——虽然不像印第安纳琼斯那样,但他们仍然拥有一种我们大多数人都无法企及的力量和权威。
随着机器学习和人工智能的不断进步,即使是那些权威人士有时也对他们的算法的工作原理感到困惑。的确,许多古生物学家担心,更传统的方法——深入了解过去的生物或环境——已经被数据处理带来的简单结果和快速发表的诱惑所取代。对于这一科学学科来说,风险似乎相当低,但在分子基因组学和谷歌分析的时代,对我们其他人来说,这是再高不过的了。
——David Sepkoski
品牌、内容合作请点这里:寻求合作 ››
想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:
下载APP
关注微信号
扫一扫下载APP
与资深行业研究员/经济学家互动交流让您成为更懂趋势的人
违法和不良信息举报电话:400-068-7188 举报邮箱:service@qianzhan.com 在线反馈/投诉 中国互联网联合辟谣平台
Copyright © 1998-2025 深圳前瞻资讯股份有限公司 All rights reserved. 粤ICP备11021828号-2 增值电信业务经营许可证:粤B2-20130734