大數(shù)據(jù)揭示地球生命演化的奧秘

來源:北京日?qǐng)?bào)

科技部高技術(shù)研究發(fā)展中心日前發(fā)布“2020年度中國(guó)科學(xué)十大進(jìn)展”,其中一項(xiàng)進(jìn)展是,南京大學(xué)沈樹忠、樊雋軒團(tuán)隊(duì)聯(lián)合國(guó)內(nèi)外專家創(chuàng)建國(guó)際大型數(shù)據(jù)庫(kù),自主研發(fā)人工智能算法,利用“天河二號(hào)”超算取得突破,獲得了全球第一條高精度的古生代3億多年的海洋生物多樣演化曲線,時(shí)間分辨率較國(guó)際同類研究提高400多倍。

生命起源與演化是自然科學(xué)領(lǐng)域的十大科學(xué)問題之一。地球生命從最早的單細(xì)胞生命,到紛繁復(fù)雜、高度多樣化的現(xiàn)今生命世界,中間經(jīng)歷了復(fù)雜的甚至可以稱之為波瀾壯闊的演化過程。本報(bào)約請(qǐng)樊雋軒教授撰文向讀者解讀該項(xiàng)研究的科學(xué)內(nèi)容。

早先化石古生物數(shù)據(jù)庫(kù)識(shí)別出五大滅絕事件

2011年國(guó)際著名學(xué)術(shù)期刊《自然》報(bào)道,根據(jù)科學(xué)家的估算,現(xiàn)今地球上一共有870萬種生物物種。地球已經(jīng)有46億年的歷史,其中最早的地球生命出現(xiàn)在38億年前。在這漫長(zhǎng)的生命歷史中,不斷有物種消失,以及新的生命類型的出現(xiàn)。那么,在整個(gè)地球歷史中,一共存在過多少物種呢?根據(jù)科學(xué)家的估算,這個(gè)數(shù)字是40億!也就是說,如果要恢復(fù)生命演化的全部歷史,我們就必須對(duì)所有現(xiàn)生的以及已經(jīng)消失的物種進(jìn)行全面的統(tǒng)計(jì)。對(duì)于這些已經(jīng)消失的物種,只能通過它們留下來的化石記錄來進(jìn)行統(tǒng)計(jì)分析。比如三葉蟲最后的化石記錄發(fā)現(xiàn)于二疊紀(jì)末的沉積巖里,因此科學(xué)家就可以推測(cè),三葉蟲最終消失的時(shí)間是在2.5億年前。

對(duì)化石記錄開展的研究已有數(shù)百年歷史,地質(zhì)學(xué)家和古生物學(xué)家已經(jīng)積累了海量的化石記錄信息。對(duì)這樣龐大的數(shù)據(jù)進(jìn)行準(zhǔn)確、可靠的分析,就必須利用大數(shù)據(jù)的手段。

上世紀(jì)70到80年代,美國(guó)芝加哥大學(xué)的演化古生物學(xué)家杰克·塞普柯普斯基教授,耗費(fèi)十多年時(shí)間,收集了北美、歐洲等地的化石記錄,構(gòu)建了第一個(gè)較為完整的古生物數(shù)據(jù)庫(kù)。這個(gè)數(shù)據(jù)庫(kù)里,只有化石的分類名稱,以及該種化石出現(xiàn)的時(shí)間以及消失的時(shí)間,雖然信息很簡(jiǎn)單,但是已經(jīng)可以用來統(tǒng)計(jì)各個(gè)時(shí)段有多少種化石生物了。

地球歷史很長(zhǎng),以億年計(jì)。塞普柯普斯基的這項(xiàng)研究,時(shí)間精度或者說時(shí)間單位只能做到以千萬年計(jì),也就是說只能統(tǒng)計(jì)到每一千萬年地球上生活過多少種生物。通過這個(gè)方法,他識(shí)別出過去6億年的地球生物多樣的變化規(guī)律。這就相當(dāng)于人類五千年歷史中,統(tǒng)計(jì)出了每一百年的人口變化。在這個(gè)生物多樣變化曲線上,他識(shí)別出了五次顯著的生物類群數(shù)目快速下降的事件,他稱之為五大滅絕事件,代表了地球歷史上最為重要的五次生命災(zāi)難。這項(xiàng)研究被譽(yù)為20世紀(jì)后半葉地球科學(xué)領(lǐng)域最為重要的發(fā)現(xiàn)之一。

后來的學(xué)者覺得這個(gè)數(shù)據(jù)庫(kù)太簡(jiǎn)單,有必要建立一個(gè)更為龐大的數(shù)據(jù)庫(kù),收錄種類更豐富的信息,不僅可以重新檢驗(yàn)上述結(jié)果,還可以進(jìn)一步揭示生命演化的機(jī)理、機(jī)制及其與地球環(huán)境變遷間的關(guān)系等。1998年,在美國(guó)國(guó)家自然科學(xué)基金委的支持下,一批美國(guó)與歐洲的古生物學(xué)家聯(lián)合,發(fā)起了一個(gè)大型的古生物網(wǎng)絡(luò)數(shù)據(jù)庫(kù)項(xiàng)目。這個(gè)數(shù)據(jù)庫(kù)的結(jié)構(gòu)要復(fù)雜得多,不僅包含了上述化石的名稱以及出現(xiàn)和消失的時(shí)間信息,還包括了產(chǎn)出化石的巖石信息、化石生物的地理位置信息、化石生物的生活狀態(tài)信息等。利用這些數(shù)據(jù),這些科學(xué)家在2008年重新計(jì)算了過去6億年的地球生物多樣曲線,時(shí)間精度與上述曲線類似,也是一千萬年。這一新曲線與塞普柯普斯基的曲線相比,既有相似的地方,但也存在一些不同的地方。這兩條曲線,究竟哪條曲線更準(zhǔn)確呢?如果我們重新回顧一下這兩項(xiàng)研究,可以發(fā)現(xiàn)他們統(tǒng)計(jì)生物數(shù)目的時(shí)候時(shí)間單位是以千萬年計(jì),這個(gè)精度是很粗糙的,因此容易帶入一些因?yàn)闀r(shí)間不準(zhǔn)確導(dǎo)致的偏差。

數(shù)據(jù)、算法和算力創(chuàng)新

推動(dòng)古生物時(shí)間分辨率大大提高

為了獲得更加全面、可靠的古生物多樣曲線,需要實(shí)現(xiàn)三方面的突破,一是需要更加準(zhǔn)確的海量化石記錄,也就是古生物大數(shù)據(jù)的支撐;二是需要研發(fā)全新的算法,實(shí)現(xiàn)數(shù)據(jù)的有效計(jì)算與分析;三是需要強(qiáng)大的算力,從而可以在有限的時(shí)間里,比如數(shù)周內(nèi)完成計(jì)算與分析。

南京大學(xué)沈樹忠、樊雋軒團(tuán)隊(duì)聯(lián)合國(guó)內(nèi)外專家開發(fā)了一個(gè)全新的國(guó)際大數(shù)據(jù)臺(tái),可以實(shí)現(xiàn)全球古生物資料的高效數(shù)字化、集成、管理與應(yīng)用。并組建了一個(gè)國(guó)際一流的數(shù)字化隊(duì)伍,耗費(fèi)數(shù)年時(shí)間將中國(guó)85%以上的化石記錄都收集起來,并開放給全球的同行使用。

在算法方面,傳統(tǒng)的定量統(tǒng)計(jì)方法不再適用??茖W(xué)家團(tuán)隊(duì)嘗試與信息科學(xué)相結(jié)合,研發(fā)全新的算法。在古生物學(xué)領(lǐng)域有一個(gè)重要的基本概念,即化石的保存和采樣概率。前者指古代生物有多大的概率變成化石,后者指化石有多大的概率被我們發(fā)掘出來。比如,某片森林里曾經(jīng)生活過幾只松鼠,當(dāng)它們死后,未必都能被埋到土里成為化石。因?yàn)橛锌赡鼙缓偟鹱吡?,也可能被?xì)菌分解破壞了。就算埋到土里成為化石,也未必能被古生物學(xué)家所發(fā)現(xiàn),因?yàn)楣派飳W(xué)家不可能把整個(gè)森林都挖開去找尋每一個(gè)化石。

正因?yàn)榛嬖诒4婧筒蓸痈怕?,所以在各個(gè)化石挖掘點(diǎn)找到的化石出現(xiàn)和消失的時(shí)間就有可能存在問題,這就導(dǎo)致化石的出現(xiàn)或消失的先后順序可能會(huì)顛倒。舉個(gè)例子,比如李白出生在公元701年,杜甫出生在公元712年,李白的出生比杜甫早了11年,但是,假設(shè)史書中的記錄有偏差,缺了李白的一些編年史記錄,導(dǎo)致關(guān)于李白的最早記錄是公元713年,那么后人在整理資料時(shí)就會(huì)以為杜甫的出生比李白早一年。如果將每個(gè)化石挖掘點(diǎn)找到的化石記錄看作是一本化石編年史,每本編年史都是不完整的,有的記錄了李白出生更早,有的則是杜甫更早。假設(shè)李白應(yīng)該比杜甫更早,然后看看有多少本書里的記錄與之不符,每一次不符記為1,其總和就代表了“李白早于杜甫”這一假設(shè)與實(shí)際記錄的不吻合程度。假設(shè)有100種化石,對(duì)每?jī)煞N化石的先后順序都進(jìn)行這樣的假設(shè)和比較,最后就可以得到這100種化石的一個(gè)假設(shè)的順序以及對(duì)應(yīng)的總不吻合度。求取不吻合度最小的那個(gè)順序,這就是化石在全球出現(xiàn)的最合理的順序,在這個(gè)基礎(chǔ)上,就可以計(jì)算出高分辨率的生物多樣曲線。

通過這種方法,將可以獲得時(shí)間精度是2萬至3萬年的多樣曲線。如果將過去6億年的生命歷史對(duì)應(yīng)到人類文明的五千年,這一分辨率就相當(dāng)于我們每?jī)扇齻€(gè)月就統(tǒng)計(jì)一次全球的人口總數(shù),看看變化趨勢(shì)是什么。生命演化的時(shí)間精度達(dá)到萬年尺度,這代表的就是生命演化領(lǐng)域目前的世界紀(jì)錄了。

獲得這樣的時(shí)間分辨率,需要非常龐大的算力的支撐。根據(jù)科學(xué)家的估算,如果對(duì)1萬種化石的地質(zhì)記錄計(jì)算和分析一次,當(dāng)前主流的臺(tái)式機(jī)需要17年!所以,研究團(tuán)隊(duì)拜訪了中國(guó)的多個(gè)超級(jí)計(jì)算機(jī)。其中,位于廣東中山大學(xué)的“天河二號(hào)”超級(jí)計(jì)算機(jī)在2013年到2016年都是世界上最快的超級(jí)計(jì)算機(jī)??茖W(xué)家最終采用了“天河二號(hào)”,同時(shí)使用1萬多個(gè)CPU核心進(jìn)行計(jì)算,原本需要17年才能完成的一次計(jì)算,最終只用了兩三天。

更精細(xì)的生物多樣曲線

揭示3億年生命演化史

在大數(shù)據(jù)、算法和算力方面都取得了突破之后,科學(xué)家團(tuán)隊(duì)正式開始了計(jì)算,并最終獲得了從5.4億年前開始到2.4億年前的3億年地球生物多樣變化的曲線。與國(guó)際的同類研究相比,這一新曲線的時(shí)間分辨率提高了400倍,徹底改變了對(duì)該時(shí)期海洋生物演化的一些傳統(tǒng)認(rèn)識(shí)。

該項(xiàng)研究表明,前人使用的低分辨率且不均一的時(shí)間標(biāo)尺,會(huì)直接影響對(duì)古生物多樣的估算,導(dǎo)致無法準(zhǔn)確評(píng)估生物多樣的變化速率和模式,并可能掩蓋突發(fā)的重大事件以及短時(shí)間的劇烈波動(dòng)。比如有的時(shí)候生物正面臨多樣危機(jī),或者是生命形式正快速爆發(fā)、增長(zhǎng)的時(shí)候,前人的曲線會(huì)顯示完全不同的規(guī)律。

新的多樣變化曲線更加準(zhǔn)確地重現(xiàn)了地質(zhì)歷史中最大的三次生物滅絕事件和三次重大生物輻射事件的精細(xì)過程。

三次生物大滅絕事件,其中2.52億年前發(fā)生了人類迄今為止識(shí)別出的最大規(guī)模的生物滅絕事件,導(dǎo)致超過70%的海洋生物在數(shù)萬年內(nèi)迅速滅亡,這一事件的發(fā)生,與當(dāng)時(shí)全球氣候的快速升溫密切相關(guān)。

——奧陶紀(jì)末生物大滅絕:五大滅絕事件之一;發(fā)生在奧陶紀(jì)、志留紀(jì)之交(4.47億至4.45億年前),導(dǎo)致34%的海洋生物快速消失。

——中-晚泥盆世生物大滅絕:五大滅絕事件之一;始于3.93億年前,并一直延續(xù)至3.68億年前,持續(xù)兩千五百萬年,導(dǎo)致59%的海洋生物消失。

——二疊紀(jì)末生物大滅絕:五大滅絕事件之首;發(fā)生在二疊紀(jì)、三疊紀(jì)之交(2.52億年前),生物多樣在數(shù)萬年里急劇下降超過70%。

三次重要的生物輻射事件,多與當(dāng)時(shí)全球氣候的逐漸變冷同步。深刻理解這些重大生物事件的驅(qū)動(dòng)機(jī)制,對(duì)于我們認(rèn)識(shí)當(dāng)今地球生物多樣以及與全球氣候變化之間的關(guān)系具有重要啟示意義。

——奧陶紀(jì)生物大輻射事件:發(fā)生在4.97億至4.67億年前,物種多樣快速增長(zhǎng),并增加了三倍。

——志留紀(jì)初生物輻射事件:發(fā)生在4.45億至4.37億年前,奧陶紀(jì)末生物大滅絕結(jié)束后,生物快速?gòu)?fù)蘇并輻射,多樣增加約80%。

——石炭紀(jì)-二疊紀(jì)生物輻射事件:發(fā)生在3.35億至2.95億年前,多樣增加三倍,基本與奧陶紀(jì)大輻射事件相當(dāng)。

地質(zhì)歷史中生物多樣的重大變化,通常也伴隨著環(huán)境的劇烈波動(dòng)。前人研究表明,生物多樣變化可能與多項(xiàng)環(huán)境因子的變化同步,如古氣候、海面、總棲息地面積和大陸連通等。各重要生物事件與環(huán)境變化之間存在一些相關(guān),如:

奧陶紀(jì)大輻射事件和石炭紀(jì)-二疊紀(jì)的生物多樣化事件均與氣候變冷相關(guān);

中-晚泥盆世生物大滅絕事件與該時(shí)期古溫度變化相關(guān)。

生物的演化與環(huán)境的變遷經(jīng)常是彼此聯(lián)系的。為了探究?jī)烧咧g的關(guān)系,科學(xué)家團(tuán)隊(duì)將一些關(guān)鍵環(huán)境指標(biāo)參數(shù)與新的多樣曲線進(jìn)行了初步的比較,發(fā)現(xiàn)生命的興衰與大氣中二氧化碳含量的變化存在同步的現(xiàn)象,二氧化碳含量高,生物多樣通常也較高,二氧化碳含量變低,生物多樣也會(huì)變低。目前尚不清楚究竟是什么機(jī)制將這兩種變化聯(lián)系在了一起,但相信隨著研究的不斷深入,比如未來收集了環(huán)境變化的大數(shù)據(jù),就可以去嘗試揭秘這兩者之間的真正關(guān)系了。

地球生命演化有著無窮的奧秘,利用大數(shù)據(jù)繪制出高分辨率的生物多樣曲線不過是第一步。隨著大數(shù)據(jù)、人工智能等新技術(shù)手段的應(yīng)用,科學(xué)家們將會(huì)不斷揭示地球生命演化的奧秘。

標(biāo)簽: 大數(shù)據(jù) 人工智能 古生物研究

推薦

財(cái)富更多》

動(dòng)態(tài)更多》

熱點(diǎn)