數(shù)據(jù)科學(xué)50年演進(jìn):數(shù)智化的基石

來源:實況網(wǎng)

50年,在這個科技飛速躍遷的時代意味著什么?

對基因科學(xué)來說,DNA雙螺旋結(jié)構(gòu)被提出之后,涌現(xiàn)出基因克隆、基因組測序等多項技術(shù),直接促進(jìn)了現(xiàn)代生物技術(shù)產(chǎn)業(yè)的興起;

對通信工程來說,低損耗光纖的發(fā)明直接推動了數(shù)據(jù)通信、視頻數(shù)據(jù)流、云計算的發(fā)展,造就了當(dāng)今世界萬物互聯(lián)的生活方式;

對數(shù)據(jù)科學(xué)來說,被提出后的50年中不斷豐富自身的內(nèi)涵和外延,構(gòu)成了今天數(shù)智化時代的基石。

五十年前,很難想象到這些開創(chuàng)性的事件對當(dāng)今世界的影響。

百分點科技董事長兼CEO 蘇萌

蘇萌說,這50年來非常幸運——在信息技術(shù)起飛的年代里親歷了數(shù)據(jù)科學(xué)1.0-3.0,見證了每一個關(guān)鍵時刻。

3月30日,當(dāng)他站在2023數(shù)據(jù)科學(xué)峰會的演講臺上,以自身和百分點科技的視角全面解構(gòu)數(shù)據(jù)科學(xué)的四個代際之時,吸引了上百萬人次沉浸式體驗這場數(shù)據(jù)科學(xué)穿越之旅。

數(shù)據(jù)科學(xué)1.0:小數(shù)據(jù)時代 & 求學(xué)任教

數(shù)據(jù)科學(xué)從誕生之日起,就與數(shù)據(jù)演進(jìn)的每一個階段息息相關(guān)。

1974年發(fā)生了三件事:

因科學(xué)研究計算機(jī)模擬產(chǎn)生了大量數(shù)據(jù),需要依靠算法發(fā)現(xiàn)其中規(guī)律,圖靈獎得主Peter Naur首次提出了數(shù)據(jù)科學(xué)(Data Science)的概念:基于數(shù)據(jù)處理的科學(xué),這標(biāo)志著數(shù)據(jù)科學(xué)的開端;

IBM發(fā)明了結(jié)構(gòu)化查詢語言SQL,奠定了關(guān)系型數(shù)據(jù)庫的基礎(chǔ);

互聯(lián)網(wǎng)之父羅伯特.卡恩和文頓.瑟夫成功實驗了數(shù)據(jù)包在網(wǎng)絡(luò)和電腦之間的信息傳輸,并公布了TCP/IP協(xié)議,這奠定了互聯(lián)網(wǎng)的基礎(chǔ)。

這一年,在遠(yuǎn)離科技中心的中國東北,蘇萌剛剛出生。

之后的30多年里,被稱為數(shù)據(jù)科學(xué)的小數(shù)據(jù)時代,主要面向結(jié)構(gòu)化數(shù)據(jù)、歷史數(shù)據(jù)和線下數(shù)據(jù),運用關(guān)系型數(shù)據(jù)庫、統(tǒng)計、ETL和數(shù)據(jù)倉庫等技術(shù),服務(wù)于商業(yè)和公共事務(wù)。

例如,金融行業(yè)較早地將數(shù)據(jù)分析技術(shù)應(yīng)用到風(fēng)險管理和投資決策等方面;電信運營商通過用戶畫像進(jìn)行套餐營銷;零售行業(yè)通過RFID等技術(shù)進(jìn)行供應(yīng)鏈數(shù)字化改造。

在小數(shù)據(jù)時代,數(shù)據(jù)整合、描述性分析和商業(yè)智能分析是重點需求。

這些需求催生了一批老牌的數(shù)據(jù)科學(xué)公司,如SAS、SPSS、MathWorks、Wolfram、Alteryx、Palantir等等,帶來了數(shù)據(jù)科學(xué)技術(shù)應(yīng)用的早期繁榮。

在這個信息技術(shù)起飛的時期,蘇萌以求學(xué)和科研為主。

1997年到美國留學(xué),完成了統(tǒng)計學(xué)、計量經(jīng)濟(jì)學(xué)和營銷模型等學(xué)科的學(xué)習(xí),在康奈爾大學(xué)師從國際營銷模型領(lǐng)域大師 Vithala R. Rao 教授,獲得了博士學(xué)位。期間也曾就職于全球頂尖的計算軟件公司W(wǎng)olfram, 并推動了數(shù)據(jù)科學(xué)軟件Mathematica與三十所中國高校的合作。

2006年,北大在全球范圍招聘教授,蘇萌從兩百多位世界知名高校博士畢業(yè)生中脫穎而出,受聘北大光華擔(dān)任助理教授,成為國內(nèi)高校引進(jìn)的博士畢業(yè)于美國常青藤大學(xué)營銷模型專業(yè)的第一位全職教授,為碩士博士生開設(shè)數(shù)據(jù)建模方面的課程。

2000年前后,美國的Yahoo、Google、Facebook、Twitter等互聯(lián)網(wǎng)公司紛紛崛起,中國也出現(xiàn)了BAT等巨頭,世界進(jìn)入到了互聯(lián)網(wǎng)時代。

互聯(lián)網(wǎng)開啟了嶄新的數(shù)據(jù)空間,為數(shù)據(jù)科學(xué)創(chuàng)造了更大的舞臺。

這些互聯(lián)網(wǎng)企業(yè)需要用分布式集群的方式來存儲、分析和挖掘海量互聯(lián)網(wǎng)數(shù)據(jù),以提高業(yè)務(wù)運營和決策效率。2004年,Google 發(fā)布MapReduce,隨后Hadoop的誕生,一個嶄新的時代正在開啟。

數(shù)據(jù)科學(xué)2.0:大數(shù)據(jù)時代 & 創(chuàng)業(yè)

時隔30多年后,無論是數(shù)據(jù)量還是數(shù)據(jù)處理能力,都發(fā)生了量變到質(zhì)變,數(shù)據(jù)科學(xué)迎來了進(jìn)階時刻。

2008年也發(fā)生了三件事:

這一年,中國網(wǎng)民數(shù)量2.53億,首次超過美國,網(wǎng)民規(guī)模躍居世界第一;

這一年,中國使用手機(jī)上網(wǎng)的人數(shù)占網(wǎng)民總數(shù)的近30%,進(jìn)入了手機(jī)上網(wǎng)的大眾化階段;

這一年,自然科學(xué)國際頂級期刊《Nature》上首次提出了“Big Data”的概念。這猶如一聲驚雷,開啟了接下來近10年的數(shù)據(jù)科學(xué)大數(shù)據(jù)時代。

互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)的浪潮不僅帶來了更海量的數(shù)據(jù),也催生了數(shù)據(jù)處理分析技術(shù)的更迭。

這個階段,大數(shù)據(jù)技術(shù)風(fēng)起云涌,Storm、Spark、Flink等新型分布式計算框架像雨后春筍般不斷涌現(xiàn),極大地提高了數(shù)據(jù)處理的深度、廣度和速度。Python語言開始流行,機(jī)器學(xué)習(xí)開始成為數(shù)據(jù)科學(xué)的重要技術(shù)手段。

市場端的數(shù)據(jù)科學(xué)應(yīng)用以單點技術(shù)和場景為主,最典型的包括個性化推薦、數(shù)字競價廣告、金融風(fēng)控等。其中,個性化推薦算法是蘇萌在康奈爾大學(xué)讀書期間跟導(dǎo)師共同的研究方向之一。

2008年,他和幾位美國頂尖高校的教授合作發(fā)表了一篇關(guān)于個性化推薦的文章。

蘇萌認(rèn)為,科研不能只體現(xiàn)在論文的發(fā)表上,也應(yīng)該能真正地為產(chǎn)業(yè)帶來價值。2009年夏天,懷著這個樸素的想法,他在北大附近的中關(guān)村公館租了一間80平米的小公寓,向家人借了50萬元,注冊成立了百分點科技,專注于研發(fā)個性化推薦引擎的算法與技術(shù)實現(xiàn)。之后的幾年,服務(wù)了2,000多家互聯(lián)網(wǎng)電商和媒體客戶,并成為了國內(nèi)規(guī)模最大的推薦引擎技術(shù)服務(wù)商。

數(shù)據(jù)科學(xué)賽道的獨特性在于,它是利用科學(xué)方法、流程、算法和系統(tǒng)從數(shù)據(jù)中提取價值的跨學(xué)科領(lǐng)域,一方面是人才培養(yǎng)門檻高,一方面是要具備領(lǐng)域知識。

百分點科技之所以成為國內(nèi)用數(shù)據(jù)科學(xué)為產(chǎn)業(yè)賦能的先行者,并逐漸成長為標(biāo)桿性企業(yè),與公司創(chuàng)始團(tuán)隊具備深厚的數(shù)據(jù)科學(xué)理論功底和實踐經(jīng)驗分不開。

隨著資本與技術(shù)人才的涌入,以及大數(shù)據(jù)技術(shù)的采納周期和新的市場需求,互聯(lián)網(wǎng)領(lǐng)域的大數(shù)據(jù)浪潮,迅速擴(kuò)展到了傳統(tǒng)行業(yè),一批龍頭企業(yè)開始擁抱大數(shù)據(jù),探索數(shù)字化轉(zhuǎn)型。

他和團(tuán)隊感受到了這股浪潮,并率先將在互聯(lián)網(wǎng)端沉淀下來的大數(shù)據(jù)技術(shù)應(yīng)用到To B端的企業(yè)數(shù)字化轉(zhuǎn)型中,并在服務(wù)零售、金融、媒體、制造、地產(chǎn)等各行業(yè)頭部客戶的過程中,積累了扎實的行業(yè)知識、業(yè)務(wù)理解和行業(yè)上下游生態(tài)。

然而,數(shù)據(jù)科學(xué)被更多人關(guān)注是因為Patil和 Davenport于2012年在哈佛商業(yè)評論上發(fā)表的《數(shù)據(jù)科學(xué)家——21世紀(jì)最性感的職業(yè)》,讓數(shù)據(jù)科學(xué)從象牙塔走向公眾視野。

隨著商業(yè)上的繁榮和大眾的廣泛關(guān)注,各國政府開始將發(fā)展大數(shù)據(jù)提升為國家戰(zhàn)略。

美國很早便在國家安全領(lǐng)域利用大數(shù)據(jù)技術(shù),大家熟知的Palantir輔助抓捕本拉登便是經(jīng)典案例。早在2012年,美國就通過了《大數(shù)據(jù)研究和發(fā)展計劃》,后續(xù)每年都不斷有政策推出,以促進(jìn)和規(guī)范大數(shù)據(jù)行業(yè)發(fā)展。

中國在2015年首次提出“國家大數(shù)據(jù)戰(zhàn)略”,發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,并在第二屆世界互聯(lián)網(wǎng)大會上首次提出推進(jìn)數(shù)字中國建設(shè)。

從此,“數(shù)據(jù)”成為了自上而下的焦點,大數(shù)據(jù)也成為了孕育AI的沃土。而數(shù)據(jù)科學(xué)所承載的釋放數(shù)據(jù)生產(chǎn)力的使命從未改變,為數(shù)字化持續(xù)提供基礎(chǔ)性的價值。

數(shù)據(jù)科學(xué)3.0:AI時代 & 業(yè)務(wù)進(jìn)階

數(shù)據(jù)科學(xué)在AI驅(qū)動下,持續(xù)進(jìn)行技術(shù)融合,成為數(shù)智化時代的技術(shù)集大成者。

2016年,AlphaGo擊敗了圍棋世界冠軍李世石,以深度學(xué)習(xí)算法為代表的人工智能技術(shù)掀起了一波新的浪潮。

2017年,谷歌迭代了Kubernetes多個版本,以容器化技術(shù)解決了應(yīng)用在云上部署的問題。

2018年,谷歌發(fā)布了AutoML技術(shù),Facebook推出了PyTorch深度學(xué)習(xí)框架,人們可以輕松構(gòu)建和訓(xùn)練自己的自動化機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型。Google提出了BERT預(yù)訓(xùn)練語言模型,該技術(shù)在自然語言處理領(lǐng)域得到廣泛應(yīng)用。

最近OpenAI發(fā)布了大型語言模型GPT4.0,生成式AI作為一種全新的運算模式,就像PC、互聯(lián)網(wǎng)和云計算一樣,會有很多應(yīng)用程序基于GPT誕生。

新技術(shù)和新應(yīng)用,產(chǎn)生了更加海量和實時的文本、語音、圖像和視頻等多模態(tài)數(shù)據(jù),這些數(shù)據(jù)需要進(jìn)入到可分析、可解釋、可參與預(yù)測和決策輔助的場景中來。

近幾年,中國對于大數(shù)據(jù)、AI等技術(shù)的重視提到了史無前例的高度。

2017年黨的十九大將“數(shù)字中國”納入報告之中,推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟(jì)深度融合,發(fā)展數(shù)字經(jīng)濟(jì)形成新動能。為拓展數(shù)字經(jīng)濟(jì)領(lǐng)域的全球合作,2017年的世界互聯(lián)網(wǎng)大會上,中國等多個國家共同發(fā)起《“一帶一路”數(shù)字經(jīng)濟(jì)國際合作倡議》。

這一年,對于數(shù)據(jù)科學(xué)工程化的產(chǎn)業(yè)轉(zhuǎn)化需求從企業(yè)端擴(kuò)展到了政府端,百分點科技也正式開啟了To G業(yè)務(wù),將之前在互聯(lián)網(wǎng)和企業(yè)服務(wù)沉淀的數(shù)據(jù)科學(xué)產(chǎn)品與技術(shù)應(yīng)用于政務(wù)領(lǐng)域,面向數(shù)字城市、公安、應(yīng)急、生態(tài)環(huán)境、營商環(huán)境和統(tǒng)計等領(lǐng)域,構(gòu)建智慧城市數(shù)字底座和場景智能應(yīng)用,助力政府治理能力提升和治理體系現(xiàn)代化。

這一年,百分點科技第一個國際業(yè)務(wù)項目落地,開啟了新一代信息技術(shù)科技企業(yè)出海的新篇章。七年來,百分點科技用數(shù)據(jù)科學(xué)技術(shù)與產(chǎn)品服務(wù)了全球20多個國家。

2017年,百分點科技也發(fā)布了DeepMatrix 1.0,該系統(tǒng)融合了大數(shù)據(jù)與人工智能技術(shù),支持復(fù)雜業(yè)務(wù)問題的自動識別和判斷,并可以做出前瞻或?qū)崟r決策。在算力、數(shù)據(jù)、算法三重因素的驅(qū)動下,DeepMatrix 2.0進(jìn)一步強(qiáng)化了自然語言處理、動態(tài)知識圖譜等多項認(rèn)知智能技術(shù)。

2021年,經(jīng)過多年行業(yè)成功實踐,百分點科技基于探索出的行業(yè)落地新范式,正式推出DeepMatrix 3.0。和前兩代產(chǎn)品相比,這一版本在數(shù)據(jù)治理和數(shù)據(jù)資產(chǎn)運營層面有所加強(qiáng),將數(shù)據(jù)自動化地引入到數(shù)據(jù)治理過程中,并運用搜索、可視化分析等技術(shù)挖掘和發(fā)揮數(shù)據(jù)的價值。

數(shù)據(jù)科學(xué)在不斷地發(fā)展和變遷之中,保持了其價值的基礎(chǔ)性和技術(shù)的集大成性。隨著技術(shù)、數(shù)據(jù)和場景的深化,政企客戶對于數(shù)據(jù)科學(xué)的訴求不再是單一工具和單點技術(shù)的支持,而是尋求整體解決方案的介入。

國內(nèi)外一些領(lǐng)先的廠商開始沉淀通用型的數(shù)據(jù)科學(xué)工具,致力于打造端到端的數(shù)據(jù)科學(xué)解決方案。2019年華為推出了ModelArts和DataArts,打通了大數(shù)據(jù)和人工智能,實現(xiàn)數(shù)據(jù)全生命周期治理;2021年阿里云PAI首次進(jìn)入了Gartner魔力象限,標(biāo)志著國際市場對于中國頂尖企業(yè)的數(shù)據(jù)科學(xué)能力的認(rèn)可。在這期間,國外的Plantir和Alteryx紛紛迭代自己的產(chǎn)品技術(shù)并且完成了上市。

經(jīng)過13年的技術(shù)積累與實踐,2023年,百分點科技也推出了一站式價值實現(xiàn)平臺——數(shù)據(jù)科學(xué)基礎(chǔ)平臺DeepMatrix 4.0,服務(wù)于數(shù)據(jù)工程師、數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家,助力便捷高效地將數(shù)據(jù)轉(zhuǎn)化為業(yè)務(wù)知識并輔助決策和行動,最終釋放數(shù)據(jù)價值。

相比于目前數(shù)據(jù)科學(xué)平臺市場上的其它產(chǎn)品,DeepMatrix 4.0具備三方面的獨特優(yōu)勢:

首先是一體化。平臺中的工具、數(shù)據(jù)、模型、知識都遵循統(tǒng)一的協(xié)議、標(biāo)準(zhǔn)和規(guī)范,可以無縫對接和互操作。產(chǎn)品中每個模塊都可以獨立部署和使用,為用戶提供了更多的選擇和靈活性,滿足不同場景的需求。

二是知識化。平臺不斷沉淀領(lǐng)域中的數(shù)據(jù)科學(xué)知識,包括程序性知識、事實性知識和概念性知識。傳統(tǒng)企業(yè)的數(shù)字化轉(zhuǎn)型面臨著冷啟動問題,平臺能夠借助行業(yè)內(nèi)已有的專業(yè)知識為其破局。

三是智能化。數(shù)據(jù)科學(xué)基礎(chǔ)平臺內(nèi)置了智能輔助開發(fā)系統(tǒng),可以自動化地輔助開發(fā)者選擇方案以及完成數(shù)據(jù)適配,并智能化地進(jìn)行方案精調(diào)和改進(jìn)。同時,能夠在數(shù)據(jù)治理的多個環(huán)節(jié)依托知識庫及語義理解等智能技術(shù)幫助開發(fā)者提高效率。

百分點科技進(jìn)入大數(shù)據(jù)行業(yè)較早,因此得以擁有持續(xù)完善迭代自身平臺產(chǎn)品的條件,擁有從數(shù)字化轉(zhuǎn)型方法論、路徑規(guī)劃、產(chǎn)品工具到項目交付、運營服務(wù)的一體化方案構(gòu)建能力,這是目前很多新興企業(yè)難以做到的。

數(shù)據(jù)科學(xué)4.0:數(shù)據(jù)原生時代 & 踐行使命

對于數(shù)據(jù)科學(xué)的未來發(fā)展,蘇萌說,數(shù)字技術(shù)的大融合將產(chǎn)生疊加態(tài),我們將進(jìn)入原生的數(shù)據(jù)時代。

未來,全球80億人和無數(shù)的物聯(lián)網(wǎng)設(shè)備連接到網(wǎng)絡(luò)并成為數(shù)據(jù)源,不斷產(chǎn)生關(guān)于他們的活動、認(rèn)知和智慧的大量數(shù)據(jù)。我們期待這些數(shù)據(jù)形成普惠型的生產(chǎn)要素,每個人都能通過數(shù)據(jù)的生產(chǎn)和使用而獲益,形成更加平等的生產(chǎn)關(guān)系,更加和諧的社會關(guān)系。

在這個階段,大數(shù)據(jù)、AI、云計算、智能交互等技術(shù)將與物理世界深度融合,數(shù)據(jù)的模態(tài)更豐富、質(zhì)量更高、時效性更強(qiáng),算法更先進(jìn)、算力更強(qiáng)大。更重要的是,企業(yè)將利用數(shù)據(jù)原生應(yīng)用實現(xiàn)對現(xiàn)實世界的理解和改造,這將極大地釋放數(shù)據(jù)要素紅利,促進(jìn)產(chǎn)業(yè)數(shù)字化的廣度和深度,最終解放生產(chǎn)力。

未來的數(shù)據(jù)科學(xué)將走向平民化,隨著數(shù)據(jù)科學(xué)通用工具的一體化和平臺化、領(lǐng)域知識的程序化和服務(wù)化,交互方式的自然語言化,數(shù)據(jù)科學(xué)技術(shù)將像互聯(lián)網(wǎng)一樣普惠大眾,業(yè)務(wù)和決策人員將可以跨過程序員直接與數(shù)據(jù)進(jìn)行交互,提高分析和決策效率。

針對數(shù)據(jù)的科學(xué)技術(shù)將作為重要生產(chǎn)力推動商業(yè)模式和社會組織的變革。數(shù)據(jù)科學(xué)的發(fā)展將帶來新的社會分工,會有一些業(yè)務(wù)和商業(yè)模式可以不依賴于現(xiàn)實世界而直接生長在數(shù)據(jù)世界里,進(jìn)而重塑生產(chǎn)關(guān)系和商業(yè)秩序。

他總結(jié)過去五十年中的發(fā)展規(guī)律:信息技術(shù)創(chuàng)造了數(shù)字世界,數(shù)字技術(shù)推動數(shù)字經(jīng)濟(jì)不斷發(fā)展,數(shù)字經(jīng)濟(jì)促進(jìn)了人類和組織的社會變革,變革又進(jìn)一步為創(chuàng)新提供了土壤。

他說,用數(shù)據(jù)科學(xué)構(gòu)建更智能的世界,是百分點科技的使命,也將是其未來繼續(xù)不懈努力的方向。

免責(zé)聲明:市場有風(fēng)險,選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。

標(biāo)簽:

推薦

財富更多》

動態(tài)更多》

熱點