中國網/中國發展門戶網訊 在過往的幾個世紀中,性命科學一向處于疾速發展和演變的階段,從最後對性命現象的簡單觀察和描寫,到現在分子生物學、基因組學和系統生物學等領域的興起,性命科學研討范式持續演變。這種研討范式的變化深受生物數據類型和規模的發展所推動,并帶來了性命科學發展演進的3個階段(圖1)——每個階段都在前一個階段的基礎上遞進,不斷涌現新的技術和方式來疾速推動性命科學研討的不斷進步。
第1階段(16世紀—20世紀下半葉):以觀察總結和假設驅動為主,實驗數據作為輔助支撐和驗證依據。在晚期,生物學家重要依附手工實驗和觀察描寫獲取數據,并從中提煉歸納出一些假說。但這些數據凡是是概況的、部分的、無限的,產生的假說也是宏觀和粗略的,無法對性命的深層機制進行解析。其緣由在于認知程度和技術的限制導致無法獲得息爭析更深層次的生物學數據。這一時期的性命科學研討的典範代表有:16世紀的安德烈·維薩里通過動物和人體的剖解數據周全認識機體結構;19世紀,達爾文通過環球考核采集和剖析大批標本數據提出進化論等。其后,隨著物理學、化學等學科的發展,以及實驗技術和剖析方式的疾速進步,尤其是DNA雙螺旋結構的發現和中間法則的提出,將性命科學研討引進分子生物學時代。生物學家可以將復雜的性命系統拆解為微觀的分子和細胞組分并逐個進行研討,以獲得對生物系統單一維度、深層次的描寫數據。研討人員凡是采用被動剖析的方式,即根據事前提出的假設來遍歷息爭釋實驗數據,此時構成的是對性命系統深刻卻零碎、單方面的認知。
第2階段(20世紀下半葉—21世紀初):以組學數據為基礎,結合生物信息學剖析和實驗驗證。測序技術的出現和“人類基因組計劃”的實施將性命科學引進了高通量生物研討時代。基因組學、轉錄組學、表觀組學、糖組學等多種組學技術呈現了細胞在分歧層面的整體性命圖景。生物學家能夠在晚期發育、癌癥、朽邁、疾病等多個性命過程中進行高通量、年夜規模的數據采集。此時,他們不再局限于驗證特定的假設,而是通過多種組學數據來摸索未知領域。多組學數據的剖析需求更復雜的計算東西和算法,包含生物信息學、統計學等。這些東西和方式幫助研討人員從海量數據中發現隱躲的形式和關聯,從而獲得更周全、更深刻的生物學知識。別的,應用生物信息學對組學數據剖析獲得的知識還需求應用濕實驗進行驗證。盡管這一階段能夠對生物學數據進行低維度的描寫息爭釋,卻難以對復雜的性命系統進行高維度模擬,以實現對性命的周全系統解析。
第3階段(21世紀初至今):以生物年夜數據驅動,應用人工智能和干濕融會對性命系統進行解析與重構。性命系統呈現分子、細胞、組織、個體等多層次的結構,并且這些層次之間高度互聯、動態調控,構成了一個復雜的系統;而由此獲得的數據也具有多層次、動態變化的特點。此外,隨著性命科學研討的不斷深刻,海量的多組學數據、文獻資料和其他生物學數據持續涌現和積累,從而導致數據規模和復雜性進一個步驟增添。這種多類型、多維度且體量宏大的生物學數據被稱為生物年夜數據。但是,傳統的數據剖析方式已經無法滿足處理這一復雜性的需求。針對分歧層次、分歧維度、分歧類型的生物年夜數據進行有用整合、匯集和深刻剖析,以提醒此中蘊含的高維度生物規律,成為當此生命科學研討面臨的挑戰之一。人工智能,尤其是神經網絡技術,因其擅長從低維度的年夜規模數據中提取高維度隱匿規律的優勢成為解決這一挑戰的有用東西。例如,AlphaFold能夠預測卵白質的三維結構,GeneCompass等東西能模擬基因調控網絡。這些東西和技術證明了應用人工智能可以發掘生物年夜數據中數據之間的關聯,抽提性命的內在結構,從而更周全地輿解性命現象的本質和規律,提醒生物體內部復雜的互動關系和調控機制。但是,當後人工智能技術依然僅能有用整合、剖析某一層面的生物數據(如轉錄組)。要實現對復雜互聯的性命系統進行周全、系統和深入的認知,需求積累更多的系統性生物年夜數據,并運用人工智能技術對多模態的生物年夜數據進行有用整合,以實現對性命系統整體圖景的認知。並且,人工智能指導的自動化機器人已經實現了在化學和資料學上自立設計、規劃和執行真實世界的實驗,從而顯著進步了科學發現的速率和數量,并改良了實驗結果的可復制性和靠得住性。未來應用生物年夜數據訓練的人工智能結合自動化機器人,將能夠樹立干濕融會的自進化研討新范式,以實現對更復雜的性命系統進行更高效和更深刻的解析。
綜上,生物學數據推動性命科學發展經歷了從觀察總結和假設驅動為主、組學數據為基礎到生物年夜數據驅動的3個遞進階段。在這個過程中,生物學數據呈現規模遞增、類型豐富和層次加深的特點,也推動了對性命本質的認知從對性命系統宏觀總結、性命元件深刻認知、性命系統周全低維度描寫到性命系統解析和重構的不斷深刻。
數據驅動性命科學研討的內涵和特點
數據驅動性命科學研討的內涵體現在其對研討范式、方式論和認知形式的深入影響上。強調了以數據為焦點的研討方式,將數據的采集和剖析置于中間地位。這意味著研討者不再僅依賴于個別案例或部分現象,而是通過搜集年夜規模、多樣化的生物學數據來推動研討的發展。數據驅動的性命科學研討具有跨學科性和整合性的特點。隨著技術的發展和數據的積累,性命科學的研討越來越需求跨越分歧學科領域,如生物學、計算機科學、統計學等,進行數據的整合和剖析。數據驅動的性命科學研討著重于量化生物現象,并試圖將其系統化地輿解。傳統的生物學研討往往是基于定性觀察和描寫,而數據驅動的方式則加倍重視通過數據搜集、處理和剖析,樹立生物系統的量化模子。這種量化和系統化的方式使得研討者能夠更周全地輿解性命系統的復雜性,并從中發現隱躲的規律和關聯。數據驅動的性命科學研討強調實驗數據與數字化建模的結合。通過搜集大批的實驗數據,并運用數學模子和計算方式進行數字化建模,進行高通量包養、高準確度地預測和篩選,從而可以高效驗證和修改生物學理論,并提出新的假設和預測。這種濕實驗與數字化建模結合的研討方法使得性命科學研討加倍系統和深刻,推動了生物學知識的不斷進步。
數據驅動性命科學研討的特征具有3項顯著性特點。生物學數據具有多樣性和豐富性的特點。生物數據涵蓋了生物系統的各個層次和多個方面——從基因組序列到卵白質結構,再到細胞效能和生物表型,生物學數據包括了豐富的信息,為研討者供給了深刻摸索性命現象的基礎。生物學數據具有高維度和年夜規模的特點。隨著技術的進步,生物學數據的維度和規模不斷增添。例如,基因組學和轉錄組學等高通量測序技術的出現,使得研討者能夠同時研討成千上萬個基因或基因表達物,從而獲得高維度的數據。這種高維度和年夜規模的數據為研討者供給了更周全的視角,使他們能夠發現更復雜的生物學規律。生物學數據往往具有動態性和時空特征。生物系統具有在分歧時間和空間標準上的變化。例如,轉錄組數據可以反應基因在分歧發育階段或分歧環境條件下的表達變化,卵白質互作網絡數據可以提醒細胞內信號傳導的動態過程。這種動態性和時空特征使得研討者能夠更深刻地輿解性命系統的復雜性,并摸索其調控機制和效能。
生物年夜數據組成和特點
年夜數據(Big Data)凡是代表了大批、多樣、不斷變化且疾速聚合屬性的巨型數據集,并且這些屬性過于復雜或“年夜”,無法通過傳統手腕處理。而生物年夜數據在廣義上被定義為來源于或用于生物的海量數據。今朝,比較常見的生物年夜數據類型包含:研討類型數據,如基因組、卵白質組、轉錄組、糖組等多種組學測序數據,以及成像數據、藥物研發和臨床試驗數據等;電子安康數據,如電子醫療檔案、可移動/穿著設備采集的實時監控數據等;生物樣本庫,如生物多樣性資源庫、臨床樣本庫等;知識結果,如生物相關的文獻、專利、標準等。
生物年夜數據除了具備“年夜數據”的特點外,還具有明顯的生物學數據本身特徵,即年夜數據量(volume)、多樣化(variety)、高速(velocity)和有價值(value)的“4V”特點(圖2)。生物學研討技術和手腕的疾速發展推動了生物年夜數據的高速發展,使生物學研討從概況的點觀測進進周全和更深層次的圖像和數據解析。
年夜數據量。容量是年夜數據中觸及的數據量的絕對鉅細。國際癌癥組織樹立了癌癥基因組圖譜計劃(TCGA),今朝已收錄的來自各種癌癥的組學數據已衝破2.5 PB。自2015年,中國科學院北京基因組研討所(國家生物信息中間)樹立了國內首個組學原始數據匯交、存儲、治理與共享系統GSA(組學原始數據歸檔庫),今朝數據量已衝破42 PB。數據庫的數據量上升速率之快完善地凸顯了生物年夜數據的蓬勃發展。
多樣化。多樣化代表所搜集數據的多樣性,組學技術的進步和電子醫療的出現,產生了分歧來源、分歧格局和分歧用處的大批數據,擴年夜了可用和需求處理的數據類型和數據源的范圍。對于生物學樣本的研討,經歷了從文本數據、圖像數據、芯片數據到高通量測序數據的變化,擴充了生物學的研討資料。
高速。速率是由輸進和處理數據的速率定義的,指的是數據創建、處理和剖析的速率和頻率。近年來,為應對生物年夜數據的急劇增長,人工智能方式被用于生物年夜數據的解析。
有價值。價值表現所搜集的數據在臨床研討的結果變化、行為改變和任務流程改進方面的有效性。一切研討性生物年夜數據的產出,都在特定的方面加深了生物學的認識,推動了生物學研討的發展,體現了生物年夜數據不成忽視的價值性。例如,臨床的記憶學數據高效、精準地幫助醫生判斷患者的病灶和緣由,測序數據的解析周全地闡釋了表型的最基礎緣由等。
技術發展包養網推動生物年夜數據的產生
生物技術和信息技術的融會推動了性命科學從“假說驅動”向“數據驅動”的轉變,促進了生物年夜數據的爆發式增長、精準解析和性命科學的宏大進步。自從“人類基因組計劃”實施以來,測序技術獲得了疾速發展,引發了基因組、轉錄組、表觀遺傳組、卵白質組、代謝組、糖組等多種組學數據急劇增添,同時也催生了生物技術與信息技術的融會,推動性命科學研討進進數據型科學發現的時代。
在性命科學的發展過程中,得益于測序技術的疾速發展,組學類型的生物年夜數據增長尤為凸顯。自1977年Sanger第一代測序技術出現以來,第二代高通量測序技術、第三代單分子全長測序技術和第四代納米孔測序技術相繼涌現,廣泛應用于生物學各個領域,推動了性命科學研討的宏大進步。Sanger測序技術被用于細菌和噬菌體基因組的測序,但其1次只能剖析1個測序反應,產量無限、時間花費長且本錢昂揚,導致“人類基因組計劃”耗時10多年才完成。自2004年以來,“下一代測序”(next-generation sequencing)技術的發展實現了高通量平行測序,年夜幅增添了測序數據的輸出量。第二代測序技術支撐基因組、轉錄組和表觀遺傳組等多種組學測序,單次測序可以產生4億條讀段、120 GB數據。第三代測序技術又被稱為“長讀段”測序,可以檢測全基因組重復和結構變異檢測,實時靶向讀包養平臺推舉取DNA分子。最新的第三代測序儀,均勻讀長可達10—15 kb,產生約36.5萬個讀段。第四代測序技術是基于納米孔系統的DNA測序技術,裝置玲瓏可達手持尺寸,超過100 kb的DNA可以穿過納米孔,通過許多通道,以相對較低的本錢獲得數十到數百Gb的序列。測序技術的疾速發展對基礎研討、臨床診斷治療等具有主要意義。隨著精準醫療概念的提出,電子安康記錄開始發展。盡管存在不適當訪問等潛在風險,但電子安康記錄的便攜性、準確性和即時性為精準醫療戰略、醫療體系完美和智能療法篩選等供給了主要支撐。
在性命科學研討中,信息技術和生物技術的規模化應用豐富了生物樣本庫的建設。伴隨著生物年夜數據的急劇增長,american國立生物技術信息中間(NCBI)數據庫、歐洲生物信息學研討所(EBI)數據庫、japan(日本)DNA數據庫(DDBJ)和中國國家基因組數據中間等年夜數據庫中的數據類型不斷豐富,包含從多組學測序原始數據到表達信息矩陣,數據量從TB向PB甚至更高不斷增添,從而為性命科學領域的研包養網究供給了豐富的數據資源。此外,生物年夜數據的發展也推動了知識結果的積累,促進了生物學數據相關文獻不斷晉陞和生物技術專利的疾速更換新的資料迭代,極年夜地推動了生物領域的研討,無望給生物學和生物醫學研討領域帶來反動性的變化。
年夜數據時代下性命科學研討面臨的挑戰及解決計劃
面對生物年夜數據驅動性命科學研討新范式的發展趨勢,研討人員面臨著來自分歧來源的多維度年夜數據的挑戰。這些年夜數據包含龐年夜的結構化和非結構化的信息聚集。若何有用地從這般龐年夜的原始數據中提守信息對于推動科學發明、工業進步和經濟發展至關主要。隨著新型生物技術的發展,具有多模態、多維度、分布疏散、關聯隱匿、多層次交匯等特點的生物年夜數據逐漸構成。若何樹立適合性命科學的數據處理和剖析流程,構建共享可及且高速傳輸的數據庫,有用整合數據,為性命科學AI Ready(人工智能就緒)的實現供給完全、平安、真實和契合的高質量數據,將促進新的科學發現并拓展性命科學的摸索范圍。
生物年夜數據處理的挑戰
大批的數據在搜集整合過程中,因分歧實驗室和研討人員之間的差異及技術平臺差異等原因都能夠惹起批次效應。批次效應會導致數據變異性增添,真陽性生物信號和假陰性信號的膨脹。當批次效應被誤認為感興趣的結果(假陽性)時,能夠會引發更嚴重的后果。針對批次效應,現在較為公認的方式包含:ComBat包,通過經驗貝葉斯估計器來校訂數據的批次效應;Seurat包,通過樹立錨定的方式將分歧批次之間類似的細胞集成單細胞簇。
除了批次效應的存在,數據也能夠出現缺掉的情況,會導致建模誤差增添或模子準確性下降的問題。針對分歧的缺掉情況,有著分歧的插補解決計劃。最簡單的插補方式是將信息替換為數據全局特征的值(均勻值或中位數等),可是簡單的插補會導致標準誤差太小,未考慮不確定性。多重插補方式是處理缺掉值最常用的方式,即屢次對缺掉值進行插補,并結合結果以考慮觀察到的變異性并減少推斷誤差。
大批生物學數據的出現,不成防止地會出現批次效應和缺掉。針對這些問題優化統一後期數據處理的流程,并開發加倍公道的處理批次效應和插補缺掉值的方式,以使剖析結果加倍的靠得住,防止出現假陽性的結果。但這些方式只能限制批次效應和減少數據缺掉的影響,最終仍需求制訂統一的實驗和數據標準。
生物年夜數據剖析的挑戰
年夜數據的出現不僅為深刻研討生物系統供給了史無前例的機會,也為數據發掘和剖析提出了新的挑包養網戰。年夜數據剖析的重要需求是找到兼顧本錢和時間的解決計劃。樹立有用的生物信息任務流程系統和剖析東西對生物數據的剖析至關主要。機器學習和深度學習已成為從生物年夜數據天生處理信息的最先進技術,這些技術在Cloud、Hadoop、apache Spark等年夜數據平臺上執行時,可以有用地從此類生物年夜數據中提守信息。針對多組學數據異構化的性質,應用具有并行計算的分布式系統的算法適合年夜數據剖析。如MapReduce可以在由數千臺計算機組成的年夜型集群上應用各種并行和分布式算法。
針對性命科學數據的高維度、異質性和復雜性等特征,應著力發展生物年夜數據的先進剖析方式和東西,以加速年夜數據剖析速率、減少剖析本錢、下降剖析的技術壁壘。樹立標準的年夜數據剖析流程,以期能夠獲得準確、可復現和可解釋的剖析結果。數據驅動的研討新范式的發展對數據剖析的方式、東西和算力等資源提出了新的挑戰,需求加速建設新一代數據剖析基礎建設,以做好迎接新范式的準備。
生物年夜數據共享可及的挑戰
在全國甚至全球范圍內,生物數據的共享可及是年夜數據研討的主要組成部門。需求樹立數據庫用于儲存原始或剖析結果數據,以實現數據公開和可共享。國際上已經樹立了多個用于儲存性命科學數據的數據庫。例如,NCBI樹立的GenBank數據庫是世界上最年夜的基因組數據庫之一。別的,卵白質數據銀行(PDB)是一個有名的年夜分子結構信息數據庫,儲存了包含卵白質、核酸等多種生物年夜分子的信息。我國國家基因庫性命年夜數據平臺(CNGBdb)已歸檔了3721個研討項目,多組學數據量達6612 TB,支撐了全球近300個科研單位的科研數據匯交和共享。需求高效的法式以使數據能夠疾速且完全的供給給研討人員。Fasq是一個高效的數據傳輸軟件,它能夠在30 s內傳輸24 GB的數據。但是,它需求大批的互聯網連接帶寬,數據傳輸的本錢很是昂貴。Smart HDFS(Hadoop分布式文件系統)是一種異步多管道文件傳輸協議,它應用全局和部分優化技術來選擇更高機能的數據節點,從而晉陞數據傳輸的機能。
盡管我國已經樹立起如國家基因庫性命年夜數據平臺等的年夜型數據庫,但其存儲仍存在著規范性不強、存儲量不高、數據格局不統一、數據可用性缺乏和存在大批的應用壁壘等問題。是以,我國性命科學領域需求更好地統籌協調和資源整合,加強科學數據資源的整合與共享,樹立規范化的數據存儲流程,構建高存儲容量、低應用壁壘的數據庫,以滿足數據驅動下的新范式的需求。面對數據傳輸的挑戰,我國還應該加強數據供給形式的改造,晉陞數據傳輸的硬件設施,設計和優化傳輸法式,以供給加倍疾速的傳輸速率為重點,并樹立相關協議對數據訪問進行治理,進而保護數據的真實性。
樹立年夜數據+性命科學研討新范式
將生物年夜數據處理成AI Ready狀態對于數據驅動的性命科學研討至關主要。這一過程為人工智能系統的訓練和優化供給了基礎,并為人工智能系統供給了豐富的信息資源,有助于進步其懂得世界的才能,增強預測和決策的準確性,實現個性化服務和定制化產品,同時推動創新和發現。面對性命現象中復雜的非線性關系和難以預測的特征,年夜數據驅動下的人工智能技術展現出強年夜的才能,并已在性命科學領域的多個方面展現出顛覆性的應用潛力。例如,Geneformer在基于3000萬個單細胞轉錄組的年夜規模語料庫進行了預訓練,以實現高低文特異性預測;跨物種性命基礎年夜模子GeneCompass在超過1.2億個單細胞的訓練數據集上實現了對基因表達調控規律的全景式學習懂得等多個性命科學問題的剖析。
但是,在我國在實現AI Ready過程中,焦點技術仍相對匱乏,需鼎力發展自立原創的算法、模子和東西等。針對性命科學的AI Ready過程中年夜數據的多模態和多維度等特征,急需發展針對性的先進計算與剖析方式。未來應開發加倍適合生物年夜數據剖析的硬件、軟件和新計算介質,并在性命科學和人工智能技術的融會過程中,摸索新的人工智能-生物交互形式。充足應用人工智能+生物年夜數據,同時與濕實驗結合,將樹立干濕融會的性命科學研討新范式。
總結和未來瞻望
數據驅動的性命科學作為生物科學領域的主要趨勢,正面臨著海量生物年夜數據的包含數據存儲、傳輸、處理和剖析等多個方面的挑戰。但是,通過不斷開發新的技術和方式,尤其是人工智能技術的發展,能夠更高效地整合和剖析生物年夜數據,從而發掘生物學內在規律,深刻懂得生物系統的復雜性。
未來,為實現對復雜性命系統更完善的模擬息爭構,需從數據質量、處理算法、場景化等多方面進行優化。應生產和獲取高質量系統性的生物年夜數據。當前的生物學數據雖然規模年夜、類型多,但數據來源各異、離散度高、誤差年夜,整體數據質量程度不高。並且性命系統是多層級的復雜系統,要將分歧層級買通,需求如胚胎發育、疾病、癌癥、朽邁等性命過程的多維度、多模態、時空對齊的高質量、系統性生物年夜數據,為人工智能供給靠得住的數據基礎,減少噪聲和誤差的影響。需開發性命適配的人工智能算法。生物年夜數據具有多維度、多層次、非結構化和動態變化的特點,當後人工智能算法難以有用處理。未來需求針對生物數據特點開發性命適配的人工智能算法,來更好捕獲復雜性命網絡中的結構和規律。增強模子的解釋性,提醒潛在的生物學機制也是未來主要的研討標的目的。整合生物學數據、應用人工智能技術以及自動化的高通量實驗和數據獲取技術。無望實現干濕融會的自進化形式,為性命科學研討帶來反動性范式改革。
(作者:江海平、劉文豪、李鑫,中國科學院動物研討所 北京干細胞與再生醫學研討院;高純純、楊運桂,國家生物信息中間。《中國科學院院刊》供稿)