科研進展

深圳先進院合成所發表微生物組數據挖掘新方法tmap

時間:2019-12-26  來源:合成所 汪琳 文本大?。骸?a href="javascript:doZoom(16)">大 |  | 】  【打印

  近日,中國科學院深圳先進技術研究院合成生物學研究所趙國屏課題組(周豪魁為通訊作者,廖天華為第一作者)在微生物組學數據挖掘領域取得新突破,相關論文tmap: an integrative framework based on topological data analysis for population-scale microbiome stratification and association studiestmap微生物組大數據挖掘方法開發——基于拓撲學數據分析的人群分層及宿主表型關聯分析)在線發表在期刊Genome Biology。

  隨著高通量多組學技術的發展,傳統的數據分析方法難以在日益復雜、規模龐大的微生物組數據中挖掘出有效可靠的信息,在數據集龐大、樣本之間存在各種復雜差異性,微生物組和宿主表型特征之間存在的細微關聯可能是研究目的所在,但是極易被掩蓋掉。這是對數據分析工作的挑戰,也對開發創新性分析方法提出迫切需求。

  本課題組結合mapper算法和網絡富集分析,開發基于拓撲學數據分析(topological data analysis, TDA)tmap軟件,提供了整合大規模人群微生物組數據的分析框架。tmap將不同國家地區、不同疾病類型和不同宿主表型的人群微生物組大數據加以整合,融合不同來源的微生物組極其宿主表型的醫療健康大數據,是目前微生物組數據共享和整合的創新性方法。這對大規模人群隊列的數據分析而言,不僅歸納總結了數據隱含的規律,也對科學假設的提出,科學問題的提煉有很大幫助。

  本研究中tmap的大致工作流程是將高維微生物組數據轉化為拓撲學網絡結構,并用于微生物組人群分層及相關性分析。通過Mapper算法及網絡分析,tmap利用樣本的微生物組數據構建TDA網絡結構,并通過SAFE score量化了樣本表型或者物種在一簇樣本中的富集程度?;?span>SAFE score可以實現以下3個分析目的:一是Ranking,即對每個表型或物種的SAFE score之和排序,其含義與linear regression中的effective size類似,但是對線性及非線性的關聯都可以較好的識別;二是Ordination,SAFE scorePCA,目的為展示一個整體富集規律(overall enrichment pattern)不僅可以識別對微生物組變化貢獻最大的物種或表型,也可以了解哪些表型或物種的聯系比較緊密;三是Co-enrichment network,這里的網絡基于物種及表型關聯的顯著性構建,用于探索其生物學意義上的關聯或者混雜因素(confounder),需要以研究目的和意義為導向。

  另外,本研究通過對4個數據集(包括1個合成數據和3個真實世界數據)對tmap方法加以驗證,結果表明與傳統的線性方法(如envfit, adonis, ADONISM)相比,tmap都表現更好,對非線性關聯及潛在規律都有較好的識別。以比利時隊列FGFP為例:2016年發表在Science,研究內容為健康正常人群的腸道微生物組。研究納入了1106個糞便16S rRNA樣本,及樣本的69個宿主表型特征,包括了7metadata類別:社會人口學特征,生活方式,血液指標,健康狀況,飲食習慣,腸道健康狀況及病史用藥情況。文章表明,僅有7.63%的微生物組改變與宿主表型的變化有關。tmap提高了識別并解讀population-scale的微生物組-宿主表型關聯的能力。如下圖所示,tmap不僅可以較好的復現envfit這種基于線性回歸的方法,也在對非線性變化的捕捉上,比envfit更加靈敏。通過對FGFP數據轉化的SAFE score分析,可以得到許多原始文章中沒有挖掘到的規律和線索。如下圖所示,比如兩種藥物雖然與同一種疾病相關聯,但其對微生物組的影響是不同的,具體表現為在網絡圖上的富集部位不一樣。這都是傳統線性分析難以得到的。 

  總的來說,tmap有助于將不同國家地區,不同疾病類型,不同宿主表型的人群微生物組大數據加以整合,對人群做精細分層,為特異性的干預性治療,數據來源多樣化的meta分析等研究提供了有效線索。有效融合不同來源的微生物組極其宿主的醫療健康大數據,是實現微生物組數據共享和整合的創新性方向。其次,tmap不僅可以勝任傳統線性研究對線性關系的刻畫,也對非線性關聯靈敏,優于傳統分析方法。且基于微生物組網絡地圖,可以挖掘基于微生物組變化背景的宿主表型關聯,使表型之間的關系不會與微生物組變化割裂開來。最后,了解不同宿主表型在網絡圖上的分布,捕捉變量之間聯系及變量自身的重要性排序,對大規模人群隊列的數據分析,不僅歸納總結了現有數據規律,也對科學假設的提出,科學問題的提煉有很大幫助。

  本研究工作得到了深圳市科技計劃基金支持。 

tmap的大致工作流程:將高維微生物組數據轉化為拓撲學網絡結構,并用于微生物組人群分層及相關性分析。

以比利時隊列為例,左圖為關聯微生物組特征與宿主表型,對宿主表型進行排序。并于傳統envfit方法比較。右圖表現了tmap對線性及非線性關聯均有良好的捕捉。

以比利時隊列為例,對疾病和用藥的共富集分析。左圖為關聯微生物組特征與宿主表型,對宿主表型進行排序。并于傳統envfit方法比較。右圖表現了tmap對線性及非線性關聯均有良好的捕捉。

  論文鏈接

    軟件教程 軟件代碼

战旗怎么开直播赚钱吗