大數據的可視化工具
如今,面對海量的生物數據集,人們往往感到束手無策。然而,這些TB級的數據有望帶來新的假說、新的藥物靶點,以及對生物系統的更徹底了解。數據可視化在其中扮演著至關重要的作用。在這一期的《BioTechniques》雜志上,Sarah Webb博士探討了數據可視化的挑戰和能力。
大數據是一個美好的概念。不過隨著生物數據集的增長和變化,可視化研究人員正面臨持續的挑戰。哈佛醫學院的Nils Gehlenborg表示,問題在于數據的規模和異質性。人類基因組包含數十億個堿基,研究人員希望從染色體、基因甚至堿基對水平來查看。此外,還有其他類型的關聯數據,比如癌癥患者的性別、年齡、腫瘤類型等。
瀏覽基因組
在線的基因組瀏覽器可以幫助研究人員探索數據、尋找模型,并建立假說。目前有許多這樣的工具,每個在功能上稍有不同。加州大學圣克魯茲分校分校(UCSC)的Genome Browser自2000年上線,是探索人類基因組、各種脊椎動物的基因組以及其他模式生物基因組的工具(http://genome.ucsc.edu/)。
在Genome Browser中,染色體上的單個基因顯示為分散的刻度線。當用戶放大基因,他們可看到不同的異構體,了解它是如何剪接的。較深的顏色表示這些異構體獲得更多實驗證據的支持,框代表外顯子,而箭頭表示轉錄方向。再進一步放大,深色和淺色的條紋顯示特定密碼子的位置。
此外,基于UCSC的Genome Browser,人們也開發出更多的工具。比如,Ting Wang在UCSC攻讀博士后時領導了一個拆分項目,最終開發出UCSC Cancer Genomics Browser (http://genome-cancer.ucsc.edu/proj/site/hgHeatmap/)。之后他來到華盛頓大學,開始構建表觀基因組瀏覽器VizHub(http://epigenomegateway.wustl.edu)。它目前擁有大約25,000個表觀遺傳學數據集。
探索蛋白質組
據比利時根特大學的Lennart Martens介紹,蛋白質組學也面臨可視化的挑戰。與基因組學數據庫類似,質譜數據庫是一個潛在的寶庫,有望發現新的相互作用,并產生新的假說。他估計,歐洲生物信息學研究所的PRIDE數據庫(www.ebi.ac.uk/pride/archive/)大約包含10億個質譜數據,其中70%是未確定的。
Martens是一名生物信息學家,他的工作主要集中在蛋白質組學,最近也在代謝組學。他試圖找到更好的方法,來表示新生成的質譜數據,以及那些公開的數據。他承認,以直觀的方式濃縮分子碎片的各種組合是比較困難的?!拔覀円膊豢偸浅晒Γ彼f,“你不能無限濃縮這一信息。”
可視化工具的開發可能需要很長的時間。研究人員必須了解用戶及其需求,還需要了解數據集以及數據的潛在關系。有時,相互理解就需要許多回合的討論。對于計算機背景的研究人員來說,生物學可能太過混亂。
此外,盡管數據可視化相當重要,但大多數研究人員沒有接受過這一方面的培訓。他們可能無法理解某些類型的圖像,如氣泡圖和雷達圖。Martens認為,這個問題只能通過培訓來解決。在這篇文章中,加拿大基因組科學中心的Martin Krzywinski就數據可視化提出了幾點建議,可幫助大家美化論文。(生物通 薄荷)
責任編輯:陳近梅