t-sne數據可視化算法的作用是啥?為了降維還是認識數據?
降維是手段,認識數據是目的。
最近兩年 t-SNE 在 生物行為學 有一些優秀的應用。我認為類似的分析思想和技術將在動物行為的神經基礎這一領域起到革命性的作用。
對動物行為的研究,歷史上一直局限于兩類:
精確測量的簡(wu)單(liao)行為。
例如小鼠研究中常用的刺激-反應延時,和左/右選擇等。這些研究所測量的行為可以很精確也很穩定,但總是比較沒意思。(除了無聊之外這實際上也極大的限制了我們對神經系統的理解)
此類測量的另一個問題是時間上非常粗粒:難以獲得高解析度的行為時間序列。
無法精確測量的有趣行為。
常見的ethogram/行為譜即是如此。通常我們拍一段動物在做各種事情的小視頻,然后人工去標記不同的階段(Masters’ style :P)。這類測量只能給出描述性的標簽,而且不同的實驗者之間往往難以對標簽的定義達成完全的共識。
一個例外是鳴禽的唱歌行為。特別是斑胸草雀的歌聲極為刻板 / stereotyped,是少見的天然可精確測量的行為。這也是為什么我們用斑胸草雀做為運動學習的模型動物的原因之一。
那么如何實現 對有趣行為的精確測量 呢?或者用可操作的語言來說, 如何將動物的行為轉換成精確、可重復、高解析度的時間序列?
Gordon Berman 是將數據降維運用到行為測量的先驅。他在2014年的論文《測量自由運動果蠅的可重復行為》[1] 中使用 t-SNE 對果蠅在二維表面自由運動(即除了飛行)的錄像進行降維打擊,并得到了如下圖譜:
通過自動化的降維和聚類,將果蠅的行為轉換成2維圖譜上的軌跡。
所以這有什么用呢?
當研究者們分析降維后得到的圖譜,其中一個意外的發現就是,當作者們比較男果蠅和女果蠅在圖譜的密度分布,發現 兩性在清潔左翅時的動作有微妙的差別 。這一性別差異以前沒有人知道,是通過比較圖譜再回去看視頻才發現的。
當然,這一范式的作用遠不止于發現以前沒有發現的行為差異。最重要的是,通過自動化的數據降維,我們終于可以 精確測量并用無岐義的語言描述動物的行為 。而這對研究行為的神經學基礎有著顯而易見的重大意義。
動物行為中一個關鍵而難以觀測的變量是內隱變量,或者說 系統的內部狀態 。
今年5月,Gordon 發表了對果蠅行為的進一步分析 ,發現果蠅的運動模式具有層級/hierarchy:
即,果蠅在行為圖譜中的運動在不同的時間尺度可以被描述為一系列層級。這個概念本身沒什么稀奇:誰都知道動物的行動有層級性。但是如何理解不同層級之間的關系呢?這一分析方法首次給出了關于 什么是層級的可靠的定義 。
End.
轉載請注明來自36大數據(36dsj.com): 36大數據 ? t-sne數據可視化算法的作用是啥?為了降維還是認識數據?