大數據時代計算社會學面臨的機遇與挑戰
2016年中國社會學年會在蘭州取得圓滿成功,作為本次會議重要組成部分的“大數據與計算社會科學論壇”也成果豐碩。本次論壇由武漢大學社會發展研究院院長羅教講教授召集,共收到投稿論文30來篇,參會人員20余人,兩天共計16場精彩的學術報告,展示了計算社會科學領域在近期的研究成果,匯聚成為大數據時代計算社會科學領域的理論、方法與實踐等三個重要方面。本次論壇人氣旺盛,思想交流活躍,既展示了該領域的研究前沿,也傳播了先進技術與方法,既體現學界前輩對青年學人的關懷,也凸顯了中國80后學人敢于攀登科技前沿的勇氣;既展示了大數據與計算社會科學的光明前景,也指出該研究領域目前面臨的嚴峻挑戰。所有這一切,為大數據時代計算社會科學在中國的發展起了重要推動作用。
大數據時代計算社會科學的發展機遇
大數據時代計算社會科學的興起。大數據浪潮近年來在全球范圍驚濤拍岸,由互聯網、 移動互聯網 、物聯網等平臺所匯聚的海量數據層出不窮,為科學研究提供前所未有的機遇,并在全球興起了一種不同于通過實驗、抽樣調查等方法采集結構化數據進行實證研究的“計算范式”。會議一開始,羅教講教授即指出,這個“計算范式”的興起過程在自然科學領域已經如火如荼,大數據時代的到來,必定會引發社會科學領域的科學范式革命,這場革命突出地表現為“計算范式”的興起,社會科學的實證研究從“計量范式”的一統天下到“計量范式”與“計算范式”的并駕齊驅,相得益彰。社會科學在“計量時代”取得了不小進步,但因為研究方法和技術手段限制,社會科學還有不少基本問題至今都沒有得到解決,對于人類社會與人類行為規律的總結與發現,還處于非常初級的水平。大數據時代的到來,社會科學研究獲得全新的數據來源,人們對復雜社會系統的信息收集與分析能力取得突破性進展為社會科學范式革命提供了基礎數據。
大數據對于社會預測的意義。社會科學的使命表現為對社會系統的描述、解釋和預測,一直以來,人類在社會系統的預測方面建樹甚少,這樣一種狀況和采集社會系統的數據存在困難有關系。天津工業大學閻耀軍教授從控制論角度,展示了大數據對于預測社會復雜系統和實現前饋控制的重要意義。閻教授的報告給人印象特別深刻的是,他展示了一種來自110報警地點的空間信息數據,據此可以分析不同類型犯罪行為在城市空間的分布特征,進而為城市警力的布置提供依據和向導,也就是說,可以根據這種類型的大數據,預測城市不同空間位置上不同類型犯罪行為的發生概率。他們根據這樣一種數據所獲得的啟示進行犯罪干預,結果使得天津某區域的犯罪率下降了50%以上。閻教授的報告,展示了大數據在社會治理領域的強大威力。
大數據分析 社會事實的優越性。社會事實是社會學研究的基本對象,對社會事實進行分析以研究社會系統的運行規律是社會學得以建立的基石。武漢大學社會學系青年教師龔為綱以Google Bigquery這一大數據分析平臺為依托,以“19世紀海上絲綢之路”為分析對象,歸納了大數據分析社會事實的基本特征,表現為:展示超長時間范圍內社會變遷的歷史長卷、獲得超大空間范圍內的全球視野、編織超高維層面社會要素的關聯網絡、透視超大社會系統的運作邏輯。很顯然,大數據時代的計算社會科學,由于分析范式完全不同于過去100多年所興起并日益成熟的“計量范式”,那么基于大數據的“計算社會科學”,對社會事實的分析有著怎樣的研究方法和規則呢?恐怕這是未來大數據研究領域所必須面對的問題。
大數據有助于普適性社會科學規律的分析與證明。已有的社會科學結論,由于方法與數據源的限制,導致絕大多數社會科學的研究結論僅僅是“地方性知識”,這是因為很多社會科學研究的實證基礎和經驗邊界具有地方性,通過已有研究方法拓展研究的經驗邊界極其困難,突出地表現為語言、文化的溝通困難,以及研究經費的限制。大數據時代的到來是發生在全球化的背景之下,目前有非常多的大數據在數據特征上具有全球性,這為研究者對研究對象的特征分析和研究結論的全球推演提供了可選路徑。武漢大學社會學系副教授段文杰近年來一直在思考具有普適性的人類積極心理品質,他提出一個基于求知欲、自控力、親和力的三因素框架,被一項基于百萬樣本的數據源所證明。他提出,要是能夠從具有全球性的大數據中,獲得這一結論的證據,將會為該研究的推進提供實證基礎。
大數據時代計算社會科學的跨學科研究。社會系統本身具有高維屬性,對社會復雜系統進行研究需要跨學科合作。大數據的重要特征就是數據的超高維品質,這為跨學科研究提供了合作平臺。本次論壇的一個突出特征就是跨學科視角:清華大學博士后呂鵬和香港中文大學研究生葉翰璋以ABM分析方法為例,對群體性事件的發生邏輯進行了模擬;武漢大學大數據與計算社會科學研究中心主任羅俊、博士后陳錚從新聞學的視角,展示了微博平臺上信息傳播的偏態特征:即一事件發生之后,在微博等平臺上進行傳播時其負面性信息經常比正面信息具有更強的傳播能力、傳播范圍和影響力。
還有其它學者從不同視角展示了大數據研究的實踐與運用。
大數據研究與計算社會科學發展所面臨的挑戰
與任何新興事物的出現所面對的環境一樣,大數據與計算社會科學在中國興起之后,既面臨因為發展不成熟而遭遇質疑和排斥的聲音,也遭遇因為研究范式的不可通約而存在的冷遇和尷尬。故而,對大數據分析范式與大數據思維的批判在國內也一浪高過一浪,自然,這樣一種狀況在本次論壇上也蔚為壯觀。
舍恩伯格的《大數據時代》是推動大數據浪潮的扛鼎之作,此書提出大數據分析思維具有三大特征,一是基于總體而非樣本的思維,二是擁抱混雜性而非精確性,三是著眼于相關性而非因果性。很顯然,舍恩伯格的這樣一個具有革命性的、有關大數據分析范式的“宣言”,已引發激烈爭議。武漢大學大數據與計算社會科學研究中心主任羅俊對舍恩伯格的這三個命題提出了一些修正性意見。
針對舍恩伯格的第一個命題,他認為,我們需要直面現實,現實生活中的大數據很少是完美的總體數據,總是存在各種各樣的偏差和局限,舍恩伯格意義上的總體數據在現實中很少出現,甚至從來就沒有出現過。以輿情研究為例,通過現有傳感器比如twitter,facebook,新浪微博等平臺,甚至是整個互聯網上的數據,都只能算是“分眾輿情”,即那些生產內容的用戶,經常只是傳感器用戶中的一部分,另外,還有很多社會成員不是這些傳感器上的用戶,這樣,網絡輿情從來就不等于網民民意,網民民意更不是國民民意。針對舍恩伯格的第二個命題,他認為,對數據的質量不可忽視。由于“不請自來的民意偽造者”、網絡水軍在互聯網上大量存在,以及其它的虛假信息的泛濫,這經常使得我們所獲取的來自互聯網、移動互聯網的數據的真實性、可靠性值得懷疑。正是因為這樣,舍恩伯格以混雜性為名對數據質量進行辯護,會引發大數據領域的研究者在思想上的混亂。針對舍恩伯格的第三個命題,羅俊認為,如果我們放棄對因果性的追求,等于研究者在數據的世界“自甘墮落”,放棄了人類對批判性反思的追求。
很顯然,羅俊的“大數據批判”,對于大數據研究者保持清醒的頭腦、保持謙虛謹慎的態度具有積極意義。這一批判也告訴我們,目前全球在大數據領域的確面臨嚴峻挑戰,這樣一種挑戰主要源于大數據基礎上的計算社會科學目前還是一個新興領域,在范式的基本前提假設、基本命題等方面還存在一個漫長的錘煉和完善的過程。
責任編輯:陳近梅