大數據視角下的輿情觀測平臺:社會焦點透視鏡系統
趙妍妍1,秦兵2,劉挺2
1. 哈爾濱工業大學機電學院媒體技術與藝術系,黑龍江 哈爾濱 150001;
2. 哈爾濱工業大學計算機科學與技術學院社會計算與信息檢索研究中心,黑龍江 哈爾濱 150001
摘要: Web2.0時代的開啟和社會媒體的不斷發展,使得互聯網上的數據規模呈爆炸性增長。網絡大數據不僅為社會治理領域帶來了新的契機,也對數據處理技術提出了巨大的挑戰。構建了一個社會焦點透視鏡系統,結合新浪微博數據,不僅能夠實時提供每日的焦點事件及其情感分布展示,供輿情分析部門進行檢測,還能夠深層剖析焦點事件的情感分布原因和人群分布,協助社會治理領域進行策略的提出和實施。以“9·3閱兵”為例,呈現社會焦點透視鏡系統深度剖析的結果展示。
關鍵詞: 網絡大數據;社會焦點透視鏡;焦點事件抽取;情感分布
中圖分類號: TP391. 1 文獻標識碼:A
doi: 10.11959/j.issn.2096-0271.2016018
Social event sensor: a public opinion platform from the big data perspective
ZHAO Yanyan 1 , QIN Bing 2 , LIU Ting 2
1. Department of Media Technology and Art, Harbin Institute of Technology, Harbin 150001
2. Research Center for Social Computing and Information Retrieval of Computer Science and Technology School, Harbin Institute of Technology, Harbin 150001
Abstract: The development of Web 2.0 and social media has led to the explosive growth of online user generated content. Big data brings a new opportunity for social governance, but also poses a great challenge for the data processing technology. A social event sensor system was constructed, which not only can automatically extract the daily hot events and their emotion distributions in real time for opinion monitoring, but also can deeply analyze the emotion distribution causations and the population distributions to help policy-making in social governance. Finally, one case study “9.3 Parade” was showed to show the deeply analysis of social event sensor system.
Key words: big Web data, social event sensor, hot event extraction, sentiment distribution

1 引言
Web2.0時代的開啟和社會媒體(如微信、微博)的出現使得大量用戶從被動地在網絡上接收知識轉變為海量網絡數據的產生者。據統計,互聯網上的數據每年將增長50%,每兩年便翻一番,網絡大數據應運而生。目前,大數據的研究和應用價值已在很多領域初見端倪。例如:在零售業,可以在大數據中挖掘出高消費者和高影響者兩類有價值的客戶,進行產品推薦和口碑宣傳,與社交網絡相結合創造出新的商品營銷模式。此外,社交網絡中的大數據也為很多政治選舉提供了新的宣傳手段,最典型的如在Facebook上開展的奧巴馬的總統競選運動。
隨著大數據理念和相關技術的不斷深入, 大數據應用 也在慢慢向社會治理領域滲透。2015年8月31日,國務院以國發〔2015〕50號印發《促進大數據發展行動綱要》。大數據發展與“提升政府治理能力現代化”緊緊相連,成為全文亮點。大數據將如何助力政府治理,以改善百姓民生、社會服務成為大家最為關注的話題。眾所周知,爆炸性增長的大數據蘊藏著巨大的價值,因此尋求有效的大數據處理技術、方法和手段成為基于大數據進行社會治理的最本質的需求。
在眾多的大數據形式中,社會媒體數據,如微博和微信數據,是很好的一種洞察民情、觀測大眾行為的數據形式。例如,當某一焦點事件發生時,大量民眾在微博上發表自己的觀點,可以通過觀測相關的微博大數據來統計并獲取民眾對于該事件的情感分布趨勢,繼而協助相關部門進行社會治理策略的提出和實施。此外,微博大數據還可以挖掘出民眾普遍關注的話題類型、暴露出民眾的整體情緒趨勢,供輿情部門監測。
目前國內外已經有多項借助微博或Twitter來進行淺層社會治理和分析的技術和系統。Zhao等人[1]構建了一個名為MoodLens的中文微博情感分析系統,將微博的情感分為憤怒、厭惡、高興和低落4類,進行異常或突發事件的監測。Wang等人[2]構建了一個實時的預測2012年美國大選結果的系統,該系統通過統計Twitter上民眾對于4位候選人的情感分布來進行結果預測。Ciot等人[3]研究了Twitter上進行用戶性別預測的算法。Diao等人[4]研究了如何在Twitter上實時發現突發事件。Jennifer等人[5]研究了在Twitter上某個事件的發生時間預測算法。以上這些有代表性的系統和算法均是圍繞微博或Twitter大數據中焦點事件抽取和情感分析這兩大項任務進行的,屬于淺層的大數據分析結果顯示,存在的問題是缺乏事件和情感的深層分析和透視。這些傳統的系統和研究往往只關注民眾關心的焦點事件是什么,情緒走向是什么。如圖1(a)所示,基于自然語言處理技術,可以對2015年5月29日的微博大數據進行分析,挖掘出全國十大焦點事件以及每個事件的民眾情感分布,屬于淺層分析,分析出的結果可以為相關部門提供一定的預警信號。
然而,對于社會治理而言,相關部門更關心的是為何某一事件的發生會產生異常情緒、什么樣的人群會導致某些情緒的產生等深入的原因剖析,基于此來指導社會治理方案的制定。如圖1(b)所示,看到民眾對于“長江游輪傾覆”事件的情緒分布后,相關部門更想知道為何會有人喜悅、為何會有人憤怒等異常情緒的形成原因。又如圖1(c)所示,相關部門還想知道針對同一焦點事件,不同的用戶畫像(性別、職業、年齡等)產生的情感分布的差別是什么,用以框定某一異常情緒的用戶群體進行監測。相比微博大數據的淺層分析和呈現而言,深層透視能夠更精準地聚焦原因和人群,顯然對社會治理有更大的幫助。基于此,本文將詳細展示一個大數據視角下的輿情觀測平臺——社會焦點透視鏡系統。該系統圍繞微博大數據進行焦點事件及其情感分布的深層透視,旨在為新時代的社會治理提供創造性的思路。如前文所述,社會焦點透視鏡系統包括兩大部分的內容:焦點事件發現與情感分布展示;焦點事件情感分布原因和人群的深層透視。在第一部分內容中,本系統主要采用了事件抽取技術和情感分析技術;在第二部分內容中,主要采用情感原因分析技術和用戶畫像技術。本文以“9·3閱兵”為例,呈現社會焦點透視鏡系統的淺層和深層分析展示結果。

圖 1 面向焦點事件的情感淺層分析和深層透視
2 社會焦點透視鏡系統
社會焦點透視鏡系統是一個實時的互聯網大數據輿情監測平臺。通過對微博海量數據的分析、挖掘和 可視化 ,構建社會焦點事件的發現、追蹤和挖掘的深層透視。圖2展示了社會焦點透視鏡系統的流程,共包括兩部分內容:社會焦點事件的淺層分析和社會焦點事件的深層透視。

圖 2 社會焦點透視鏡的系統流程
●社會焦點透視鏡的淺層分析:主要包括事件發現和情感分析兩個模塊。淺層分析可以每隔2h實時更新當天的焦點事件,并實時對這些焦點事件進行民眾情感的分析。如圖1(a)右側框中所示的焦點事件以及情感分布。此外,社會焦點透視鏡的淺層分析還可以實時給出全國各省民眾的整體情緒指數及各省民眾關心的焦點事件。如圖1(a)中顯示的地圖,從深至淺代表了情緒指數(喜悅情緒)由高至低。
●社會焦點透視鏡的深層透視:主要包括情感歸因分析和基于用戶畫像的情感分析兩個模塊。深層透視是對某一段時期的某一個焦點事件的深層剖析。主要從兩個角度入手,一個是導致某一種情緒的事件原因,另一個是導致某一種情緒的人群歸類。
下面將詳細介紹每個模塊。
2.1 數據來源
選擇新浪微博作為實時的數據來源。新浪微博匯集了有關焦點事件的民眾的多角度評論以及民眾每天的行為情緒動態。社會焦點透視鏡系統每天的微博處理總量在1 600萬條微博左右,每2 h更新一次。數據格式見表1。
表 1 微博數據格式

2.2 預處理
預處理主要包括兩個部分:文本噪聲預處理和文本分析預處理。
文本噪聲預處理部分包括去廣告、去水軍和文本去重等步驟。考慮到微博可能存在的廣告會對后續的事件發現和情感分類等步驟造成干擾,本文收集了400條廣告標記短語,用于過濾帶有廣告詞匯的微博;同時結合新浪微博數據中心的水軍過濾算法,初步緩解部分話題水軍泛濫的問題;考慮到每日系統需要處理海量數據的微博,其中部分微博存在表述重復的現象,針對性地對其進行去重處理。
文本分析預處理部分包括必要字符的替換、分詞和詞性標注等步驟。考慮到微博文本的特點,即用戶信息( [email?protected] )和短鏈接信息(例如“http://t.cn/Ryrc”)等會對后續的步驟造成干擾,所以本文對其進行必要的替換或屏蔽;后續步驟本文使用哈爾濱工業大學語言技術平臺(language technology platform, LTP)對文本進行精準的分詞與詞性標注。
2.3 事件發現
這里的事件具體是指微博焦點事件,即在短時間內被大量用戶高度關注、討論的話題。有些話題與社會事件密切相關,如“長江游輪傾覆”、“馬航失聯”等;有些話題與社會事件無關,但仍在短時間內獲得了很高的關注度,如:“你最喜愛的男神”、“最美英語教師”等。微博焦點事件不同于官方媒體的頭條新聞,微博植根于草根之中,是普通大眾的心聲或思想的網絡直接反饋。基于此,挖掘浩瀚如海的微博中的焦點事件變得尤為重要。
在社會焦點透視鏡系統中,設計了一個實時微博焦點事件抽取框架。該框架的核心是基于統計的思想,利用啟發式規則和聚類算法。該框架主要包含3個組成部分,分別如下。
●話題發現:候選熱點話題發現。
●話題聚類:候選熱點話題聚類。
●話題排序:對聚類得到的話題聚簇進行排序,排序靠前的即焦點事件。
具體的算法可見參考文獻[6]。
2.4 情感分析
這里使用的情感分析技術具體是指面向焦點事件的情緒分類,最終顯示為如圖1(a)所示的焦點事件的情緒分布。其中的基礎技術環節是,針對一條包含焦點事件的微博,判斷它所表達的情緒是“喜悅”、“憤怒”、“悲傷”、“恐懼”還是“驚奇”。
情緒分類是情感分析領域研究得比較深入的一項基礎任務,主要有基于情感詞和基于分類器兩大類方法。其中基于SVM(support vector machine,支持向量機)和豐富特征的方法是最經典和快速的方法[7]。近年來,隨著深度學習在自然語言處理的深入發展,深度學習技術在情感分類領域也取得了較好的效果[8]。因此,在社會焦點透視鏡系統中,筆者采用了詞向量和SVM經典特征相結合的方法[9],取得了較好的性能。
這里值得一提的是,微博的口語化較為嚴重,充斥著隱式情感(如:“滿滿的正能量”,“我給他打滿分”)和反諷(如:“你真是太給我長臉了!”)、隱喻(如:“此人是垃圾”)等豐富的語言現象,這給情感分析技術提出了較大的挑戰,這也是未來努力的目標。
2.5 情感歸因分析
如前文所述,“事件發現”和“情感分析”模塊屬于社會焦點透視鏡系統的淺層分析。用戶更想探究的是為何會有某種情緒的產生、什么導致了某種情緒等更深層的透視。這也是本文的社會焦點透視鏡系統不同于國內外其他現有系統的重要區別所在。在該系統中,第一層次的透視就是面向焦點事件的民眾情緒的原因分析,具體體現為哪個子事件的發生導致了這種情緒。
本系統首次提出了情感歸因分析任務,并使用自動抽取用戶自然標注的Hashtag作為子事件的算法來解釋焦點事件的原因分析。圖3顯示的是“長江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒的原因分析。從圖3(a)中可以看出,子事件“沉船內部有生命跡象”和“載客458人已救起8人”的情緒分布中“喜悅”的情緒占據了一定的比重,因此這兩個子事件可以用來解釋“長江游輪傾覆”事件所表露出的“喜悅”情緒。從圖3(b)中可以看出,子事件“乘客家屬收到詐騙短信”的情緒分布中“憤怒”的情緒占據了大部分的比重,因此該子事件可以用來解釋“長江游輪傾覆”事件所表露出的“憤怒”情緒。具體的算法細節可見參考文獻[10]。

圖 3 “長江游輪傾覆”事件的“喜悅”和“憤怒”兩種情緒歸因分析
2.6 基于用戶畫像的情感分析
除了焦點事件的情緒歸因分析之外,用戶不同群體與情緒之間的對照也是社會焦點透視鏡系統深層透視的重要組成部分。事實證明,不同的用戶群體對同一事件的情緒反饋也不同。如圖1(c)所示,不同性別的用戶對“文章出軌事件”的情緒反饋是不同的。用戶群體的特性除了用性別表示外,還有職業、年齡、地域等不同的用戶畫像角度,都可以從不同的側面展示出不同的用戶群體對同一事件的情緒反饋。如果能夠將用戶的各個畫像角度與情緒分析相結合,無疑是從用戶角度對焦點事件的深層次透視。
在目前的社會焦點透視鏡系統中,僅僅針對用戶的地域和性別兩個維度的屬性,對提及的微博數量進行了統計分析,圖4(a)和圖4(b)分別展示了針對“長江游輪傾覆”事件用戶在省份和性別這兩個維度上的微博數量。當然,將不同的用戶屬性與其情感分布進行對照是更深入的社會輿情透視,這也將是下一步的研究工作。

圖 4 “長江游輪傾覆”事件微博數量
除了以上幾個重要模塊的展示外,社會焦點透視鏡系統還有其他一些豐富的展示效果,詳情請見http://qx.8wss.com。
3 社會焦點透視鏡系統的應用實例——“9·3閱兵”
與人民網和新浪微博合作,筆者將社會焦點透視鏡系統的關鍵技術用于了2015年的“9·3閱兵”話題中,推出了閱兵大數據“網民情緒展示”平臺,該平臺每隔15 min刷新一次數據,進行展示。
“網民情緒展示”平臺的主要功能包括:網民實時關注熱門地區排名、網民實時評論閱兵熱點高頻詞分析、網民實時熱點話題排行榜以及整個閱兵過程中的輿情走勢等。該平臺共采集了9月3日8:30-12:30這4 h內網民在新浪微博平臺上的閱兵相關話題,并進行分析統計。大 數據分析 結果顯示:原創微博及轉發微博總帖量共計453萬人次,網民參與發帖的峰值點出現在中午12:00,峰值數據為50萬人次;熱門地區被廣東、北京和山東包攬前三甲;網民熱議的高頻詞有“國泰民安、挺身而出、舍生忘死”等;“習近平宣布將裁軍30萬”成為網民最熱議的話題。
圖5是“網民情緒展示”平臺的部分數據截圖。

圖 5 “網民情緒展示”平臺的部分數據截圖
4 結束語
本文介紹的“社會焦點透視鏡系統”是微博大數據時代下的一種新型的輿情監測平臺。該系統不僅可以像傳統系統一樣展示出社會熱議的事情及民眾的情緒分析,還可以深層透視焦點事件背后情緒分布的原因及其相應的用戶群體,相信可以對當代社會治理方案的制定提供一定的技術支持。
作者簡介:
趙妍妍(1983-),女,哈爾濱工業大學機電學院媒體技術與藝術系副教授、碩士生導師,中國中文信息學會社會媒體處理專委會委員,主要研究方向為社會計算、情感分析。
秦兵(1968-),女,哈爾濱工業大學計算機科學與技術學院教授、博士生導師,社會計算與信息檢索中心副主任,中文信息學會信息檢索專委會委員,中國計算機學會中文信息技術委員會委員,主要研究方向為社會計算、自然語言處理、文本挖掘。
劉挺(1972-),男,哈爾濱工業大學教授,社會計算與信息檢索研究中心主任,中國計算機學會理事,中國中文信息學會常務理事、社會媒體處理專業委員會主任,國際會議ACL2014、EMNLP2015領域主席,主要研究方向為社會計算、信息檢索和自然語言處理。

參考文獻:
[1] ZHAO J C, DONG L, WU J J, et al. MoodLens: an emoticon-based sentiment analysis system for Chinese Tweets in Weibo[C]//The 18th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, August 12-16, 2012, Beijing, China. New York: ACM Press, 2012: 1528-1531.
[2] WANG H, CAN D, KAZEMZADEH A, et al. A system for real-time Twitter sentiment analysis of 2012 U.S. presidential election cycle[C]//The ACL 2012 System Demonstrations, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 115-120.
[3] CIOT M, SONDEREGGER M, RUTHS D. Gender inference of Twitter users in non-English contexts[C]//The 2013 Conference on Empirical Methods in Natural Language Processing, October 18-21, 2013, Seattle, Washington, USA. Sofia: Association for Computational Linguistics, 2013: 1136-1145.
[4] DIAO Q M, JIANG J, ZHU F D, et al. Finding bursty topics from microblogs[C]//The 50th Annual Meeting of the Association for Computational Linguistics, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 536-544.
[5] WILLIAMS J, KATZ G. Extracting and modeling durations for habits and events from Twitter[C]//The 50th Annual Meeting of the Association for Computational Linguistics, July 8-14, Jeju Island, Korea. New York: ACM Press, 2012: 223-227.
[6] ZHAO Y Y, QIN B, LIU T, et al. Social sentiment sensor: a visualization system for topic detection and topic sentiment analysis on Microblog[J]. Multimedia Tools and Applications, 2014: 1-18.
[7] MOHAMMAD S M, KIRITCHENKO S, ZHU X D. NRC-Canada: building the state-of-the-art in sentiment analysis of Tweets[C]//The International Workshop on Semantic Evaluation, June 2013, Atlanta, USA. New York: Association for Computational Linguistics, 2013: 321-327.
[8] SOCHER R, PERELYGIN A, Wu J, et al. Recursive deep models for semantic compositionality over a sentiment treebank[C]//The Conference on Empirical Methods in Natural Language Processing(EMNLP 2013), October 18-21, 2013, Seattle, WA, USA. Sofia: Association for Computational Linguistics, 2013: 1631-1642.
[9] TANG D Y, WEI F R, YANG N, et al. Learning sentiment-specific word embedding for Twitter sentiment classification[C]// The 52th Annual Meeting of the Association for Computational Linguistics (ACL 2014), June 22-27, 2014, Baltimore, MD, USA. Baltimore: Association for Computational Linguistics, 2014: 1555-1565.
[10] ZHAO Y Y, QIN B, DONG Z J, et al. What causes different emotion distributions of a hot event? A deep event-emotion analysis system on microblogs[C]//The 4th CCF Conference on Natural Language Processing & Chinese Computing(NLPCC 2015), October 9-13, 2015, Nanchang, China. Berlin: Springer, 2015: 453-464.
責任編輯:王培