欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

我是創(chuàng)始人李巖:很抱歉!給自己產(chǎn)品做個廣告,點擊進來看看。  

本文作者將以《大秦帝國之崛起》作為分析對象,來詳細闡述在大數(shù)據(jù)時代數(shù)據(jù)分析會涉及到的全網(wǎng)輿情分析、微博傳播分析以及文本挖掘。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

今年開年,因飾演白起的演員王學兵吸毒而拖延上映的《大秦帝國之崛起》(以下簡稱為“崛起”),終于在劇迷的千呼萬喚中播出。

這部根據(jù)孫皓暉同名小說改編的電視劇是“大秦帝國”系列的第三部,首部《大秦帝國之裂變》,第二部《大秦帝國之縱橫》分別于2009年、2013年播出,均獲得不錯的口碑,第三部《大秦帝國之崛起》因為上面的原因而補拍,直到今年年初才在央視開播。

本文將以該劇作為分析對象,來詳細闡述在大數(shù)據(jù)時代數(shù)據(jù)分析會涉及到的三個“子課題”:

  • 全網(wǎng)的輿情分析 :基于全網(wǎng)媒體或網(wǎng)民關于該劇的探討,進行“ Social Listening(社會化聆聽) ”,了解該劇整體口碑概況
  • 微博傳播分析 :基于新浪微博某條對于該劇具有重大影響力的微博的傳播情況,了解該條微博的傳播規(guī)律,互動粉絲的畫像,以及水軍的辨識
  • 文本挖掘 :通過對該劇相關非結構化文本數(shù)據(jù)的分析,了解其獲得觀眾較高認可的原因

在接下來的分析中,筆者將結合 分析工具 (新浪微輿情、頭條媒體實驗室、Python、Gephi等)、 分析思路 (分析角度和分析流程)、 業(yè)務知識 (對該劇的了解和原著小說的認知),來談談一個完整的數(shù)據(jù)分析case如何完成,上面所涉及的3個子課題是本文分析的重點。下圖是本文的主要內(nèi)容和文章結構:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

1“崛起”的全網(wǎng)輿情分析

1.1 全網(wǎng)關注情況

(1)“崛起”的全網(wǎng)關注度走勢

因為該劇播出的時間段是2017-2-9~2017-3-6,故筆者選取了在該劇播出前后略有延展的時間區(qū)間,以便觀察這段時間內(nèi)關于該劇的全網(wǎng)信息量走勢。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

大秦帝國之崛起全網(wǎng)關注度走勢圖(2-1~3-13)

從全網(wǎng)總體的關注度來看,在電視劇播出前的關注量較少,而在電視劇播出期間的關注度(有關該劇的網(wǎng)絡信息量)陡然上升,在播出的第一天(2017-2-9)關注度就出現(xiàn)了明顯在上升。在該劇在播出結束后(2017-3-6),信息量逐漸減少,呈下降趨勢。

(2)“崛起”的全網(wǎng)關注度來源

從各信息發(fā)布渠道的表現(xiàn)來看,該劇在微博(新浪微博和騰訊微博)上的信息量占據(jù)主導地位,“二次崛起”后的微博仍是娛樂影視的主陣地,是粉絲與主創(chuàng)團隊進行互動的首選。下圖是“崛起”的全網(wǎng)信息量來源構成。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

除去微博的信息之后,則可以看到除微博(新浪微博和騰訊微博)以外哪些信息渠道關于該劇的討論量較多。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

由此可以看出,新浪博客、百度貼吧這樣的泛娛樂化社區(qū)關于該劇的討論也頗多,前者濫觴于明星入駐,是全國最主流,人氣頗高的博客頻道之一;而百度貼吧是全球最大的中文社區(qū),是“粉絲文化”的催化劑。百度貼吧的迅速走紅,是與“粉絲”及“粉絲文化”的流行緊密相關的,而在“粉絲文化”的發(fā)展過程中,百度貼吧也起到了重要作用。

1.2 全網(wǎng)關于“崛起”的關注點

(1)“崛起”的全網(wǎng)信息形成的關鍵詞云

以下是全網(wǎng)關于“崛起”的文本信息的關鍵詞提取,總計有60個,這些關鍵詞來自于媒體報道,抑或用戶UGC評論,從中我們可以發(fā)現(xiàn)網(wǎng)路上關于該劇的討論集中在哪些關鍵點上。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖中可以看出,除了本劇的片名—“大秦帝國”以外,還有一些比較反映該劇特征的詞匯,根據(jù)筆者對該劇的了解,特挑出其中主要的兩類詞匯:

  • 劇集相關 :“收視”和“收視率”(在無大規(guī)模宣傳的情況下,收視率一路走高)、“拍戲”、“張博”(飾演秦昭襄王嬴稷的演員)、“導演”、“劇本”、“創(chuàng)作”、“花絮”、“創(chuàng)作者”
  • 該劇的意義 :“文化”、“歷史”、“陜西”、“國家”、“文明”、“秦國”、“正劇”、“大秦”,(這類詞匯能在一定程度上代表該劇想要表達的價值觀—居今之世,志古之道,所以自鏡,拒絕戲說,尊史重實)

(2) 與“崛起”相關的關聯(lián)詞分析

全網(wǎng)事件的熱度信息關聯(lián)詞分析,它是通過系統(tǒng)自動運算找出事件核心詞、并計算出與核心詞同時出現(xiàn)關聯(lián)度最高的高頻詞,也就是與核心詞共現(xiàn)頻率最高的詞匯(關于“共現(xiàn)”的原理介紹,請看《 如何用數(shù)據(jù)分析,搞定新媒體運營的定位和內(nèi)容初始化? 》的第三部分)。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

假若讀者看過該劇,從上面的關聯(lián)詞即可看出,該劇的“正劇”屬性確鑿無疑,是一部獨具匠心的佳??!

(3)與“崛起”相關的熱門文章

這里的關于“熱門”文章的定義主要是通過三個維度綜合得出,即閱讀量、轉發(fā)量和評論量的綜合評價。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

上面有7篇個熱門文章,它們在全網(wǎng)信息中的綜合得分(閱讀量、轉發(fā)量和評論量)最高。從這幾篇文章的標題可以看出,它們主要以預告即將播出的劇集的劇情為主,關于劇中主要人物的出場及情節(jié)預告居多,由此可見該劇的關注度較高。

1.3 關注網(wǎng)民的人群畫像

以下數(shù)據(jù)來源于選自“頭條媒體實驗室”,基于今日頭條7億累計激活用戶,7800萬日活用戶(截至2016年12月底)的海量行為數(shù)據(jù)及文章數(shù)據(jù)。鑒于今日頭條龐大的用戶數(shù)量,對其相關人群進行分析可以起到“管中窺豹”、“一葉知秋”的效用。如果該用戶點擊并閱讀跟“大秦帝國之崛起”影視相關的文章,則判定該用戶對該劇感興趣。

(1) 關注網(wǎng)民的性別滲透率及年齡滲透率

此處,用滲透率(度)來表示用戶對特定事件關注度的比例,而非絕對值。有可能出現(xiàn)的情況是:一個人口稀少的地區(qū)有一百個人的人關注了某事件,相比一個人口大省有一萬人關注該話題,計算得到的滲透率(度)可能更高。

以下是這兩類滲透率的計算公式:

  • 性別滲透率 :某性別用戶對關鍵詞的關注度/全網(wǎng)該性別用戶總關注度
  • 年齡滲透率 :某年齡段用戶關鍵詞的關注度/全網(wǎng)該年齡段用戶總關注度

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖可以看出,“崛起”的男觀眾要多于女觀眾,當然這也在預料之中。年齡方面,青年群體(18-30)對該劇的熱衷程度要比想象中的高,說明在當今這樣一個盛行“宮斗撕逼瑪麗蘇”、“手撕鬼子褲腰藏雷”和“玄幻科幻架空歷史”的戲說歷史、全民娛樂時代,大家還是蠻希望有良心、有匠心、不浮躁的優(yōu)秀劇集出現(xiàn),并不是“劣幣驅逐良幣”或者是一味的迎合大眾口味的“糙劇”。

(2)關注網(wǎng)民的地域分布

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

意料之外,情理之中,這部主創(chuàng)團隊(原著小說作者、導演、制片人)全部是“秦人”(陜西人)的影視劇,陜西地區(qū)的受眾關注度(閱讀量、轉發(fā)量、評論量等)最高。

“大秦帝國”系列電視劇,展現(xiàn)了一幅波瀾壯闊的圖景:

在一個熱血的時代,一個積貧積弱的偏蠻小國由幾代秦國人奮發(fā)圖強,秉承著“赳赳老秦,共赴國難,血流不干,誓不休戰(zhàn)”的大無畏精神,歷經(jīng)磨難終于實現(xiàn)大國夢。

出于對祖先的崇敬和身為秦人后裔的自豪,陜西地區(qū)的網(wǎng)民對于該劇的關注度高不足為奇。

(3) 關注網(wǎng)民的興趣圖譜

該部分度量了關注“崛起”的受眾的整體興趣情況,同樣是根據(jù)他們閱讀文章的類別(如“科技”、“歷史”等)來進行判斷的,以此為指標對各興趣類別在關注該話題的人群中從高到低進行排序。

“用戶興趣”的計算公式:

某興趣類別的用戶對關鍵詞的關注度/某興趣類別用戶總關注度

在這里,興趣圖譜分為3層,越往下分則越細致。結合上面的年齡、性別和地域因素,從這些興趣圖譜中,我們能得到關于受眾人群更為深層的洞察。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

通過上面對受眾興趣圖譜層層遞進的“鉆取”,我們可以看到,他們主要的興趣有“國際足球”、“中國古代史”、“電影”、“中國足球”、“NBA”、“購房”和“法律”。結合先前的2個人群畫像維度,可以判斷出喜愛《大秦帝國之崛起》的人群是一些酷愛歷史(尤其是中國古代史)、和運動,且具有一定經(jīng)濟實力的中青年群體,他們具有較高的文化素養(yǎng)。

2“崛起”的熱門微博傳播分析

在前面的全網(wǎng)輿情分析中筆者有提到,該劇(其實大部分影視劇皆是如此)在微博上的聲量極高,所以筆者在這一部分著重描述下它在微博上的聲量表現(xiàn)。

其實,造成微博上聲量較大的原因,絕大部分是因為用戶參與轉發(fā)或是評論了某條微博,每一條轉發(fā)和評論都被視為一個用戶UGC。而微博文本每天13萬的日發(fā)博量和短視頻每天的32萬日發(fā)布數(shù)量,這兩方面每天形成的內(nèi)容體量是相當龐大的。(新浪微博2016年年終數(shù)據(jù))

又因為,微博上“注意力資源”分配極不均勻,少數(shù)大V博主擁有龐大的粉絲資源,他們發(fā)布的內(nèi)容往往能引起微博上廣大民眾的討論,能造成極大的影響力。

鑒于此,筆者選擇了微博上一個關于影視娛樂的自媒體大v—“l(fā)ow君熱劇”,該賬號曾傳播過一條跟“崛起”相關的微博,用戶互動較為活躍,權當“解剖麻雀”之用。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

筆者選取了一條帶視頻的微博,下面的播放量、轉發(fā)量、評論量和點贊量都較為可觀??梢宰鳛槲⒉﹤鞑シ治龅囊粋€例子。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

以下關于該條微博的傳播分析,數(shù)據(jù)來源及相關可視化呈現(xiàn)皆來自于新浪微輿情的 微博傳播分析(微分析) 功能模塊。

2.1?傳播概況

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

截至分析時間03-18 11:50,@low君熱劇?的微博共收獲轉發(fā)數(shù)13,393次(其中有效轉發(fā)10,576次)、 評論數(shù)2,209條,點贊數(shù)29,646個。

此外,該條微博的覆蓋人次為20,260,770,包括原創(chuàng)者(也就是“l(fā)ow君熱劇”)和轉發(fā)者的粉絲數(shù)的疊加,當然也免不了重復計算,但整體的傳播效果是驚人的。注意,這是沒有排除水軍的數(shù)據(jù)。

內(nèi)容敏感度為0.27%,也就是說,關于該條微博的用戶評論中僅有0.27%的評論是呈負面的,這個量很小。

值得注意的是,原創(chuàng)者“l(fā)ow君熱劇”自身是此條微博的關鍵傳播用戶,這個看起來有點費解,筆者會在下面有詳述。

2.2?轉發(fā)評論趨勢

一條微博的傳播是有生命周期的。能夠十分清晰的觀察到該微博轉發(fā)、評論的發(fā)展趨勢,微博的互動及散播活躍與否,以及處于生命周期的哪個階段(引發(fā)期、醞釀期、發(fā)生期、發(fā)展期、高潮期、處理期、平息期和反饋期),對于及時、準確研判事件及輿情走向起到至關重要的作用。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖可以看出,該微博于03-17 12:05發(fā)布后,于03-17 12:30、03-17 23:30達到轉發(fā)、評論高峰,轉發(fā)峰值516條、評論峰值34條,此后微博傳播速度逐漸降低。

同時,意見領袖也是在該條微博的傳播高峰期進行活躍的,圖中深黃色的圓圈即代表它們引起的轉發(fā)量。

2.3?傳播層級

轉發(fā)層級可以看出某個微博傳播滲透力的強弱,層級越多,代表話題的滲透性和傳播性越強,微博粉絲的參與度也就越高。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

本條微博的傳播層級為5級,在傳播深度上一般,滲透力不足,說明本話題以及該劇屬于小眾圈子。

值得注意的是,在剔除掉水軍及僵尸粉之類的用戶后,該條微博的覆蓋人次變更為18,070,952,跟初始覆蓋人次相差了100多萬的人次數(shù)。

在這里,原創(chuàng)者“l(fā)ow君熱劇”有重復出現(xiàn)多次,這是為什么呢?請接著往下看。

2.4?傳播路徑

微博傳播路徑分析是微博傳播分析中的重中之重,分析微博傳播路徑圖能發(fā)現(xiàn)其中的關鍵傳播樞紐節(jié)點(意見領袖)和識別傳播質量。

下圖是傳播路徑圖中常見的三種傳播節(jié)點類型。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

聯(lián)系Malcolm Gladwell在《引爆點”(The Tipping Point)》中提出的觀點,原創(chuàng)節(jié)點、傳播節(jié)點和長尾節(jié)點非常接近其表述的、在某類流行事件中的三種主要角色:

  • 聯(lián)系員 :就是那種“認識了很多人的人”,這類人把朋友當作郵票一樣地搜集,隨時與人保持聯(lián)系,這個角色可以把信息快速的散布出去。
  • 內(nèi)行 :就是那種“什么都懂的人”,他對某一種知識可以說是“達人”,不厭其煩地把相關的知識與朋友分享,但是卻沒有很好的說服力。這個角色對某件事情的狂熱,使他所發(fā)掘出來的事情成為有價值的。
  • 推銷員 :就是那種“什么人都能夠說服的人”這種人沒有很深的知識,但是有特殊的能力讓見到面的人在短暫的時間就交付信任。這個角色能夠把內(nèi)行發(fā)現(xiàn)的東西與人們以簡易的語言溝通。

稍有差異的是,處在長尾節(jié)點位置的粉絲,多半是被動的接收者,傳播層級到他們這里基本戛然而止,但如果長期接收某一類事物信息,他們也會變成該事物的忠實擁簇,會轉變?yōu)槁?lián)系人或者內(nèi)行。

從微博傳播分析系統(tǒng)上獲取傳播節(jié)點相關的數(shù)據(jù)之后,筆者利用復雜網(wǎng)絡分析工具 Gephi ,基于 Fruchterman Reingold 的力導向算法和 Modularity Class 的譜聚類算法,得到了如下能反映該條微博傳播路徑及傳播社群關系的微博傳播路徑圖。(Gephi詳細使用方法請參看《 萬字干貨|10款數(shù)據(jù)分析“工具”,助你成為新媒體運營領域的“增長黑客” 》)

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖可以看出,“l(fā)ow君熱劇”在該條微博的傳播過程中出現(xiàn)了很多次,而且其中呈明黃色的樞紐傳播節(jié)點也是本尊。那究竟它們是同一個賬號轉發(fā)了很多次呢,還是同名但不同賬號各自發(fā)布了一條信息呢?我們接著往下看。

調(diào)出關于傳播節(jié)點的基礎數(shù)據(jù),得到下面關于本條微博TOP轉發(fā)20的列表。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上表可以看出,在轉發(fā)數(shù)TOP20中,“l(fā)ow君熱劇”包攬了狀元、榜眼、探花和傳臚這前四名。第一列的的“發(fā)布微博ID”代表某個賬號將本條微博重新轉發(fā),形成一條新的微博(ID)。因而,“l(fā)ow君熱劇”在本條微博的傳播中,總共發(fā)布了4次,將“聯(lián)系人”“內(nèi)行”和“推銷員”的角色都過了一遍,而且二次轉發(fā)效果上佳,不得不說,只有這樣粉絲過百萬且活躍度極高的微博大v才能這么玩,而且玩的不亦樂乎!

2.5?互動粉絲畫像分析

筆者把傳播者分為兩類,即轉發(fā)者和評論者,將二者分別進行分析。

一般來說,如果沒有水軍操作的話,這兩類群體的屬性應該基本一致。評論者的互動意愿更強,且機器操作的難度較大。

(1)轉發(fā)者和評論者的性別分析

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖可以看出,轉發(fā)者和評論者的性別占比趨近一致,都是女性壓倒性的超過男性。貌似和該劇面向的群體不太一樣,不過,我們需要知道的是,“l(fā)ow君熱劇”平時發(fā)布的關于影視劇的微博之類繁復,像《大秦帝國之崛起》這種風格的影視劇不是主流,平時它的畫風是這樣的:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

這樣就不難理解,為何歷史正劇互動的女粉絲較多,因為這個大v平時吸聚的粉絲多半是女性群體~

(2)轉發(fā)者和評論者的地域分布

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖看來,轉發(fā)者和評論者的地域分布差異較大,轉發(fā)者集中在東北黑龍江,而評論者主要集中在南方。聯(lián)系前面的傳播路徑分析,該條微博人為干預較為突出。

(3)轉發(fā)者和評論者的興趣標簽

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖可以看出,該條轉發(fā)群體和評論群體的興趣圖譜幾近一致—都是熱愛生活、喜好休閑娛樂的樂活一族。

綜合上述關于微博傳播分析的5個維度,本條微博的傳播有輕微人為干預,不是大面積的商業(yè)推動行為,微博傳播情況正常。

3 原著相關的文本分析

在本部分,筆者選取了《大秦帝國之崛起》相關的原著小說進行分析,即《大秦帝國之金戈鐵馬》。

與影視劇不同的是,原著小說交代了秦昭襄王嬴稷上位前的一段經(jīng)過,比如秦武王討伐東周并舉鼎而亡,以及秦宣太后和嬴稷質于燕,等等。

以下筆者就從文本挖掘的角度來分析一下原著小說、觀眾影評等方面的文本分析。

不過,在進行正式的分本分析前,需要對原著小說文本進行預處理,也就是詞匯替換(同一個人名的不同稱謂)、中文分詞(一個漢字序列切分成一個一個單獨的詞)和停用詞過濾(過濾掉2類“無意義”的詞匯:一類是人類語言中包含的功能詞,這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實際含義,比如’你’、’我’、’的’、’或者’、’而是’等;另一類詞包括詞匯詞,比如’想要’、‘打開’等,這些詞應用十分廣泛,對于揭示特定文本的含義的重要性意義不大)。

此外,還需要統(tǒng)一原著中的人名稱謂,將在文本中具有多個稱呼的人物統(tǒng)一為一個名稱,便于精準的統(tǒng)計人物出現(xiàn)的頻次及其相關關系。

人物名稱替換表見下表。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

預處理效果如下圖所示:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

3.1 原著小說的關鍵詞提取

筆者沒采取一般文本分析時所采用的詞頻統(tǒng)計,因為詞頻統(tǒng)計的邏輯是:一個詞在文章中出現(xiàn)的次數(shù)越多,則它就越重要。但筆者采用的是 TF-IDF (term frequency–inverse document frequency)關鍵詞統(tǒng)計方法 :它用以評估一字/詞對于一個文件集或一個語料庫中的其中一份文件的重要程度,字/詞的重要性會隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫 中出現(xiàn)的頻率成反比下降。

由此可見,在提取某段文本的關鍵信息時,關鍵詞提取較詞頻統(tǒng)計更為可取,能提取出對某段文本具有重要意義的關鍵詞。

以下是該原著小說的關鍵詞TOP300,筆者用電視劇的海報作為詞云輪廓,大家可以在詞云中看到關鍵的信息,和電視劇“崛起”做一下對照。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

在關鍵詞TOP100中,基本上都是跟秦國/秦軍相關的詞,秦國君臣秦昭襄王嬴稷、秦武王、范睢、白起、魏冉和甘茂等;秦國的死對頭—齊國、趙國和楚國等;一些重要的他國人物,魯仲連、藺相如、廉頗、春申君和趙奢等…

等等,“魯仲連”什么鬼?電視劇里壓根沒瞧見哪!

這就涉及《大秦帝國之崛起》的原著小說和電視劇本身的差異了,它們的差別是顯而易見,甚至在第二部和第三部被“摒棄”出制作團隊的原著小說孫皓暉也說,“電視劇相較原著改編幅度太大,完全可以另外取個名字” 。

綜合來看,筆者認為,電視劇和原著小說不同之處主要集中在如下方面:

  1. 內(nèi)容起始不同。 原著中第三部以秦武王即位后發(fā)動宜陽大戰(zhàn)、通三川窺周室為開端,白起在其中嶄露頭角;而電視劇中將此部分并入了第二部,第三部直接從嬴稷親政之后開始。
  2. 關于甘茂的結局。 在原著中,甘茂因為受到魏冉與宣太后的排擠,憤而離秦,投奔齊國,并為齊國獻策,最終因為齊王的昏庸而隱居山野;而電視劇中改為了嬴稷希望為甘茂求得一個善終,于是聽從了蘇秦的建議,暗中幫助甘茂在齊國謀得上卿之位。
  3. 關于白起的定位。 在原著中,白起是本部的第一主角,白起所占篇幅超過任何一個其他角色,而本部的結束也幾乎是以白起身死為完結的。在迎立嬴稷的過程中,白起發(fā)揮了最主要的作用,同時也展現(xiàn)出白起行事風格的鮮明特色;而在電視劇中,白起的功能大為弱化,大多由樗里疾和魏冉代替,當然這可能跟主演白起的演員王學兵吸毒,補拍戲份太多而被迫刪掉一些戲有關。
  4. 對于蘇秦這個關鍵人物的處理。 原著中,蘇秦原是第二部《國命縱橫》中的人物。原著按照《史記》和《戰(zhàn)國策》的記載,選用了更為傳統(tǒng)的“張?zhí)K縱橫”之說,使得張儀、蘇秦處于同一時代背景,一人合縱一人連橫,在為我們揭開縱橫大戲的同時,也建立起張?zhí)K并雄的雙子結構。;而在電視劇中,則采用了與原著完全不同的故事版本,遵從了于1973年在長沙馬王堆三號漢墓出土的帛書書,—《戰(zhàn)國縱橫家書》(成書要早于《史記》和《戰(zhàn)國策》)的記載——蘇秦主要活動時間在燕昭王時期,一生最重要的事跡,是以“間者”的身份,為燕滅齊。由此,蘇秦一改從前史書中“從約長 兼佩六國相印”的威風凜凜,而變成一個城府極深、一心間齊、滅齊而憑一人攪亂戰(zhàn)國格局的“心機婊”。

不過,他在劇中關于“篤定”和“忠誠”的一段話很是經(jīng)典,體現(xiàn)了他“一生只奉一人主”的“從一而終”:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

總的來說, 電視劇中刪去了大量原著中的虛構人物和虛構情節(jié),增加了大量史料中的人物和情節(jié)。這種做法無疑對原著的故事性有所破壞,但也增加了故事情節(jié)的可靠性和真實性,最大限度的還原歷史。 但孰是孰非,還是留給書友們/劇迷們?nèi)プ孕信袛喟伞?

3.2 原著小說中的主要人物的社交網(wǎng)絡分析

根據(jù)上面的人名詞典,筆者構建了原著小說中的主要人物社交網(wǎng)絡圖譜,并對其中較弱的關系及人物節(jié)點進行了過濾。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

上圖中,每個節(jié)點代表一個人物,線條代表人物之間的關系,線條顏色的人物節(jié)點代表他們之間有著較為頻繁的交往(或友或敵)。節(jié)點及其代表人物字體的大小表征的是“ Betweenness Centrality中介性核心性 )”,該詞學術的說法是“ 兩個非鄰接的成員間的相互作用依賴于網(wǎng)絡中的其他成員,特別是位于兩成員之間路徑上的那些成員,他們對這兩個非鄰接成員的相互作用具有某種控制和制約作用 “,說人話就是—字體大的人物具有更大的人際關系影響,能接觸和影響的人物較多,而在小說中出現(xiàn)次數(shù)多的未必就是這類人物,這里的存在感需要以人脈和影響作為基石。

從上圖中可以看出,在位56年的秦昭襄王嬴稷無疑具有較強的人際網(wǎng)絡關系和影響力,更大的人際關系影響:廣納六國賢才,頻繁與六國君王過招,合作連橫,翻手為云,覆手為雨,后面迫使六國君主尊他為天子,人際影響力不可謂不廣。

其次是趙武靈王—趙雍,這位開創(chuàng)“胡服騎射”的君王,北擊匈奴和胡人,并吞中山國,扶植了燕昭王和秦昭襄王2位君主也是開疆拓土,廣納賢才,在六國中擁有廣泛的人際網(wǎng)絡。

同樣的道理,“戰(zhàn)國四公子”中的平原君和春申君在六國中的聲望較高,人際資源豐沛。

當然,對于統(tǒng)帥趙、楚、韓、魏、燕五國軍隊伐齊的樂毅自不必說。其他人的情況也類似,無一不具有較強的人際網(wǎng)絡關系。

3.3 豆瓣上關于該劇影評的文本聚類和典型意見抽取

豆瓣電影是中國最大與最權威的電影分享與評論社區(qū),收錄了百萬條影片和影人的資料,有2500多家電影院加盟,更匯聚了數(shù)千萬熱愛電影的人,因而這里關于影視劇的評論能具有一定的代表性和公信力。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

如上圖所示,該劇在豆瓣上的評級較高,達到8.5分的分值,其中4星和5星評價站到整個評級里的84.6%,正面評價的比例相當高。

筆者抓取了豆瓣上關于該劇的18068條評論信息,按贊同數(shù)的多寡保留了前3000條具有代表性的評論。抓取的數(shù)據(jù)格式如下圖所示:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

經(jīng)簡單處理,用AP算法進行文本聚類得到如下圖所示的結果:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

最后,AP算法自動將3000條評論劃分成43個類別。

更進一步,在文本聚類的基礎上進行典型意見挖掘,得到如下結果:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

選取其中最具代表性的意見(也就是包含文檔數(shù)最多的意見),即為:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

由上表可知,“豆油”們對于“崛起”的評價主要集中在以下幾個方面:

  • 該劇尊重歷史,是一部很不錯的歷史正??;
  • 該劇制作精良,還采用了比較真實的現(xiàn)場收音(現(xiàn)場錄音,有如下好處:最簡化音畫匹配問題;鼓勵演員情感真實到位;保留各種聲音與環(huán)境音的真實互動。),是一部良心??;
  • 該劇演員的演技很贊,尤其是飾演秦宣太后/羋八子的寧靜。

3.4 《羋月傳》和《大秦帝國》中秦宣太后(羋月)的人物形象差異分析

因為這兩部劇中都涉及了中國歷史上一個有名的女人—秦宣太后,她是第一個自稱“太后”并開啟垂簾聽政的女當權者,且因其傳奇而又復雜的情感糾葛而引人注(ba)目(gua)。(注:因正史中并未提及“羋月”,史稱“秦宣太后”居多,故筆者在下面僅取后者)

因此,筆者想結合豆瓣影評的相關評論數(shù)據(jù),來對《羋月傳》和《大秦帝國2、3》中秦宣太后的人物形象進行分析。

為此,筆者爬取了豆瓣上關于《羋月傳》、《大秦帝國之縱橫》和《大秦帝國之崛起》中涉及秦宣太后及其主演(孫儷、寧靜)的若干評論作為分析對象。

以下是關于孫儷和寧靜所主演的秦宣太后的評論的文本分析,可以在這張直觀的可視化效果圖上看到“豆油”們對這兩位演員出演秦宣太后方方面面的評價。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

上圖中,對于2類評價文本分別按照“高提及率(Frequent)”和“低提及率(Infrequent)”進行了劃分。上圖若以橫縱軸的“Average”進行劃分,則可以分為4個象限,右上角的為2類文本提及率皆高的詞匯,左下角為二者提及率皆低的詞匯。左上和右下僅是二者之一高提及率的詞匯。

另外,藍色點陣代表的詞匯屬于對“羋月傳-孫儷”的評價,黃色點陣所代表的的詞匯屬于對“大秦帝國-寧靜”的評價,右上角的象限二者的評語趨于重合。

可以看到,大家還是對兩位主演的演技很關注,其次是劇中演員的討論:跟孫儷相關的春申君黃歇及其扮演者黃軒、惠文后及其扮演者馬蘇;寧靜這邊則是秦惠文王及其扮演者富大龍。

點擊“點陣”中的“宮斗”一詞,可以看到“豆油”們對2部電視劇及其演員在劇情“宮斗”方面評價的異同:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上圖可以看出,孫儷主演的《羋月傳》延續(xù)了《甄嬛傳》中的宮斗情節(jié),“豆油”們評價它“狗血”“狗尾續(xù)貂”、“臉譜化”等,負面評價比較多;而在寧靜所主演《大秦帝國2 3》評價中,“宮斗”的評價幾乎沒有,而且大家都會拿前者來做對照,“正劇”是大家對它的評價。

再將2類評論文本中的關鍵詞提取,做成主角所對應的的詞云,顯示如下:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上面的詞云可以看出,“豆油”對于寧靜所主要的秦宣太后的評價最具代表性的詞是“霸氣”、“野性”、“正劇”“不莊重”、“良心”、“氣場”、“育子成龍”和“不怒自威”等,評價多為正面,認為寧靜主要的太后野性霸氣,且具有氣場、不怒自威。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上面的詞云可以看出,“豆油”對于孫儷所主要的秦宣太后的評價最具代表性的詞是 “義渠君”、“浮夸”、“瞪眼”、“太假”、“春申君”、“綠茶婊”、“瑪麗蘇”、“矯情”和“宮斗”等,多為負面評價,且對其演技的評價不是很好。

從歷史上的記載來看,楚人介于華夏與蠻夷之間,立于東南西北之中,他們的習俗既有蠻夷之異,亦有華夏之同,具有極強的兼容性。楚人確信自己是日神的遠裔、火神的嫡嗣,由于日、火均為紅色,因而古時楚人富有激情和生命力,張揚不羈。而寧靜飾演的秦宣太后很符合這個特征,她之前還主演過《紅河谷》中善良而又野性、任性的丹珠,《戰(zhàn)國英雄呂不韋》的秦王嬴政的母親趙姬,以及《孝莊秘史》中熱情奔放的的大玉兒(孝莊),這些角色其實與秦宣太后這個角色有很多相同之處。與之相比,出演宮廷內(nèi)斗局揚名的孫儷在角色塑造方面過于臉譜化,把這個角色演出了甄嬛的感覺。

在“崛起”中,雖然寧靜所飾演的羋八子霸氣十足,將帝王家的無情、殘忍演繹得淋漓盡致,但她是一個顧全大局,一心為國的女當權者,在電視劇片花末尾,更是展露出尋常母親的心疼與無奈:“為了愛他,我在他心里種下了一個冷血,可我不后悔?!?/p>

下面這句話是她教給秦昭襄王嬴稷的,被嬴稷銘記在心,并用刀將“王”字刻在手臂上:


3.5 原著小說中的若干關鍵詞的關聯(lián)詞分析

在最后,筆者把前面經(jīng)過預處理得到的小說文本進行詞向量處理,將這些詞匯映射到向量空間,變成一個個詞向量(WordVector),以使這些詞匯在便于被計算機識別和分析的同時,還具有語義上的相關性,而不僅僅是基于詞匯之間的共現(xiàn)關系。

筆者分別將劇中的“秦昭襄王”、“白起”和“宣太后”做了語義聯(lián)想,也就是于計算詞語之間的語義相似度,找出與之最為相似的TOP20詞匯。結果如下表所示:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上表中可以看出,與秦昭襄王嬴稷最相關的詞是和他密切相關的人物,如宣太后、白起、王稽和魏冉等。而離自己最近的卻是“秦王”二字,但做秦王不易,連他自己也說:


這和毛主席的那句,“牢騷滿腹愁腸斷,風物長宜放眼量”有異曲同工之妙,不過這句話還有一層意思,作為深系國家命運的君王,要想成為雄主,就要對自己狠一點!

對于戰(zhàn)神白起,與他密切相關的是他的妻子荊梅,電視劇中為趙女趙曼,其次就是秦昭襄王。

說起這對君臣CP,前后相處的景況令人唏噓。

下面一個是秦昭襄王繼位之初,求教白起讀書之道和兵法之道的場景:

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

這樣的場景可以看出君臣之間的融洽、和諧,從中,我們也可以了解到白起用兵的獨到之處—不墨守成規(guī),善于根據(jù)實際情況調(diào)整戰(zhàn)略部署。這也可以解釋我為什么在后來的秦趙之戰(zhàn)中,白起能打破《孫子兵法》中”十則圍之,五則攻之”的兵法黃金原則,而采用50萬對50萬的“等量包圍”策略,獲得贏得秦國國運的大勝利。

而最后,君臣之間落了個不歡而散的下場,曾經(jīng)情同兄弟的君臣關系跌落到了谷底,變得勢如水火……

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘


這幾句從“成業(yè)(成就霸業(yè))”到“得賢(獲得賢才)”、“用賢(任用賢才)”以至于“任賢(信任人才)”,層層揭示,步步深入,最終得出成業(yè)的關鍵在于信任賢才的結論,也暗示了白起對于秦昭襄王對自己赤誠之心存疑的不滿。

而秦宣太后最為相近的幾個詞,有自己的兒子嬴稷、同母異父的弟弟兼重臣的魏冉、王族兼重臣的樗里疾、以及后來直接導致她失去權力的丞相范睢。

值得注意的是,這里和秦宣太后最為相關的也是“秦王”一詞,不過這里的秦王包括三代秦王—秦惠文王、秦武王和秦昭襄王。

最后,按照“或、與、非”的布爾邏輯,進行“與‘秦國’-‘趙國’有關,但和‘楚國’無關”的最相關的TOP20的詞匯的計算,得到如下圖所示的詞匯逆序排列。

以《大秦帝國之崛起》為例,來談大數(shù)據(jù)輿情分析和文本挖掘

從上面的TOP20相關詞可以看出,秦趙兩國之間還夾雜著魏國和韓國,后二者與趙國合稱為“三晉”,緣起于戰(zhàn)國初期韓、趙、魏“三家分晉”。而二國傾舉國之力進行正面交鋒的導火索正是“上黨之爭”,上黨的得失直接關乎趙國國都邯鄲的安危,因而趙國不得不接手這塊“燙手的山芋”。

4 結語

看完這部歷史正劇,筆者自己的有這樣的感慨:

這部說“廟堂的事”的歷史正劇,其演員功力深厚,塑造的人物形象飽滿。宣太后,魏冉、蘇秦、田文、楚王,這些叱咤風云的老江湖,聯(lián)手教會了秦昭王如何在險惡中生存,在危機中壯大,而秦昭王具有強大的學習能力,迅速汲取著別人的經(jīng)驗和教訓,逐步從一個政治手腕稚嫩、備受掣肘的君主成為一個雄霸天下、獨當一面的雄主。在這個過程中,他學會了如何在不利的局面下運用謀略,從而實現(xiàn)自己的目的,奠定了秦國崛起東出的霸業(yè)。

參考資料

1. 數(shù)據(jù)來源:新浪微輿情(熱度指數(shù)查詢、全網(wǎng)事件分析、微博事件分析和微博傳播分析)

2 .數(shù)據(jù)來源:頭條媒體實驗室

3.“大秦帝國之崛起”百度百科官方詞條

4.《<大秦帝國之崛起>小說電視劇與真實歷史有何差異?》,觀察者網(wǎng)的博客

5 .文本數(shù)據(jù)來源:《大秦帝國(第三部)之金戈鐵馬》

6.《孫皓暉:要以歷史實踐為標準評價歷史人物》,光明網(wǎng)

7.評論數(shù)據(jù)來源:《大秦帝國之崛起 (2017)》影評

8.Malcolm Gladwell.《The Tipping Point》

#專欄作家#

作者:蘇格蘭折耳喵(微信公眾號:運營喵是怎樣煉成的),人人都是產(chǎn)品經(jīng)理專欄作家。數(shù)據(jù)分析愛好者,擅長數(shù)據(jù)分析和可視化表達,喜歡研究各種跟數(shù)據(jù)相關的東東。

本文原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉載。

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 在线观看免费黄色小视频 | 四虎永久免费地ww4hu57 | 99久久免费国产精精品 | 四虎网站 | 亚洲四虎永久在线播放 | 亚洲一区二区三区网站 | 成人在线短视频 | 欧美亚洲图片 | x8x8国产日韩欧美 | 日本一区二区三区免费看 | 日本免费中文字幕在线看 | 日本一级aaaa特黄毛片 | 精品一区二区三区色花堂 | 国产一区a | 国产成人99精品免费观看 | 国产视频一区在线播放 | 97se在线观看| 久久这里只有精品18 | 国产免费人视频在线观看免费 | 四虎国产精品免费久久影院 | 国产成人久久精品麻豆二区 | 无遮挡又黄又爽又色的视频免费 | 奇米777视频二区中文字幕 | 天天干夜夜添 | 久青草免费在线视频 | 日本一区二区三区精品 | 国产在线视频一区 | 亚洲 国产 日韩 欧美 | 亚洲国产精品一区二区第四页 | 午夜噜噜噜私人影院在线播放 | www.91色.com | 五月综合激情视频在线观看 | 国产99视频精品草莓免视看 | 久久久久久久久久免费视频 | 亚洲国产精品一区二区九九 | 夜夜操夜夜摸 | 黄色网址在线免费 | 日本一区二区在线 | 亚洲欧美综合在线观看 | 免费女人18毛片a级毛片视频 | 日本黄色免费网址 |