欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

比樸素貝葉斯更優秀的情感分析方法?答案在這里

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

作者|Samuel Pilcer

譯者 & 編輯|Debra

AI 前線導讀:根據在線評論和評分,我們可以為客戶提供關于其信譽度的深刻見解。我們會拆解評論文本了解評論的內容,并告訴我們的客戶他們的客戶在談論什么,以及這些客戶對其關鍵業務的滿意度。

更多干貨內容請關注微信公眾號“AI 前線”(ID:ai-front)

例如,我們可以為客戶識別提及價格的 100 條評論,通過分析這些評論的星級,我們可能會發現 80%的評論是積極的,評論的平均評分為 4.0。但是,這種方法仍有改進的空間:提及價格的積極評價不一定代表對價格滿意。例如:

食物很棒,服務絕對優秀。但是這家咖啡店風格的餐廳價格非常高。

這個 5 星的評價顯然是對餐廳的價格不太滿意。我們需要一個模型來告訴我們句子或子句表達的情緒,以了解是哪些元素影響了評分等級。下面是我們為構建自己的情感挖掘工具而開發并使用的一些技術。

比樸素貝葉斯更優秀的情感分析方法?答案在這里

情感分析:了解線上用戶表達的情緒

樸素貝葉斯分類器

樸素貝葉斯是首選,也是最容易進行文本情感分類的方法。它基于條件概率的貝葉斯公式:

比樸素貝葉斯更優秀的情感分析方法?答案在這里

我們用 Bag of Words 來表示一個文本,它是句子中每個單詞 w 的一個特征“單詞出現 f 次”,f 是句子中 w 出現的頻率。假設樸素貝葉斯認為這些特征是獨立的,這個公式可以幫助我們推斷出句子為正的概率(A)即每個 w 中 w 出現了 f 次(B)。實際上,我們可以根據頻率從足夠大的 數據 集中推導出句子為正(A)的概率,每個特征的概率,以及是它們重合(B)的概率。在 10000 個已注釋句子的訓練集上訓練該模型,我們得到一組信息特征,這有助于預測句子是正面還是負面評價。以下是我們獲得的 10 個最有代表性的特征:

比樸素貝葉斯更優秀的情感分析方法?答案在這里

樸素貝葉斯分類器的信息特征

這種方法最容易實現,它最大的優點在于完全透明。在處理時我們會知道分類器發現了一組包含強烈的正面或強烈負面信息的單詞,所以我們可以用這種方法對句子進行分類。

如何改進

但是,這種方法有幾個缺點。

首先, 它無法確定中立信息 。事實上,詞語可以具有正面或負面的意義(“好”,“太棒了”,“可怕”……),但有些詞是中性的。通常情況下,正是缺乏這種帶有積極或消極意義的詞匯或句子結構,才讓句子缺失了明確的情感意義。但 Bag of Words 表示不能解決這個問題。

它也無法理解強度和否定意義。例如,“比較好”和“相當好”,第一個比第二個詞匯出現在正面語句中的幾率更大。我們嘗試了一些方法來解決這個問題:添加一個有意義的雙字母組列表(這意味著我們將“非常好”作為單個單詞讀取),或者在雙字母組上訓練模型而不是在單個單詞上訓練,但兩者對我們的模型都沒有太大的改進。大多數情況下模型無法識別否定,因為它不考慮單詞順序。

最重要的是,樸素貝葉斯模型在解決局部情緒分析問題方面表現不佳。在長篇文章中,具有高頻率的積極情緒詞,如“非常好的”、“美味”等很可能表達了作者積極的情緒。但是,由于我們的目標是確定 local sentiment,我們需要處理短句和子句的工具。(星級評分可以告訴我們作者的整體情緒。)句子中沒有足夠的詞匯,所以我們需要非常精確地理解語義結構。

Bag of Words 表示是一種非常糟糕的方法。例如,“食物本可以更美味”這個句子,模型檢測到與正面感覺有關的“美味”這個詞,但不明白“本可以”表示一種否定或細微差異。許多短句都是這樣的,僅依靠小型句子數據集會把準確率從大約 77%拉低到小于 65%。

基于規則的情緒模型

為了改善樸素貝葉斯方法并使其適合短句情緒分析,我們添加了一些規則,加入否定、強度標記(“更多”、“極端”、“絕對”、“最”等)、細微差別和其他語義結構,以及經常出現在情緒短語附近并改變其含義的語義結構。例如,在“食物不是很美味”中,我們需要明白“不太好吃”比“不好吃”或“根本不好吃”更積極一點。

我們利用樸素貝葉斯訓練的結果建立了一個積極和消極的詞匯庫。當處理給定的句子時,我們將每個單詞打為正分或負分,并通過基于開源庫 spaCy 的管道進行語音結構的精確分析來計算總分數,用于詞性標注和依賴性分析。結果,我們得到了正、負和中性分數的參數,中性分數被定義為句子中既不是正面也不是負面情緒單詞的比例。我們使用深度學習技術從訓練集中推導出這些得分與情緒之間的關系。以下是我們針對消極、中性和正面情緒句子獲得的圖表:

比樸素貝葉斯更優秀的情感分析方法?答案在這里

該模型可以幫助我們很好地判斷一個表達性句子包含的是正面還是負面情緒(準確度約為 75%),但是很難理解中性或缺乏情感的句子(在我們的測試集中,這類句子識別的準確率只有 20%) 。這種方法比樸素貝葉斯要好得多,但 75% 仍然低于當前最新的正向 / 負向決策技術。

原文鏈接:

https://medium.com/@samuelpilcer/sentiment-analysis-frequency-based-models-288c0accdd12

隨意打賞

卷積神經網絡機器學習模型樸素貝葉斯隨機森林聚類算法
提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 国产精品尹人在线观看免费 | 国产成人精品第一区二区 | 久久久影院亚洲精品 | 国产亚洲精品久久午夜 | 国产l精品国产亚洲区在线观看 | 天天搞夜夜爽 | 中文字幕免费视频精品一 | 免费的一级毛片 | 欧美色成人tv在线播放 | 国产亚洲精品美女久久久久 | 中国特级黄一级真人毛片 | 国自产拍在线天天更新2019 | 婷婷亚洲综合一区二区 | 97se亚洲| 久久r这里只有精品 | 九九精品免费 | 97在线国产视频 | 国产成人精品magnet | 毛片精品 | 日本a免费观看 | 欧美亚洲第一页 | 四虎成人4hutv影院 | 欧美精品久久久亚洲 | 亚洲va精品中文字幕动漫 | 四虎8848精品永久在线观看 | 伊色综合久久之综合久久 | 精品国产96亚洲一区二区三区 | 国产精品毛片va一区二区三区 | 国产美女白丝袜精品_a不卡 | 精品图区| 手机看片高清日韩精品 | 在线观看91精品国产不卡免费 | 成人欧美一区二区三区视频xxx | 青青国产成人久久91 | 欧美人一级淫片a免费播放 欧美人与zoxxxx另类9 | 国产免费小视频 | 天天操天天摸天天舔 | 欧洲成人全免费视频网站 | 神马影院在线观看我不卡 | 久久久国产成人精品 | 一级毛片大全免费播放 |