欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據

36大數據 ? 7年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

作者：Yun Han

目前而言，許多文本分析方法的核心都是一個Concept：一組表征特定對象、現象或主題的語義相關的關鍵詞。另外，Word Embedding的不斷發展允許用戶通過一小部分的關鍵詞來構建一個Concept。然而，由于自然語言的多義性，直接使用這種技術可能導致錯誤。為了降低這個問題，這篇文章[1]提出了一個名為ConceptVector的可視分析系統，來指導用戶構建這些Concepts，然后使用它們來分析文檔。這篇文章使用現實生活中的數據集來進行案例分析，展示了ConceptVector的細粒度分析。為了支持這個“種子關鍵詞”的概念，他們引用了雙極概念模型，并且支持不相關的單詞。

文本可視分析中涵蓋了很多領域的方法：1. 詞關系與層次結構；2. Word Embedding；3.基于單詞層次的文本可視分析。

基于這三個方法，目前有一個比較成熟的系統Empath，使用了最新的詞嵌入模型來構建一個語義詞典。這篇文章使用其構建了194個Concept來分析特朗普和希拉里的推文，其中發現了很多錯誤分析。如：

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據

圖1 推文分析結果

在上述結果中，我們發現在分析特朗普的推文時，“Plant” Concept中包含的主要關鍵詞是“Brush”；然而，在進一步分析推文后，我們發現特朗普實際上提及的是“Jeff Brush”。

經過上面的分析，我們發現通常而言，構建一個合適的詞典是很困難的，而且需要很多的專家參與其中。另一方面，詞語的多義性可能導致用戶分析錯誤。因此，把人加入到詞典的構建和優化過程中是十分重要的。基于這個目標，他們的設計如下：

支持詞典構建中的多樣化的用戶需求；
支持迭代的詞典優化和基于詞典的文檔分析；
標記文檔集中的貢獻詞語。

為了滿足上述實現目標，系統的整體框架如下：

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據

圖2 ConceptVector系統結構

對于整個ConceptVector系統，主要由詞典構建和文檔分析兩個主要模塊組成。在每一個階段都會有人參與其中來對系統模型進行修正和完善。

最終，ConceptVector系統的主界面如下：

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據

圖3 ConceptVector主界面

圖2中左邊是concept構建部分，系統提供了兩種類型的concept：單極和雙極Concept。其中雙極concept包含3個集合：Positive Set，Negative Set 和 Irrelevant Set , 單極concept中不包含Negative Set。用戶在視圖中的（1）選擇concept類型并在（2）中輸入關鍵詞后，系統會根據詞向量向用戶提供系統為其推薦的關鍵詞，并通過K-Means方法聚類最終將結果使用t-SNE投射到二維平面上。通過這個推薦系統，用戶可以為自己構建的concept添加相應的關鍵詞或關鍵詞組。

圖2右面是基于concept的文檔集分析視圖。在用戶選取了相應的concept后，系統根據其中的關鍵詞計算每一篇文檔的得分并排序。特別地，系統會在原始文檔中高亮這些對于得分有貢獻的詞語，方面用戶進行進一步地調整。

對于系統文檔集的得分計算部分，他們采用了新穎的相似度計算方式–核函數（KDE）。那是因為如果簡單地計算詞向量之間的余弦距離等并不能適應這個設計。本系統需要計算關鍵詞屬于三個不同集合的概率，將一個concept表示為{Lp, Ln, Li}，分別表示Positive Set，Negative Set 和 Irrelevant Set。于是，當選取一個文檔集中的某個詞q，q ∈L 的概率表示如下：

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據

其中，對于核函數，他們選取的是高斯核函數

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據

隨后，可以根據關鍵詞q對于三個集合的概率來計算關鍵詞q和concept的相關性如下：

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據最后簡單地取文檔中所有詞語與concept的相似得分的平均值即可。

為了說明ConceptVector系統的有效性和高效性，他們對該系統從準確度，時間開銷兩個方面進行評估。評估結果如下：

圖4 系統評估結果(a)

通過評估結果，我們發現ConceptVector從準確度和時間消耗都比兩個baseline表現的更好。為了對系統進行進一步地分析，他們還評估了相關性得分與關鍵詞以及計算模型之間的關系如下：

ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析-36大數據

圖5 系統評估結果(b)

同樣地，他們發現隨著用戶提供的關鍵詞數量的增加，可以提供更多的信息，這樣用戶構建的concept與文檔集的相似得分也會越高。

綜上所述，ConceptVector給用戶提供了一個很便利地Concept生成工具，并且在準確度和時間性能上有一個很好的平衡。然而，對于一詞多義的問題還是沒有在該文章中得到解決，需要后續進一步地開展相關的工作。

End.

轉載請注明來自36大數據（36dsj.com)： 36大數據 ? ConceptVector: 基于詞嵌入的交互式詞典構建進行文本可視分析

隨意打賞

concept 可視數據

我來數科：通過大數據與人工智能技術打造安全便捷的金融服務平臺

砍柴網 ? 3分鐘前

在金融科技加速變革下，風控體系成為金融機構發展的關鍵支撐。隨著監管政策趨嚴，個人信息保護、數據安全、機構合規性等要求不斷提升，促使行業進一步加強風控體系的構建與升級。我來數科作為深耕金融科技領域的平臺，始終走在風控技術前沿，以大數據和人工智能為核心，打造全方位的風險管理體系，為用
市場監管總局回應大數據殺熟

i黑馬 ? 3天前

3月5日，國家市場監督管理總局局長羅文表示，今年將著力優化監管方式方法，大力促進平臺經濟健康發展。當前，外賣騎手等新就業群體和消費者都反映，平臺企業存在三個問題。一是算法不透明，二是大數據殺熟，三是刷單炒信。針對上述問題，市場監管部門將積極配合有關部門，加強綜合治理，督促平臺企業提高算法透明度，優化算法規則，切實有力地
貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓

數據觀 ? 4天前

為全面提升貴陽貴安數治能力和水平，建設更高水平的數字貴陽貴安，推動人工智能賦能在全省走前列、作表率。3月4日，貴陽市大數據局舉辦貴陽貴安DeepSeek大模型專題培訓，邀請貴州大數據集團云智事業部副總經理陸嘉達博士作“大模型DeepSeek的技術與應用”專題培訓。貴陽市大數據局副局長徐先文主持會議，各區（市、縣、開發區
白鴿在線攜手鹽城大數據集團以科技守護百姓財產安全

砍柴網 ? 6天前

信息化時代,電信網絡詐騙案件持續多發高發,手段日益復雜、新騙術層出不窮,給人民群眾的財產安全帶來了巨大威脅,加強反詐宣傳工作亟不可待。為守護百姓的“錢袋子”,近日, 白鴿在線聯合鹽城市大數據集團、鹽城市公安局鹽南分局及華農財險,共同發起“數智反詐守護幸福”大型反詐公益項目 ,攜手構建“政企保
醫渡科技六度蟬聯醫療大數據企業榜首，以“YiduCore+DeepSeek”重構醫療智能生態

砍柴網 ? 6天前

近日,《2024醫療大數據企業排行榜》發布,醫渡科技連續第六年摘得行業榜首桂冠,再次證明了其在中國醫療人工智能和大數據領域的優勢地位。該榜單由中國科學院主管的權威媒體《互聯網周刊》聯合德本咨詢、中國社會科學院信息化研究中心每年評選,具有極高的權威性和
加和科技受邀出席中國信通院“卓信大數據計劃”2025年度會議

砍柴網 ? 11天前

2025年2月21日，中國信通院“卓信大數據計劃”2025年度會議在北京召開。加和科技作為特邀參展商參會，與行業精英共同聚焦大模型時代的數據安全挑戰與機遇。自2021年啟動以來，“卓信大數據計劃”致力于構建數據安全基礎設施，完善保障體系，匯聚產業力量，推動應用創新。此次大
2025中國國際大數據產業博覽會年度主題征集公告

數據觀 ? 11天前

中國國際大數據產業博覽會（以下簡稱數博會），是全球首個以大數據為主題的國際性博覽會，由國家數據局主辦，貴州省人民政府承辦，經過十年積累沉淀，已經成為數據領域引領創新趨勢、展示行業成果、促進開放合作的重要載體。2025數博會籌備工作已啟動，為全方位展現本屆數博會國際性、權威性平臺形象，提高大眾參與度，現面向全社會公開征集
“浪潮卓數大數據”完成B輪融資

i黑馬 ? 1月前

據浪潮卓數消息，“浪潮卓數大數據”宣布完成B輪融資。本輪融資由中泰創投領投，東營財金、浪潮產投等機構跟投，公司估值較上輪增長167%。本次融資將助力浪潮卓數大數據進一步加強研發投入、引進優秀人才、塑造產業優勢，加快科技創新成果轉化。文章評價匿名用戶發布發布
酷克數據榮膺多項行業大獎，引領大數據與計算產業創新發展

砍柴網 ? 1月前

新年伊始，酷克數據在大數據與計算產業領域捷報頻傳，榮譽入選第八屆大數據“星河(Galaxy)”數據庫潛力案例，更被權威收錄入《2024年度全球計算產業案例匯編(GMVPS)》，彰顯實力。同時，酷克數據還榮膺IT168頒發的2024年度技術卓越獎，以及InfoQ授予的2024年度技術生態構建品牌殊榮。這一系列輝煌榮譽，不
云知聲 Atlas 超算平臺入選《分布式統一大數據虛擬文件系統Alluxio原理、技術與實踐》

砍柴網 ? 2月前

在大數據與人工智能領域日新月異的今天，高效、可靠的分布式文件系統及其計算加速方案已成為眾多企業和科研機構關注的焦點。云知聲的Atlas超算平臺以其“基于Fluid + Alluxio的計算加速實踐”，榮耀入選《分布式統一大數據虛擬文件系統Alluxio原理、技術與實踐》。這一榮譽不僅彰顯了云知聲在技術創新方面的實力，也

評論

提交建議