Soul全雙工語音大模型升級 迭代人機交互體驗感
作為聚焦年輕用戶 社交 需求的平臺,Soul App近日正式升級自研端到端全雙工語音通話大模型,通過技術突破,讓AI自主決定說話時機,打破傳統“輪次對話”模式,為用戶帶來更自然、沉浸的人機交互體驗。此次升級不僅是Soul在AI社交領域的又一探索,更彰顯了其以技術賦能情感連接的持續努力。
新模型摒棄了傳統語音交互中依賴的 VAD(話音激活檢測)機制與延遲控制邏輯,打破行業中普遍存在的“輪次對話”模式,賦予 AI 自主決策對話節奏的能力。AI 可實現主動打破沉默、適時打斷用戶、邊聽邊說、時間語義感知、并行發言討論等。同時,模型具備多維度感知(包括時間感知、環境感知、事件感知等),口語化表達(如語氣詞、結巴、明顯情緒起伏),音色復刻等能力,讓 AI 更具“真人感”,支持打造更沉浸、類現實交互的語音互動新體驗。
為了盡可能保證全雙工對話模型的基礎對話能力,避免模型“降智”,新模型采用了雙 LLMs 的結構。由負責對話理解與生成的Dialogue Model和處理語音生成的Speech Model協同工作,實現跨模態信息的完整傳遞。通過精準建模“說話時機”與“沉默持續時間”,AI獲得了自主決策對話節奏的能力,讓AI的“真人感”大幅提升。
在社交陪伴場景中,Soul的AI能力展現出顯著創新:不僅能通過情緒起伏、語氣詞等細節傳遞鮮明情感,還能深度整合人設與上下文,構建連貫的“數字人格”故事線。此外,除了一對一的情感傾訴,目前Soul團隊還在探索多人語音中的話題引導,讓AI能自然融入,成為用戶社交關系網絡的重要補充。
通過技術創新打破人機交互的邊界,Soul正不斷豐富著社交場景的可能性,讓AI真正成為傳遞情緒價值、增強用戶歸屬感的重要力量。此次全雙工語音模型的升級,進一步推動了人機互動向“情感與信息雙向交流”演進。未來,Soul還將探索多人交互場景的技術應用。