DeepSeek R1推理性能提升3.8倍,AMD發(fā)布下一代開源軟件棧技術ROCm 7
6 月 13 日消息,在今日凌晨的 AMD Advancing AI 2025 活動中,AMD 正式推出其下一代開源軟件棧技術 ROCm 7,進一步加速 AI 與開發(fā)者生產(chǎn)力。
隨著 ROCm 7 的發(fā)布,AMD 終于從其 ROCm 6 軟件棧向前邁進,該軟件棧在過去幾年中 —— 尤其是在 AI 計算出現(xiàn)以來 —— 已經(jīng)經(jīng)歷了多次更新。以下是 AMD 在 ROCm 7 中重點關注的一些功能:
最新算法與模型
用于擴展 AI 的高級功能
MI350 系列支持
集群管理
企業(yè)級功能
通過 ROCm,AMD 表示其正更加專注于其軟件堆棧中日益增長的推理能力。ROCm 7 堆棧將包括增強型框架,如 vLLM v1、llm-d、SGLang,并專注于提供多種優(yōu)化。即將到來的 ROCm 7 新內(nèi)核和算法包括 GEMM 自動調(diào)優(yōu)、MoE、Attention 和基于 Python 的內(nèi)核編寫。
AMD 已宣布對其 MI350 系列提供 FP6 和 FP4 支持,ROCm 7 也包含對這些高級數(shù)據(jù)類型的全面支持,如 FP8、FP6、FP4 和混合精度。
IT之家從發(fā)布會獲悉,在性能方面,AMD 表示 ROCm 7 將推理作為重點,為 AI 工作負載帶來了高達 3.5 倍的性能提升。
具體來看,相較于 ROCm 6,ROCm 7 的 Llama 3.1 70B 提升了 3.2 倍,Qwen2-72B 提升了 3.4 倍,DeepSeek R1 提升了 3.8 倍。
【來源:IT之家】