從第二屆百度搜索創(chuàng)新大賽優(yōu)秀成果背后,探析AI大模型未來(lái)趨勢(shì)
從去年底ChatGPT發(fā)布到現(xiàn)在,近一年的時(shí)間轉(zhuǎn)瞬即逝。而在這段時(shí)間里,不僅可以看到市場(chǎng)對(duì)大模型和生成式AI的認(rèn)知改變,同時(shí)也可以看到AI大模型正推動(dòng)世界加速擁抱AI帶來(lái)的變革。
近日,以「新搜索·新奇點(diǎn)」為主題的第二屆百度搜索創(chuàng)新大賽,歷經(jīng)3個(gè)月的角逐,完美落下帷幕。此次大賽圍繞人工智能、檢索技術(shù),面向全國(guó)高校、企業(yè)、科研機(jī)構(gòu)、項(xiàng)目團(tuán)隊(duì)及個(gè)人廣發(fā)英雄帖,旨在挖掘和培育搜索 AI 人才,促進(jìn)業(yè)內(nèi)交流、產(chǎn)教融合,推動(dòng)產(chǎn)品、算法和技術(shù)應(yīng)用創(chuàng)新,賦能AI原生時(shí)代加速高質(zhì)量推進(jìn)。
大賽如火如荼,成果亦較為亮眼。數(shù)據(jù)顯示,戰(zhàn)況激烈的五大賽道,最終吸引了2800多人報(bào)名,5萬(wàn)名同學(xué)直接參與相關(guān)課程學(xué)習(xí),宣傳覆蓋100萬(wàn)開(kāi)發(fā)者群體。
在12月1日舉辦的第二屆百度搜索創(chuàng)新大賽頒獎(jiǎng)典禮上,NVIDIA 全球副總裁何濤表示,“在這一年里,各行各業(yè)都經(jīng)歷了從通用計(jì)算到加速計(jì)算和生成式AI的平臺(tái)轉(zhuǎn)型。初創(chuàng)企業(yè)、 互聯(lián)網(wǎng) 公司和云服務(wù)商,積極 投資 大模型、AI云和應(yīng)用落地。希望在場(chǎng)的各位參賽者,能夠順應(yīng)技術(shù)發(fā)展趨勢(shì),把握機(jī)會(huì),提升自我競(jìng)爭(zhēng)力,加速你們的職業(yè)成功。”
“因時(shí)而變,因勢(shì)而變”
并非所有企業(yè)適合AI大模型
聚力創(chuàng)新,力量正在崛起,第二屆百度搜索創(chuàng)新大賽成果印證一切。
較為直觀的體現(xiàn)是,第2屆百度搜索創(chuàng)新大賽設(shè)立了五大賽題,題目涉及搜索核心業(yè)務(wù)場(chǎng)景,如語(yǔ)義檢索、多模態(tài)、軟硬結(jié)合優(yōu)化等豐富的技術(shù)方向,并且開(kāi)設(shè)了產(chǎn)品賽道,廣發(fā)英雄帖,號(hào)召參賽者“洞察用戶(hù)在搜索場(chǎng)景的需求,并通過(guò)構(gòu)建AI應(yīng)用解決”。從數(shù)據(jù)來(lái)看,五大賽道報(bào)名 2800人,比去年多1000多人,賽題各有側(cè)重,難點(diǎn)不一,成果亦較為亮眼。
以大賽為平臺(tái),引領(lǐng)大模型時(shí)代“新搜索”的未來(lái),百度搜索創(chuàng)新大賽攜手新一代“AI未來(lái)新星”,沖向無(wú)限可能。但從賽場(chǎng)過(guò)渡到行業(yè)當(dāng)前境況來(lái)看,不禁需要思考:在創(chuàng)新力量的加持下,是不是所有企業(yè)都可以如百度一樣適合自建大模型?
這需從大模型發(fā)展現(xiàn)狀說(shuō)起。從今年3月開(kāi)始,國(guó)內(nèi)的AI大模型如雨后春筍般涌現(xiàn)。《中國(guó)人工智能大模型地圖研究報(bào)告》顯示,截至2023年5月底,國(guó)內(nèi)10億級(jí)參數(shù)規(guī)模以上基礎(chǔ)大模型至少已發(fā)布79個(gè)。
毫不夸張地說(shuō),“百模大戰(zhàn)”已開(kāi)啟。IDC預(yù)測(cè),2026年中國(guó)AI大模型市場(chǎng)規(guī)模將達(dá)到211億美元,人工智能將進(jìn)入大規(guī)模落地應(yīng)用關(guān)鍵期。
“因時(shí)而變,因勢(shì)而變”。比較具體的就是,AI大模型在創(chuàng)作、效率工具、教育、 營(yíng)銷(xiāo) 、 金融 等領(lǐng)域已經(jīng)衍生了大量的創(chuàng)新業(yè)務(wù),而微軟發(fā)布的Fabric平臺(tái)開(kāi)始用大模型能力打造新一代的AI數(shù)據(jù)分析平臺(tái),更給這個(gè)領(lǐng)域帶來(lái)了無(wú)限的想象力。那么在構(gòu)建AI大模型的過(guò)程中,核心要做的是什么?即要清晰認(rèn)識(shí)本企業(yè)/行業(yè)大模型應(yīng)用的需求場(chǎng)景與價(jià)值,明確公司的目標(biāo)和愿景。同時(shí),選擇適用于公司需求的最佳解決方案制定計(jì)劃實(shí)施也較為重要。據(jù)NVIDIA方面表示,“大模型應(yīng)用的建設(shè)路徑可以有很多選擇,除了上述自建專(zhuān)屬大模型的方案,直接使用API或插件接入、基于平臺(tái)公司的提供的基礎(chǔ)大模型行業(yè)方案,公有云或混合方案來(lái)構(gòu)建,現(xiàn)在市場(chǎng)上都有靈活的選擇。比如,直接使用API或插件接入門(mén)檻最低,對(duì)注重快速應(yīng)用上線(xiàn),數(shù)據(jù)保密保護(hù)要求不高的企業(yè)可以選擇效果不錯(cuò);服務(wù)穩(wěn)定可靠的平臺(tái)公司的API或者提供有限個(gè)性化微調(diào)的公有云平臺(tái)服務(wù)實(shí)現(xiàn)快速應(yīng)用搭建;對(duì)希望能夠自己控制基礎(chǔ)設(shè)施以保護(hù)數(shù)據(jù)資產(chǎn)的企業(yè),選擇其他基礎(chǔ)大模型平臺(tái)提供的安全部署方式來(lái)做微調(diào)和部分定制,通過(guò)自有標(biāo)注數(shù)據(jù)和配置參數(shù)來(lái)訓(xùn)練自己的大模型也是不錯(cuò)的選擇。”
但不論采用哪種方式,重要的是要不斷測(cè)試和優(yōu)化,以最佳方式滿(mǎn)足業(yè)務(wù)需求。
競(jìng)爭(zhēng)與革新,
什么樣的企業(yè)適合AI大模型
能夠看到,構(gòu)建AI大模型,并非一蹴而就,其建立的基礎(chǔ)在于企業(yè)自身技術(shù)實(shí)力、投資預(yù)算以及需求定位等各方面的考量。
那么在這一點(diǎn)上,在人工智能領(lǐng)域深耕多年的頭部 科技 企業(yè)百度顯然較具代表性。以文心大模型4.0為例,在重構(gòu)AI原生應(yīng)用的底座文心大模型方面,今年10月份,百度發(fā)布文心大模型4.0,用戶(hù)可以通過(guò)文心一言體驗(yàn)文心4.0版本,企業(yè)可以通過(guò)百度智能云千帆大模型平臺(tái)調(diào)用文心4.0的API,并且百度智能云千帆大模型平臺(tái)服務(wù)企業(yè)已超過(guò)2萬(wàn)家,覆蓋近500個(gè)場(chǎng)景。目前,文心一言用戶(hù)數(shù)達(dá)7000萬(wàn),覆蓋場(chǎng)景4300個(gè)。
事實(shí)上,過(guò)去幾年在搜索領(lǐng)域,百度搜索已構(gòu)建了多項(xiàng)關(guān)鍵技術(shù)。首當(dāng)其沖的就是超大規(guī)模深度語(yǔ)義匹配模型。該模型當(dāng)前每天在線(xiàn)可以提供萬(wàn)億次服務(wù),是業(yè)界最大的在線(xiàn)推理系統(tǒng),讓用戶(hù)可以搜到更為精準(zhǔn)的信息。
刪格化索引亦是不容錯(cuò)過(guò)的關(guān)鍵。該項(xiàng)技術(shù)通過(guò)索引萬(wàn)億網(wǎng)頁(yè)、視頻、圖片和信息,可以確保任何用戶(hù)想要的信息都能在幾百毫秒中返回。
同時(shí),百度搜索還打造了一套跨模態(tài)的問(wèn)答系統(tǒng),可以將視頻、圖片中的內(nèi)容直接回答用戶(hù)的問(wèn)題。此外,今年百度還創(chuàng)新打造了一套全新的搜索系統(tǒng),將大語(yǔ)言模型和搜索系統(tǒng)融合在一起,大幅提升了線(xiàn)上效果。比如,占搜索相當(dāng)大比例的各種長(zhǎng)尾問(wèn)答需求,極致滿(mǎn)足的比例提升到70%,也激發(fā)用戶(hù)每天新增表達(dá)5000w問(wèn)答需求。
其中,值得關(guān)注的是,為使得服務(wù)更具多元化,真正做到搜索的極致滿(mǎn)足體驗(yàn),百度搜索還上線(xiàn)了包括多答案決策系統(tǒng)、文本、圖片創(chuàng)作產(chǎn)品等,進(jìn)一步提升用戶(hù)的新場(chǎng)景滿(mǎn)足能力,探索新的交互形式,通過(guò)自然語(yǔ)言多輪、跨模態(tài)交互、為用戶(hù)打造AI伙伴。
創(chuàng)新從不止步,服務(wù)更是精細(xì)化向前。在百度搜索的應(yīng)用中,大模型對(duì)深度語(yǔ)義匹配、跨模態(tài)的內(nèi)容理解和問(wèn)答,以及百度全新推出的搜索系統(tǒng)長(zhǎng)尾問(wèn)答需求等很多領(lǐng)域效果提升明顯。我們也看到,全新百度搜索系統(tǒng)不斷推出大模型應(yīng)用融合功能,比如多答案決策系統(tǒng)、文本、圖片創(chuàng)作產(chǎn)品和對(duì)自然語(yǔ)言多輪、跨模態(tài)交互等新的交互方式的探索,不斷融入大模型能力。
不過(guò),需要關(guān)注的是,這些應(yīng)用上線(xiàn)服務(wù)對(duì)于百度搜索這樣每天萬(wàn)億次在線(xiàn)服務(wù)級(jí)別的物理系統(tǒng),在性能和吞吐上將面臨極大的壓力,如何解決?百度大模型與搜索團(tuán)隊(duì)的研究和工程團(tuán)隊(duì)不斷的探索在模型規(guī)模壓縮、量化和引擎優(yōu)化等各方面方法的結(jié)合來(lái)優(yōu)化系統(tǒng)性能,NVIDIA工程優(yōu)化專(zhuān)家也在系統(tǒng)性的性能分析,方案分享甚至算子融合優(yōu)化等各方面提供持續(xù)支持,通過(guò)搜索效率提升和資源節(jié)省實(shí)現(xiàn)大模型部署能力的支撐。NVIDIA工程師也在與文心大模型工程團(tuán)隊(duì)緊密合作,持續(xù)為訓(xùn)練推理的優(yōu)化提供支持。
創(chuàng)新的領(lǐng)域,從來(lái)不乏競(jìng)爭(zhēng)者。所以,更需不斷革新。NVIDIA一直致力于從硬件到軟件全棧的加速計(jì)算能力的持續(xù)改進(jìn),以滿(mǎn)足不斷增長(zhǎng)的模型和數(shù)據(jù)規(guī)模帶來(lái)的算力需求和壓力。
何濤在大會(huì)上表示,“今年,NVIDIA也和百度大搜在Megatron LM/Nemo FW、基于SD的內(nèi)容生成、ANN向量召回、性能優(yōu)化等方面,開(kāi)展了深入合作。未來(lái),我們期望雙方團(tuán)隊(duì)能夠進(jìn)一步加深合作,助力百度大搜在生成式AI的浪潮中取得更加輝煌的成績(jī)。”
據(jù)了解,百度作為中國(guó)人工智能技術(shù)綜合實(shí)力領(lǐng)先的互聯(lián)網(wǎng)公司,在生成式AI和大模型的新興機(jī)遇背景下,不斷強(qiáng)化技術(shù)、改進(jìn)產(chǎn)品, 重構(gòu)了消費(fèi)級(jí)、企業(yè)級(jí)產(chǎn)品及自身運(yùn)營(yíng);在為用戶(hù)帶來(lái)AI原生體驗(yàn)的同時(shí)不斷提升效率,Q3營(yíng)收同比大漲23%,實(shí)現(xiàn)了爆發(fā)式增長(zhǎng)。
NVIDIA 開(kāi)發(fā)與技術(shù)部門(mén)亞太區(qū)總經(jīng)理李曦鵬在頒獎(jiǎng)典禮上表示,“從最早書(shū)籍檢索、數(shù)據(jù)檢索,到了數(shù)字化過(guò)后內(nèi)容的檢索,到現(xiàn)在如火如荼基于LLM生成式檢索,都在說(shuō)明一個(gè)好的領(lǐng)域可以不斷地引領(lǐng)創(chuàng)新、不斷地產(chǎn)生創(chuàng)新、同時(shí)不斷地吸收創(chuàng)新。搜索業(yè)務(wù)本身是NLP、CV、語(yǔ)音這些最前沿Deep Learning的合集。基于此,大模型有創(chuàng)新,第一個(gè)落地場(chǎng)景就是搜索。對(duì)于大模型在搜索引擎里大放異彩,是非常值得期待的。”
未來(lái)與趨勢(shì)
技術(shù)變革時(shí)代,創(chuàng)新力量不容忽視
大模型的不斷發(fā)展和與其他技術(shù)產(chǎn)品結(jié)合的過(guò)程將是持續(xù)探索和嘗試的過(guò)程。但無(wú)論如何,大模型的出現(xiàn)都是一個(gè)革命性的突破,而隨著技術(shù)的不斷推進(jìn),未來(lái)趨勢(shì)也將更為明晰。
技術(shù)向前,創(chuàng)新從未停駐。今年10月,NVIDIA還公開(kāi)發(fā)布了TensorRT-LLM,一個(gè)用于加速大語(yǔ)言模型(LLM)推理的庫(kù),是一款提升 AI 推理性能的開(kāi)源軟件。為支持 AI 開(kāi)發(fā)者,該公司發(fā)布的TensorRT-LLMv0.6.0?更新將帶來(lái)至高達(dá)5倍的推理性能提升,并支持更多熱門(mén)的LLM,包括全新Mistral7B和Nemotron-38B。這些LLM版本將可在所有采用8GB及以上顯存的GeForce RTX 30系列和40系列GPU上運(yùn)行,從而使便攜的WindowsPC設(shè)備也能獲得快速、準(zhǔn)確的本地運(yùn)行LLM功能。
定制的生成式 AI 需要時(shí)間和精力來(lái)維護(hù)項(xiàng)目。特別是跨多個(gè)環(huán)境和平臺(tái)進(jìn)行協(xié)作和部署時(shí),該過(guò)程可能會(huì)異常復(fù)雜和耗時(shí)。AI Workbench 是一個(gè)統(tǒng)一、易用的工具包,允許開(kāi)發(fā)者在 PC 或工作站上快速創(chuàng)建、測(cè)試和定制預(yù)訓(xùn)練生成式 AI 模型和 LLM。它為開(kāi)發(fā)者提供一個(gè)單一平臺(tái),用于組織他們的 AI 項(xiàng)目,并根據(jù)特定用戶(hù)需求來(lái)調(diào)整模型。這使開(kāi)發(fā)者能夠進(jìn)行無(wú)縫協(xié)作和部署,快速創(chuàng)建具有成本效益、可擴(kuò)展的生成式 AI 模型。加入搶先體驗(yàn)名單,成為首批用戶(hù)以率先了解不斷更新的功能,并接收更新信息。
一切革新的背后,都離不開(kāi)創(chuàng)新的力量。這股創(chuàng)新的力量就是人才。廣發(fā)英雄帖,構(gòu)建一個(gè)大型的AI舞臺(tái),百度搜索創(chuàng)新大賽所要做的就是廣泛招攬優(yōu)秀人才,為行業(yè)蓄能。而在生態(tài)建設(shè)和人才培養(yǎng)層面,NVIDIA與百度近年來(lái)也在不斷加速推進(jìn)。
“我們積極支持百度的Paddle平臺(tái)框架在NVIDIA軟硬件平臺(tái)的加速優(yōu)化,并通過(guò)技術(shù)大賽,技術(shù)社區(qū)共同推廣的方式共同推動(dòng)AI創(chuàng)新生態(tài)的發(fā)展,發(fā)掘和培育創(chuàng)新AI技術(shù)人才。” NVIDIA方面表示,“我們期待通過(guò)雙方的合作,將百度在搜索領(lǐng)域包括AI大模型應(yīng)用及各種搜索技術(shù)創(chuàng)新以最優(yōu)的性能在NVIDIA加速計(jì)算平臺(tái)上提供給客戶(hù),助力百度搜索不斷推出創(chuàng)新服務(wù),結(jié)合在AI大模型為客戶(hù)提供多語(yǔ)言、多模態(tài)和包含更多領(lǐng)域知識(shí)的服務(wù),為用戶(hù)提供更豐富、個(gè)性化和智能化的搜索體驗(yàn)。”
此外,NVIDIA給開(kāi)發(fā)者提供了許多學(xué)習(xí)交流的資源,NVIDIA 的開(kāi)發(fā)者社區(qū),目前在全球已經(jīng)有450萬(wàn)開(kāi)發(fā)者,CUDA加速庫(kù)下載量也超過(guò)4800萬(wàn)次。面對(duì)生成式AI浪潮,NVIDIA非常歡迎廣大同學(xué)們和參賽選手加入其開(kāi)發(fā)者社區(qū),以提升自我競(jìng)爭(zhēng)力,加速職業(yè)成功。