從第二屆百度搜索創(chuàng)新大賽優(yōu)秀成果背后，探析AI大模型未來(lái)趨勢(shì)

砍柴網(wǎng) ? 1年前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來(lái)看看。

從去年底ChatGPT發(fā)布到現(xiàn)在，近一年的時(shí)間轉(zhuǎn)瞬即逝。而在這段時(shí)間里，不僅可以看到市場(chǎng)對(duì)大模型和生成式AI的認(rèn)知改變，同時(shí)也可以看到AI大模型正推動(dòng)世界加速擁抱AI帶來(lái)的變革。

近日，以「新搜索·新奇點(diǎn)」為主題的第二屆百度搜索創(chuàng)新大賽，歷經(jīng)3個(gè)月的角逐，完美落下帷幕。此次大賽圍繞人工智能、檢索技術(shù)，面向全國(guó)高校、企業(yè)、科研機(jī)構(gòu)、項(xiàng)目團(tuán)隊(duì)及個(gè)人廣發(fā)英雄帖，旨在挖掘和培育搜索 AI 人才，促進(jìn)業(yè)內(nèi)交流、產(chǎn)教融合，推動(dòng)產(chǎn)品、算法和技術(shù)應(yīng)用創(chuàng)新，賦能AI原生時(shí)代加速高質(zhì)量推進(jìn)。

大賽如火如荼，成果亦較為亮眼。數(shù)據(jù)顯示，戰(zhàn)況激烈的五大賽道，最終吸引了2800多人報(bào)名，5萬(wàn)名同學(xué)直接參與相關(guān)課程學(xué)習(xí)，宣傳覆蓋100萬(wàn)開(kāi)發(fā)者群體。

在12月1日舉辦的第二屆百度搜索創(chuàng)新大賽頒獎(jiǎng)典禮上，NVIDIA 全球副總裁何濤表示，“在這一年里，各行各業(yè)都經(jīng)歷了從通用計(jì)算到加速計(jì)算和生成式AI的平臺(tái)轉(zhuǎn)型。初創(chuàng)企業(yè)、互聯(lián)網(wǎng) 公司和云服務(wù)商，積極投資大模型、AI云和應(yīng)用落地。希望在場(chǎng)的各位參賽者，能夠順應(yīng)技術(shù)發(fā)展趨勢(shì)，把握機(jī)會(huì)，提升自我競(jìng)爭(zhēng)力，加速你們的職業(yè)成功。”

“因時(shí)而變，因勢(shì)而變”

并非所有企業(yè)適合AI大模型

聚力創(chuàng)新，力量正在崛起，第二屆百度搜索創(chuàng)新大賽成果印證一切。

較為直觀的體現(xiàn)是，第2屆百度搜索創(chuàng)新大賽設(shè)立了五大賽題，題目涉及搜索核心業(yè)務(wù)場(chǎng)景，如語(yǔ)義檢索、多模態(tài)、軟硬結(jié)合優(yōu)化等豐富的技術(shù)方向，并且開(kāi)設(shè)了產(chǎn)品賽道，廣發(fā)英雄帖，號(hào)召參賽者“洞察用戶(hù)在搜索場(chǎng)景的需求，并通過(guò)構(gòu)建AI應(yīng)用解決”。從數(shù)據(jù)來(lái)看，五大賽道報(bào)名 2800人，比去年多1000多人，賽題各有側(cè)重，難點(diǎn)不一，成果亦較為亮眼。

以大賽為平臺(tái)，引領(lǐng)大模型時(shí)代“新搜索”的未來(lái)，百度搜索創(chuàng)新大賽攜手新一代“AI未來(lái)新星”，沖向無(wú)限可能。但從賽場(chǎng)過(guò)渡到行業(yè)當(dāng)前境況來(lái)看，不禁需要思考：在創(chuàng)新力量的加持下，是不是所有企業(yè)都可以如百度一樣適合自建大模型？

這需從大模型發(fā)展現(xiàn)狀說(shuō)起。從今年3月開(kāi)始，國(guó)內(nèi)的AI大模型如雨后春筍般涌現(xiàn)。《中國(guó)人工智能大模型地圖研究報(bào)告》顯示，截至2023年5月底，國(guó)內(nèi)10億級(jí)參數(shù)規(guī)模以上基礎(chǔ)大模型至少已發(fā)布79個(gè)。

毫不夸張地說(shuō)，“百模大戰(zhàn)”已開(kāi)啟。IDC預(yù)測(cè)，2026年中國(guó)AI大模型市場(chǎng)規(guī)模將達(dá)到211億美元，人工智能將進(jìn)入大規(guī)模落地應(yīng)用關(guān)鍵期。

“因時(shí)而變，因勢(shì)而變”。比較具體的就是，AI大模型在創(chuàng)作、效率工具、教育、營(yíng)銷(xiāo) 、金融等領(lǐng)域已經(jīng)衍生了大量的創(chuàng)新業(yè)務(wù)，而微軟發(fā)布的Fabric平臺(tái)開(kāi)始用大模型能力打造新一代的AI數(shù)據(jù)分析平臺(tái)，更給這個(gè)領(lǐng)域帶來(lái)了無(wú)限的想象力。那么在構(gòu)建AI大模型的過(guò)程中，核心要做的是什么？即要清晰認(rèn)識(shí)本企業(yè)/行業(yè)大模型應(yīng)用的需求場(chǎng)景與價(jià)值，明確公司的目標(biāo)和愿景。同時(shí)，選擇適用于公司需求的最佳解決方案制定計(jì)劃實(shí)施也較為重要。據(jù)NVIDIA方面表示，“大模型應(yīng)用的建設(shè)路徑可以有很多選擇，除了上述自建專(zhuān)屬大模型的方案，直接使用API或插件接入、基于平臺(tái)公司的提供的基礎(chǔ)大模型行業(yè)方案，公有云或混合方案來(lái)構(gòu)建，現(xiàn)在市場(chǎng)上都有靈活的選擇。比如，直接使用API或插件接入門(mén)檻最低，對(duì)注重快速應(yīng)用上線(xiàn)，數(shù)據(jù)保密保護(hù)要求不高的企業(yè)可以選擇效果不錯(cuò)；服務(wù)穩(wěn)定可靠的平臺(tái)公司的API或者提供有限個(gè)性化微調(diào)的公有云平臺(tái)服務(wù)實(shí)現(xiàn)快速應(yīng)用搭建；對(duì)希望能夠自己控制基礎(chǔ)設(shè)施以保護(hù)數(shù)據(jù)資產(chǎn)的企業(yè)，選擇其他基礎(chǔ)大模型平臺(tái)提供的安全部署方式來(lái)做微調(diào)和部分定制，通過(guò)自有標(biāo)注數(shù)據(jù)和配置參數(shù)來(lái)訓(xùn)練自己的大模型也是不錯(cuò)的選擇。”

但不論采用哪種方式，重要的是要不斷測(cè)試和優(yōu)化，以最佳方式滿(mǎn)足業(yè)務(wù)需求。

競(jìng)爭(zhēng)與革新，

什么樣的企業(yè)適合AI大模型

能夠看到，構(gòu)建AI大模型，并非一蹴而就，其建立的基礎(chǔ)在于企業(yè)自身技術(shù)實(shí)力、投資預(yù)算以及需求定位等各方面的考量。

那么在這一點(diǎn)上，在人工智能領(lǐng)域深耕多年的頭部科技企業(yè)百度顯然較具代表性。以文心大模型4.0為例，在重構(gòu)AI原生應(yīng)用的底座文心大模型方面，今年10月份，百度發(fā)布文心大模型4.0，用戶(hù)可以通過(guò)文心一言體驗(yàn)文心4.0版本，企業(yè)可以通過(guò)百度智能云千帆大模型平臺(tái)調(diào)用文心4.0的API，并且百度智能云千帆大模型平臺(tái)服務(wù)企業(yè)已超過(guò)2萬(wàn)家，覆蓋近500個(gè)場(chǎng)景。目前，文心一言用戶(hù)數(shù)達(dá)7000萬(wàn)，覆蓋場(chǎng)景4300個(gè)。

事實(shí)上，過(guò)去幾年在搜索領(lǐng)域，百度搜索已構(gòu)建了多項(xiàng)關(guān)鍵技術(shù)。首當(dāng)其沖的就是超大規(guī)模深度語(yǔ)義匹配模型。該模型當(dāng)前每天在線(xiàn)可以提供萬(wàn)億次服務(wù)，是業(yè)界最大的在線(xiàn)推理系統(tǒng)，讓用戶(hù)可以搜到更為精準(zhǔn)的信息。

刪格化索引亦是不容錯(cuò)過(guò)的關(guān)鍵。該項(xiàng)技術(shù)通過(guò)索引萬(wàn)億網(wǎng)頁(yè)、視頻、圖片和信息，可以確保任何用戶(hù)想要的信息都能在幾百毫秒中返回。

同時(shí)，百度搜索還打造了一套跨模態(tài)的問(wèn)答系統(tǒng)，可以將視頻、圖片中的內(nèi)容直接回答用戶(hù)的問(wèn)題。此外，今年百度還創(chuàng)新打造了一套全新的搜索系統(tǒng)，將大語(yǔ)言模型和搜索系統(tǒng)融合在一起，大幅提升了線(xiàn)上效果。比如，占搜索相當(dāng)大比例的各種長(zhǎng)尾問(wèn)答需求，極致滿(mǎn)足的比例提升到70%，也激發(fā)用戶(hù)每天新增表達(dá)5000w問(wèn)答需求。

其中，值得關(guān)注的是，為使得服務(wù)更具多元化，真正做到搜索的極致滿(mǎn)足體驗(yàn)，百度搜索還上線(xiàn)了包括多答案決策系統(tǒng)、文本、圖片創(chuàng)作產(chǎn)品等，進(jìn)一步提升用戶(hù)的新場(chǎng)景滿(mǎn)足能力，探索新的交互形式，通過(guò)自然語(yǔ)言多輪、跨模態(tài)交互、為用戶(hù)打造AI伙伴。

創(chuàng)新從不止步，服務(wù)更是精細(xì)化向前。在百度搜索的應(yīng)用中，大模型對(duì)深度語(yǔ)義匹配、跨模態(tài)的內(nèi)容理解和問(wèn)答，以及百度全新推出的搜索系統(tǒng)長(zhǎng)尾問(wèn)答需求等很多領(lǐng)域效果提升明顯。我們也看到，全新百度搜索系統(tǒng)不斷推出大模型應(yīng)用融合功能，比如多答案決策系統(tǒng)、文本、圖片創(chuàng)作產(chǎn)品和對(duì)自然語(yǔ)言多輪、跨模態(tài)交互等新的交互方式的探索，不斷融入大模型能力。

不過(guò)，需要關(guān)注的是，這些應(yīng)用上線(xiàn)服務(wù)對(duì)于百度搜索這樣每天萬(wàn)億次在線(xiàn)服務(wù)級(jí)別的物理系統(tǒng)，在性能和吞吐上將面臨極大的壓力，如何解決？百度大模型與搜索團(tuán)隊(duì)的研究和工程團(tuán)隊(duì)不斷的探索在模型規(guī)模壓縮、量化和引擎優(yōu)化等各方面方法的結(jié)合來(lái)優(yōu)化系統(tǒng)性能，NVIDIA工程優(yōu)化專(zhuān)家也在系統(tǒng)性的性能分析，方案分享甚至算子融合優(yōu)化等各方面提供持續(xù)支持，通過(guò)搜索效率提升和資源節(jié)省實(shí)現(xiàn)大模型部署能力的支撐。NVIDIA工程師也在與文心大模型工程團(tuán)隊(duì)緊密合作，持續(xù)為訓(xùn)練推理的優(yōu)化提供支持。

創(chuàng)新的領(lǐng)域，從來(lái)不乏競(jìng)爭(zhēng)者。所以，更需不斷革新。NVIDIA一直致力于從硬件到軟件全棧的加速計(jì)算能力的持續(xù)改進(jìn)，以滿(mǎn)足不斷增長(zhǎng)的模型和數(shù)據(jù)規(guī)模帶來(lái)的算力需求和壓力。

何濤在大會(huì)上表示，“今年，NVIDIA也和百度大搜在Megatron LM/Nemo FW、基于SD的內(nèi)容生成、ANN向量召回、性能優(yōu)化等方面，開(kāi)展了深入合作。未來(lái)，我們期望雙方團(tuán)隊(duì)能夠進(jìn)一步加深合作，助力百度大搜在生成式AI的浪潮中取得更加輝煌的成績(jī)。”

據(jù)了解，百度作為中國(guó)人工智能技術(shù)綜合實(shí)力領(lǐng)先的互聯(lián)網(wǎng)公司，在生成式AI和大模型的新興機(jī)遇背景下，不斷強(qiáng)化技術(shù)、改進(jìn)產(chǎn)品, 重構(gòu)了消費(fèi)級(jí)、企業(yè)級(jí)產(chǎn)品及自身運(yùn)營(yíng)；在為用戶(hù)帶來(lái)AI原生體驗(yàn)的同時(shí)不斷提升效率，Q3營(yíng)收同比大漲23%，實(shí)現(xiàn)了爆發(fā)式增長(zhǎng)。

NVIDIA 開(kāi)發(fā)與技術(shù)部門(mén)亞太區(qū)總經(jīng)理李曦鵬在頒獎(jiǎng)典禮上表示，“從最早書(shū)籍檢索、數(shù)據(jù)檢索，到了數(shù)字化過(guò)后內(nèi)容的檢索，到現(xiàn)在如火如荼基于LLM生成式檢索，都在說(shuō)明一個(gè)好的領(lǐng)域可以不斷地引領(lǐng)創(chuàng)新、不斷地產(chǎn)生創(chuàng)新、同時(shí)不斷地吸收創(chuàng)新。搜索業(yè)務(wù)本身是NLP、CV、語(yǔ)音這些最前沿Deep Learning的合集。基于此，大模型有創(chuàng)新，第一個(gè)落地場(chǎng)景就是搜索。對(duì)于大模型在搜索引擎里大放異彩，是非常值得期待的。”

未來(lái)與趨勢(shì)

技術(shù)變革時(shí)代，創(chuàng)新力量不容忽視

大模型的不斷發(fā)展和與其他技術(shù)產(chǎn)品結(jié)合的過(guò)程將是持續(xù)探索和嘗試的過(guò)程。但無(wú)論如何，大模型的出現(xiàn)都是一個(gè)革命性的突破，而隨著技術(shù)的不斷推進(jìn)，未來(lái)趨勢(shì)也將更為明晰。

技術(shù)向前，創(chuàng)新從未停駐。今年10月，NVIDIA還公開(kāi)發(fā)布了TensorRT-LLM，一個(gè)用于加速大語(yǔ)言模型（LLM）推理的庫(kù)，是一款提升 AI 推理性能的開(kāi)源軟件。為支持 AI 開(kāi)發(fā)者，該公司發(fā)布的TensorRT-LLMv0.6.0?更新將帶來(lái)至高達(dá)5倍的推理性能提升，并支持更多熱門(mén)的LLM，包括全新Mistral7B和Nemotron-38B。這些LLM版本將可在所有采用8GB及以上顯存的GeForce RTX 30系列和40系列GPU上運(yùn)行，從而使便攜的WindowsPC設(shè)備也能獲得快速、準(zhǔn)確的本地運(yùn)行LLM功能。

定制的生成式 AI 需要時(shí)間和精力來(lái)維護(hù)項(xiàng)目。特別是跨多個(gè)環(huán)境和平臺(tái)進(jìn)行協(xié)作和部署時(shí)，該過(guò)程可能會(huì)異常復(fù)雜和耗時(shí)。AI Workbench 是一個(gè)統(tǒng)一、易用的工具包，允許開(kāi)發(fā)者在 PC 或工作站上快速創(chuàng)建、測(cè)試和定制預(yù)訓(xùn)練生成式 AI 模型和 LLM。它為開(kāi)發(fā)者提供一個(gè)單一平臺(tái)，用于組織他們的 AI 項(xiàng)目，并根據(jù)特定用戶(hù)需求來(lái)調(diào)整模型。這使開(kāi)發(fā)者能夠進(jìn)行無(wú)縫協(xié)作和部署，快速創(chuàng)建具有成本效益、可擴(kuò)展的生成式 AI 模型。加入搶先體驗(yàn)名單，成為首批用戶(hù)以率先了解不斷更新的功能，并接收更新信息。

一切革新的背后，都離不開(kāi)創(chuàng)新的力量。這股創(chuàng)新的力量就是人才。廣發(fā)英雄帖，構(gòu)建一個(gè)大型的AI舞臺(tái)，百度搜索創(chuàng)新大賽所要做的就是廣泛招攬優(yōu)秀人才，為行業(yè)蓄能。而在生態(tài)建設(shè)和人才培養(yǎng)層面，NVIDIA與百度近年來(lái)也在不斷加速推進(jìn)。

“我們積極支持百度的Paddle平臺(tái)框架在NVIDIA軟硬件平臺(tái)的加速優(yōu)化，并通過(guò)技術(shù)大賽，技術(shù)社區(qū)共同推廣的方式共同推動(dòng)AI創(chuàng)新生態(tài)的發(fā)展，發(fā)掘和培育創(chuàng)新AI技術(shù)人才。” NVIDIA方面表示，“我們期待通過(guò)雙方的合作，將百度在搜索領(lǐng)域包括AI大模型應(yīng)用及各種搜索技術(shù)創(chuàng)新以最優(yōu)的性能在NVIDIA加速計(jì)算平臺(tái)上提供給客戶(hù)，助力百度搜索不斷推出創(chuàng)新服務(wù)，結(jié)合在AI大模型為客戶(hù)提供多語(yǔ)言、多模態(tài)和包含更多領(lǐng)域知識(shí)的服務(wù)，為用戶(hù)提供更豐富、個(gè)性化和智能化的搜索體驗(yàn)。”

此外，NVIDIA給開(kāi)發(fā)者提供了許多學(xué)習(xí)交流的資源，NVIDIA 的開(kāi)發(fā)者社區(qū)，目前在全球已經(jīng)有450萬(wàn)開(kāi)發(fā)者，CUDA加速庫(kù)下載量也超過(guò)4800萬(wàn)次。面對(duì)生成式AI浪潮，NVIDIA非常歡迎廣大同學(xué)們和參賽選手加入其開(kāi)發(fā)者社區(qū)，以提升自我競(jìng)爭(zhēng)力，加速職業(yè)成功。