<p class="ql-block">人工智能是美國發(fā)誓要確保領(lǐng)先中國一大步的領(lǐng)域,也是美國極力試圖鎖住中國進(jìn)步的前線。所以開年的1月20日,中國的AI公司推出全新的DeepSeek開源模型,讓美方的AI觀察家們幾近“破防”?!爸袊娜斯ぶ悄茉絹碓胶?,而且更便宜”,這是他們的驚呼。一個(gè)據(jù)稱是Meta員工發(fā)的帖子寫道:“DeepSeek最近的一系列動(dòng)作讓Meta的生成式AI團(tuán)隊(duì)陷入了恐慌。”因?yàn)樵谇罢叩牡统杀靖吒杳瓦M(jìn)之下,后者無法解釋自己超高預(yù)算的合理性。</p><p class="ql-block">去年12月,這家名為“深度求索”的中國公司推出DeepSeek-V3,在全球AI領(lǐng)域已經(jīng)引起震動(dòng)。它的訓(xùn)練成本極低,甚至不到美國最先進(jìn)GPT-4o訓(xùn)練成本的二十分之一,但是性能卻可與之同處第一梯隊(duì)。今年1月DeepSeek推出的R1模型更是獲得了業(yè)內(nèi)人士的認(rèn)可,甚至被認(rèn)為在推理和數(shù)學(xué)等領(lǐng)域比美國的大模型更加優(yōu)秀。</p><p class="ql-block">尤其讓美國AI觀察家們?cè)尞惒⑶腋械骄趩实氖牵酝鶠榱俗柚怪袊谌斯ぶ悄茴I(lǐng)域的發(fā)展,美國政府一直在嚴(yán)格限制對(duì)中國出口高算力芯片,甚至不斷加強(qiáng)努力,防止中國通過第三方獲得先進(jìn)芯片。DeepSeek僅僅用了英偉達(dá)為配合出口管制為中國市場(chǎng)量身定制的“閹割版”H800 GPU,但神奇的事情發(fā)生了,它們組合出的效果不亞于使用高性能芯片“卷算力”的美國大模型,而且因?yàn)樗峭耆_源的,專業(yè)人士可以清晰觀察DeepSeek是如何用更有效率的訓(xùn)練方式與細(xì)膩的技術(shù)手段揚(yáng)長避短的。</p><p class="ql-block">這些也是那名Meta員工“破防”的原因:使用了高算力H100 GPU的Meta Llama 3系列模型,其計(jì)算量足可訓(xùn)練DeepSeek-V3至少15次,但是最終表現(xiàn)卻不及DeepSeek。美國《財(cái)富》雜志毫不掩飾地嘲諷道:美國剛剛承諾投入數(shù)千億美元來捍衛(wèi)其人工智能領(lǐng)導(dǎo)地位,一家“預(yù)算低得可笑”的中國初創(chuàng)公司可能已經(jīng)破壞了這些希望。</p><p class="ql-block">DeepSeek的大膽創(chuàng)新震驚了業(yè)內(nèi),雖然限于硬件設(shè)施以及成本投入等原因,它與美國的先進(jìn)AI大模型比起來還有點(diǎn)“偏科”,但是卻給AI行業(yè)帶來了不少深度思考,它似乎在開創(chuàng)一條AI發(fā)展另辟蹊徑的可能路線。</p><p class="ql-block">AI大模型領(lǐng)域的三大要素是算法、數(shù)據(jù)和算力。算力如同人大腦的神經(jīng)元,一個(gè)成熟的大模型需要訓(xùn)練,理論上說,基礎(chǔ)算力越大,大模型就應(yīng)該越聰明。所以美國各團(tuán)隊(duì)之間形成了對(duì)基礎(chǔ)算力無窮無盡的追求和比拼。馬斯克旗下xAI的超級(jí)計(jì)算數(shù)據(jù)中心裝配了10萬顆英偉達(dá)H100 GPU芯片,堪稱當(dāng)今世界最強(qiáng)大的AI訓(xùn)練集群之一 。OpenAI也不甘示弱,將投入1000億美金,建設(shè)10座數(shù)據(jù)中心,未來4年還要耗資5000億美金打造20個(gè)超算集群。形成一個(gè)印象:誰的GPU芯片集群大,誰就將穩(wěn)操勝券。</p> <p class="ql-block">基礎(chǔ)算力的無窮堆積不排除是階段性浪費(fèi),這種浪費(fèi)不僅是芯片的過量使用,還有對(duì)電力的過量消耗,AI沿著這個(gè)路線狂奔,前方究竟是什么,是否存在陷阱和彎路,都是未知數(shù)。一個(gè)實(shí)際情況是,人類的現(xiàn)實(shí)需求是有限的,而且是獨(dú)特的,基礎(chǔ)算力應(yīng)當(dāng)與算法、數(shù)據(jù)形成最佳組合,而實(shí)現(xiàn)這樣的最優(yōu)解,是真正的考驗(yàn)。</p><p class="ql-block">DeepSeek的意義在于它沒有跟著美國AI公司帶動(dòng)的潮流“卷算力”,它也卷不動(dòng),但它卻在創(chuàng)造組合的最優(yōu)解方向做出大手筆開拓。它以極低成本打開了AI探索的一個(gè)新方向,展示了新的可能性,在具體落地實(shí)現(xiàn)和理論創(chuàng)新之間找到了一個(gè)平衡路徑。DeepSeek 大模型的訓(xùn)練成本僅557萬美元,價(jià)格僅有GPT-4的1%,無論是這樣的低成本還是注重細(xì)節(jié)的技術(shù),都更契合先進(jìn)科技一邊服務(wù)現(xiàn)實(shí),一邊滾動(dòng)發(fā)展的普世邏輯。</p><p class="ql-block">DeepSeek的出現(xiàn)有可能帶動(dòng)一波有規(guī)模的仿效,成為算法創(chuàng)新的催化劑。前Open AI聯(lián)合創(chuàng)始人、Tesla AI團(tuán)隊(duì)負(fù)責(zé)人安德烈·卡帕西在社交平臺(tái)上發(fā)文稱,DeepSeek-V3的出現(xiàn)也許意味著不需要大型GPU集群來訓(xùn)練前沿的大語言模型。還有人表示“如果DeepSeek的創(chuàng)新是真的,那AI公司是否真的需要那么多顯卡?”</p><p class="ql-block">Axios認(rèn)為,美國限制高端人工智能半導(dǎo)體和技術(shù)向中國流動(dòng)的政策可能有助于美國在人工智能性能曲線的外圍保持領(lǐng)先地位,但這也加速了中國更有效地構(gòu)建高端人工智能的進(jìn)程。中國這樣已經(jīng)有了雄厚科技資源儲(chǔ)備的國家是不可能被真正壓制的,美國從一個(gè)方向制裁,只會(huì)刺激中國更全面、更有韌性的進(jìn)步,甚至“彎道超車”。美國的“小院高墻”最終困住的是誰,還說不清呢。</p>