大年初一,阿里發(fā)出大模型新年第一彈。
1月29日凌晨1點(diǎn)半,阿里云通義千問旗艦版模型Qwen2.5-Max正式升級(jí)發(fā)布。據(jù)其介紹,Qwen2.5-Max模型是阿里云通義團(tuán)隊(duì)對(duì)MoE模型的最新探索成果,預(yù)訓(xùn)練數(shù)據(jù)超過20萬億tokens,展現(xiàn)出極強(qiáng)勁的綜合性能,在多項(xiàng)公開主流模型評(píng)測基準(zhǔn)上錄得高分,全面超越了目前全球領(lǐng)先的開源MoE模型以及最大的開源稠密模型。
與Qwen2.5-Max進(jìn)行對(duì)比的模型,就包括了最近火爆海內(nèi)外的DeepSeek旗下的V3模型。受新模型的影響,阿里巴巴美股拉升,一度漲超7%,收盤錄得6.71%的漲幅,報(bào)96.03美元/股。
最近幾天,DeepSeek沖擊了美股的投資邏輯,導(dǎo)致英偉達(dá)等巨頭股價(jià)大幅震蕩。
據(jù)央視新聞消息,當(dāng)?shù)貢r(shí)間1月28日,美國多名官員回應(yīng)DeepSeek對(duì)美國的影響,表示DeepSeek是“偷竊”,正對(duì)其影響開展國家安全調(diào)查。
就在前一天,美國總統(tǒng)特朗普還稱DeepSeek是很積極的技術(shù)成果。
無論是在硅谷、華爾街及白宮掀起軒然大波的DeepSeek,還是阿里通義千問新發(fā)布的大模型,國產(chǎn)大模型最近的密集創(chuàng)新成果表明,中國人工智能的進(jìn)步與追趕,已經(jīng)極大程度改變了全球AI的行業(yè)格局。
阿里新模型性能全球領(lǐng)先
阿里通義千問團(tuán)隊(duì)表示,Qwen2.5-Max采用超大規(guī)模MoE(混合專家)架構(gòu),基于超過20萬億token的預(yù)訓(xùn)練數(shù)據(jù)及精心設(shè)計(jì)的后訓(xùn)練方案進(jìn)行訓(xùn)練。
據(jù)介紹,Qwen2.5-Max在知識(shí)、編程、全面評(píng)估綜合能力的以及人類偏好對(duì)齊等主流權(quán)威基準(zhǔn)測試上,展現(xiàn)出全球領(lǐng)先的模型性能。指令模型是所有人可直接對(duì)話體驗(yàn)到的模型版本,在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond及MMLU-Pro等基準(zhǔn)測試中,Qwen2.5-Max比肩Claude-3.5-Sonnet,并幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B。
同時(shí),基座模型反映模型裸性能,由于無法訪問GPT-4o和Claude-3.5-Sonnet等閉源模型的基座模型,通義團(tuán)隊(duì)將Qwen2.5-Max與目前領(lǐng)先的開源MoE模型DeepSeek V3、最大的開源稠密模型Llama-3.1-405B,以及同樣位列開源稠密模型前列的Qwen2.5-72B進(jìn)行了對(duì)比。結(jié)果顯示,在所有11項(xiàng)基準(zhǔn)測試中,Qwen2.5-Max全部超越了對(duì)比模型。
記者還注意到,除了發(fā)布Qwen2.5-Max以外,1月28日,阿里還開源了全新的視覺理解模型Qwen2.5-VL,推出了3B、7B、72B三個(gè)尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項(xiàng)權(quán)威評(píng)測中奪得視覺理解冠軍,全面超越GPT-4o與Claude3.5。
阿里巴巴股價(jià)走勢
受新模型的影響,阿里巴巴美股拉升,一度漲超7%,收盤錄得6.71%的漲幅,報(bào)96.03美元/股。Qwen2.5-Max的發(fā)布引發(fā)了資本市場關(guān)于重估中國AI資產(chǎn)的討論。如果將阿里巴巴美股上市后的股價(jià)走勢時(shí)間軸拉長,其股價(jià)在2020年摸到311.046美元的高位后,便進(jìn)入了下行的通道。業(yè)內(nèi)人士分析,阿里云不僅發(fā)布了與全球頂尖模型比肩甚至更優(yōu)的模型,而且具備完整的云生態(tài),或能形成類似去年北美云計(jì)算服務(wù)商的投資邏輯。
DeepSeek以外,大廠大模型也值得關(guān)注
最近幾天,大家的注意力都在DeepSeek上,但有國內(nèi)頭部大模型廠商的核心技術(shù)骨干告訴證券時(shí)報(bào)記者,包括阿里通義千問、字節(jié)豆包、騰訊混元在內(nèi)的互聯(lián)網(wǎng)大廠大模型能力其實(shí)并不差,只是DeepSeek作為創(chuàng)業(yè)公司,和互聯(lián)網(wǎng)大廠在發(fā)展戰(zhàn)略上有所不同。DeepSeek作為純技術(shù)驅(qū)動(dòng)的公司,代碼和訓(xùn)練方法完全開源,而互聯(lián)網(wǎng)大廠往往出于商業(yè)化等方面的考量不會(huì)完全開源。
“DeepSeek出圈的原因主要還是跟金融市場相關(guān)。從基座能力上看,其實(shí)沒有那么強(qiáng),對(duì)我們的沖擊也沒有那么大。”該技術(shù)骨干告訴記者,美國股市上漲的邏輯主要是AI和英偉達(dá)芯片,但DeepSeek讓人們發(fā)現(xiàn)可能不需要這么多英偉達(dá)的卡,就能做出來性能差不多的模型?!岸疫€開源了,所以DeepSeek才這么受關(guān)注?!痹摷夹g(shù)骨干表示。
與此同時(shí),DeepSeek主要是在文本生成能力和理解能力方面比較強(qiáng),尤其擅長中文語境下的長文本和復(fù)雜語境,DeepSeek V3和R1暫無多模態(tài)生成能力。有行業(yè)從業(yè)者向記者表示,以豆包等為代表的大廠模型都屬于多模態(tài)大模型,在大語言模型基礎(chǔ)上融合了圖片、音頻、視頻等多種模態(tài),對(duì)算力底座要求更高,不僅要支持大規(guī)模訓(xùn)練任務(wù),還要確保端側(cè)應(yīng)用的實(shí)時(shí)性和高效性。
因此,DeepSeek除了通過創(chuàng)新架構(gòu)與優(yōu)化算法降低訓(xùn)練成本外,還能更加聚焦于大語言模型領(lǐng)域。一名國內(nèi)大模型高管在分析DeepSeek的成功時(shí)就指出,有相對(duì)充裕的卡(算力資源),沒有融資壓力,前面幾年只做模型不做產(chǎn)品,這些都讓DeepSeek更加純粹和聚焦,能夠在工程技術(shù)和算法上有所突破。
前述國內(nèi)頭部大模型廠商的核心技術(shù)骨干還透露,1月22日字節(jié)發(fā)布的豆包大模型1.5Pro,在多個(gè)測評(píng)基準(zhǔn)上領(lǐng)先于許多頭部的模型,“我們的壓力不來自于DeepSeek,而是豆包,只是豆包1.5Pro沒有出圈,大家沒注意到?!痹摷夹g(shù)骨干說。
DeepSeek面臨“蒸餾”爭議
記者注意到,字節(jié)研究團(tuán)隊(duì)還表示,豆包1.5Pro通過高效標(biāo)注團(tuán)隊(duì)與模型自提升相結(jié)合的方式持續(xù)優(yōu)化數(shù)據(jù)質(zhì)量,嚴(yán)格遵循內(nèi)部標(biāo)準(zhǔn),不使用任何其他模型的數(shù)據(jù),確保數(shù)據(jù)來源的獨(dú)立性和可靠性,也即沒有通過“蒸餾”其他模型來走捷徑。
所謂“蒸餾”,指的是一種開發(fā)者用來優(yōu)化小型模型的方法,是一種在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)領(lǐng)域廣泛應(yīng)用的技術(shù),簡單理解就是用預(yù)先訓(xùn)練好的復(fù)雜模型輸出的結(jié)果,作為監(jiān)督信號(hào)再去訓(xùn)練另外一個(gè)簡單的模型。這樣可以大幅減少計(jì)算資源消耗,讓小模型在特定任務(wù)中以低成本取得類似效果。
DeepSeek的技術(shù)文檔表示,R1模型使用了數(shù)據(jù)蒸餾技術(shù)(Distillation)生成的高質(zhì)量數(shù)據(jù)提升了訓(xùn)練效率。周二,白宮人工智能和加密貨幣事務(wù)負(fù)責(zé)人大衛(wèi)·薩克斯在接受該媒體采訪時(shí)宣稱,DeepSeek“有可能”竊取了美國的知識(shí)產(chǎn)權(quán)才得以崛起。他還表示,未來幾個(gè)月美國領(lǐng)先的人工智能公司將采取措施,試圖防止“蒸餾”。據(jù)金融時(shí)報(bào)報(bào)道,OpenAI稱它發(fā)現(xiàn)DeepSeek使用了OpenAI專有模型來訓(xùn)練自己的開源模型的證據(jù),但拒絕進(jìn)一步透露其證據(jù)的細(xì)節(jié)。
不過多名業(yè)內(nèi)人士表示,“蒸餾”雖然存在一定爭議,但其實(shí)是大模型訓(xùn)練中一種常用的方法。由于訓(xùn)練復(fù)雜模型需要投入大量資源,并雇用專業(yè)人員教導(dǎo)模型如何生成符合人類表達(dá)方式的回答,耗錢耗時(shí)間,而“蒸餾”則可以避免這個(gè)問題。因此,無論是在中國還是美國,初創(chuàng)公司和學(xué)術(shù)機(jī)構(gòu)使用ChatGPT等具有人類反饋優(yōu)化的商業(yè)大語言模型輸出數(shù)據(jù)來訓(xùn)練自己的模型,被視為一種普遍的、“默而不宣”的現(xiàn)象。
由中國科學(xué)院深圳先進(jìn)技術(shù)研究院、北大等機(jī)構(gòu)聯(lián)合發(fā)表的論文《大語言模型的蒸餾量化》中,研究者就提到除了Claude、豆包和Gemini之外,當(dāng)前知名的開閉源大語言模型均表現(xiàn)出了較高的“蒸餾”水平。研究人員普遍認(rèn)為,“蒸餾”能夠使模型訓(xùn)練的效率更好、成本更低,但會(huì)使模型的獨(dú)特性下降,且過度“蒸餾”也會(huì)導(dǎo)致模型性能下降。
校對(duì):王朝全