當(dāng)?shù)貢r間2月17日晚,特斯拉首席執(zhí)行官埃隆·馬斯克(Elon Musk)發(fā)布了新一代人工智能模型Grok 3。
這一款被馬斯克稱為“好得可怕”的人工智能模型誓言對最前沿的AI研發(fā)發(fā)起挑戰(zhàn)。其團(tuán)隊(duì)聲稱,Grok 3的性能已經(jīng)優(yōu)于競爭對手的尖端模型。
創(chuàng)造“最智能”的AI
Grok這個詞來自于羅伯特·海因萊因的小說《異鄉(xiāng)的陌生人》,由在火星上長大的人物所使用的,表示對某事有完整而深刻的理解,其中,同理心是這種理解的重要組成部分。
Grok 1于2023年初發(fā)布,是馬斯克旗下初創(chuàng)企業(yè)xAI推出的首款人工智能聊天機(jī)器人。2023年年中,xAI在Grok 1的基礎(chǔ)上推出了Grok 2。這一代模型在多個方面進(jìn)行了重大改進(jìn),然而,在眾多優(yōu)秀大模型層出不窮的2023年,Grok 2的問世并沒有掀起太大水花。
去年4月,馬斯克就產(chǎn)生了創(chuàng)造“最智能”AI的想法。在他看來,成功創(chuàng)造最好的人工智能的唯一途徑就是創(chuàng)建自己的數(shù)據(jù)中心。
xAI擁有一臺用于訓(xùn)練AI的“Colossus超級計(jì)算機(jī)”,這臺計(jì)算機(jī)在8個月內(nèi)就搭建完成,搭載了10萬顆英偉達(dá)H100 GPU,提供了超過2億GPU小時的計(jì)算資源——是Grok 2的10倍。
此外,xAI與戴爾達(dá)成價(jià)值50億美元的協(xié)議,為Grok 3提供人工智能服務(wù)器。此次交易旨在滿足Grok 3和其他人工智能應(yīng)用不斷增長的計(jì)算需求。
Grok 3不是一個模型,更確切地說,它是一個模型系列。Grok 3 mini是Grok 3的縮小版,可以更快地回答問題,但代價(jià)是準(zhǔn)確性會有所損失。
Grok 3的初步訓(xùn)練大約一個月前完成,此后團(tuán)隊(duì)一直致力于將推理能力集成到當(dāng)前的Grok 3模型中。不過目前,該模型仍處于早期階段。已經(jīng)發(fā)布的只是Grok 3推理模型的一部分。與此同時,開發(fā)人員還在訓(xùn)練迷你版的論證模型。
多項(xiàng)評估高分
產(chǎn)品發(fā)布之前,馬斯克就在X個人主頁上發(fā)帖宣布,“Grok 3將成為地球上最聰明的AI”,并承諾,其性能將超越任何目前可用的其他人工智能產(chǎn)品。
Grok 3于線上發(fā)布時,有超過10萬人觀看了這一AI新玩家的上線演示。在Grok 3發(fā)布的問答環(huán)節(jié)中,xAI還回答了觀眾關(guān)于最新AI模型的一些問題,比如問Grok是女孩還是男孩。
“Grok就是你想要他成為的任何人”,馬斯克回答道,“人們會愛上Grok,可能性是1000%!”
xAI聲稱,Grok 3在AIME(評估模型在數(shù)學(xué)問題樣本上的表現(xiàn))和GPQA(測試博士級物理、生物和化學(xué)問題的模型)等測試中優(yōu)于GPT-4o。xAI還稱,Grok 3的早期版本在Chatbot Arena中也獲得了高分。
而Grok 3的兩個變體,Grok 3 Reasoning和Grok 3 mini Reasoning,可以仔細(xì)地“思考”問題,類似于OpenAI的o3-mini和中國公司DeepSeek的R1等“推理”模型。
推理模型在產(chǎn)生結(jié)果之前會仔細(xì)地進(jìn)行自我測試,這有助于它們避免模型通常面臨的一些陷阱。
xAI聲稱,Grok 3 Reasoning在多項(xiàng)流行測試中的表現(xiàn)優(yōu)于o3-mini的最佳版本(o3-mini high),包括新的AIME 2025數(shù)學(xué)測試。
xAI還現(xiàn)場演示了Grok 3的推理+編程能力,其中一個問題是“生成3D動畫代碼,演示從地球發(fā)射、著陸火星,然后在下一個發(fā)射窗口返回地球的過程”。
經(jīng)過近兩分鐘的思考,Grok 3生成了可以直接跑起來的python代碼,3D動畫可以運(yùn)行,但是否正確還有待驗(yàn)證。
xAI還稱,Grok 3最具人文色彩的方面之一就是它的創(chuàng)造力。其開發(fā)了一款新游戲的概念,該游戲巧妙地結(jié)合了俄羅斯方塊和Puyo Puyo的元素,展示了其在科學(xué)和技術(shù)之外的領(lǐng)域,如娛樂和藝術(shù)領(lǐng)域的潛力。根據(jù)馬斯克的說法,Grok 3正在創(chuàng)造俄羅斯方塊和寶石迷陣的混合體。
Grok 3的最后一個新功能是代理/智能體(Agent)。發(fā)布會演示的是新產(chǎn)品DeepSearch,基于Grok 3的搜索引擎,它不僅可以搜索網(wǎng)頁,查找現(xiàn)有資料,還可以“推測用戶的真正意圖”并加以思考,在經(jīng)過交叉對比不同信源后,確?!澳軌蚍答佌_的信息”。
未來發(fā)展計(jì)劃
目前,X上的Premium Plus訂戶將是第一批獲得Grok 3訪問權(quán)限的群體。此外,如果想要搶先體驗(yàn)新功能,也可以通過Grok應(yīng)用程序和grok.com網(wǎng)站單獨(dú)訂閱Super Grok。
Super Grok還可以在新的DeepSearch搜索引擎中解鎖額外的注意事項(xiàng)及搜索查詢,并添加無限的圖像生成功能。
盡管Grok 3被馬斯克譽(yù)為“地球上最聰明的AI”,但它在早期測試中仍然暴露出一些局限性。
在正式發(fā)布之前,幾名X平臺用戶表示自己可以提前體驗(yàn)Grok 3。他們發(fā)現(xiàn),盡管該模型能夠正確回答一些困難的謎題,并生成HTML和JavaScript代碼,但是它在編寫代碼時仍然存在一些細(xì)節(jié)上的疏漏,出現(xiàn)了bug。
幾周后,Grok 3模型將與DeepSearch功能一起出現(xiàn)在xAI企業(yè)API中。馬斯克表示,幾個月后,xAI將開源Grok 2。
“我們的總體做法是,當(dāng)下一個版本完全準(zhǔn)備好時,我們將發(fā)布開源的最新版本”,馬斯克說。
他向用戶承諾一周內(nèi)會推出“更精美的版本”?!拔覀冞€在開發(fā)語音交互功能,以便進(jìn)行對話。我今天嘗試了一下,效果很好,盡管還需要一些工作。我們的目標(biāo)是讓它可以像人一樣交談。我認(rèn)為這將是使用Grok 3的最佳體驗(yàn)之一”。
記者:袁源