国产在线不卡人成视频,久久99日韩国产精品久久99,中文字幕亚洲无码亚洲色图

DeepSeek再次爆火。

近日，國內(nèi)AI初創(chuàng)公司DeepSeek發(fā)布了新一代大語言模型DeepSeek-V3，同時宣布開源。在多項基準測試中，V3的成績超越了主流開源模型，并和世界頂尖的閉源模型不分伯仲。

更重要的是，V3的訓練成本極低，僅為GPT-4o的二十分之一；售價也低，輸入+輸出價格約為GPT-4o的十分之一。不過其目前不支持多模態(tài)輸入輸出。

DeepSeek是量化資管公司幻方旗下企業(yè)，成立于2023年7月。

被冠以“AI界高效低價典范”的DeepSeek，給當前的人工智能技術與發(fā)展路徑提供了一個新的方向，貢獻了AI競賽中的中國力量。

V3不僅在人工智能界產(chǎn)生轟動效應，也因它的母公司是知名量化基金公司，而在資本市場引發(fā)熱烈討論。

另據(jù)報道，近期小米正在搭建GPU萬卡集群，雷軍親自以千萬年薪挖來了DeepSeek-V2關鍵開發(fā)人員之一的95后羅福莉，后者被譽為“AI天才少女”。

DeepSeek的“暴力美學”

多個實測表明，數(shù)學基準（MATH 500）和AIME 2024測試方面，V3超越了當前國際主流大模型Llama 3.1-405B、Claude-3.5-Sonnet和GPT-4o；代碼能力（Codeforces 基準），比國外主流大模型高出約30分；軟件工程（SWE-bench Verified）和知識問答方面，略遜于Claude-3.5-Sonnet。

因此，DeepSeek的技術論文自豪地宣稱，“綜合評估表明，DeepSeek-V3-Base已經(jīng)成為目前可用的最強大的開源基礎模型，特別是在代碼和數(shù)學方面。它的聊天版本在其他開源模型上的表現(xiàn)也優(yōu)于其他開源模型，并在一系列標準和開放式基準測試中實現(xiàn)了與GPT-4o和Claude-3.5-Sonnet等領先閉源模型的性能相當?！?/p>

更重要的是，這一成就，是在極低的訓練成本下取得的。

DeepSeek在其53頁的技術論文披露：“我們的預訓練階段在不到兩個月的時間內(nèi)完成，成本為2664K GPU小時。結合119K GPU小時的上下文長度擴展和5K GPU小時的后訓練，DeepSeek-V3的完整訓練成本僅為2.788M GPU小時。假設GPU的租金為每GPU小時2美元，我們的總訓練成本僅為557萬美元?！?/p>

Anthropic首席執(zhí)行官達里奧·阿莫迪此前透露，GPT-4o的模型訓練成本約為1億美元。而僅僅是訓練一個7B的Llama 2，就要花費76萬美元。

也就是說，DeepSeek-V3的訓練成本僅為同性能模型的十幾分之一。這讓整個AI界都為之震驚。

據(jù)報道，仍處于研發(fā)過程中的GPT-5，至少已進行過兩輪訓練，每輪訓練耗時數(shù)月，僅一輪計算成本就接近5億美元。一年半過去，GPT-5仍未問世。這意味著，新一代通用大模型的訓練成本已達到十多億美元甚至更高。馬斯克旗下的xAI剛完成60億美元融資，重要開支之一是將數(shù)據(jù)中心Colossus的規(guī)模擴大一倍，GPU數(shù)量達到20萬顆。

按照這種訓練路徑，未來三年內(nèi)，AI大模型的訓練成本將上升至100億美元甚至上不封頂。正是在這種背景之下，一段時間以來AI界產(chǎn)生了對Scaling law的質(zhì)疑。

GPT-5難產(chǎn)，OpenAI轉向了另一條發(fā)展路徑：推理模型。并且很快產(chǎn)生成果：令人驚艷的o1推理模型，以及剛發(fā)布的o3推理模型。而o3的卓越表現(xiàn)，讓部分專家驚呼，在前往AGI的路上已經(jīng)沒有了障礙。

人工智能初創(chuàng)公司深受啟迪，并緊緊跟隨。前不久剛從硅谷考察回來的零一萬物創(chuàng)始人李開復說，過去大家覺得預訓練做好就夠了，一年以后（o1出現(xiàn)后）發(fā)現(xiàn)Post train（后訓練）也同樣重要。他透露說，很多AI公司都在向推理模型方面發(fā)展，5個月以后會有不少類似o1模型的能力出現(xiàn)在各個模型公司，包括零一萬物，都在往o1方向狂奔。

但DeepSeek-V3的出現(xiàn)，提供了新的可能。更短的時間，更高的效率，更低的成本，達到同等的水平，通用大語言模型的發(fā)展路徑選擇上，貢獻了“中國版本”。

新的變化已經(jīng)發(fā)生

事實上，2024年5月6日，DeepSeek發(fā)布DeepSeek-V2開源MoE模型，就以其高效性能在全球AI界掀起了一波熱度。而其API接口價格與同類產(chǎn)品相比斷崖式定為每百萬tokens輸入1元、輸出2元（32K上下文），僅為GPT-4-Turbo的近百分之一。

“價格屠夫”的殺入，令智譜AI、字節(jié)跳動、阿里云、百度、騰訊云旗下大模型隨后不得不跟進降價。而且騰訊和百度宣布幾款大模型產(chǎn)品免費。雖然有人將DeepSeek-V2稱為“AI界的拼多多”，但這個比喻不太恰當，因為二者幾乎沒有共性。

DeepSeek-V3的API定價提高到輸入2元/M tokens，輸出為8元/M tokens（45天的價格優(yōu)惠期后），雖然比V2大幅上漲，但也只相當于Claude-3.5-Sonnet費用的1/53，后者每百萬tokens輸入3美元、輸出15美元。

根據(jù)記者近兩天對AI從業(yè)者的采訪，DeepSeek-V3的出現(xiàn)，為業(yè)界提供了新的啟發(fā)。

其一，大模型研發(fā)，存在多種可能的發(fā)展路徑。

ChatGPT走的是大參數(shù)、大算力、大投入的路子，對算力和資金的要求極高，這種資源消耗是絕大多數(shù)創(chuàng)業(yè)公司無法支撐的。即使是OpenAI、Anthropic融資較豐沛的公司，也面臨投資回報的商業(yè)化難題。

推理模型是另一條路子。o1、o3的成果，證明這條路也是可行的。但同樣，它也是建立于相對高昂的算力和資金成本基礎上，尤其是算力。

DeepSeek-V3是第三條路徑。與當前大模型訓練動輒要求萬卡集成相比，它只用2000張GPU訓練，就實現(xiàn)了與GPT-4o和Claude-3.5-Sonnet幾乎等效的成果，不能不令人敬佩。

一位在硅谷從事AI研究的華人工程師告訴21世紀經(jīng)濟報道記者，不排除還有更多的路徑選擇，比如V3的MLA架構、MoESparse結構與o3的推理能力相結合，可能產(chǎn)生新的大模型范式。如果實現(xiàn)，那將是令人驚異的。

其二，人工智能競爭，中國不僅僅是跟隨者，而是正在大幅提升創(chuàng)新能力。

其實V2發(fā)布時，硅谷就驚訝地稱之為“來自東方的神秘力量”。DeepSeek創(chuàng)始人梁文鋒2024年7月在接受媒體采訪時說，硅谷習慣于將中國AI公司視為follow的角色，當一個中國公司以創(chuàng)新貢獻者的身份，加入到他們游戲里去，而且表現(xiàn)優(yōu)異時，他們就很震驚。

梁文鋒認為，更多的投入并不一定產(chǎn)生更多的創(chuàng)新，否則大廠可以把所有的創(chuàng)新包攬了。研究和技術創(chuàng)新將永遠是DeepSeek第一優(yōu)先級。值得注意的是，根據(jù)業(yè)內(nèi)專家測算，DeepSeek在V2、V3上并不虧錢。

V3獲得硅谷一批知名AI大佬的點贊。Lepton AI創(chuàng)始人、阿里巴巴原副總裁賈揚清表示，DeepSeek是智慧和實用主義的體現(xiàn)：在有限的計算資源和人力條件下，通過聰明的研究產(chǎn)生最好的結果。這是一句相當中肯的評價。

無獨有偶。宇樹科技近日發(fā)布最新的Unitree B2-W機器狗產(chǎn)品視頻：托馬斯全旋、側空翻、360°跳躍轉體、2.8米凌空飛躍，甚至能馱著一名成年男子穩(wěn)步行走。這幾天，技術討論園區(qū)里到處可見對這家前沿中國機器人企業(yè)的歡呼聲，有評論稱其技能足以“吊打”當今最先進的機器人公司波士頓動力。上周還在A股市場掀起了一陣“宇樹科技概念”上漲潮。

其三，創(chuàng)新從來不是單維度、單向度的，AI顛覆式創(chuàng)新正在成為可能。

研發(fā)出ChatGPT的OpenAI確實了不起，它開啟了人工智能的新一輪浪潮。但OpenAI也不是神，也有發(fā)展方向的障礙，有融資的難題，有路徑選擇的猶豫。

過去兩三年，AI界一個流行的看法是，如果說硅谷企業(yè)擅長從0到1，那我們則擅長從1到10，因為中國有寬廣的應用市場。但梁文鋒認為，當前階段仍是AI技術創(chuàng)新的爆發(fā)期，而不是應用的爆發(fā)期。

從理性的角度，需要承認我們與OpenAI、Anthropic、DeepMind這些世界先進AI公司仍存在較大的差距。比如，即使是代表閉源大模型最前沿水平的V3，多項性能表現(xiàn)與GPT-4o相近，那也是后者7個月前的技術水平；而OpenAI這幾個月已連續(xù)推出o1、o3這類新的“變異”物種。更何況，其他大多數(shù)的模型產(chǎn)品，放在多語言、多模態(tài)的國際視野看，差距要更大。

但這一輪人工智能浪潮之所以更加令人期待，就是因為，它帶來的革命性想象力甚至要超越互聯(lián)網(wǎng)之于傳統(tǒng)經(jīng)濟的變革力量。正如梁文鋒所說，中國產(chǎn)業(yè)結構的調(diào)整升級，會更依賴硬核科技的創(chuàng)新。在半導體、大模型等領域，遠未觸達技術天花板，前所未有的機會在等待著中國企業(yè)，那些帶來AI顛覆性創(chuàng)新產(chǎn)品或方案模式的公司，就非?？赡艹蔀橄乱粋€偉大的企業(yè)。

前述硅谷華人工程師感慨地說，再偉大的企業(yè)，都不敢止步不前，坐享其成。

5年前，誰會想到，英特爾會淪落到傳聞要被收購的命運？而今天別看英偉達如日中天、GPU供不應求，但如果量子芯片大規(guī)模商用的時間表大大縮短，或者像V3這樣不再依賴于萬卡集成做訓練研發(fā)，而它繼續(xù)固守原有發(fā)展路徑，那么所謂的“英偉達泡沫”提前破滅也是完全可能發(fā)生的。

責任編輯：陳勇洲

基金

綜合

聲明：證券時報力求信息真實、準確，文章提及內(nèi)容僅供參考，不構成實質(zhì)性投資建議，據(jù)此操作風險自擔

下載“證券時報”官方APP，或關注官方微信公眾號，即可隨時了解股市動態(tài)，洞察政策信息，把握財富機會。

網(wǎng)友評論

登錄后可以發(fā)言

發(fā)送

網(wǎng)友評論僅供其表達個人看法，并不表明證券時報立場

暫無評論

為你推薦

AI熱度不減，機構密集調(diào)研半導體行業(yè)！6只個股，評級獲上調(diào)

券商中國許盈 2025-01-05 10:03
央行年度會議，最新解讀來了！

券商中國孫璐璐賀覺淵 2025-01-04 22:19
20股有望漲超50%，最高上漲預期超70%！

數(shù)據(jù)寶朱聽武 2025-01-05 08:29
太突然！全線大跌！

券商中國周樂 2025-01-05 08:07
見證歷史！突發(fā)黑天鵝，巨變來了

中國基金報邱德坤曹雯璟 2025-01-05 12:36
舉牌，煤機龍頭“贏麻了”！大股東舉牌公司曝光，芯片巨頭在內(nèi)

數(shù)據(jù)寶張娟娟 2025-01-05 12:24

av无码动漫一区二区精品,久久综合给合色97,亚洲成亚洲成网中文字幕,久久青青草原国产免费频观