設(shè)為首頁 | 加入收藏 | 今天是2025年07月01日 星期二

聚合智慧 | 升華財富
產(chǎn)業(yè)智庫服務(wù)平臺

七禾網(wǎng)首頁 >> 快訊要聞

BAT先跑,為什么是DeepSeek跑贏了?

最新高手視頻! 七禾網(wǎng) 時間:2025-06-30 14:10:13 來源:中信出版社

本文摘編自《深度探索:解碼DeepSeek及人工智能的未來》

作者 陳勁 安健



2025年1月27日,正值中國農(nóng)歷新年除夕的前一天,當(dāng)中國人正忙著采買年貨、打掃庭院,準(zhǔn)備熱熱鬧鬧地迎接新年時,一家來自中國的人工智能初創(chuàng)公司DeepSeek卻在大洋彼岸的美國攪動風(fēng)云。


先是DeepSeek連續(xù)多日登陸中美AppStore免費類應(yīng)用排行榜第一,緊接著人工智能芯片領(lǐng)先供應(yīng)商英偉達(dá)股價直接暴跌12%。此外,Meta和谷歌母公司Alphabet,英偉達(dá)的競爭對手Marvell、還有博通、美光和臺積電也均大幅下跌。


一時之間,無論是美國科技界、AI界的大佬,還是各大民間科技社區(qū),都在熱議這款來自東方的"神秘AI應(yīng)用”及金融科技公司——幻方量化!


比如,來自O(shè)penAICEO山姆奧特曼的最新認(rèn)可:“Deepseek的R1是一款令人印象深刻的模型,尤其是在這個價格范圍內(nèi)能提供的性能上。


從表面來看,DeepSeek一夜之間爆火,火得一塌糊涂,火得一發(fā)不可收,但又火得莫名其妙。不過太陽底下沒有新鮮事,DeepSeek橫空出世的背后,其實是中國AI公司在這一領(lǐng)域持續(xù)多年的深耕細(xì)作,是一個典型的中國科技初創(chuàng)公司憑借技術(shù)創(chuàng)新和開源模式迅速嶄露頭角的故事。


近日,清華大學(xué)經(jīng)濟管理學(xué)院創(chuàng)新創(chuàng)業(yè)與戰(zhàn)略系教授、技術(shù)創(chuàng)新研究中心主任陳勁在新書《深度探索:解碼DeepSeek及人工智能的未來》中,系統(tǒng)復(fù)盤了DeepSeek的崛起之路,讓我們?nèi)娼庾x了其背后的技術(shù)邏輯、商業(yè)模式以及對未來社會的深遠(yuǎn)影響。


大模型的中國涌現(xiàn)


從本質(zhì)上說,2022年底,OpenAI發(fā)布ChatGPT掀起了人工智能熱浪,在中國掀起了“百模大戰(zhàn)”。


ChatGPT的功能升級刺激國內(nèi)企業(yè)加速布局,阿里、華為、360等企業(yè)迅速跟進(jìn),推出“通義千問”“盤古”“智腦”等模型,形成“百模大戰(zhàn)”的雛形。


截至2023年10月,國內(nèi)參數(shù)規(guī)模10億以上的大模型達(dá)238個,覆蓋互聯(lián)網(wǎng)巨頭、科研院所及創(chuàng)業(yè)公司,如知乎“知海圖AI”、復(fù)旦大學(xué)MOSS等。


頭部企業(yè)如百度、阿里、騰訊通過優(yōu)化算法(如文心一言推理效率提升10倍)和算力集群(騰訊HCC高性能計算集群)爭奪技術(shù)高地,這種通用大模型的規(guī)模競賽,在加劇技術(shù)內(nèi)卷的同時,也促進(jìn)了技術(shù)突破,比如多模態(tài)技術(shù)。2023年上半年,文生視頻技術(shù)快速發(fā)展,百度“文心一言”視頻生成功能、阿里達(dá)摩院“文本生成視頻大模型”相繼落地。


大模型的火爆也帶來了下游企業(yè)的繁榮,數(shù)據(jù)標(biāo)注、模型訓(xùn)練工具(如星塵數(shù)據(jù)、ScaleAI)借勢而起,成為產(chǎn)業(yè)鏈關(guān)鍵環(huán)節(jié)。各家企業(yè)躬身入局,帶動了生態(tài)的發(fā)展,Meta、谷歌推動開源模型(如Llama)的發(fā)展,而OpenAI轉(zhuǎn)向閉源;作為回應(yīng),國內(nèi)華為昇騰、騰訊云等嘗試構(gòu)建自主生態(tài)。


成本優(yōu)勢和注重應(yīng)用落地是從阿里M6開始,國產(chǎn)大模型就具備的行業(yè)基因,這種基因也在這次史無前例的大戰(zhàn)中被發(fā)揚光大。長春市婦產(chǎn)醫(yī)院利用第四范式的AutoML技術(shù)構(gòu)建“新生兒體重預(yù)測模型”,誤差控制在200克以內(nèi);商業(yè)銀行借助AI反欺詐模型挖掘出了多達(dá)20億條的潛在線索,相較于傳統(tǒng)依靠人工規(guī)則僅能發(fā)現(xiàn)的上千條規(guī)模,優(yōu)勢極為顯著。


“百模大戰(zhàn)”無疑是壯觀的百舸爭流,因此自然也免不了泥沙俱下,在有人指摘其有“重復(fù)造輪子”之嫌時,自然也就有人說“‘百模大戰(zhàn)’不是參與者太多,而是遠(yuǎn)遠(yuǎn)不夠”。


對于平時關(guān)注大模型不多的讀者而言,他們可能會認(rèn)為:是ChatGPT在全球的爆火,才讓中國科技企業(yè)迅速加入這場戰(zhàn)局。這只能說答對了問題的一半。一些人工智能初創(chuàng)企業(yè)的確是眼見ChatGPT引發(fā)的狂潮到來,迅速融資后開始投入大模型的研發(fā)。但對于國內(nèi)一些科技大廠來說,它們在人工智能領(lǐng)域深耕已久,早就進(jìn)行了多年的細(xì)致布局與準(zhǔn)備。


阿里云、百度、騰訊、華為等大廠早早開始在大數(shù)據(jù)、大算力、預(yù)訓(xùn)練模型等方面進(jìn)行技術(shù)積累。這些企業(yè)不僅緊跟生成式AI的潮流,還通過發(fā)布自研的大模型(如阿里云的“通義千問”、百度的“文心一言”、騰訊的“混元大模型”和華為的“盤古大模型”)在技術(shù)上進(jìn)行不斷優(yōu)化,推動了大模型的研發(fā)。


除了科技大廠,很多企業(yè)也加速了在AI領(lǐng)域的布局。大模型的應(yīng)用已經(jīng)從傳統(tǒng)的計算機視覺、自然語言處理等擴展到更多行業(yè)場景,包括醫(yī)療、電力、煤礦等多個領(lǐng)域,展現(xiàn)出AI工業(yè)化的趨勢。


根據(jù)賽迪顧問發(fā)布的《2023大模型現(xiàn)狀調(diào)查報告》,截至2023年7月底,中國累計已有130個大模型問世,“百模大戰(zhàn)”局面已然呈現(xiàn),大模型的競爭開始進(jìn)入“大力出奇跡”的階段。


這個看似混亂無序的“戰(zhàn)國時代”的背后,彰顯了一個國家、一個古老民族的砥礪奮進(jìn),是整個中國人工智能行業(yè)對先進(jìn)技術(shù)的追趕與超越的雄心壯志。在中國這個擁有最多理科人才、最大應(yīng)用市場和廣大創(chuàng)業(yè)者空前熱情的國度之下,偉大創(chuàng)新的誕生應(yīng)該只是個時間問題。


從這個角度看,DeepSeek的崛起的確是建立在國產(chǎn)大模型的大廈之上,背后交織著時代機遇、地域稟賦與民族意志的共振。


幻方量化,一把猝火的刀


那么問題來了,為什么引爆全球關(guān)注的不是之前的豆包、kimi、智譜?也不是阿里、騰訊、百度......?而是被戲稱為“東方神秘力量”的金融科技公司——幻方量化。


時間進(jìn)入2023年,盡管AI大模型仍在如火如荼地發(fā)展,但國內(nèi)的“百模大戰(zhàn)”似乎漸漸有偃旗息鼓的苗頭。


原因無他,只是大模型訓(xùn)練起來太貴了。研究機構(gòu)EpochAI提供的數(shù)據(jù)顯示,大模型訓(xùn)練成本在2022年之后出現(xiàn)爆炸式增長(見圖3—1)。2023年,OpenAI首席執(zhí)行官奧爾特曼透露,GPT—4的訓(xùn)練成本超過1億美元,而GPT—3的訓(xùn)練成本僅為460萬美元,兩代產(chǎn)品間成本飆升了20多倍。谷歌在其后發(fā)布的Gemini的訓(xùn)練成本達(dá)到了令人咋舌的1.91億美元,這還沒有將研究人員的薪酬計算在內(nèi)。


如此高的訓(xùn)練成本注定了大模型競爭是一個“貴族游戲”,也許只有現(xiàn)金流充足的互聯(lián)網(wǎng)巨頭們才是擁有上桌資格的“玩家”。2023年伊始,起初觀望的各家大廠已紛紛入局大模型,搶灘人工智能時代的橋頭堡。


另外,“百模大戰(zhàn)”如一團夏日煙火,熱烈而短暫。在中美兩國,除了幾家頭部企業(yè),眾多創(chuàng)業(yè)公司因缺乏足夠資金支持和可見的盈利模式,而選擇調(diào)整方向至AI應(yīng)用甚或萌生退意時,幻方量化卻逆勢而行,選擇孤注一擲地深耕這一領(lǐng)域。


2023年4月14日,幻方量化發(fā)布進(jìn)軍大模型領(lǐng)域的公告時,援引了法國新浪潮電影先驅(qū)特呂弗對青年創(chuàng)作者的寄語:“務(wù)必要瘋狂地懷抱雄心,且還要瘋狂地真誠?!?/strong>


這一公告反映出幻方量化對技術(shù)探索的獨特哲學(xué):其以挑戰(zhàn)金融領(lǐng)域復(fù)雜場景積累的算法能力為基底,選擇在AGI這一人類科技巔峰領(lǐng)域進(jìn)行高密度的投入,展現(xiàn)出超越商業(yè)邏輯的理想主義色彩。


不過在外界來看,DeepSeek既沒有理想主義的光環(huán),也沒有理工男的耿直,外界聽到的是關(guān)于其用AGI炒股的傳言。


據(jù)《財經(jīng)十一人》2023年的報道,中國擁有超過1萬張GPU的企業(yè)不超過5家,幻方量化是其中唯-一家不屬于科技“大廠”的企業(yè),擔(dān)得起金融領(lǐng)域“卡王”之稱。因此,不少人認(rèn)為幻方要用“AI”炒股了,更有人認(rèn)為量化用“AI”炒股。


2023年4月16日,幻方量化董事總經(jīng)理陸政哲不得不在朋友圈澄清:“我用中文重申一下:AGI不是用來炒股的,有大得多的用處和大得多的價值?!边@也可見DeepSeek對于理想的執(zhí)拗。當(dāng)然這種執(zhí)拗并非無的放矢,而是由技術(shù)實力支撐的。后來證明,DeepSeek通過多項技術(shù)創(chuàng)新成功地讓大模型訓(xùn)練變得“物美價廉”起來。


回溯DeepSeek的來時路


從公司成立時長來看,DeepSeek展現(xiàn)了驚人的發(fā)展速度。2023年7月,幻方量化將其AI研發(fā)部門分拆,正式成立獨立子公司DeepSeek,宣布將聚焦于研發(fā)具備人類認(rèn)知水平的人工智能技術(shù)。其目標(biāo)不僅限于復(fù)刻ChatGPT等現(xiàn)有成果,更致力于探索AGI的深層奧秘,推動技術(shù)邊界向更廣闊的未知領(lǐng)域拓展。這頭鯨魚從此進(jìn)入了一片廣袤藍(lán)海,開始急速巡弋。


盡管成立時間不長,但DeepSeek的發(fā)展速度和技術(shù)創(chuàng)新能力令人矚目。僅在成立半年后,即2023年11月2日,DeepSeek發(fā)布了DeepSeekCoder,這是其首款開源代碼大模型,支持多種編程語言的代碼生成、調(diào)試和數(shù)據(jù)分析任務(wù)。該模型完全開源,免費供商業(yè)使用,這是該公司在AI領(lǐng)域的首次重大突破。


緊接著在2023年11月29日,DeepSeek發(fā)布了其首款通用大語言模型DeepSeekLLM67B。這款模型的參數(shù)規(guī)模達(dá)到了670億,性能接近GPT—4,并在多個中英文公開評測榜單上表現(xiàn)優(yōu)異。DeepSeekLLM67B進(jìn)一步使DeepSeek成為開源大語言模型領(lǐng)域的領(lǐng)先者。


2024年5月,DeepSeek發(fā)布了開源第二代MoE(混合專家)大模型DeepSeek—V2,這款模型不僅在性能上實現(xiàn)了顯著提升,還因其極低的成本引發(fā)了行業(yè)內(nèi)的價格戰(zhàn)。DeepSeek—V2的推理成本僅為每百萬令牌1元人民幣,這一價格僅為Llama3的1/7,GPT—4—Turbo的1/70。這種巨大的成本優(yōu)勢迫使國內(nèi)主流大模型廠商,包括騰訊、百度、阿里巴巴、字節(jié)跳動等,紛紛下調(diào)價格。


又是短短半年過后,DeepSeek—V3模型發(fā)布,其輸入價格進(jìn)一步降至每百萬令牌0.5元,這再次推動了國產(chǎn)大模型的降價潮。


2024年12月,字節(jié)跳動下調(diào)其旗下豆包視覺理解模型輸入價格,與行業(yè)平均水平相比,降低了85%。


真正的爆發(fā)是在2025年的1月20日,DeepSeek發(fā)布了性能對標(biāo)OpenAIo1正式版的新模型—DeepSeek—R1。由于它在基準(zhǔn)測試中超越了OpenAI的同類產(chǎn)品,且強大絲滑的產(chǎn)品使用體驗震驚了海外AI社區(qū),因此DeepSeek被海外AI界人士稱為“神秘的東方力量”。同時,國內(nèi)媒體也在爭相報道DeepSeek的大火,稱DeepSeek為典型的“墻外開花墻內(nèi)香”的中國創(chuàng)新。


以柔克剛:用算法壓榨算力


除了前面介紹的內(nèi)容,DeepSeek還有下面這些讓人眼花繚亂的創(chuàng)新:無輔助損失的負(fù)載均衡策略,跨節(jié)點全對全通信內(nèi)核,雙路跨節(jié)點通信,數(shù)據(jù)精篩,F(xiàn)P8混合精度訓(xùn)練框架,等等。


我們可以把訓(xùn)練大模型想象成運營一個工廠,降低成本的方式就兩招:一是壓縮整體的工作量,二是不讓一個工人閑下來。多頭潛在注意力機制和FP8混合精度訓(xùn)練,就是在壓縮工作量。


傳統(tǒng)的注意力機制中,每一層都分別存儲名稱和對應(yīng)的值。在訓(xùn)練過程中,需要逐一計算這些名稱和值,并將它們存儲在內(nèi)存中。這就好比在一個班級里,需要記住“張三120斤,李四180斤”這樣的具體信息。而多頭潛在注意力機制的創(chuàng)新之處在于,它將前后幾層的信息合并在一起,不再單獨記錄每個名稱,而是統(tǒng)一稱為“第一排”。當(dāng)需要具體信息時,它再通過類似于“第一排第二個男生體重多少”的方式來進(jìn)行動態(tài)查詢。這種設(shè)計大幅減少了內(nèi)存占用,同時提升了訓(xùn)練效率。


FP8是指一種基于8位浮點數(shù)的表示方法,相較于傳統(tǒng)的FP32(32位)或FP16(16位),它的計算量更少,存儲需求更低。雖然看似降低了精度,但FP8混合精度訓(xùn)練并非一刀切地降低精度,而是在關(guān)鍵步驟中使用高精度計算(如FP32)以保證準(zhǔn)確性,而在其他場景中,則通過定期校準(zhǔn)(每128個數(shù)交給FP32核算一次)來避免誤差累積。這種混合策略既減少了計算量,又維持了模型性能。打個比方,原來能精確到1.85元的賬單,現(xiàn)在直接抹零為2元。但面對像比特幣這樣大幣值貨幣交易的時候,對于1.85比特幣,系統(tǒng)會切換回高精度模式,一分一厘地仔細(xì)計算。


多頭潛在注意力機制和FP8混合精度訓(xùn)練這兩項技術(shù)可以視為壓縮工作量的典范。除了壓縮工作量,DeepSeek還采用了多項技術(shù)來提升并行效率,確保每個“工人”都能高效運轉(zhuǎn)。


雙路的核心思想是優(yōu)化計算流水線。傳統(tǒng)流水線中,前一個工人完成任務(wù)后,下一個工人才能開始工作,這種串行模式容易導(dǎo)致等待時間過長而影響效率。而DeepSeek設(shè)計了兩條并行流水線,使得不同任務(wù)能夠同時進(jìn)行。比如,當(dāng)一條流水線的工人正在貼膠布時,另一條流水線已經(jīng)在傳輸下一個任務(wù)。這種方式不僅實現(xiàn)了數(shù)據(jù)傳輸與計算的同步進(jìn)行,還使整體速度提升了50%,通信開銷減少了20%。


在MoE模型中,如何分配任務(wù)是一個難點。如果固定分配任務(wù),比如做出類似“小王必須送30單,小李必須送50單”這樣的規(guī)定,則很容易出現(xiàn)某些專家過載而另一些專家閑置的情況。DeepSeek—V3的無輔助損失的負(fù)載均衡策略則采用動態(tài)分配機制,類似于智能派單系統(tǒng)。當(dāng)某個專家連續(xù)處理過多任務(wù)時,系統(tǒng)會自動降低其接單概率,并將任務(wù)分配給其他空閑專家。這種靈活調(diào)整的方式顯著提升了系統(tǒng)的運行效率,使不同專家的工作量達(dá)到動態(tài)平衡。


DeepSeek在效率上取得了顯著突破,而且它并未犧牲性能,反而在多個指標(biāo)上表現(xiàn)出色。這主要得益于以下三點:


第一,模型規(guī)模龐大:DeepSeek擁有671B的參數(shù)量,遠(yuǎn)超Llama3.1的405B,奠定了強大的基礎(chǔ)能力。


第二,高質(zhì)量訓(xùn)練數(shù)據(jù):DeepSeek對訓(xùn)練數(shù)據(jù)進(jìn)行了精細(xì)化處理,從數(shù)據(jù)篩選、清洗到預(yù)處理都力求完美。其訓(xùn)練數(shù)據(jù)總量高達(dá)14.8T令牌,相當(dāng)于用最優(yōu)質(zhì)的食材制作了一道精心烹調(diào)的大餐。


第三,多令牌預(yù)測:傳統(tǒng)的大語言模型一次只能預(yù)測一個令牌,而DeepSeek可以同時預(yù)測多個連續(xù)的令牌。這不僅提高了效率,還能更好地把握令牌之間的依賴關(guān)系。


這些反常識的創(chuàng)新,正在改寫大模型的競爭規(guī)則—未來的AGI之戰(zhàn),或許不再是“誰擁有更多GPU”,而是“誰能更聰明地利用每一焦耳的計算能量”。當(dāng)同行仍在參數(shù)量的數(shù)字游戲中內(nèi)卷時,DeepSeek已用數(shù)學(xué)之美證明:真正的智能突破,往往始于對行業(yè)共識的勇敢背叛。


這些創(chuàng)新匯集起來其實就是DeepSeek高度逼真和流暢的表達(dá)能力,而這種表達(dá)其實就是AGI,也是DeepSeek所一直追求的。


對資源效率的極致追求


此外,DeepSeek 是幻方量化于 2019 年成立的 AI 公司,光先期投入就逾 10 億元資金,幻方量化在 2021年的資產(chǎn)管理規(guī)模更提升至 1000 億元人民幣,這般闊綽的手筆, 怎會與“貧窮”產(chǎn)生關(guān)聯(lián)?


細(xì)讀 DeepSeek 團隊的論文,每個段落都體現(xiàn)出對資源效率的極致追求,說白了就是省。


為了節(jié)約算力,DeepSeek 直接削減監(jiān)督微調(diào),用基座模型生成數(shù)據(jù)做冷啟動,將 PPO 里的價值模型砍了,改成“群策群力”的 GRPO,再加上共享專家、分流算法、跨節(jié)點通信等,每項實打?qū)嵉募夹g(shù)創(chuàng)新的背后都指向一件扎心的事實,那就是缺顯卡,顯卡不足也就意味著算力不足。


算力制約大模型的發(fā)展早已是行業(yè)公開的秘密。


早在 2023 年,OpenAI CEO 奧爾特曼就坦言, 公司面臨“極端 GPU 短缺”。據(jù)推測,GPT—4.5 的訓(xùn)練使用了 3 萬到 5 萬張英偉達(dá) H100 GPU,訓(xùn)練成本 7.5 億到 15 億美元,缺少算力直接導(dǎo)致了 GPT—5 的難產(chǎn),它只能分階段發(fā)布。


病急亂投醫(yī)的 OpenAI 甚至想到和臺積電合資建廠以解燃眉之急,據(jù)《紐約時報》報道,OpenAI CEO 奧爾特曼 2024 年訪問了臺積電總部,提出了一個宏大的算力構(gòu)想,預(yù)計需耗資 7 萬億美元及多年時間建設(shè) 36 座半導(dǎo)體工廠和數(shù)據(jù)中心。只不過在臺積電內(nèi)部郵件中奧爾特曼本人被調(diào)侃為“播客兄弟”(含義近似于自大的網(wǎng)絡(luò)噴子),這項過于大膽的計劃也被臺積電認(rèn)為荒謬,最終只能胎死腹中。


對比 DeepSeek 的處境看 OpenAI 的哭窮,那就是徹頭徹尾的“凡爾賽”,因為二者面對的根本不是同一種匱乏。限制 OpenAI的是英偉達(dá)的產(chǎn)能上限與自身購買資金的不足,而 DeepSeek 面對的則是人為制造的匱乏—美國層層加碼、步步緊逼的對華芯片出口管制。


2022 年 8 月 31 日,美國政府命令英偉達(dá)、AMD 對中國禁售部分高性能 GPU,包括英偉達(dá)的 A100、H100,以及 AMD 的MI250,等等。


2023 年 10 月 17 日,美國商務(wù)部宣布了對中國新的科技封鎖政策,不僅頂級的 H100 芯片不可以賣給中國,性能稍低的H800 和 A800 也不允許銷售。


2025 年 1 月 13 日,美國政府發(fā)布《AI 擴散暫行最終規(guī)則》, 將全球劃分為三個不同“層級”的區(qū)域,包括中國在內(nèi)的很多國 家和地區(qū)位列第三層級,這些國家和地區(qū)的實體將被完全禁止進(jìn) 口任何類型的 AI 芯片,特別是高性能 GPU。


盡管早在 2023 年就有權(quán)威媒體報道,作為 DeepSeek 的母公司,幻方量化是中國擁有超過 1 萬張 GPU 的 5 家公司中的一家, 其也是其中唯一一家不屬于科技“大廠”的企業(yè),但其擁有的只是性能被閹割的 H800,而且如前文所述,這款芯片在 2023 年底就已經(jīng)被禁售。比起 OpenAI 預(yù)訓(xùn)練動輒使用三五萬張顯卡的算力,DeepSeek 頗有前瞻性的囤卡行為依然顯得杯水車薪。


因此,重重封鎖之下,DeepSeek 的表現(xiàn)就顯得格外亮眼:


DeepSeek—V3 訓(xùn)練僅使用了 278.8 萬 H800 GPU 小時。按照每 H800 GPU 小時租金 2 美元計算,其總訓(xùn)練成本僅為 557.6 萬美元。而對比之下,和其類似體量的 Llama 3 模型的訓(xùn)練則用了 3930 萬 H100 GPU 小時。按算力計算,這大約夠訓(xùn)練DeepSeek—V3 14 次??紤]到 H100 GPU 的租金價格要比 H800 GPU 的更高,DeepSeek—V3 的訓(xùn)練成本大約僅有 Llama 3 模型的 1/20,而其在性能方面毫不遜色于后者,甚至有所超越。


DeepSeek—V3 的技術(shù)報告還透露了一個常常被人忽略的細(xì)節(jié), 它是僅訓(xùn)練一次就成功的,如此高的通過率在業(yè)內(nèi)也屬罕見,通 過率越高也就意味著重復(fù)工作做得越少,換句話說,就是省算力,省時間,省成本。


既然訓(xùn)練成本降下來了,模型的使用成本自然也就隨之降低。


目前,DeepSeek—V3 的 API 服務(wù)輸入價格為每百萬令牌 0.15 美元,輸出價格為每百萬令牌 0.3 美元;對比之下,GPT—o1 模型的輸入價格為每百萬令牌 2.5 美元,輸出價格為每百萬令牌 10 美元;Claude—3.5—Sonnet 模型的輸入價格為每百萬令牌 3 美元, 輸出價格為每百萬令牌 15 美元。也就是說,DeepSeek—V3 已經(jīng)成功將價格降到了主要對手的 1/10 以下。


所以當(dāng)從算力的角度重新審視 DeepSeek 所做的工作時,我們會發(fā)現(xiàn),其取得成就與艱難程度不亞于在人工智能的戰(zhàn)場上打了一場“上甘嶺戰(zhàn)役”。


【新書推薦】


中信出版 

2025年6月


內(nèi)容簡介:本書作為國內(nèi)較早系統(tǒng)論述 DeepSeek 技術(shù)與創(chuàng)新發(fā)展邏輯的專著,以工具理性和價值理性并重的視角,對 DeepSeek 的發(fā)展進(jìn)行回顧、反思與展望,深入探究其對全球經(jīng)濟、商業(yè)、科技和社會發(fā)展的深遠(yuǎn)影響。我們期望通過本書,激勵更多懷揣“讓世界更美好”夢想的創(chuàng)新者,創(chuàng)造出更多像 DeepSeek 這樣卓越的企業(yè),為全球創(chuàng)新搭建更優(yōu)質(zhì)的平臺,讓人類共享更多繁榮與福祉。


作者介紹:陳勁,清華大學(xué)經(jīng)濟管理學(xué)院創(chuàng)新創(chuàng)業(yè)與戰(zhàn)略系教授、技術(shù)創(chuàng)新研究中心主任,中國管理科學(xué)學(xué)會副會長,整合式創(chuàng)新、有意義的創(chuàng)新以及“基于核心能力的企業(yè)創(chuàng)新生態(tài)系統(tǒng)”理論的提出者,全國創(chuàng)新爭先獎獲得者,2021年、2023年入選“全球最具影響力的50位管理思想家”。


安健,君彧咨詢創(chuàng)始人、阿里巴巴前高級營銷專家、《哈佛商業(yè)評論》內(nèi)容總監(jiān)。


責(zé)任編輯:七禾研究

【免責(zé)聲明】本文僅代表作者本人觀點,與本網(wǎng)站無關(guān)。本網(wǎng)站對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

本網(wǎng)站凡是注明“來源:七禾網(wǎng)”的文章均為七禾網(wǎng) www.outdoorsmanagement.com版權(quán)所有,相關(guān)網(wǎng)站或媒體若要轉(zhuǎn)載須經(jīng)七禾網(wǎng)同意0571-88212938,并注明出處。若本網(wǎng)站相關(guān)內(nèi)容涉及到其他媒體或公司的版權(quán),請聯(lián)系0571-88212938,我們將及時調(diào)整或刪除。

聯(lián)系我們

七禾研究中心負(fù)責(zé)人:翁建平
電話:0571-88212938
Email:57124514@qq.com

七禾科技中心負(fù)責(zé)人:相升澳
電話:15068166275
Email:1573338006@qq.com

七禾產(chǎn)業(yè)中心負(fù)責(zé)人:洪周璐
電話:15179330356

七禾財富管理中心
電話:13732204374(微信同號)
電話:18657157586(微信同號)

七禾網(wǎng)

沈良宏觀

七禾調(diào)研

價值投資君

七禾網(wǎng)APP安卓&鴻蒙

七禾網(wǎng)APP蘋果

七禾網(wǎng)投顧平臺

傅海棠自媒體

沈良自媒體

? 七禾網(wǎng) 浙ICP備09012462號-1 浙公網(wǎng)安備 33010802010119號 增值電信業(yè)務(wù)經(jīng)營許可證[浙B2-20110481] 廣播電視節(jié)目制作經(jīng)營許可證[浙字第05637號]

認(rèn)證聯(lián)盟

技術(shù)支持 本網(wǎng)法律顧問 曲峰律師 余楓梧律師 廣告合作 關(guān)于我們 鄭重聲明 業(yè)務(wù)公告

中期協(xié)“期媒投教聯(lián)盟”成員 、 中期協(xié)“金融科技委員會”委員單位