最近Deepseek 把這世界⋯⋯ | Cofacts 真的假的

最近Deepseek 把這世界的AI科技界，搗成天翻地覆，大家有的信，有的半信半疑。下文很中肯，值得推薦。

From Dropbox的副總裁 Morgan Brown的短評：

終於有機會深入研究DeepSeek的r1了…
讓我用簡單的術語來解釋為什麼 DeepSeek 的人工智慧創新讓人們大吃一驚（並可能威脅到 Nvidia 2T 美元的市值）…

0/ 首先，英偉達將很難滿足目前市場的崇高期望。

1/ 首先，一些背景資訊：目前，訓練頂級人工智慧模型的成本極為昂貴。 OpenAI、Anthropic 等僅在計算方面就花了 1 億多美元。他們需要配備數千個價值 4 萬美元的 GPU 的大型資料中心。這就像需要一個完整的發電廠來運作一家工廠。

2/ DeepSeek 剛剛出現並說“哈哈，如果我們花 500 萬美元來做這個會怎麼樣？”他們不只是說說而已——他們實際上做到了。他們的模型在許多任務上都匹配或擊敗了 GPT-4 和 Claude。人工智慧世界（正如我十幾歲的孩子所說）震動了。

3/如何？他們從頭開始重新思考一切。傳統人工智慧就像把每個數字寫成小數點後 32 位元。 DeepSeek 的反應是：“如果我們只用 8 個呢？它仍然足夠準確！” Boom - 所需記憶體減少 75%。

4/ 然後是他們的“多代幣”系統。普通 AI 的讀法就像一年級學生一樣：「The...cat...sat...」DeepSeek 會立即讀出整個短語。速度提高 2 倍，準確率提高 90%。當您處理數十億個單字時，這一點很重要。

5/ 但真正聰明的一點是：他們建立了一個「專家系統」。他們沒有一個龐大的人工智慧試圖了解一切（例如讓一個人成為醫生、律師和工程師），而是擁有專門的專家，只在需要時醒來。

6/ 傳統模式？所有 1.8 兆個參數始終處於活動狀態。深尋？總共 671B，但同時只有 37B 處於活動狀態。這就像擁有一個龐大的團隊，但只召集每項任務實際需要的專家。

7/ 結果令人震驚：
* 培訓成本：1 億美元 → 500 萬美元
* 所需 GPU：100,000 → 2,000
* API 成本：便宜 95%
* 可以在遊戲 GPU 而不是資料中心硬體上運行

8/“但是等等，”你可能會說，“一定有一個陷阱！”這就是最瘋狂的部分——它都是開源的。任何人都可以檢查他們的工作。該代碼是公開的。技術論文解釋了一切。這不是魔法，只是非常聰明的工程。

9/ 為什麼這很重要？因為它打破了「只有大型科技公司才能涉足人工智慧」的模式。您不再需要價值十億美元的資料中心。一些好的 GPU 就可以做到這一點。

10/ 對 Nvidia 來說，這很可怕。他們的整個商業模式建立在以 90% 的利潤銷售超昂貴的 GPU 之上。如果每個人都可以突然使用常規遊戲 GPU 進行人工智慧…那麼，你就會看到問題所在了。

11/ 關鍵在於：DeepSeek 的團隊人數不到 200 人。與此同時，Meta 的一些團隊的薪酬就超過了 DeepSeek 的整個培訓預算……而且他們的模型也沒有那麼好。

12/ 這是一個經典的顛覆故事：現有企業優化現有流程，而顛覆者則重新思考基本方法。 DeepSeek 問道：“如果我們做得更聰明，而不是投入更多硬件，會怎麼樣？”

13/ 影響是巨大的：
* 人工智慧開發變得更容易
* 競爭急劇加劇
* 大型科技公司的「護城河」看起來更像水坑
* 硬體需求（和成本）直線下降

14/ 當然，像 OpenAI 和 Anthropic 這樣的巨人不會停滯不前。他們可能已經在實施這些創新。但效率精靈已經從瓶子裡出來了 - 無法再回到「只需投入更多 GPU」的方法。

15/ 最後的想法：這感覺就像是我們回顧時的轉捩點之一。就像個人電腦讓大型主機不再那麼重要，或是雲端運算改變了一切。
人工智慧將變得更加容易取得，而且成本也會大大降低。問題不在於這是否會擾亂現有的玩家，而在於擾亂的速度有多快。

真的假的

訊息原文

現有回應

增加新回應

你可能也會對這些類似文章有興趣