DeepSeek連夜刪新論文，梁文鋒到底怕什麼

5月1日訊息，今天AI領域的最大事件，無疑是DeepSeek刪論文的訊息論文。

昨天論文，DeepSeek多模態團隊負責人陳小康宣佈灰度基於多模態模型技術的“識圖模式”，以及在GitHub平臺上傳了一篇長達25頁的多模態研究論文：

《Thinking with Visual Primitives》（用視覺基元思考）論文。

然而，到了今晨，陳小康的推文刪了，這篇多模態研究論文也撤了、GitHub庫也404了論文。

在未刪除之前，我把這篇論文下載並且讀完了論文。

我靜下心把整篇內容捋完之後，反倒有了不一樣的感受論文。

你以為論文，這是簡單DeepSeek的識圖模式論文，但其實，這篇論文對映出DeepSeek揭露了行業的發展趨勢：

多模態AI模型的下一階段競爭重點，可能從單純的“看得更清”轉向“思考時能精確指向”論文。透過將座標嵌入思維鏈，多模態模型模仿了人類“邊指邊想”的協同機制，為解決複雜空間結構化推理提供了一條新穎路徑——最終其實也要走向世界模型。

展開全文

值得一提的是，就在8小時前，DeepSeek正式公佈了Agent接入指南，親手教大家接入OpenClaw、Hermes等方式，深入到Agent技術層面論文。

所以，在我看來，DeepSeek連夜刪論文，刪除的原因不是“論文有問題”，實際可能是灰度下重新修正“識圖模式”的能力，以及這篇論文可能太超前，透露太多了論文。很多資料需要重新進行查驗和修正，並且有望重新上傳到arxiv上。

越往後深入瞭解，越能體會到這次DeepSeek V4以及多模態新模型的含金量，也真切感覺到AI行業的技術迭代論文。

實際上，梁文鋒一直都在悄悄提速，AI技術的真正核心突破往往都藏在這種技術論文裡論文。

DeepSeek新論文到底講了什麼論文？

先做總結論文。

這篇DeepSeek已撤回的多模態研究論文《Thinking with Visual Primitives》論文，核心在於探討自然語言模型到視覺等多模態模型的瓶頸和變化，從而揭示DeepSeek多模態領域的新研究方向：

從單純的“看得更清”，轉向“推理思考時能精確指向”論文。

而透過將座標嵌入思維鏈，DeepSeek的多模態模型模仿了人類“邊指邊想”的協同機制，這將解決世界模型、3D空間的結構化推理等方向論文。提供了一條新穎而有效的路徑。

下面再基於這篇已刪新技術報告，具體看看DeepSeek、北京大學、清華大學又創造了怎樣的奇蹟論文。

首先，大型語言模型（LLMs）與計算機視覺的融合，開啟了多模態大型語言模型時代，使其具備了複雜的場景理解能力論文。然而，當我們推動這些模型進行復雜的推理，當前正規化的一個根本性侷限便顯現出來。

儘管這些模型的內部推理（通常以思維鏈的形式呈現）在語言領域已變得越來越穩健，但它與視覺領域在很大程度上仍然是割裂的論文。而當前多模態模型主要解決的是感知差距。

然而，“看見”不等於“推理”論文。

即使擁有完美的感知能力，多模態大模型在處理涉及複雜空間佈局或密集物體互動的任務時，仍常常遭遇邏輯崩潰論文。在密集計數或多步驟空間推理等場景中，模型的“語言”思維會失去對其試圖指代的視覺實體的追蹤，從而導致連鎖幻覺。

因此，DeepSeek聯合北京大學和清華大學，提出一種正規化轉變：基於視覺基元進行思考論文。

團隊超越將視覺定位視為次要任務或最終輸出的傳統做法，將空間標記——點和邊界框——提升為“思維的最小單元”，直接交錯嵌入模型的推理軌跡中論文。

這一機制從人類的認知過程中汲取靈感論文。當人類在複雜迷宮中導航或清點密集物體時，會自然地運用指示性指標（例如手勢）來降低認知負荷並保持邏輯一致性。

這項工作以DeepSeek剛釋出的V4-Flash為語言主幹論文。該模型混合專家模型（MoE）擁有284B 總引數、推理時啟用 13B 引數，視覺編碼部分則使用DeepSeek自研的視覺Transformer ViT，支援任意解析度輸入。

透過將視覺基元交錯融入思考過程，這個模型模仿了這種“指向‑推理”的協同作用，有效地將抽象的語言思維錨定到具體的空間座標上論文。此外，該模型框架建立在架構高效的基礎之上，專為高吞吐、長上下文的多模態互動而設計。與依賴海量視覺標記序列來彌補視覺缺陷的傳統方法不同，我們的模型利用壓縮稀疏注意力技術，它將每個視覺標記的鍵值快取壓縮為單一條目。

總結這個研究報告的三個創新點論文：

第一大核心創新，是重構視覺推理邏輯，把座標與邊界框做成可即時參與思考的思維單元論文。

傳統模型先推理、後補座標，屬於事後標註；但該模型全程在思維鏈中同步框選、打點定位，用空間錨點鎖定邏輯路徑，避免推理跑偏，同時配套點、框兩類標準視覺原語，適配各類複雜視覺場景定位需求論文。

第二項硬核創新為超高倍率視覺輕量化壓縮，透過影像分塊編碼、多層空間降取樣與壓縮稀疏注意力聯動最佳化，整體達成7056倍視覺資訊壓縮論文。大幅削減KV快取佔用，視訊記憶體開銷遠低於同類旗艦模型，做到看得準、開銷低，高效平衡視覺表徵精度與推理落地算力成本。

第三項關鍵創新，是全流程的高校資料定製化搭建，搭配專屬進階訓練體系論文。團隊嚴控資料來源篩選雙重稽覈標準，首先爬取了近 10 萬個與目標檢測相關的資料集，經過兩輪嚴格篩選（語義稽覈和幾何質量稽覈），最終保留約 3.17 萬個高質量資料來源，生成超過 4000 萬條訓練樣本。

在針對性設計的計數、多跳空間問答、迷宮導航、曲線路徑追蹤四個任務中，該模型專門補齊拓撲空間推理短板論文。而且，團隊採用先分訓專家模型、再統一強化微調的分體融合訓練策略，搭配多維精細化獎勵機制與線上策略蒸餾最佳化，穩步提升模型視覺理解穩定性，強化複雜場景下的綜合推理適配能力。

測試成果層面，DeepSeek團隊在11個基準測試上進行了評測，與谷歌Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、谷歌Gemma4-31B、阿里Qwen3-VL-235B等主流模型對比，DeepSeek新的視覺模型，與其他海外模型差距懸殊，並且超越了阿里Qwen3-VL-235B論文。

在空間推理的多個基準上，整體表現與頭部模型持平或略有超越，在 MIHBench（85.3%）和 SpatialMQA（69.4%）上均排名第一論文。

在拓撲推理的迷宮導航（DS_Maze_Navigation）任務上，該模型得分66.9%，而GPT-5.4為50.6%、Gemini-3-Flash為49.4%、Claude Sonnet 4.6 為 48.9%，新模型提升了約17個百分點論文。

猜測五一假期之後，DeepSeek可能還會上很多新功能論文。

梁文鋒想的AGI到底是什麼論文：物理世界AI

最近，世界模型和物理AI是模型層新的發展趨勢論文。

我也是總結了最近幾天釋出的模型，發現大家10天釋出了10款AI基礎模型，其中80%來自中國企業論文。

20日：Kimi K2.6釋出；Qwen3.6 27B系列模型測試結果陸續出來論文。

21日：螞蟻Ling 2.6 Flash模型釋出論文；Qwen3.6 35B A3B推理和非推理模型開始在各大算力平臺測試；

23日：OpenAl GPT-5.5模型公佈論文，小米Xiaomi MiMo-V2.5系列大模型正式開啟公測；騰訊混元Hy3-preview 推理模型釋出；

24日：DeepSeek V4 Pro和DeepSeek V4 Flash系列模型釋出論文；

28日：IBM Granite 4.1模型基準測試公佈；小米Mimo-V2.5 Pro正式釋出論文。

30日：Ling 2.6 -1T基礎模型正式開源；DeepSeek上線識圖模式開啟灰測論文。

目前來看，無論是Kimi K2.6，還是DeepSeek V4系列，顯示出今年基礎模型層最大的三個方向：Agent智慧體、Coding程式設計能力、多模態和世界模型技術論文。

一個例子就是Kimi論文。

近期，月之暗面Kimi釋出並開源的Kimi K2.6模型，在通用Agent、程式碼、視覺理解等綜合能力全面提升，在多個基準測試優於或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等閉源模型論文。

而Kimi K2.6長程編碼能力得到顯著提升，在測試中可不間斷編碼13小時，編寫或修改超過4000行程式碼論文。同時大幅增強了Agent自主化執行能力，由 K2.6 模型驅動的Agent叢集架構，支援300個子Agent並行完成4000個協作步驟，實現更大規模的並行化。

針對高負載工作流與OpenClaw、Hermes Agent等主動式Agent框架，K2.6具備自動化任務處理能力，支援長達5天的持續自主執行論文。

簡單來說，現在很多模型，增加了Agent和世界物理AI的功能和適配論文。

但DeepSeek這套視覺多模態模型其實還比較落後，原因在於DeepSeek之前沒往多模態層面考量，更多還是在語言模型層面實現AGI論文。

值得一提的是論文，論文也提出了一些侷限性：

1、受限於圖片輸入解析度，模型在超高精細視覺場景中表現不佳，容易出現座標、點位等視覺思維單元標註不準的問題，後續可結合感知缺口最佳化演算法聯動最佳化補足短板論文。

2、核心視覺思維推理能力依賴專屬觸發詞才能啟用，無法自主讀懂場景需求、主動呼叫座標框選推理機制，智慧自適應適配性有待提升論文。

3、用單點座標處理高難度複雜拓撲推理難題時能力偏弱，跨場景泛化穩定性不足，同類能力很難靈活適配多樣化複雜空間任務，也是後續技術迭代重點攻堅方向論文。

這或許是DeepSeek提前撤下論文的原因之一論文。

2500年前，古希臘哲學家普羅泰戈拉提出：“人是萬物的尺度論文。”

這句話的真正含義是，世界本身沒有固有價值，所有意義與判斷，都由人的感知與思考來定義論文。

而DeepSeek這篇論文想要揭示的核心趨勢，正是 AI 視覺能力的一次本質躍遷：從只會 “看清畫面”，升級為思考時精準定位、理解空間、判斷價值論文。

未來十年，AI一定會深度重塑工作方式、改變產業格局、重構生活節奏論文。

但無論技術如何進化，人類獨有的情感、經驗創造力與同理心，永遠無法被演算法替代論文。

人的價值，來自真實的生活閱歷；人與人之間的情感連線，才是我們願意彼此關心、持續前行的根本理由論文。

因此論文，無論 AI 如何飛速發展，有一件事永遠不會改變：

我們依然需要珍惜身邊真實的關係，保有真實的內心感受，理性適應技術變化，不斷去探索人類最本質的力量 ——創造價值、感知意義、彼此相連論文。

五一節快樂論文。

DeepSeek連夜刪新論文，梁文鋒到底怕什麼｜深度

小金泰網路

熱門標籤

相關詞彙

分站導航