亚洲欧美伊人,亚洲一区成人,日韩中文字幕麻豆

1月12日晚間，DeepSeek發布梁文鋒署名的新論文，主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（直譯為基于可擴展查找的條件記憶：大語言模型稀疏性的新維度），這也是2026開年至今，DeepSeek團隊的第二篇重磅論文。

此前，在1月1日發布的論文中，DeepSeek提出一種名為“mHC”（直譯為“流形約束超連接”）的框架，可以有效解決大模型訓練中的穩定性問題。而在本次發布的論文中，DeepSeek聯合北京大學提出了“條件記憶”這一概念，直指當前大語言模型基礎架構Transformer在知識檢索方面存在的低效和算力消耗問題。

在這篇論文里，DeepSeek通過創新的Engram（直譯為：記憶痕跡）架構為模型規模化擴展提供了新的技術路徑，若以簡單的比喻來理解，就是DeepSeek設計了一種新架構，將大模型的“條件記憶”和“計算”分開，最終達到了降低錯誤、節省算力的目的。

解析梁文鋒署名DeepSeek新論文：讓記憶和計算分開

預印本網站上DeepSeek的論文頁面截圖，紅框為梁文鋒名字。

大模型“痛點”：簡單問題需要復雜推理，容易“遺忘”

許多AI大模型用戶均曾在使用過程中發現過一個現象：AI會偶爾“忘記”自己曾經說過的話。對于這一問題，有AI聊天重度用戶曾對記者表示，可以通過再次“提醒”的方式來讓AI重復記起，ChatGPT等應用也對此進行過設置，讓用戶可以保存一些較為重要的信息到“長期記憶”中。

然而，這一切只能“治標”不能“治本”。究其原因，根據美國約翰斯·霍普金斯大學和中國人民大學的研究團隊2025年3月發布的論文《大型語言模型不具備類人工作記憶》（LLMs Do Not Have Human-Like Working Memory），大語言模型所依賴的“上下文窗口”與工作記憶存在本質區別。

根據研究人員測試，模型在處理超過5輪的多步驟邏輯推理任務時，會出現關鍵信息丟失的現象，在長文本生成場景下，前文設定的人物關系、情節線索極易發生偏差。

在實際應用中，這一缺陷有可能被無限放大。如在企業客服場景，模型無法長期記住用戶的個性化需求；在醫療問診場景，患者此前提及的病史、用藥禁忌可能被忽略；在代碼生成場景，跨文件的函數調用邏輯易出現混亂。可以說，記憶短板已成為大模型從 “通用工具” 邁向 “垂直領域專用系統” 的最大障礙。

究其原因，在多輪對話中，早期輸入的關鍵信息會隨著對話輪次增加而逐漸衰減，最終被新信息覆蓋。這種 “答后忘前”的現象，本質是模型的短時記憶無法有效轉化為長期可用的知識。另一方面，密集型注意力計算模式下，記憶存儲與邏輯推理共享算力資源，二者存在天然的資源競爭關系 —— 模型難以同時兼顧 “記住更多信息” 與 “精準完成推理”。

這一背景下，DeepSeek則保持了一貫的“省錢”作風，看到了這之中存在的算力消耗問題。梁文鋒署名的新論文表示，語言建模本質上包含兩類子任務：一類是組合式推理，需要依賴深層、動態計算完成；另一類是知識檢索，面向命名實體等相對靜態的內容，理論上可以通過簡單查找更高效地處理。然而，現有Transformer架構缺乏原生的查找組件，遇到這類靜態信息時往往仍要反復調用深層網絡進行重建，從而加劇算力浪費并推高推理成本。

DeepSeek在論文中指出，當前主流模型在內部運行方式上仍存在明顯低效。大量固定知識和常見語言模式并不需要復雜推理，但模型在推理時往往仍要通過多層計算重新構建相關信息，導致算力被大量消耗在記憶相關操作上。在長文本和知識密集型任務中，這一問題更為突出，重復靜態信息的重建會增加額外的推理開銷并拉長推理鏈路。

首創MoE+Engram雙稀疏軸架構，實現“推理+檢索”分工協作

那么，如何解決上述問題呢？

根據DeepSeek的論文，研究人員首次將條件記憶（Conditional Memory）作為混合專家模型（MoE）條件計算的互補維度，提出計算與記憶雙稀疏軸的設計思路，這也是此次研究的核心創新點。

所謂“條件記憶”，是指模型能夠基于輸入中的局部上下文模式，以常數時間從大規模參數化記憶中檢索并融合靜態知識表示，從而避免在推理過程中反復通過深層計算重建高頻、模板化信息，類似于人類在面對熟悉知識時直接調用既有記憶，而非重新推導。

解析梁文鋒署名DeepSeek新論文：讓記憶和計算分開

Engram架構示意圖來源：DeepSeek論文截圖

具體而言，條件記憶通過Engram模塊（記憶痕跡）實現靜態知識存儲與動態計算的分離，達成靜態模式的常數時間O(1)查找。其核心邏輯是為語言建模的兩類子任務進行分工：MoE專注處理需要深層思考的組合式推理任務，Engram則依托條件記憶機制負責靜態知識的快速檢索，從架構上優化了算力資源分配，改變了傳統模型用計算模擬記憶的低效模式。當大約20%至25%的稀疏參數預算分配給Engram，剩余部分留給MoE時（75% -80%），模型性能達到最佳。

這種稀疏性設計帶來兩大優勢：一是大幅降低算力消耗，靜默狀態的記憶資源不占用計算資源，提升模型運行效率；二是拓展記憶容量，稀疏存儲模式可支持更大規模的知識存入，突破傳統注意力窗口的物理限制。

論文給出了這一新方案在準確性上所得到的提升：在長上下文檢索方面，研究人員采用業內公認的兩個長上下文評測基準。實驗結果顯示，在32k上下文長度下，Engram-27B 在多項 Needle-in-a-Haystack（NIAH）任務中顯著優于MoE基線模型，Multi-Query NIAH的準確率從 84.2%提升至97.0%，Variable Tracking從77.0%提升至89.0%。

目前，該研究的代碼已開源，DeepSeek團隊在論文最后表示，“我們認為條件記憶函數是下一代稀疏模型中不可或缺的建模基元。”這一表述的背后，是行業對大模型技術演進方向的共識——當參數競賽進入瓶頸期，稀疏性設計將成為提升模型效率與能力的核心路徑，而條件記憶或許可以成為稀疏模型在記憶領域的關鍵突破。

在業界猜測DeepSeek下一代模型將于春節前發布的背景下，這篇論文的出現頗具風向標意義，論文提出的技術范式也為大模型的底層架構創新提供了新的思路。

久久av免费看,日本久久二区,久久国产精品色av免费看,波多视频一区

解析梁文鋒署名DeepSeek新論文：讓記憶和計算分開

原創知識更多>>