HSBC Exhibit 6 延伸 · KV Cache 記憶體階層

記憶體階層 × 產品定位全圖

G1 → G4 · NOR Flash · NAND · DRAM · CUBE · 三雄定位

最快
奈秒
最慢
毫秒
NOR NOR Flash — 韌體層(獨立於 KV Cache 架構)
不屬於 G1–G4 任何一層。存放 CPU / DPU / BMC 的開機碼與韌體,設備通電第一個讀取的地方。每台 AI 伺服器搭載 40–60 顆。
華邦電(全球 #1,市佔 25%) 旺宏 Infineon 兆易創新
↑ CPU 通電後直接在這裡執行程式碼(XIP),NAND 無法取代
G1 GPU HBM ~奈秒 · 1,000–4,000 GB/s
Active KV cache。AI 推論最熱的資料住在這裡,頻寬最高、成本最貴。
SK 海力士(HBM 市佔 53%) 三星(35%) 美光(11%)
G2 System DRAM 10–100 奈秒 · 50–100 GB/s
Staging / Spillover KV。G1 塞滿時溢出到這裡暫存,也是一般伺服器運算記憶體。
南亞科(DDR4/DDR5,台廠最大受益) 華邦電(DDR4 利基) 三星 美光
G3 本地 SSD / Rack-local ~微秒
Warm KV reuse。不常用但偶爾需要快速調用的 KV cache,以及一般伺服器資料儲存。
旺宏(SLC NAND / eMMC,車用 IoT 主戰場) 華邦電(SLC NAND,利基) 三星 eSSD 美光 eSSD
G3.5 ICMS 推論上下文記憶體橋接層 介於 G3 與 G4 之間
Bridge between local & shared。高頻寬、高上下文容量,專為 AI 推論設計的新型記憶體層。這層目前市場空白,是 CUBE 的目標市場。
★ 華邦電 CUBE(目標市場,2026H2 開始兌現)
32–256 GB/s · 搭配 28/22nm SoC · Edge AI 首選方案
G4 共享物件儲存 ~毫秒
Cold / shared KV context。延遲最高、成本最低,長期冷資料或跨節點共享的 KV context。
通用物件儲存(HDD、雲端儲存)
NOR FLASH · 特殊地位
不在 G1–G4 任何一層。韌體層,開機必需。CPU 可以直接執行(XIP),NAND 永遠無法取代。AI Server 每台需 40–60 顆。
G1 · HBM
TurboQuant 壓縮目標。影響最大,但 HSBC 估算即便最壞情況衝擊也只有 3.8% 的總需求。
G2 · SYSTEM DRAM
南亞科主戰場。Vera Rubin 平台每台 DRAM 含量 +170%,是台廠三雄中確定性最高的受益者。
G3 · NAND / eMMC
旺宏主戰場。三星退出 MLC 後最大真空,eMMC 供需缺口 2026–2028 年達 36–47%。與 TurboQuant 完全無關。
G3.5 · ICMS · CUBE
華邦電 CUBE 的賭注。市場從零開始,沒有強大競爭者。2026H2 客戶名單揭露是最關鍵催化劑。
G4 · 共享儲存
一般雲端儲存,台廠三雄不在這裡競爭。
產品類型 · 關係釐清
NOR Flash ≠ NAND Flash
NOR:並聯電路,支援 XIP
NAND:串聯電路,只能儲存
兩者都叫 Flash 但本質不同
NOR 無法被 NAND 取代
NAND ≠ SSD
NAND = 原料(顆粒)
SSD = 產品(可插拔)
eMMC = 產品(焊死)
兩者不能互換(設計決定)
NOR Flash ≠ CUBE
NOR = 現有主力,韌體儲存
CUBE = 新架構,高頻寬 DRAM
兩者都是華邦電產品
技術和市場完全不同
資料來源: HSBC Asia Memory Report 21 Apr 2026 · 本 session 研究整合 · 圖表說明: NOR Flash 標示於 G1–G4 架構外側,因其功能獨立於 KV cache 階層,屬於所有 AI 設備的基礎韌體層。