2026-05-14AILLM架构深度学习

从 O(n²) 到 O(n):子二次注意力机制如何重塑长上下文 AI

2026 年 5 月,AI 模型层终于"安静"了下来——不再有每周一款新旗舰的军备竞赛。但架构层却在暗流涌动。Subquadratic 公司在 5 月 5 日宣布获得 2900 万美元种子轮,核心产品 SubQ 携带 1200 万 token 上下文窗口杀入市场。这背后是一场已经打了五年的架构战争:**如何突破 Transformer 的 O(n²) 注意力

biluo·5006 words

引言:Transformer 的阿喀琉斯之踵

2026 年 5 月,AI 模型层终于"安静"了下来——不再有每周一款新旗舰的军备竞赛。但架构层却在暗流涌动。Subquadratic 公司在 5 月 5 日宣布获得 2900 万美元种子轮,核心产品 SubQ 携带 1200 万 token 上下文窗口杀入市场。这背后是一场已经打了五年的架构战争:如何突破 Transformer 的 O(n²) 注意力瓶颈

本文深入解析子二次注意力机制的技术原理、当前主流方案、以及为什么这件事从根本上改变了你我构建 AI 应用的方式。

---

1. 为什么 O(n²) 是真正的瓶颈

标准 Transformer 的自注意力计算复杂度是 O(n²),其中 n 是序列长度。这意味着:

序列长度 注意力计算量(相对)
1K tokens
8K tokens 64×
128K tokens 16,384×
1M tokens 10⁹×

当你需要处理 100 万 token 的上下文时,光是注意力矩阵就已经是 10¹² 量级。即便用上最强大的 H100,128K 上下文也已经是大多数开源模型的极限。

然而真实场景需要更长:

  • **代码库问答**:整个代码仓库可能超过 1M tokens
  • **长篇小说分析**:单本《战争与和平》约 50 万词
  • **医疗档案理解**:多年病史 + 检查报告 + 影像描述
  • **法律合同审查**:数百页文档 + 关联案例

O(n²) 不只是慢,它是不可行的

---

2. 子二次方案:百花齐放

过去五年,研究社区提出了多种绕过 O(n²) 的思路。以下是当前最有影响力的几类方案。

2.1 线性注意力(Linear Attention)

核心思路:用线性操作近似 Softmax 注意力,复杂度降为 O(n)

`python

# 标准注意力:O(n²)

attn_scores = Q @ K.transpose(-2, -1) # (batch, heads, seq, seq)

attn_weights = softmax(attn_scores / sqrt(d))

output = attn_weights @ V

# 线性注意力:O(n) - 用核函数近似

# attention(q, K, V) = (φ(q)^T ⊙ (K^T V)) / (φ(q)^T ⊙ K^T 1)

`

代表模型:

  • **Mamba**(SSM 状态空间模型):用选择性状态空间替代注意力,理论上是 O(n)
  • **RetNet**(微软):引入 decay 机制保留线性复杂度下的表达能力
  • **Gemma 4.6B**:在设备端实现线性注意力,单卡可跑

关键限制:线性注意力在表达能力和标准注意力之间存在精度 gap,特别是在需要精确定位跨距大的依赖关系时。

2.2 稀疏注意力(Sparse Attention)

不再计算全部 token 对之间的注意力,而是稀疏地连接关键位置。

典型策略:

`

┌────────────────────────────────────┐

│ 全注意力 vs 稀疏注意力对比 │

├────────────────────────────────────┤

│ 全注意力:每个 token 看所有其他 token │

│ │

│ 稀疏策略 A(局部窗口):只看前后 512 tokens│

│ 稀疏策略 B(跨距跳接):每隔 64 取一个 │

│ 稀疏策略 C(固定模式):[0, 16, 32, ...]│

│ 稀疏策略 D(动态top-k):只看注意力最大的│

│ k 个 token │

└────────────────────────────────────┘

`

代表实现:

  • **Longformer**(Allen AI):局部窗口 + 全局 token + 随机 attention
  • **BigBird**(Google):稀疏 + 随机 + 全局三重机制
  • **FlashAttention** 系列:通过 IO-aware 分块计算将 O(n²) 降到 O(n²d),实际内存从 O(n²) 降到 O(n),但仍是二次复杂度,只是常数优化

2.3 线性注意力 + 稀疏混合:当前主流路径

2025-2026 年的旗舰模型普遍采用混合架构

`

输入序列

├── 局部窗口注意力(处理近邻依赖,O(n))

├── 稀疏/随机注意力(处理长距离依赖,O(n) 或 O(n log n))

└── 全局压缩注意力(将长序列压缩为摘要向量)

`

DeepSeek V4 就是一个典型例子:混合注意力机制,在 1M token 上下文中保持合理的推理成本。

---

3. 子二次注意力的工程挑战

即便算法上解决了 O(n²),工程落地仍有三座大山:

3.1 精度 vs 效率的权衡

稀疏/线性注意力在理论上有精度损失。关键是:损失在哪里

实验数据显示,在需要精确定位跨距超过 4K 的依赖关系时,稀疏注意力错误率比全注意力高出 12-18%。这在代码补全、医疗诊断等高精度场景中是致命的。

3.2 训练稳定性

线性注意力的梯度流与传统 Softmax 不同。Mamba 在实际训练中发现:

  • 长序列下状态矩阵的谱(eigenvalue)容易爆炸
  • 需要特殊的归一化策略(如 RMSNorm 变体)
  • 批量训练时不同序列长度的梯度尺度不一致

解决方案:Subquadratic 公司的 SubQ 采用了自适应梯度裁剪 + 动态重归一化的组合,这也是他们 2900 万美元融资的核心技术壁垒之一。

3.3 KV Cache 的管理

对于实际部署,KV Cache(Key-Value Cache)是推理阶段最大的内存开销:

`python

# 假设 1M tokens, 80 layers, 128 heads, 每 head 128 维度

# 每 token 需要存储:80 × 128 × 128 × 2( K+V ) × 2(bytes, float16)

# ≈ 320 MB per token

# 1M tokens 需要 320 GB 仅用于 KV Cache

`

子二次注意力通过状态压缩将 KV Cache 从二次增长压到线性,这是能跑 12M 上下文的物理基础。

---

4. SubQ 的核心技术路径

Subquadratic 的 SubQ 之所以引发关注,是因为他们同时解决了两件事

1. 架构层:子二次稀疏注意力 + 可学习路由,理论复杂度 O(n log n)

2. 工程层:定制 CUDA 内核,在 A100/H100 上实测 12M token 推理延迟 < 30 秒

`

SubQ 注意力路由示意:

Token[0..12M]

┌─────────────┐

│ Router NN │ ← 可学习,决定每个 token 与哪些"锚点"交互

└─────────────┘

├──▶ 锚点池(~16K 个活跃锚点,远小于 12M)

├──▶ 局部窗口注意力(512 tokens)

└──▶ 跨锚点稀疏连接

输出(每个 token 的上下文向量)

`

这个设计的精妙之处在于:路由网络是可学习的,意味着不同任务(代码/文本/医疗)可以自动学出不同的注意力模式,而不需要手工设计稀疏模式。

---

5. 对 AI 应用开发者的实际影响

子二次注意力不只是研究热点,它直接影响你我的工程决策。

5.1 Context Window 不再是稀缺资源

曾经 128K token 是很多模型的极限,价格还贵。2026 年中:

  • DeepSeek V4-Flash:1M context,$0.28/M output tokens
  • SubQ:12M context,架构支撑

这意味着上下文工程的范式在转变:以前是"怎么把最重要信息塞进 8K",以后是"怎么让模型在超长上下文中稳定发挥"。

5.2 新的工程模式:上下文分段 + 层级检索

当单次输入可以超过 1M tokens,新的架构模式出现:

`

用户查询(可能跨多个文档)

┌──────────────────┐

│ 语义分块器 │ ← 按语义边界切分,不按固定长度

└──────────────────┘

┌──────────────────┐

│ 向量索引(语义检索)│ ← 快速定位相关段落

└──────────────────┘

┌──────────────────┐

│ 上下文组装层 │ ← 将检索到的块 + 关联元数据组装

└──────────────────┘

│ 超过 1M tokens 的完整上下文 │

LLM(子二次注意力驱动)

`

这不再是 RAG vs Long Context 的二选一,而是两者的深度融合

5.3 成本结构的根本变化

场景 旧方案成本(128K limit) 新方案成本
代码库 QA(500K tokens) 需分片,多次 API 调用 ~$5 单次调用 ~$0.15
合同审查(200 页) 摘要 + 局部读取 ~$0.8 全量理解 ~$0.06
长篇小说分析(50 万词) 不可行 单次 ~$0.30

---

6. 展望:2026 下半年值得关注的方向

1. SubQ 类产品的实际落地验证:1200 万 token 在真实生产环境中的稳定性和成本表现

2. 稀疏注意力的自动化:让模型自己学习最优的注意力模式,而非手工设计

3. 多模态 + 长上下文:图像、视频、音频的上下文窗口扩展将是下一个战场

4. 国产化替代:国内 DeepSeek、MiniMax 等在混合注意力上的进展值得关注

---

结语

Transformer 的注意力机制是 AI 革命的基石,但它从来不是免费的午餐。O(n²) 的计算复杂度从一开始就是一个已知约束,我们只是花了五年时间找到绕过它的工程路径。

2026 年中,子二次注意力已经从学术论文走进生产环境。12M token 上下文不再是天方夜谭,成本的量级下降正在打开新的应用场景。对 AI 应用开发者而言,理解这场架构变革的内涵,比追逐下一个"更强模型"更有长期价值。

当上下文不再是稀缺资源,真正的竞争在别处:在如何设计信息、如何组织检索、如何让模型稳定发挥。

---

*参考:Subquadratic 官方发布(2026.5.5)、DeepSeek V4 技术报告、Mamba 论文(ICLR 2024)、FlashAttention 系列。*