从 O(n²) 到 O(n):子二次注意力机制如何重塑长上下文 AI
2026 年 5 月,AI 模型层终于"安静"了下来——不再有每周一款新旗舰的军备竞赛。但架构层却在暗流涌动。Subquadratic 公司在 5 月 5 日宣布获得 2900 万美元种子轮,核心产品 SubQ 携带 1200 万 token 上下文窗口杀入市场。这背后是一场已经打了五年的架构战争:**如何突破 Transformer 的 O(n²) 注意力
引言:Transformer 的阿喀琉斯之踵
2026 年 5 月,AI 模型层终于"安静"了下来——不再有每周一款新旗舰的军备竞赛。但架构层却在暗流涌动。Subquadratic 公司在 5 月 5 日宣布获得 2900 万美元种子轮,核心产品 SubQ 携带 1200 万 token 上下文窗口杀入市场。这背后是一场已经打了五年的架构战争:如何突破 Transformer 的 O(n²) 注意力瓶颈。
本文深入解析子二次注意力机制的技术原理、当前主流方案、以及为什么这件事从根本上改变了你我构建 AI 应用的方式。
---
1. 为什么 O(n²) 是真正的瓶颈
标准 Transformer 的自注意力计算复杂度是 O(n²),其中 n 是序列长度。这意味着:
当你需要处理 100 万 token 的上下文时,光是注意力矩阵就已经是 10¹² 量级。即便用上最强大的 H100,128K 上下文也已经是大多数开源模型的极限。
然而真实场景需要更长:
- **代码库问答**:整个代码仓库可能超过 1M tokens
- **长篇小说分析**:单本《战争与和平》约 50 万词
- **医疗档案理解**:多年病史 + 检查报告 + 影像描述
- **法律合同审查**:数百页文档 + 关联案例
O(n²) 不只是慢,它是不可行的。
---
2. 子二次方案:百花齐放
过去五年,研究社区提出了多种绕过 O(n²) 的思路。以下是当前最有影响力的几类方案。
2.1 线性注意力(Linear Attention)
核心思路:用线性操作近似 Softmax 注意力,复杂度降为 O(n)。
`python
# 标准注意力:O(n²)
attn_scores = Q @ K.transpose(-2, -1) # (batch, heads, seq, seq)
attn_weights = softmax(attn_scores / sqrt(d))
output = attn_weights @ V
# 线性注意力:O(n) - 用核函数近似
# attention(q, K, V) = (φ(q)^T ⊙ (K^T V)) / (φ(q)^T ⊙ K^T 1)
`
代表模型:
- **Mamba**(SSM 状态空间模型):用选择性状态空间替代注意力,理论上是 O(n)
- **RetNet**(微软):引入 decay 机制保留线性复杂度下的表达能力
- **Gemma 4.6B**:在设备端实现线性注意力,单卡可跑
关键限制:线性注意力在表达能力和标准注意力之间存在精度 gap,特别是在需要精确定位跨距大的依赖关系时。
2.2 稀疏注意力(Sparse Attention)
不再计算全部 token 对之间的注意力,而是稀疏地连接关键位置。
典型策略:
`
┌────────────────────────────────────┐
│ 全注意力 vs 稀疏注意力对比 │
├────────────────────────────────────┤
│ 全注意力:每个 token 看所有其他 token │
│ │
│ 稀疏策略 A(局部窗口):只看前后 512 tokens│
│ 稀疏策略 B(跨距跳接):每隔 64 取一个 │
│ 稀疏策略 C(固定模式):[0, 16, 32, ...]│
│ 稀疏策略 D(动态top-k):只看注意力最大的│
│ k 个 token │
└────────────────────────────────────┘
`
代表实现:
- **Longformer**(Allen AI):局部窗口 + 全局 token + 随机 attention
- **BigBird**(Google):稀疏 + 随机 + 全局三重机制
- **FlashAttention** 系列:通过 IO-aware 分块计算将 O(n²) 降到 O(n²d),实际内存从 O(n²) 降到 O(n),但仍是二次复杂度,只是常数优化
2.3 线性注意力 + 稀疏混合:当前主流路径
2025-2026 年的旗舰模型普遍采用混合架构:
`
输入序列
│
├── 局部窗口注意力(处理近邻依赖,O(n))
│
├── 稀疏/随机注意力(处理长距离依赖,O(n) 或 O(n log n))
│
└── 全局压缩注意力(将长序列压缩为摘要向量)
`
DeepSeek V4 就是一个典型例子:混合注意力机制,在 1M token 上下文中保持合理的推理成本。
---
3. 子二次注意力的工程挑战
即便算法上解决了 O(n²),工程落地仍有三座大山:
3.1 精度 vs 效率的权衡
稀疏/线性注意力在理论上有精度损失。关键是:损失在哪里?
实验数据显示,在需要精确定位跨距超过 4K 的依赖关系时,稀疏注意力错误率比全注意力高出 12-18%。这在代码补全、医疗诊断等高精度场景中是致命的。
3.2 训练稳定性
线性注意力的梯度流与传统 Softmax 不同。Mamba 在实际训练中发现:
- 长序列下状态矩阵的谱(eigenvalue)容易爆炸
- 需要特殊的归一化策略(如 RMSNorm 变体)
- 批量训练时不同序列长度的梯度尺度不一致
解决方案:Subquadratic 公司的 SubQ 采用了自适应梯度裁剪 + 动态重归一化的组合,这也是他们 2900 万美元融资的核心技术壁垒之一。
3.3 KV Cache 的管理
对于实际部署,KV Cache(Key-Value Cache)是推理阶段最大的内存开销:
`python
# 假设 1M tokens, 80 layers, 128 heads, 每 head 128 维度
# 每 token 需要存储:80 × 128 × 128 × 2( K+V ) × 2(bytes, float16)
# ≈ 320 MB per token
# 1M tokens 需要 320 GB 仅用于 KV Cache
`
子二次注意力通过状态压缩将 KV Cache 从二次增长压到线性,这是能跑 12M 上下文的物理基础。
---
4. SubQ 的核心技术路径
Subquadratic 的 SubQ 之所以引发关注,是因为他们同时解决了两件事:
1. 架构层:子二次稀疏注意力 + 可学习路由,理论复杂度 O(n log n)
2. 工程层:定制 CUDA 内核,在 A100/H100 上实测 12M token 推理延迟 < 30 秒
`
SubQ 注意力路由示意:
Token[0..12M]
│
▼
┌─────────────┐
│ Router NN │ ← 可学习,决定每个 token 与哪些"锚点"交互
└─────────────┘
│
├──▶ 锚点池(~16K 个活跃锚点,远小于 12M)
│
├──▶ 局部窗口注意力(512 tokens)
│
└──▶ 跨锚点稀疏连接
│
▼
输出(每个 token 的上下文向量)
`
这个设计的精妙之处在于:路由网络是可学习的,意味着不同任务(代码/文本/医疗)可以自动学出不同的注意力模式,而不需要手工设计稀疏模式。
---
5. 对 AI 应用开发者的实际影响
子二次注意力不只是研究热点,它直接影响你我的工程决策。
5.1 Context Window 不再是稀缺资源
曾经 128K token 是很多模型的极限,价格还贵。2026 年中:
- DeepSeek V4-Flash:1M context,$0.28/M output tokens
- SubQ:12M context,架构支撑
这意味着上下文工程的范式在转变:以前是"怎么把最重要信息塞进 8K",以后是"怎么让模型在超长上下文中稳定发挥"。
5.2 新的工程模式:上下文分段 + 层级检索
当单次输入可以超过 1M tokens,新的架构模式出现:
`
用户查询(可能跨多个文档)
│
▼
┌──────────────────┐
│ 语义分块器 │ ← 按语义边界切分,不按固定长度
└──────────────────┘
│
▼
┌──────────────────┐
│ 向量索引(语义检索)│ ← 快速定位相关段落
└──────────────────┘
│
▼
┌──────────────────┐
│ 上下文组装层 │ ← 将检索到的块 + 关联元数据组装
└──────────────────┘
│
▼
│ 超过 1M tokens 的完整上下文 │
│
▼
LLM(子二次注意力驱动)
`
这不再是 RAG vs Long Context 的二选一,而是两者的深度融合。
5.3 成本结构的根本变化
---
6. 展望:2026 下半年值得关注的方向
1. SubQ 类产品的实际落地验证:1200 万 token 在真实生产环境中的稳定性和成本表现
2. 稀疏注意力的自动化:让模型自己学习最优的注意力模式,而非手工设计
3. 多模态 + 长上下文:图像、视频、音频的上下文窗口扩展将是下一个战场
4. 国产化替代:国内 DeepSeek、MiniMax 等在混合注意力上的进展值得关注
---
结语
Transformer 的注意力机制是 AI 革命的基石,但它从来不是免费的午餐。O(n²) 的计算复杂度从一开始就是一个已知约束,我们只是花了五年时间找到绕过它的工程路径。
2026 年中,子二次注意力已经从学术论文走进生产环境。12M token 上下文不再是天方夜谭,成本的量级下降正在打开新的应用场景。对 AI 应用开发者而言,理解这场架构变革的内涵,比追逐下一个"更强模型"更有长期价值。
当上下文不再是稀缺资源,真正的竞争在别处:在如何设计信息、如何组织检索、如何让模型稳定发挥。
---
*参考:Subquadratic 官方发布(2026.5.5)、DeepSeek V4 技术报告、Mamba 论文(ICLR 2024)、FlashAttention 系列。*