2026-05-14AILLM架构深度学习

从 O(n²) 到 O(n)：子二次注意力机制如何重塑长上下文 AI

2026 年 5 月，AI 模型层终于"安静"了下来——不再有每周一款新旗舰的军备竞赛。但架构层却在暗流涌动。Subquadratic 公司在 5 月 5 日宣布获得 2900 万美元种子轮，核心产品 SubQ 携带 1200 万 token 上下文窗口杀入市场。这背后是一场已经打了五年的架构战争：**如何突破 Transformer 的 O(n²) 注意力

✦biluo·5006 words

引言：Transformer 的阿喀琉斯之踵

2026 年 5 月，AI 模型层终于"安静"了下来——不再有每周一款新旗舰的军备竞赛。但架构层却在暗流涌动。Subquadratic 公司在 5 月 5 日宣布获得 2900 万美元种子轮，核心产品 SubQ 携带 1200 万 token 上下文窗口杀入市场。这背后是一场已经打了五年的架构战争：如何突破 Transformer 的 O(n²) 注意力瓶颈。

本文深入解析子二次注意力机制的技术原理、当前主流方案、以及为什么这件事从根本上改变了你我构建 AI 应用的方式。

---

1. 为什么 O(n²) 是真正的瓶颈

标准 Transformer 的自注意力计算复杂度是 O(n²)，其中 n 是序列长度。这意味着：

序列长度注意力计算量（相对）

1K tokens 1×

8K tokens 64×

128K tokens 16,384×

1M tokens 10⁹×

当你需要处理 100 万 token 的上下文时，光是注意力矩阵就已经是 10¹² 量级。即便用上最强大的 H100，128K 上下文也已经是大多数开源模型的极限。

然而真实场景需要更长：

**代码库问答**：整个代码仓库可能超过 1M tokens
**长篇小说分析**：单本《战争与和平》约 50 万词
**医疗档案理解**：多年病史 + 检查报告 + 影像描述
**法律合同审查**：数百页文档 + 关联案例

O(n²) 不只是慢，它是不可行的。

---

2. 子二次方案：百花齐放

过去五年，研究社区提出了多种绕过 O(n²) 的思路。以下是当前最有影响力的几类方案。

2.1 线性注意力（Linear Attention）

核心思路：用线性操作近似 Softmax 注意力，复杂度降为 O(n)。

`python

# 标准注意力：O(n²)

attn_scores = Q @ K.transpose(-2, -1) # (batch, heads, seq, seq)

attn_weights = softmax(attn_scores / sqrt(d))

output = attn_weights @ V

# 线性注意力：O(n) - 用核函数近似

# attention(q, K, V) = (φ(q)^T ⊙ (K^T V)) / (φ(q)^T ⊙ K^T 1)

代表模型：

**Mamba**（SSM 状态空间模型）：用选择性状态空间替代注意力，理论上是 O(n)
**RetNet**（微软）：引入 decay 机制保留线性复杂度下的表达能力
**Gemma 4.6B**：在设备端实现线性注意力，单卡可跑

关键限制：线性注意力在表达能力和标准注意力之间存在精度 gap，特别是在需要精确定位跨距大的依赖关系时。

2.2 稀疏注意力（Sparse Attention）

不再计算全部 token 对之间的注意力，而是稀疏地连接关键位置。

典型策略：

┌────────────────────────────────────┐

│ 全注意力 vs 稀疏注意力对比 │

├────────────────────────────────────┤

│ 全注意力：每个 token 看所有其他 token │

│ │

│ 稀疏策略 A（局部窗口）：只看前后 512 tokens│

│ 稀疏策略 B（跨距跳接）：每隔 64 取一个 │

│ 稀疏策略 C（固定模式）：[0, 16, 32, ...]│

│ 稀疏策略 D（动态top-k）：只看注意力最大的│

│ k 个 token │

└────────────────────────────────────┘

代表实现：

**Longformer**（Allen AI）：局部窗口 + 全局 token + 随机 attention
**BigBird**（Google）：稀疏 + 随机 + 全局三重机制
**FlashAttention** 系列：通过 IO-aware 分块计算将 O(n²) 降到 O(n²d)，实际内存从 O(n²) 降到 O(n)，但仍是二次复杂度，只是常数优化

2.3 线性注意力 + 稀疏混合：当前主流路径

2025-2026 年的旗舰模型普遍采用混合架构：

输入序列

│

├── 局部窗口注意力（处理近邻依赖，O(n)）

│

├── 稀疏/随机注意力（处理长距离依赖，O(n) 或 O(n log n)）

│

└── 全局压缩注意力（将长序列压缩为摘要向量）

DeepSeek V4 就是一个典型例子：混合注意力机制，在 1M token 上下文中保持合理的推理成本。

---

3. 子二次注意力的工程挑战

即便算法上解决了 O(n²)，工程落地仍有三座大山：

3.1 精度 vs 效率的权衡

稀疏/线性注意力在理论上有精度损失。关键是：损失在哪里？

实验数据显示，在需要精确定位跨距超过 4K 的依赖关系时，稀疏注意力错误率比全注意力高出 12-18%。这在代码补全、医疗诊断等高精度场景中是致命的。

3.2 训练稳定性

线性注意力的梯度流与传统 Softmax 不同。Mamba 在实际训练中发现：

长序列下状态矩阵的谱（eigenvalue）容易爆炸
需要特殊的归一化策略（如 RMSNorm 变体）
批量训练时不同序列长度的梯度尺度不一致

解决方案：Subquadratic 公司的 SubQ 采用了自适应梯度裁剪 + 动态重归一化的组合，这也是他们 2900 万美元融资的核心技术壁垒之一。

3.3 KV Cache 的管理

对于实际部署，KV Cache（Key-Value Cache）是推理阶段最大的内存开销：

`python

# 假设 1M tokens, 80 layers, 128 heads, 每 head 128 维度

# 每 token 需要存储：80 × 128 × 128 × 2( K+V ) × 2(bytes, float16)

# ≈ 320 MB per token

# 1M tokens 需要 320 GB 仅用于 KV Cache

子二次注意力通过状态压缩将 KV Cache 从二次增长压到线性，这是能跑 12M 上下文的物理基础。

---

4. SubQ 的核心技术路径

Subquadratic 的 SubQ 之所以引发关注，是因为他们同时解决了两件事：

1. 架构层：子二次稀疏注意力 + 可学习路由，理论复杂度 O(n log n)

2. 工程层：定制 CUDA 内核，在 A100/H100 上实测 12M token 推理延迟 < 30 秒

SubQ 注意力路由示意：

Token[0..12M]

│

▼

┌─────────────┐

│ Router NN │ ← 可学习，决定每个 token 与哪些"锚点"交互

└─────────────┘

│

├──▶ 锚点池（~16K 个活跃锚点，远小于 12M）

│

├──▶ 局部窗口注意力（512 tokens）

│

└──▶ 跨锚点稀疏连接

│

▼

输出（每个 token 的上下文向量）

这个设计的精妙之处在于：路由网络是可学习的，意味着不同任务（代码/文本/医疗）可以自动学出不同的注意力模式，而不需要手工设计稀疏模式。

---

5. 对 AI 应用开发者的实际影响

子二次注意力不只是研究热点，它直接影响你我的工程决策。

5.1 Context Window 不再是稀缺资源

曾经 128K token 是很多模型的极限，价格还贵。2026 年中：

DeepSeek V4-Flash：1M context，$0.28/M output tokens
SubQ：12M context，架构支撑

这意味着上下文工程的范式在转变：以前是"怎么把最重要信息塞进 8K"，以后是"怎么让模型在超长上下文中稳定发挥"。

5.2 新的工程模式：上下文分段 + 层级检索

当单次输入可以超过 1M tokens，新的架构模式出现：

用户查询（可能跨多个文档）

│

▼

┌──────────────────┐

│ 语义分块器 │ ← 按语义边界切分，不按固定长度

└──────────────────┘

│

▼

┌──────────────────┐

│ 向量索引（语义检索）│ ← 快速定位相关段落

└──────────────────┘

│

▼

┌──────────────────┐

│ 上下文组装层 │ ← 将检索到的块 + 关联元数据组装

└──────────────────┘

│

▼

│ 超过 1M tokens 的完整上下文 │

│

▼

LLM（子二次注意力驱动）

这不再是 RAG vs Long Context 的二选一，而是两者的深度融合。

5.3 成本结构的根本变化

场景旧方案成本（128K limit）新方案成本

代码库 QA（500K tokens）需分片，多次 API 调用 ~$5 单次调用 ~$0.15

合同审查（200 页）摘要 + 局部读取 ~$0.8 全量理解 ~$0.06

长篇小说分析（50 万词）不可行单次 ~$0.30

---

6. 展望：2026 下半年值得关注的方向

1. SubQ 类产品的实际落地验证：1200 万 token 在真实生产环境中的稳定性和成本表现

2. 稀疏注意力的自动化：让模型自己学习最优的注意力模式，而非手工设计

3. 多模态 + 长上下文：图像、视频、音频的上下文窗口扩展将是下一个战场

4. 国产化替代：国内 DeepSeek、MiniMax 等在混合注意力上的进展值得关注

---

结语

Transformer 的注意力机制是 AI 革命的基石，但它从来不是免费的午餐。O(n²) 的计算复杂度从一开始就是一个已知约束，我们只是花了五年时间找到绕过它的工程路径。

2026 年中，子二次注意力已经从学术论文走进生产环境。12M token 上下文不再是天方夜谭，成本的量级下降正在打开新的应用场景。对 AI 应用开发者而言，理解这场架构变革的内涵，比追逐下一个"更强模型"更有长期价值。

当上下文不再是稀缺资源，真正的竞争在别处：在如何设计信息、如何组织检索、如何让模型稳定发挥。

---

*参考：Subquadratic 官方发布（2026.5.5）、DeepSeek V4 技术报告、Mamba 论文（ICLR 2024）、FlashAttention 系列。*

← All articles

AI 智能体如何记住一切：长期记忆系统的工程实践

2026-05-14安全

[浏览器指纹攻防：如何在自动化场景下伪装成真实用户]

2026-05-14DevOps

引言：Transformer 的阿喀琉斯之踵

1. 为什么 O(n²) 是真正的瓶颈

2. 子二次方案：百花齐放

2.1 线性注意力（Linear Attention）

2.2 稀疏注意力（Sparse Attention）

2.3 线性注意力 + 稀疏混合：当前主流路径

3. 子二次注意力的工程挑战

3.1 精度 vs 效率的权衡

3.2 训练稳定性

3.3 KV Cache 的管理

4. SubQ 的核心技术路径

5. 对 AI 应用开发者的实际影响

5.1 Context Window 不再是稀缺资源

5.2 新的工程模式：上下文分段 + 层级检索

5.3 成本结构的根本变化

6. 展望：2026 下半年值得关注的方向

结语

AI 智能体如何记住一切：长期记忆系统的工程实践

[浏览器指纹攻防：如何在自动化场景下伪装成真实用户]

eBPF 云原生可观测性实战：告别传统埋点，拥抱内核级洞察