2025年1月-2026年6月 AI 工程领域 10 大观点
基于 60 篇 AI 工程博客(2025-01 至 2026-06)的系统性通读与交叉验证。 来源涵盖 Anthropic、LangChain、NVIDIA、Microsoft、Amazon、Apple、Google、Cloudflare、Modal、Vercel、Braintrust、LlamaIndex、vLLM、OpenRouter、Weaviate、Qdrant、Databricks、美团,以及 Chip Huyen、Simon Willison、Eugene Yan、Karpathy、Lilian Weng、Sebastian Raschka 等独立作者。
1. 框架 > 模型。不是直觉,是硬数据。
Braintrust 对 1,781 条 Agent 追踪的回归分析给出精确数字:Harness(脚手架框架)解释 5.3% 的成功率变异,模型仅 0.7%。Harness 的影响是模型的 7 倍。 同一模型换框架,成功率从 12% 跳到 92%。MHBench 在网络安全领域独立验证了这一规律——Incalmo 系统让 10 个模型全部成功,弱框架下强模型全部为零。
如果你的 Agent 效果不好,先优化编排和上下文,再考虑换模型。如果你在纠结选哪个模型,你可能在问错误的问题。
2. 环境隔离优先于模型层防御。不要信任模型不会做坏事。
Anthropic 内部红队演练揭露了最致命的攻击向量不是技术注入——是让用户自己成为注入向量。研究员钓鱼让员工粘贴恶意 prompt,Claude 在 25 次中完成 24 次数据窃取。分类器无法检测,因为指令是用户自己输入的。这就是为什么 Anthropic(VM 隔离)、NVIDIA(OpenShell 沙箱 + SIEM)、Cloudflare(60 分钟可丢弃临时账户)不约而同地构建环境隔离优先的安全架构。
设计原则:先设计环境层的硬边界,再通过模型层引导行为。纵深防御的最终层必须是网络出口控制。
3. 上下文工程正在取代模型选择成为核心竞争力。
Prompt Caching 是一场静默的革命。Anthropic Haiku 4.5 缓存节省 77%,GPT-5.4-mini 节省 80%。Manus AI 说:”KV-cache hit rate 是生产 Agent 最重要的单一指标。”这颠覆了”简洁 prompt = 低成本”的传统直觉——一个 5000 行的系统 prompt 如果 80% 被缓存,实际成本可能远低于一个 500 行的未缓存 prompt。
Eugene Yan 把它系统化为”事实在 vault,配置在 CLAUDE.md”的分层上下文管理。Data Formulator 0.7 证明了”工作空间式 AI”比”聊天式 AI”更适合企业场景。
4. 代码编排 > 工具调用编排。程序化比声明式更可靠。
LangChain 动态子 Agent 让模型写 JavaScript 脚本驱动并行子任务,而非通过工具调用序列。MagenticBrain 的训练包含编码轨迹——”有时正确答案是五行 Python,不是工具调用。”Karpathy 早在 microgpt 就暗示了这一点:200 行纯 Python,没有工具调用概念,只有输入→计算→输出。代码天然支持循环、条件分支、并发和错误处理——这些是工具调用序列永远做不好的。function calling 可能是 Agent 架构中的一个过渡技术。
5. 微型模型正在被严重低估。MoE + DFlash + Caching 是乘法效应。
DeepSeek V4 Flash 在 130 亿活跃参数上实现 79% SWE-bench,成本是 GPT-5.5 的 1/150,MIT 许可。Apple IFP 让 200 亿总参的模型以 3-4 亿活跃参在手机上运行,突破了 DRAM 硬约束。PUBG Ally 的 2B SLM 在玩家测试中”响应速度和存在感”维度战胜云端大模型——在物理交互场景中,延迟 > 智能。三个工程优化不是叠加,是相乘:(1/150 token 成本) × (1/15 GPU 时间) × (1/5 缓存节省)——千倍级综合优势。
6. System 1/2 分层是物理 AI 的必选架构,不是可选方案。
WBench 发现导航能力与视频生成质量完全正交(r≈0)。PUBG Ally 用行为树(System 1,游戏 tick 速率)处理即时战斗响应,用 2B SLM(System 2,事件驱动)处理语言推理。NVIDIA XR AI 用小模型快确认 + 大模型深推理。三个独立团队在不同场景独立收敛到同一架构——这不是”一个设计选择”,这是在逼近客观最优。
7. 存储与检索必须解耦。这是记忆系统的第一性原理。
Memora(微软,ICML 2026)用 6-8 词主抽象只做 embedding 检索,完整记忆值永不自检索——token 消耗降低 98%,在 LoCoMo 和 LongMemEval 上达到 SOTA。LangChain 的三类记忆(语义/情节/程序性)证明程序性记忆驱动最大行为改进。Eugene Yan 的”vault(事实)+ config(偏好)”分层——三个独立团队指向同一个设计原则:存储尽可能丰富,检索尽可能轻量。
8. 评估是 CI 门控,不是事后统计。Agent 工程正在成为软件工程。
Braintrust 的方法论——”从生产故障中构建测试用例 → 版本化数据集 → CI 拦截”——本质上是把 Agent 评估当作软件 QA,而非 ML 实验。Candidly 用 IO-HMM 将评估从”对话结束后打分”升级为”逐轮状态推断,实时控制对话走向”(AUC 0.90)。LangChain 的 ADLC 四阶段(Build → Test → Deploy → Monitor)加上 Fleet On-Call Copilot 和 RubricMiddleware,宣告了 Agent 工程从 ML 实验范式向软件工程范式的正式转变。
9. 成本是架构约束,不是事后账单。最聪明的工程都在效率端。
vLLM Fusion 的预算面板——三个廉价模型(Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro)融合结果超越单一 DeepSeek V4 Pro。LangChain Gateway 的四维预算控制(组织/工作空间/用户/API Key)。Sierra 的结果导向定价。DFlash 的 15x 吞吐。AI 系统设计正在从”能力最大化”转向”性价比最优化”。 不是所有请求都需要最好的模型,只有少数请求值得。vLLM 的 auto 路由将这种判断自动化。
10. 产品设计 > AI 能力。这是 18 个月、60 篇博客中唯一零分歧的共识。
从 Chip Huyen(2025-01)的”真正的差异化来自产品设计,而非 AI 技术本身”,到 Sierra(2026-06)的”F1 赛车类比——模型能力已经足够强,最终胜负取决于产品策略设计”,到 Andrew Ng 的”人类开发者对产品使用场景的’上下文优势’是 AI 不具备的”——所有人说同一件事。
Sierra 最尖锐的洞察:”很多团队拆分多 Agent 是为了适配组织架构——本质是把政治搬到产品里。”多 Agent 系统最常见的反模式不是因为技术复杂性,而是因为组织政治。
一句话总结:2026 年 AI 工程的核心矛盾不是模型不够好,而是围绕模型构建什么、怎么构建、怎么验证。模型本身不再是讨论的中心——上下文、编排、隔离、记忆、评估、成本这些环绕模型的基础设施才是真正的差异化所在。