背景:一个问题,一个模型够吗?
最近在做一个复杂的技术选型——需要同时考虑性能、成本、可维护性和社区生态。我试了几种常规做法:
- 同一个模型来回追问 → 它容易被自己的思考路径带偏
- 手动对比几个模型的结果 → 太费时间
- 写一段 prompt 让模型「站在多个角度分析」→ 效果全看 prompt 写得怎么样
这些做法本质上都是同一个大脑在做多角度思考。有没有可能让多个不同的大脑同时看这个问题,再综合出答案?
这就是 MoA(Mixture of Agents)要做的事。
MoA 是什么
Mixture of Agents 是 Hermes Agent 的一个虚拟模型 provider。它并行调用多个「参考模型」,每个模型独立生成回答,然后用一个「聚合器模型」综合分析这些回答,产生最终输出。
流程示意:
你的问题
│
├─→ 参考模型 A(阿里通义)──→ 独立回答
├─→ 参考模型 B(DeepSeek)──→ 独立回答
└─→ 参考模型 C(Kimi)──→ 独立回答
│
└─→ 聚合器综合 → 最终答案

这不是简单的投票机制或「多个回答让你自己选」。聚合器会逐条分析各参考模型的输出,结合会话上下文做综合,且支持 Hermes 的正常工作流——工具调用、后续追问、对话持久化都不会受影响。你拿到的是一个经过碰撞和筛选的答案。
调用一次 /moa 的实际运作方式:3 个参考模型并行计算 → 各自产出分析 → 聚合器串行综合。每轮约 30-40 秒。
怎么配置 MoA
配置写在 Hermes Agent 的 config.yaml 里。以下是一个实用的配置示例:
moa:
presets:
default:
enabled: true
reference_models:
- provider: custom:my-gateway
model: al/qwen3.5-plus-2026-04-20
- provider: custom:my-gateway
model: al/deepseek-v4-pro
- provider: custom:my-gateway
model: al/kimi-k2.6
aggregator:
provider: custom:my-gateway
model: gl
reference_temperature: 0.7
aggregator_temperature: 0.3
max_tokens: 4096
reference_max_tokens: 800
选择参考模型的策略
核心原则:从不同厂商选,架构差异越大越好。上面的配置选了三个来自不同公司的模型:
| 模型 | 厂商 | 架构特点 |
|---|---|---|
| qwen3.5-plus | 阿里通义 | Qwen 系列 |
| deepseek-v4-pro | 深度求索 | DeepSeek MoE |
| kimi-k2.6 | 月之暗面 | 长上下文优化 |
三家公司的训练数据、模型架构、擅长领域各不相同——这正是 MoA 的价值所在。

同一个问题从三个完全不同的视角被分析和回答,聚合器再从中提取最合理的部分。
如果你也用 AI 网关做模型路由(类似 OpenRouter 或自建的 9Router),配置中的 provider: custom:my-gateway 需要替换为你实际的 provider 名称。model 字段要写完整的模型名,包括前缀。
使用方式
配置保存后立即生效,不需要重启任何服务。在对话中发送:
/moa 你的问题
这一轮消息会用 MoA 模式跑完,回答完自动切回默认模型,不影响下一条消息。
也可以用 /moa 直接进入 MoA 模式(后续所有回答都走 MoA),直到你切回普通模型。
踩坑记录
1. 模型前缀缺失
如果你用 AI 网关做路由,模型名通常需要带提供商前缀。我的配置中:
al/= 阿里云百炼ds/= DeepSeek 直连
直接写 qwen3.5-plus 不带前缀会路由失败。配置前确认你的网关使用的命名规则。
2. 日期后缀 ≠ 过期
带日期后缀的模型(如 qwen3.5-plus-2026-04-20)和不带日期的同名模型(qwen3.5-plus)是两个不同的计费条目,额度独立、状态独立。
容易踩的坑:「qwen3.5-omni-plus 过期了,那 qwen3.5-plus-2026-04-20 应该也过期了」——不对。每个带日期后缀的模型都有独立的免费额度,需要逐个确认。我就在这被一个小伙伴纠正过。
3. API Key 认证
如果你需要查询网关的可用模型列表,注意有些网关的查询接口需要 Authorization 头。不带 Key 直接 curl 会返回 API key required。
4. 每轮的 Token 消耗
MoA 模式下一轮可能消耗 23-25 万 tokens(含历史上下文)。Cache 效率首次较低(5% 左右),后续命中后会提升到 30% 左右。如果用按量计费的 API key,注意看消耗。
适用场景
经过实测,MoA 最适合做困难的事情:
该用 MoA 的
- 复杂推理——逻辑分析、数学、代码 bug 排查
- 需要多角度综合——技术选型对比、方案评审
- 重要决策——架构设计
不值得用 MoA 的
- 简单查询——天气、时间、翻译
- 工具调用类——需要它干活而不是思考的
- 闲聊
测试用户的原话很精准:「好吧,那他适合做一些困难的事情。」一锤定音。
总结
MoA(Mixture of Agents)用三个不同模型并行回答、一个聚合器综合的方式,在复杂推理场景下明显优于单模型反复追问。配置简单,成本可控(免费额度模型配合 MoA,每轮只需多付几次 API 调用),与 Hermes 的工作流完全兼容。
它的核心思路其实不复杂:当你需要一个复杂问题的答案时,与其让一个模型反复自我验证,不如让三个思路不同的模型碰撞一下,再让第四个模型帮你说人话。