MoA(Mixture of Agents):多个大模型联手回答一个问题

2026-07-03

背景:一个问题,一个模型够吗?

最近在做一个复杂的技术选型——需要同时考虑性能、成本、可维护性和社区生态。我试了几种常规做法:

  • 同一个模型来回追问 → 它容易被自己的思考路径带偏
  • 手动对比几个模型的结果 → 太费时间
  • 写一段 prompt 让模型「站在多个角度分析」→ 效果全看 prompt 写得怎么样

这些做法本质上都是同一个大脑在做多角度思考。有没有可能让多个不同的大脑同时看这个问题,再综合出答案?

这就是 MoA(Mixture of Agents)要做的事。

MoA 是什么

Mixture of Agents 是 Hermes Agent 的一个虚拟模型 provider。它并行调用多个「参考模型」,每个模型独立生成回答,然后用一个「聚合器模型」综合分析这些回答,产生最终输出。

流程示意:

你的问题
    │
    ├─→ 参考模型 A(阿里通义)──→ 独立回答
    ├─→ 参考模型 B(DeepSeek)──→ 独立回答
    └─→ 参考模型 C(Kimi)──→ 独立回答
                    │
                    └─→ 聚合器综合 → 最终答案

MoA 工作流程示意:单问题→多模型并行→聚合器综合

这不是简单的投票机制或「多个回答让你自己选」。聚合器会逐条分析各参考模型的输出,结合会话上下文做综合,且支持 Hermes 的正常工作流——工具调用、后续追问、对话持久化都不会受影响。你拿到的是一个经过碰撞和筛选的答案。

调用一次 /moa 的实际运作方式:3 个参考模型并行计算 → 各自产出分析 → 聚合器串行综合。每轮约 30-40 秒。

怎么配置 MoA

配置写在 Hermes Agent 的 config.yaml 里。以下是一个实用的配置示例:

moa:
  presets:
    default:
      enabled: true
      reference_models:
        - provider: custom:my-gateway
          model: al/qwen3.5-plus-2026-04-20
        - provider: custom:my-gateway
          model: al/deepseek-v4-pro
        - provider: custom:my-gateway
          model: al/kimi-k2.6
      aggregator:
        provider: custom:my-gateway
        model: gl
      reference_temperature: 0.7
      aggregator_temperature: 0.3
      max_tokens: 4096
      reference_max_tokens: 800

选择参考模型的策略

核心原则:从不同厂商选,架构差异越大越好。上面的配置选了三个来自不同公司的模型:

模型 厂商 架构特点
qwen3.5-plus 阿里通义 Qwen 系列
deepseek-v4-pro 深度求索 DeepSeek MoE
kimi-k2.6 月之暗面 长上下文优化

三家公司的训练数据、模型架构、擅长领域各不相同——这正是 MoA 的价值所在。

三个不同模型从不同角度分析问题

同一个问题从三个完全不同的视角被分析和回答,聚合器再从中提取最合理的部分。

如果你也用 AI 网关做模型路由(类似 OpenRouter 或自建的 9Router),配置中的 provider: custom:my-gateway 需要替换为你实际的 provider 名称。model 字段要写完整的模型名,包括前缀。

使用方式

配置保存后立即生效,不需要重启任何服务。在对话中发送:

/moa 你的问题

这一轮消息会用 MoA 模式跑完,回答完自动切回默认模型,不影响下一条消息。

也可以用 /moa 直接进入 MoA 模式(后续所有回答都走 MoA),直到你切回普通模型。

踩坑记录

1. 模型前缀缺失

如果你用 AI 网关做路由,模型名通常需要带提供商前缀。我的配置中:

  • al/ = 阿里云百炼
  • ds/ = DeepSeek 直连

直接写 qwen3.5-plus 不带前缀会路由失败。配置前确认你的网关使用的命名规则。

2. 日期后缀 ≠ 过期

带日期后缀的模型(如 qwen3.5-plus-2026-04-20)和不带日期的同名模型(qwen3.5-plus)是两个不同的计费条目,额度独立、状态独立。

容易踩的坑:「qwen3.5-omni-plus 过期了,那 qwen3.5-plus-2026-04-20 应该也过期了」——不对。每个带日期后缀的模型都有独立的免费额度,需要逐个确认。我就在这被一个小伙伴纠正过。

3. API Key 认证

如果你需要查询网关的可用模型列表,注意有些网关的查询接口需要 Authorization 头。不带 Key 直接 curl 会返回 API key required

4. 每轮的 Token 消耗

MoA 模式下一轮可能消耗 23-25 万 tokens(含历史上下文)。Cache 效率首次较低(5% 左右),后续命中后会提升到 30% 左右。如果用按量计费的 API key,注意看消耗。

适用场景

经过实测,MoA 最适合做困难的事情

该用 MoA 的
- 复杂推理——逻辑分析、数学、代码 bug 排查
- 需要多角度综合——技术选型对比、方案评审
- 重要决策——架构设计

不值得用 MoA 的
- 简单查询——天气、时间、翻译
- 工具调用类——需要它干活而不是思考的
- 闲聊

测试用户的原话很精准:「好吧,那他适合做一些困难的事情。」一锤定音。

总结

MoA(Mixture of Agents)用三个不同模型并行回答、一个聚合器综合的方式,在复杂推理场景下明显优于单模型反复追问。配置简单,成本可控(免费额度模型配合 MoA,每轮只需多付几次 API 调用),与 Hermes 的工作流完全兼容。

它的核心思路其实不复杂:当你需要一个复杂问题的答案时,与其让一个模型反复自我验证,不如让三个思路不同的模型碰撞一下,再让第四个模型帮你说人话。

标签: AI Hermes 教程