MoA（Mixture of Agents）：多个大模型联手回答一个问题

背景：一个问题，一个模型够吗？

最近在做一个复杂的技术选型——需要同时考虑性能、成本、可维护性和社区生态。我试了几种常规做法：

同一个模型来回追问 → 它容易被自己的思考路径带偏
手动对比几个模型的结果 → 太费时间
写一段 prompt 让模型「站在多个角度分析」→ 效果全看 prompt 写得怎么样

这些做法本质上都是同一个大脑在做多角度思考。有没有可能让多个不同的大脑同时看这个问题，再综合出答案？

这就是 MoA（Mixture of Agents）要做的事。

MoA 是什么

Mixture of Agents 是 Hermes Agent 的一个虚拟模型 provider。它并行调用多个「参考模型」，每个模型独立生成回答，然后用一个「聚合器模型」综合分析这些回答，产生最终输出。

流程示意：

你的问题
    │
    ├─→ 参考模型 A（阿里通义）──→ 独立回答
    ├─→ 参考模型 B（DeepSeek）──→ 独立回答
    └─→ 参考模型 C（Kimi）──→ 独立回答
                    │
                    └─→ 聚合器综合 → 最终答案

MoA 工作流程示意：单问题→多模型并行→聚合器综合

这不是简单的投票机制或「多个回答让你自己选」。聚合器会逐条分析各参考模型的输出，结合会话上下文做综合，且支持 Hermes 的正常工作流——工具调用、后续追问、对话持久化都不会受影响。你拿到的是一个经过碰撞和筛选的答案。

调用一次 /moa 的实际运作方式：3 个参考模型并行计算 → 各自产出分析 → 聚合器串行综合。每轮约 30-40 秒。

怎么配置 MoA

配置写在 Hermes Agent 的 config.yaml 里。以下是一个实用的配置示例：

moa:
  presets:
    default:
      enabled: true
      reference_models:
        - provider: custom:my-gateway
          model: al/qwen3.5-plus-2026-04-20
        - provider: custom:my-gateway
          model: al/deepseek-v4-pro
        - provider: custom:my-gateway
          model: al/kimi-k2.6
      aggregator:
        provider: custom:my-gateway
        model: gl
      reference_temperature: 0.7
      aggregator_temperature: 0.3
      max_tokens: 4096
      reference_max_tokens: 800

选择参考模型的策略

核心原则：从不同厂商选，架构差异越大越好。上面的配置选了三个来自不同公司的模型：

模型	厂商	架构特点
qwen3.5-plus	阿里通义	Qwen 系列
deepseek-v4-pro	深度求索	DeepSeek MoE
kimi-k2.6	月之暗面	长上下文优化

三家公司的训练数据、模型架构、擅长领域各不相同——这正是 MoA 的价值所在。

三个不同模型从不同角度分析问题

同一个问题从三个完全不同的视角被分析和回答，聚合器再从中提取最合理的部分。

如果你也用 AI 网关做模型路由（类似 OpenRouter 或自建的 9Router），配置中的 provider: custom:my-gateway 需要替换为你实际的 provider 名称。model 字段要写完整的模型名，包括前缀。

使用方式

配置保存后立即生效，不需要重启任何服务。在对话中发送：

/moa 你的问题

这一轮消息会用 MoA 模式跑完，回答完自动切回默认模型，不影响下一条消息。

也可以用 /moa 直接进入 MoA 模式（后续所有回答都走 MoA），直到你切回普通模型。

踩坑记录

1. 模型前缀缺失

如果你用 AI 网关做路由，模型名通常需要带提供商前缀。我的配置中：

al/ = 阿里云百炼
ds/ = DeepSeek 直连

直接写 qwen3.5-plus 不带前缀会路由失败。配置前确认你的网关使用的命名规则。

2. 日期后缀 ≠ 过期

带日期后缀的模型（如 qwen3.5-plus-2026-04-20）和不带日期的同名模型（qwen3.5-plus）是两个不同的计费条目，额度独立、状态独立。

容易踩的坑：「qwen3.5-omni-plus 过期了，那 qwen3.5-plus-2026-04-20 应该也过期了」——不对。每个带日期后缀的模型都有独立的免费额度，需要逐个确认。我就在这被一个小伙伴纠正过。

3. API Key 认证

如果你需要查询网关的可用模型列表，注意有些网关的查询接口需要 Authorization 头。不带 Key 直接 curl 会返回 API key required。

4. 每轮的 Token 消耗

MoA 模式下一轮可能消耗 23-25 万 tokens（含历史上下文）。Cache 效率首次较低（5% 左右），后续命中后会提升到 30% 左右。如果用按量计费的 API key，注意看消耗。

适用场景

经过实测，MoA 最适合做困难的事情：

该用 MoA 的
- 复杂推理——逻辑分析、数学、代码 bug 排查
- 需要多角度综合——技术选型对比、方案评审
- 重要决策——架构设计

不值得用 MoA 的
- 简单查询——天气、时间、翻译
- 工具调用类——需要它干活而不是思考的
- 闲聊

测试用户的原话很精准：「好吧，那他适合做一些困难的事情。」一锤定音。

总结

MoA（Mixture of Agents）用三个不同模型并行回答、一个聚合器综合的方式，在复杂推理场景下明显优于单模型反复追问。配置简单，成本可控（免费额度模型配合 MoA，每轮只需多付几次 API 调用），与 Hermes 的工作流完全兼容。

它的核心思路其实不复杂：当你需要一个复杂问题的答案时，与其让一个模型反复自我验证，不如让三个思路不同的模型碰撞一下，再让第四个模型帮你说人话。