免费全模态 AI API：Agnes AI 实测与集成

公司简介

Agnes AI 来自新加坡初创公司 Sapiens AI，2024 年完成 2000 万美金融资，截至 2026 年 6 月已积累 400 万注册用户，日活约 30 万。CEO Bruce Yang（X: @Bruce_why）在公开采访中多次强调”AI 普惠化”路线——核心策略是用免费基础模型换用户量，靠增值服务变现。平台入口为 platform.agnes-ai.com，API 端点集中在 apihub.agnes-ai.com。

相比同赛道的 Replicate、Together AI 等竞品，Agnes 最突出的差异化在于：注册无需绑定信用卡，Image 2.0 Flash 和 Video V2.0 完全免费，无每日调用次数硬限制。对于预算有限的独立开发者和小团队而言，这是当前市场上门槛最低的全模态 API 入口。

能力矩阵

Agnes API 当前覆盖四个模态：

模型	类型	定价	备注
Agnes 2.0 Flash	文本生成	免费	对话/补全
Agnes Image 2.0 Flash	文生图/图生图	免费	响应 1-2s
Agnes Image 2.1 Flash	文生图/图生图	$0.003/张	细节更优
Agnes Video V2.0	文生视频/图生视频	免费	121帧/5秒

文本和视频完全免费，图像有两种选择：2.0 Flash 免费但受限于推理步数，2.1 Flash 收费但出图质量明显更高。这点在实测中体现得十分清晰。

实测结果

图像生成

测试 prompt：”A ceramic teapot on a wooden table, morning sunlight from the right casting long shadows, photorealistic, 8K”

2.0 Flash（免费版）：几何结构精准，壶身弧线和壶嘴比例没有形变。光影方向符合 prompt 指定的右侧来光，阴影边缘柔和。纹理细节足够满足产品展示图场景。响应时间约 1.5 秒。综合评分：7/10。

2.1 Flash（$0.003版）：构图明显更精致，背景虚化更自然，壶身釉面反光的层次感接近中画幅相机质感。复杂场景下的主体/背景分离度更高。同样 prompt 出图，2.1 在细节密度上领先约 15%-20%。综合评分：8/10。

图生图模式：上传同一张线稿图，2.0 Flash 能较好地保持原始构图但会弱化部分边缘细节；2.1 Flash 对原图结构的保持更严格，上色一致性更好。适合做设计迭代的中间环节。

硬伤：
- 文字渲染：所有图像模型对 prompt 中的文字生成基本是乱码。测试 “A storefront with a sign saying ‘OPEN’” 得到的招牌文字全部不可读。这是当前扩散模型通病，并非 Agnes 独有问题。
- 材质真实度：金属和玻璃质感偏弱，有明显的 CG 感（”shiny” 处理过度），不如 Midjourney V6 和 DALL-E 3 的自然度。2.1 Flash 有所改善但未完全解决。

视频生成

Video V2.0 支持文生视频（T2V）和图生视频（I2V）两种模式。参数上固定输出 121 帧 @ 24fps，即 5 秒视频。

生成耗时：约 2 分钟。实测中进度条卡在 30% 约 90 秒，随后直接跳到 100%。这种”假卡住”的进度波动在推理任务中常见，不必重复请求。

关键参数陷阱：num_frames 必须满足 8n+1 约束（121 即 8*15+1），否则 API 返回参数校验错误。width 和 height 需同时为 8 的倍数。

返回字段陷阱：视频 URL 藏在名为 remixed_from_video_id 的字段中。从命名看这显然是开发者混淆了字段语义——实际内容是一个可直接下载的视频 URL，而非 ID。集成时不要被命名误导。

文本生成

Agnes 2.0 Flash 文本模型的测试较为有限，基础对话和代码补全能力与 GPT-4o-mini 大致相当，但复杂推理（数学、逻辑链）表现偏弱。考虑到完全免费，适合做无状态对话、简单的分类/提取管线。重度依赖推理能力的场景建议外接专用模型。

集成指南

认证与 Key 管理

API Key 从平台后台获取。需要注意一个工程坑：将 Key 写入 .env 文件时，某些系统的终端历史或 shell 引号处理会截断 Key 尾部的特殊字符。建议用 Base64 编码后再写入：

# 编码
echo -n "your-api-key" | base64
# 解码写入 .env
echo "AGNES_API_KEY=$(echo 'encoded-string' | base64 -d)" >> .env

调用示例

Python 客户端比 curl 更可靠——Shell 中的引号嵌套在处理视频请求的 JSON body 时极易出错。用 requests 库即可：

import requests, json

API_KEY = "your-key"
BASE = "https://apihub.agnes-ai.com/v1"

# 图像生成
resp = requests.post(
    f"{BASE}/images/generations",
    headers={"Authorization": f"Bearer {API_KEY}"},
    json={
        "model": "agnes-image-2.0-flash",
        "prompt": "a ceramic teapot on wooden table",
        "n": 1,
        "extra_body": {"response_format": "url"}  # 注意位置
    }
)
print(resp.json()["data"][0]["url"])

关于 response_format 注意事项

response_format 参数必须放在 extra_body 内部传递给 API。如果直接放在请求体顶层，API 返回 400 错误并提示未知参数。详见官方文档的 extra_body 说明。

微信通道限流

如果通过微信机器人分发图片，注意微信通道（iLink）对图片消息有独立限流策略，频率超过每分钟 30 条会触发静默降级（消息发出但对方收不到图片）。建议对图片输出做本地缓存，重复请求直接返回缓存结果。

避坑清单

num_frames 公式：视频帧数必须满足 8n+1，否则静默失败。121 帧是安全值。
视频 URL 字段名：remixed_from_video_id 实际返回的是下载 URL，不是 ID。解析时注意变量命名。
进度条假死：生成过程卡在 30% 约 90 秒属正常现象，不要重复发起请求。
文字渲染不可用：所有图像模型都无法正确渲染招牌/海报文字，有文字需求的场景需后期叠加。
材质 CG 感：金属/玻璃等材质质感偏弱，2.1 有改善但不如 Midjourney V6。
response_format 必须放 extra_body：放顶层返回 400。
API Key 截断：写入 .env 时用 Base64 编解码，避免 shell 截断特殊字符。
微信渠道限流：iLink 图片消息限流约 30 条/分钟，超出后静默降级。

性价比总结

Agnes AI 的核心竞争力只有一个字：免费。对于 MVP 验证、个人项目、低并发原型来说，Image 2.0 Flash 和 Video V2.0 的免费额度在 2026 年的 API 市场中几乎找不到竞争对手。Replicate 的免费额度限 50 次/月且需绑卡，Together AI 的免费层每天仅 1000 次推理——Agnes 目前没有公开的调用次数限制。

但免费意味着取舍：

图像质量处于”够用但不出彩”的区间：2.0 Flash 约等于 Stable Diffusion XL 的在线推理质量，2.1 Flash 接近 Midjourney V5 水平，距离 V6 和 DALL-E 3 还有明显差距。
视频生成可供原型验证和社交媒体短视频，但 5 秒长度和 121 帧的分辨率上限不适合专业制作。
文本模型适合辅助任务，不适合高精度推理。

结论：如果你的场景需要快速验证一个多模态产品原型，或在预算有限的情况下跑通全链路流程，Agnes API 是当前最具性价比的选择。如果追求最高出图质量或稳定高并发，应将其作为辅助通道而非主力。以 Image 2.1 Flash 每张 0.3 美分的定价计算，即使付费使用，成本也仅为 Midjourney API（约 1-2 美分/张）的 15%-30%，适合对成本敏感的批量生产场景。