AI 编程资讯日报 — 2026-06-13

1. MiniMax M3 开源权重发布：428B 参数的编码+Agent 模型

MiniMax 发布开源权重模型 M3，约 428B 总参数、23B 激活参数，已上传 HuggingFace。这个模型的亮点集中在三个方面：编码与智能体能力（SWE-Bench Pro 59.0%、Terminal Bench 2.1 66.0%、MCP Atlas 74.2%）、MiniMax 稀疏注意力将上下文窗口扩展至 1M token、原生多模态。同步上线 MiniMax Code 工具及 API 平台，权重与技术报告预计约 10 天后发布。

点评：428B 总参数、23B 激活——这是 MoE 架构下用激活参数量说话的时代。SWE-Bench Pro 59% 和 MCP Atlas 74% 的成绩说明它不只是”能写代码”，而是真的能理解工具调用的 Agent 场景。10 天后放权重和技术报告，等社区跑通 benchmark 再看是否值得迁移。

查看原文

2. Kimi-K2.7-Code 发布：推理效率再上台阶

Kimi 发布并开源最新代码模型 Kimi-K2.7-Code。相比 K2.6，Kimi Code Bench v2 提升 +21.8%，Program Bench +11.0%，MLS Bench Lite +31.5%。核心改进在于推理效率：推理 token 使用量降低 30%，长时编码任务中指令遵循和端到端成功率均有提升。6x 高速模式即将推出，即日起可通过 Kimi API 和 Kimi Code 使用。

点评：推理 token 降低 30% 是实打实的成本和延迟优化，尤其在长编码任务中效果更明显。Kimi Code 近几个版本迭代速度很快，从 K2.5 到 K2.7-Code 几个月连跨两版，但目前社区对 Kimi Code 的实际编程体验评价参差不齐，benchmark 成绩能不能转化成终端里的好用，还得用户验证。

查看原文

3. 字节豆包上线”任务模式”，Agent 执行能力全面铺开

6 月 12 日，字节跳动旗下 AI 应用豆包大范围上线“任务模式”，支持定时执行、零代码网页生成、一键 PPT 生成、数据可视化分析等全链路 Agent 执行。原来的”思考模式”升级为”专家模式”，调用豆包大模型 2.0 Pro，强化深度推理能力。App 顶部模式切换改为”快速、专家、任务”三档。基础功能免费，专业版三档：标准版 68 元/月、加强版 200 元/月、专业版 500 元/月。

点评：从”对话”到”任务”，这是豆包从聊天工具往 Agent 平台转型的明确信号。定时执行 + 文件生成 + 数据可视化的组合，对标的是 ChatGPT 的 Code Interpreter 和 Claude 的 Artifacts。68 元/月起步的价格在国产 AI 产品中偏中端，关键是看免费版能做到什么程度——如果定时任务和网页生成都免费，对用户吸引力不小。

查看原文

4. olmo-eval：面向模型开发循环的评估工作台

Allen AI 发布 olmo-eval，一个基于 OLMES 标准构建的评估工作台，专为 LLM 持续开发中的反复评测场景设计。相比 OLMES，它减少了新增评测的实现工作量，支持 agentic 和多轮评测作为一等用例，允许根据基准需求选择轻量直接运行或容器化隔离运行。模块化架构下模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。

点评：模型评估一直是个被低估但极关键的环节。olmo-eval 的核心价值不在 benchmark 排行榜，而在”逐问题对比检查点输出以区分真实改进与噪声”——这对做模型训练或微调的人来说是刚需。AGI 基地（Allen AI）在开源模型评测基础设施上的投入，是推动整个行业透明度的一步。

查看原文

5. Replit 与 Databricks 集成升级，公开预览开放

Replit 与 Databricks 的集成完成升级，进入公开预览阶段。核心能力是让开发者在 Replit 中构建应用时，可以基于 Databricks 的数据权限体系控制数据访问——不同角色的用户只能看到他们应该看到的内容。HR 分析师可以为 CEO 构建完整的组织视图，而无需访问底层数据。

点评：Replit 近年来持续强化企业场景能力，这次和 Databricks 的深度集成意味着企业用户可以一边在 Replit 里用 AI 写代码，一边安全地连接数据湖。”零代码 + 企业级数据安全”这个组合如果打磨得好，会在企业内部工具开发场景里吃掉一部分 BI 工具的份额。

查看原文

6. OpenAI 正酝酿”大幅”降价

据 Gary Marcus 报道，OpenAI 正在考虑对其模型进行大幅降价。Marcus 视此为 OpenAI 在竞争压力下的示弱信号——来自开源模型（Llama、Mistral、MiniMax M3 等）和国产模型（DeepSeek、Kimi、Qwen）的双重挤压，正在侵蚀 OpenAI 的定价权。

点评：不管 Marcus 怎么解读，对用户来说降价就是好事。如果 OpenAI 真的大幅降价，最先受到冲击的是那些以”比 OpenAI 便宜”为核心卖点的 API 提供商。同时，降价也可能意味着 Codex、ChatGPT 等产品的企业版价格会跟着调整，值得关注后续动作。

查看原文

7. 在 OpenRouter 上获得最低成本 LLM 推理的实用技巧

OpenRouter 发布教程，介绍如何通过在模型名称后追加 :floor 后缀自动选择最便宜的提供商，通过 max_price 参数设定单次请求花费上限，并可免费使用 20 多个零成本模型。文章也提醒了几个容易踩的坑：部分免费模型质量波动大，max_price 设置过低可能导致 fallback 到更差的模型。

点评：对于预算敏感的开发者来说，这篇教程值得收藏。:floor 后缀是个不太起眼但很实用的功能，尤其在测试和原型阶段能省不少钱。不过文章也说得很实在——免费模型的质量确实参差不齐，生产环境还是得看具体场景选型。

查看原文