AI 编程工具日报 · 2026-07-01

覆盖 2026 年 6 月 29 日 — 7 月 1 日，聚焦 AI 编程工具、Agent 框架与开发者生态。

模型发布

Claude Sonnet 5 发布：最具 Agent 能力的 Sonnet 模型

Anthropic 于 6 月 30 日正式发布 Claude Sonnet 5，定位”迄今为止最具 Agent 能力的 Sonnet 模型”。它能够制定计划、使用浏览器和终端工具、自主运行，性能接近 Opus 4.8，但定价更低。输入 $2/百万 tokens（首月优惠价），输出 $10/百万 tokens，8 月 31 日后恢复 $3/$15。

相比 Sonnet 4.6，Sonnet 5 在推理、工具使用、编程和知识工作等核心 agent 能力上大幅跃升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于前代。亦步亦趋地，Sonnet 5 同时带来更低的不良行为率、幻觉和谄媚减少。即日起在 Claude Code、Claude API 及所有套餐中可用。

点评： Sonnet 从 3.5 到 5 一直被视为日常编码的”甜点定价”模型。Sonnet 5 逼近 Opus 4.8 意味着大多数开发场景无需再为能力升级付出 3-5 倍的 token 成本。

原文

GPT-5.3-Codex：首个自我训练的 Agent 模型

OpenAI 推出 GPT-5.3-Codex，这是目前最强的 agent 编程模型，也是首个用于加速自身开发的模型——Codex 团队使用早期版本调试训练流程、管理部署、诊断测试结果。

GPT-5.3-Codex 将 GPT-5.2-Codex 的前沿编程能力与 GPT-5.2 的推理和专业能力整合在一个模型中，速度还快了 25%。支持长时间任务执行，涵盖研究、工具使用和复杂操作，用户可以在执行过程中交互干预而不丢失上下文。这标志着 Codex 从”写代码的 agent”向”能在电脑上做几乎所有专业工作的 agent”跨越。

点评： 自我训练模型是 AI 发展的关键转折点——当模型能参与自身迭代，迭代速度将从线性变为递归加速。

原文

美团 LongCat-2.0：1.6T MoE，专为 Agentic Coding 打造

美团 LongCat 发布旗舰模型 LongCat-2.0，采用 1.6T 参数 MoE 架构（约 48B 活跃参数），原生支持 1M 上下文窗口。定价极具竞争力：Input Cache $0.015、Input $0.75、Output $2.95（每百万 tokens）。包含三大技术创新：LSA 稀疏注意力、Zero-Compute Experts 动态激活、MOPD 专家分组路由（Agent / Reasoning / Interaction 三组按任务门控）。在 SWE-bench Pro 上取得 59.5 分。已上线 SiliconFlow。

点评： 国内团队在 Agentic Coding 方向上开始有重量级产出。1M 原生上下文 + 按任务路由的专家分组，设计思路值得关注。

Qwen 3.6 27B：本地开发甜点模型

Hacker News 上大热的 Qwen 3.6 27B 被开发者 Piotr Migdał 评价为”第一个真正具备通用智能的本地模型”。原生支持 256K 上下文，在 Macbook Max M5 上 llama.cpp Q8_0 量化可达 30 tokens/s，RTX 5090 上 Q6_K 量化可达 50 tokens/s。

点评： 本地模型终于来到可以认真使用的阶段。27B 的规模意味着消费级硬件就能跑，对离线和隐私敏感场景意义重大。

原文

产品更新

Cursor for iOS：口袋里的云端 Agent

Cursor 6 月 29 日推出 iOS 原生公测版。开发者可在手机上启动始终在线的云端 agent，或远程操控电脑端 agent。支持语音输入、斜杠命令和前沿模型选择。云端 agent 在隔离 VM 中运行，可自动迭代并生成合并就绪的 PR，附带演示截图和日志。锁屏 Live Activities 和推送通知实时更新状态。

所有付费计划可用。移动端 Composer 2.5 享 75% 折扣至 7 月 5 日。

点评： 这是 Cursor 对”随时随地 coding”的完整诠释——不是简单的移动端代码编辑，而是让 agent 替你跑在路上。配合远程控制模式，实际使用场景比预期更广。

原文

Claude Code 入门：四种 Agent 循环

Anthropic 发表长文 “Getting Started with Loops”，系统定义了 Claude Code 中的四种 agent 循环模式：1）Turn-based：用户提示触发，模型自主判断完成；2）Goal-based：通过 /goal 设定可验证完成标准与最大轮次；3）Time-based：通过 /loop 按时间间隔执行，支持 /schedule 部署到云端；4）Proactive：基于事件或计划自动运行，无需人实时参与。文章还介绍了如何编写 SKILL.md 将验证步骤编码，实现端到端自检。

点评： 这是目前对 Agent 循环最清晰的工程化分类。每种模式对应不同的任务粒度和自动化程度，值得每个 Claude Code 重度用户仔细读。

原文

Claude Science：面向科学家的 AI 工作台

Anthropic 同日推出 Claude Science，整合超 60 项预配置科研技能与连接器，覆盖基因组学、单细胞、蛋白质组学、结构生物学等领域。可在本地（macOS/Linux）或通过 SSH/HPC 远程运行。产出含代码和环境的可审计成果（3D 蛋白质结构、基因组浏览器轨迹），内置 reviewer agent 自动检查引用与计算错误。通过 NVIDIA BioNeMo 接入 Evo 2、Boltz-2 等模型。面向 Claude Pro、Max、Team 和 Enterprise 用户开放 beta 版。

原文

Claude Desktop 登陆 Linux

Claude Desktop 现已在 Linux（Ubuntu 和 Debian） 上推出公测版。从此 Linux 用户也能享受与浏览器和终端并行的桌面级 Claude Code + Claude Cowork + 聊天体验。

来源

X（Twitter）发布 Hosted MCP

X 官方推出 hosted X MCP，AI agent 可直接通过 MCP 协议调用 X API 获取实时信息，支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费，个人优惠价每次调用 $0.01。实测拉取近三天书签仅花 $0.1。

点评： 社交媒体数据一直是 agent 获取实时信息的瓶颈。X MCP 的意义在于 agent 不再依赖爬虫或嵌入，而是通过标准协议直接访问平台数据。

来源

Google ADK Go 2.0：图工作流引擎 + 人工参与循环

Google 发布 ADK for Go 2.0，引入基于图的工作流引擎，用于组合复杂多智能体应用。新增内置人工参与循环（HITL）编排、纯 Go 代码的动态执行、指数退避重试等弹性特性。单 agent 应用与复杂图运行在同一运行时上，简化遥测与状态持久化。

点评： ADK Go 2.0 的”统一执行模型”是务实的架构选择——不需要在简单和复杂场景间切框架。

原文

shot-scraper video：让 Agent 录制演示视频

Simon Willison 的新工具 shot-scraper 1.10 新增 video 命令，通过 storyboard.yml 定义操作步骤，利用 Playwright 录制浏览器视频。Agent 可直接调用该命令生成工作演示视频。

点评： Agent 产出难以验证一直是个问题。录制操作视频作为”可审计证据”是聪明且低成本的方案。

原文

开源项目

EverOS：开源 Agent 记忆运行时

EverMind 推出 EverOS（Apache 2.0），以 Markdown 文件为记忆主体，SQLite 管理状态，LanceDB 实现混合检索（BM25 + 向量搜索 + 标量过滤）。每个完成的任务记录为 Case，离线提炼为可复用的 Skill。LoCoMo 得分 93.05%，LongMemEval 83.00%，p95 检索延迟低于 500ms。

点评： 记忆是 Agent 走向”持续进化”的关键基础设施。Markdown-first 的设计降低了理解门槛。

原文

Herdr：终端中的 Agent 多路复用器

Herdr 是一个驻留在终端中的 AI agent 多路复用器，可在单一终端界面内管理和切换多个 agent 会话。适合多任务开发场景。

GitHub

趋势观点

Every 的”复利工程”：1 人管理 5 款产品

媒体软件公司 Every 公开其 “复利工程”方法论——单人工程团队维护 5 款产品的秘诀。核心是四步循环：Plan → Work → Review → Compound。工程师 80% 时间花在 Plan 和 Review，仅 20% 用于写代码。Critical 一步是 Compound：每次解决问题的解法写入 CLAUDE.md 和 docs/solutions/，使 AI 下次自动避坑。配套开源插件含 26 个专项 agent、23 条工作流命令、13 项技能。

点评： 80/20 法则的工程化版本。Compound 环节是真正的杠杆——它把单次经验转化为团队的永久能力。

来源

AI 就业争论更混乱了

TechCrunch 报道，截至 2026 年 5 月 AI 相关裁员接近 9 万个。但 Ramp 与 Revelio Labs 对 22,000 家公司的分析发现：高 AI 投入企业（人均月支出 $30+）总员工数增长 10.2%，入门级岗位增长 12%。结论是 AI 在”资源充裕的科技企业里成为扩张工具”——降低工程、销售、客服的生产成本，推动整体增员。但仅购买订阅而未持续投入的公司未见人头增长。

点评： AI 不是简单的”替代或创造岗位”二分法，企业和团队的投入深度才是关键变量。

原文

Annie 提示词工程实战：评估是唯一严谨方式

Anthropic 应用 AI 工程师 Margot Van Laar 在 Code with Claude 大会上分享：团队大部分时间花在”调试和维护已有生产提示词”上，而非从零编写。核心建议：用 XML 标签结构化清理旧提示、从零构建 Agent 时拆成”生成-评估-修复”三个简单提示词更稳定、选用更强推理模型。她反复强调——评估（Eval）是唯一严谨方式，没有评估就是碰运气。

来源

AI 攻克 9 个未解数学难题

采用 prover-verifier LLM 循环的方法，AI 成功解决了理论计算机科学中 9 个重大开放问题，其中包括一个困扰研究者长达两年的难题。研究由哥伦比亚大学合作者完成，并计划扩展到所有科学领域。此前这类突破仅限于数学奥林匹克类问题，这次触及了真正的开放研究问题。

点评： 从解竞赛题到解决开放研究问题，这是 AI 在数学能力上的质变。

来源

值得关注的短新闻

OpenClaw 发布原生 iOS 与 Android 应用 — 移动端 Agent 应用终于到来，支持频道、任务和回复。来源
Acti 将 AI Agent 植入手机键盘 — 新加坡初创公司推出基于 Gemini 的智能键盘，长按 T 键翻译消息、C 键发送会议链接，获 530 万美元种子轮融资。来源
Apple Creator Studio 更新 — Final Cut Pro 新增 on-device AI 驱动的字幕生成与剪辑点检测，Logic Pro 新增 Producer Project。来源
Google Nano Banana 2 Lite 与 Gemini Omni Flash 发布 — Nano Banana 2 Lite 是 DeepMind 最快最便宜的图像模型，文本到图像仅 4 秒/$0.034；Omni Flash 支持高画质视频生成。来源
Blackstone 拟投 $300 亿在日本建 AI 数据中心 — 另与 Apollo、博通成立 AI XPV 平台，目标 2028 年向 OpenAI 等提供超 20GW 算力。来源

数据来源：AIHOT（aihot.virxact.com）、Firecrawl、Anthropic Blog、OpenAI Blog、Cursor Blog、TechCrunch、Google Developers Blog、Simon Willison’s Weblog