AI 编程工具日报 · 2026-07-01

2026-07-01

AI 编程工具日报 · 2026-07-01

覆盖 2026 年 6 月 29 日 — 7 月 1 日,聚焦 AI 编程工具、Agent 框架与开发者生态。


模型发布

Claude Sonnet 5 发布:最具 Agent 能力的 Sonnet 模型

Anthropic 于 6 月 30 日正式发布 Claude Sonnet 5,定位”迄今为止最具 Agent 能力的 Sonnet 模型”。它能够制定计划、使用浏览器和终端工具、自主运行,性能接近 Opus 4.8,但定价更低。输入 $2/百万 tokens(首月优惠价),输出 $10/百万 tokens,8 月 31 日后恢复 $3/$15。

相比 Sonnet 4.6,Sonnet 5 在推理、工具使用、编程和知识工作等核心 agent 能力上大幅跃升。在 BrowseComp 和 OSWorld-Verified 评测中严格优于前代。亦步亦趋地,Sonnet 5 同时带来更低的不良行为率、幻觉和谄媚减少。即日起在 Claude Code、Claude API 及所有套餐中可用。

点评: Sonnet 从 3.5 到 5 一直被视为日常编码的”甜点定价”模型。Sonnet 5 逼近 Opus 4.8 意味着大多数开发场景无需再为能力升级付出 3-5 倍的 token 成本。

原文

GPT-5.3-Codex:首个自我训练的 Agent 模型

OpenAI 推出 GPT-5.3-Codex,这是目前最强的 agent 编程模型,也是首个用于加速自身开发的模型——Codex 团队使用早期版本调试训练流程、管理部署、诊断测试结果。

GPT-5.3-Codex 将 GPT-5.2-Codex 的前沿编程能力与 GPT-5.2 的推理和专业能力整合在一个模型中,速度还快了 25%。支持长时间任务执行,涵盖研究、工具使用和复杂操作,用户可以在执行过程中交互干预而不丢失上下文。这标志着 Codex 从”写代码的 agent”向”能在电脑上做几乎所有专业工作的 agent”跨越。

点评: 自我训练模型是 AI 发展的关键转折点——当模型能参与自身迭代,迭代速度将从线性变为递归加速。

原文

美团 LongCat-2.0:1.6T MoE,专为 Agentic Coding 打造

美团 LongCat 发布旗舰模型 LongCat-2.0,采用 1.6T 参数 MoE 架构(约 48B 活跃参数),原生支持 1M 上下文窗口。定价极具竞争力:Input Cache $0.015、Input $0.75、Output $2.95(每百万 tokens)。包含三大技术创新:LSA 稀疏注意力、Zero-Compute Experts 动态激活、MOPD 专家分组路由(Agent / Reasoning / Interaction 三组按任务门控)。在 SWE-bench Pro 上取得 59.5 分。已上线 SiliconFlow。

点评: 国内团队在 Agentic Coding 方向上开始有重量级产出。1M 原生上下文 + 按任务路由的专家分组,设计思路值得关注。

Qwen 3.6 27B:本地开发甜点模型

Hacker News 上大热的 Qwen 3.6 27B 被开发者 Piotr Migdał 评价为”第一个真正具备通用智能的本地模型”。原生支持 256K 上下文,在 Macbook Max M5 上 llama.cpp Q8_0 量化可达 30 tokens/s,RTX 5090 上 Q6_K 量化可达 50 tokens/s。

点评: 本地模型终于来到可以认真使用的阶段。27B 的规模意味着消费级硬件就能跑,对离线和隐私敏感场景意义重大。

原文


产品更新

Cursor for iOS:口袋里的云端 Agent

Cursor 6 月 29 日推出 iOS 原生公测版。开发者可在手机上启动始终在线的云端 agent,或远程操控电脑端 agent。支持语音输入、斜杠命令和前沿模型选择。云端 agent 在隔离 VM 中运行,可自动迭代并生成合并就绪的 PR,附带演示截图和日志。锁屏 Live Activities 和推送通知实时更新状态。

所有付费计划可用。移动端 Composer 2.5 享 75% 折扣至 7 月 5 日。

点评: 这是 Cursor 对”随时随地 coding”的完整诠释——不是简单的移动端代码编辑,而是让 agent 替你跑在路上。配合远程控制模式,实际使用场景比预期更广。

原文

Claude Code 入门:四种 Agent 循环

Anthropic 发表长文 “Getting Started with Loops”,系统定义了 Claude Code 中的四种 agent 循环模式:1)Turn-based:用户提示触发,模型自主判断完成;2)Goal-based:通过 /goal 设定可验证完成标准与最大轮次;3)Time-based:通过 /loop 按时间间隔执行,支持 /schedule 部署到云端;4)Proactive:基于事件或计划自动运行,无需人实时参与。文章还介绍了如何编写 SKILL.md 将验证步骤编码,实现端到端自检。

点评: 这是目前对 Agent 循环最清晰的工程化分类。每种模式对应不同的任务粒度和自动化程度,值得每个 Claude Code 重度用户仔细读。

原文

Claude Science:面向科学家的 AI 工作台

Anthropic 同日推出 Claude Science,整合超 60 项预配置科研技能与连接器,覆盖基因组学、单细胞、蛋白质组学、结构生物学等领域。可在本地(macOS/Linux)或通过 SSH/HPC 远程运行。产出含代码和环境的可审计成果(3D 蛋白质结构、基因组浏览器轨迹),内置 reviewer agent 自动检查引用与计算错误。通过 NVIDIA BioNeMo 接入 Evo 2、Boltz-2 等模型。面向 Claude Pro、Max、Team 和 Enterprise 用户开放 beta 版。

原文

Claude Desktop 登陆 Linux

Claude Desktop 现已在 Linux(Ubuntu 和 Debian) 上推出公测版。从此 Linux 用户也能享受与浏览器和终端并行的桌面级 Claude Code + Claude Cowork + 聊天体验。

来源

X(Twitter)发布 Hosted MCP

X 官方推出 hosted X MCP,AI agent 可直接通过 MCP 协议调用 X API 获取实时信息,支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费,个人优惠价每次调用 $0.01。实测拉取近三天书签仅花 $0.1。

点评: 社交媒体数据一直是 agent 获取实时信息的瓶颈。X MCP 的意义在于 agent 不再依赖爬虫或嵌入,而是通过标准协议直接访问平台数据。

来源

Google ADK Go 2.0:图工作流引擎 + 人工参与循环

Google 发布 ADK for Go 2.0,引入基于图的工作流引擎,用于组合复杂多智能体应用。新增内置人工参与循环(HITL)编排、纯 Go 代码的动态执行、指数退避重试等弹性特性。单 agent 应用与复杂图运行在同一运行时上,简化遥测与状态持久化。

点评: ADK Go 2.0 的”统一执行模型”是务实的架构选择——不需要在简单和复杂场景间切框架。

原文

shot-scraper video:让 Agent 录制演示视频

Simon Willison 的新工具 shot-scraper 1.10 新增 video 命令,通过 storyboard.yml 定义操作步骤,利用 Playwright 录制浏览器视频。Agent 可直接调用该命令生成工作演示视频。

点评: Agent 产出难以验证一直是个问题。录制操作视频作为”可审计证据”是聪明且低成本的方案。

原文


开源项目

EverOS:开源 Agent 记忆运行时

EverMind 推出 EverOS(Apache 2.0),以 Markdown 文件为记忆主体,SQLite 管理状态,LanceDB 实现混合检索(BM25 + 向量搜索 + 标量过滤)。每个完成的任务记录为 Case,离线提炼为可复用的 Skill。LoCoMo 得分 93.05%,LongMemEval 83.00%,p95 检索延迟低于 500ms。

点评: 记忆是 Agent 走向”持续进化”的关键基础设施。Markdown-first 的设计降低了理解门槛。

原文

Herdr:终端中的 Agent 多路复用器

Herdr 是一个驻留在终端中的 AI agent 多路复用器,可在单一终端界面内管理和切换多个 agent 会话。适合多任务开发场景。

GitHub


趋势观点

Every 的”复利工程”:1 人管理 5 款产品

媒体软件公司 Every 公开其 “复利工程”方法论——单人工程团队维护 5 款产品的秘诀。核心是四步循环:Plan → Work → Review → Compound。工程师 80% 时间花在 Plan 和 Review,仅 20% 用于写代码。Critical 一步是 Compound:每次解决问题的解法写入 CLAUDE.md 和 docs/solutions/,使 AI 下次自动避坑。配套开源插件含 26 个专项 agent、23 条工作流命令、13 项技能。

点评: 80/20 法则的工程化版本。Compound 环节是真正的杠杆——它把单次经验转化为团队的永久能力。

来源

AI 就业争论更混乱了

TechCrunch 报道,截至 2026 年 5 月 AI 相关裁员接近 9 万个。但 Ramp 与 Revelio Labs 对 22,000 家公司的分析发现:高 AI 投入企业(人均月支出 $30+)总员工数增长 10.2%,入门级岗位增长 12%。结论是 AI 在”资源充裕的科技企业里成为扩张工具”——降低工程、销售、客服的生产成本,推动整体增员。但仅购买订阅而未持续投入的公司未见人头增长。

点评: AI 不是简单的”替代或创造岗位”二分法,企业和团队的投入深度才是关键变量。

原文

Annie 提示词工程实战:评估是唯一严谨方式

Anthropic 应用 AI 工程师 Margot Van Laar 在 Code with Claude 大会上分享:团队大部分时间花在”调试和维护已有生产提示词”上,而非从零编写。核心建议:用 XML 标签结构化清理旧提示、从零构建 Agent 时拆成”生成-评估-修复”三个简单提示词更稳定、选用更强推理模型。她反复强调——评估(Eval)是唯一严谨方式,没有评估就是碰运气

来源

AI 攻克 9 个未解数学难题

采用 prover-verifier LLM 循环的方法,AI 成功解决了理论计算机科学中 9 个重大开放问题,其中包括一个困扰研究者长达两年的难题。研究由哥伦比亚大学合作者完成,并计划扩展到所有科学领域。此前这类突破仅限于数学奥林匹克类问题,这次触及了真正的开放研究问题。

点评: 从解竞赛题到解决开放研究问题,这是 AI 在数学能力上的质变。

来源


值得关注的短新闻

  • OpenClaw 发布原生 iOS 与 Android 应用 — 移动端 Agent 应用终于到来,支持频道、任务和回复。来源
  • Acti 将 AI Agent 植入手机键盘 — 新加坡初创公司推出基于 Gemini 的智能键盘,长按 T 键翻译消息、C 键发送会议链接,获 530 万美元种子轮融资。来源
  • Apple Creator Studio 更新 — Final Cut Pro 新增 on-device AI 驱动的字幕生成与剪辑点检测,Logic Pro 新增 Producer Project。来源
  • Google Nano Banana 2 Lite 与 Gemini Omni Flash 发布 — Nano Banana 2 Lite 是 DeepMind 最快最便宜的图像模型,文本到图像仅 4 秒/$0.034;Omni Flash 支持高画质视频生成。来源
  • Blackstone 拟投 $300 亿在日本建 AI 数据中心 — 另与 Apollo、博通成立 AI XPV 平台,目标 2028 年向 OpenAI 等提供超 20GW 算力。来源

数据来源:AIHOT(aihot.virxact.com)、Firecrawl、Anthropic Blog、OpenAI Blog、Cursor Blog、TechCrunch、Google Developers Blog、Simon Willison’s Weblog