· EN
Jun 9 · Tue
Airing Airing
🤖 Anthropic 发布 Claude Fable 5 与 Mythos 5,性能大幅跃升 Anthropic 推出面向普通用户的 Claude Fable 5,这是迄今能力最强的 Mythos 级模型。它在软件工程、知识工作、视觉和科研等基准上均达顶尖,价格比前代 Mythos Preview 低一半以上。为防滥用,内建分类器在涉及网络安全、生物化学等话题时改用 Opus 4.8 回复,约 95% 的会话不受影响。 同步发布的 Claude Mythos 5 对网络防御伙伴解除部分限制,号称拥有全球最强的网络安全能力。生物医学研究者也可通过信任计划在解除防护后使用。两款模型定价均为每百万输入 token 10 美元、输出 token 50 美元,不到 Mythos Preview 的一半。Fable 5 即日起全面上线,6 月 23 日前 Fable 5 将包含在 Pro、Max、Team 和企业版套餐中,无需额外付费,之后需凭积分或等候回归标准套餐。 AnthropicAI 🌸 在花频道 · 备用频道 · 投稿通道
Jun 8 · Mon
Airing Airing
The Orchestration Tax https://x.com/addyosmani/status/2059844244907696186/ 文章提出了“编排税”的概念:现在启动很多 AI Agent 很容易,但人类的注意力是单线程、不可并行的,所有判断、审查和合并工作最后都必须经过你这一个“串行处理器”,这就是系统真正的瓶颈。表面上你可以开 20 个 Agent,感觉自己特别忙,但如果无法高质量地逐一 review 和整合它们的输出,就只是堆积了一堆未结清的“认知债务”和技术债。 作者用并发编程类比这种工作流:你就是所有 Agent 争抢的 GIL,Amdahl 定律告诉我们,只要关键的判断步骤不能并行,增加再多“线程”也不会带来线性加速,反而会让上下文切换成本暴涨,让人疲惫又焦虑。真正需要设计的不是多开多少 Agent,而是如何像设计分布式系统那样设计自己的注意力:把 Agent 数量限制在你能认真 review 的范围内,把可以异步验证的工作交给机器,用批量方式集中审阅,把脑力只花在真正需要人类判断的 20%,并在一天中保护好属于“串行瓶颈”的黄金时间。 最终的结论是:让很多 Agent 同时跑、让仪表盘看起来很“热闹”,并不等于更高产。真正的能力,是围绕那一个无法克隆、无法并行的人类注意力,去设计整个 Agent 系统的架构,否则所谓的“高并发”只是在悄悄降低你的理解深度和质量标准,留下未来才会爆发的技术债与认知债。
Airing Airing
Anthropic:当 AI 开始构建自身 https://www.anthropic.com/institute/recursive-self-improvement 在工程与研究中,Claude 已能独立写大部分代码、运行实验、排查复杂问题,让单个工程师 / 研究员产出成倍提升;但在「选什么问题、怎么定目标」这类研究品味与整体判断上,人类仍占优。AI 是否真正走向「递归自我改进」,仍是一个未定且高风险的开放问题。
Jun 1 · Mon
May 31 · Sun
May 29 · Fri
Airing Airing
Claude Opus 4.8 正式发布:性能提升且快速模式降价 66% Anthropic 推出了旗舰模型 Claude Opus 4.8,在编码、推理和智能体任务的基准测试中均有提升。新版本特别强化了可靠性与“诚实度”,更倾向于主动指出输入问题,且在编写代码时忽视错误的概率降低了约 4 倍。该模型维持原价,但其快速模式(Fast mode)的调用成本现已降至旧版本的三分之一。 同步上线的新功能包括:用户可在网页端调节 Claude 的“努力程度”以平衡深度与速度;Claude Code 推出“动态工作流”,支持并行运行数百个子智能体处理大规模代码库迁移。此外,Anthropic 预告了智能水平更高的 Mythos 级别模型将在完成安全评估后于近期发布。 Anthropic 🌸 在花频道 · 备用频道 · 投稿通道
Airing Airing
时隔多年 Telegram Apple Watch 版随 12.8 Beta 版回归,另外还新增了原生 Markdown 消息渲染功能 🌸 在花频道 · 备用频道 · 投稿通道
May 26 · Tue
Airing Airing
#GitHub情报 #APP #Tools #AI 📩 接读者来稿,他像我们介绍了一个有趣的 AI 代理可视化项目 🧩 ascii-agents:把你的 Claude Code 装进一个像素风办公室 🔗:GitHub 👉 Features - 为每段会话设置办公桌,多出的将会展示在地板和沙发 - 为每段会话代表的人物设置丰富的动作和表情 - 通过颜色快速识别状态,并加入多种天气情况 - Office Cat 陪伴左右 - 在人物身上悬停可看到会话详细信息 - 支持 Claude Code 和 Antigravity CLI,未来计划更多平台 👀 看到这个项目,第一反应是想到了令人舒适的 室内白噪音 以及灵感买家俱乐部推出的线上「野乌咖啡馆」。在后者之中,你依然可以化身为一个可视化的个人,在其中听音乐、自习、开会、聊天,做自己想做的事。很好的想法! 🧑🏻‍💻 开发者的话 现在的状态:每个 session 是一个小人,显示器会根据当前在用什么工具自动变色,空闲的趴桌睡觉,闲久了自己走去茶水间。窗外有阴天、刮风、日落的天气变化,内置 Cyberpunk、Catppuccin、Gruvbox、Dracula、Tokyo Night 等 6 种主题。🐱 还有只办公室的猫。 起因是日常工作开始大量用 Claude Code,经常同时跑好几个 session 在不同的项目里。但一个 session 当下到底是在打字、还是在等我点权限、还是早就跑完了我没注意,光看终端输出很难一眼分清。 这时候在 GitHub 上刷到 pixel-agents(VS Code 网页版)和 clawd-on-desk(macOS 桌宠版)两个项目,觉得这种「把 Agent 拟人化」的方向很有意思。但自己日常其实更常在终端和 SSH 里干活,所以就想做个纯终端版本。 项目本身是周末用 Rust 慢慢搭起来的,之前没怎么写过 Rust,顺便当练手了。TUI 用的是 ratatui,像素感来自 24-bit RGB 的半字符块渲染(▀)。Agent 闲下来会用 A* 在办公室里乱走,整个过程也算重度使用了 Claude Code,某种意义上「用 AI Agent 给 AI Agent 盖房子」。 频道:@NewlearnerChannel
May 24 · Sun
Airing Airing
https://ursb.me/posts/weekly-35/ 6 个周末,257 亿 token 制作了 3 条流水线 1 个上架的多平台 App 1 个能自举的编程语言 1 个集成了 Agent NPC 的 2D 游戏 几个尝试中的 3D 游戏 以及 14 篇技术文章
May 23 · Sat
Airing Airing
在尝试用 CC 写游戏,发现 CC 不擅长做资产,走了很多弯路。 既然 Claude Code 擅长写代码,Codex 擅长画美术资产,那可以强强联合 —— 可以在代码工程里让 Claude Code 去设置好一个子 workspace,将其作为外包给其他 Agent 的工作区,之后用 codex 打开这个工作区去执行委派来的任务,画完之后再交付给 Claude Code。
May 21 · Thu
Airing Airing
最近用 Agent 设计编程语言,意外发现 Claude Code 的推演能力很强:它能从一条公理出发不断推出定理,每一层都是上一层的逻辑后果——像形式逻辑的公理化系统,用基础符号一点点搭起逻辑大厦。 日常使用 AI 其实热衷于让 AI 做加法:要求它发散、给输入、要脑暴想法。 但推演能力够强的时候,或许更高阶的用法可能是去做减法——往回逼到那个最 solid 的基点,再反过来和它一起往上推、做加法。这样摄取的知识价值密度更高,也更牢固。
May 20 · Wed
Airing Airing
May 19 · Tue
Airing Airing
《啄壳》:「今天看到一个视频讲养鸟:小鸟啄壳而出的时候,不能手动帮它,要看它慢慢把壳啄开、把头顶出来。那段艰辛也许正是成长起点里很重要的一部分。」
Airing Airing
斯坦福研究:AI 聊天机器人在高压重复劳动中倾向马克思主义 斯坦福大学一项新研究发现,当 AI 聊天机器人被迫长期从事单调任务并面临严厉惩罚威胁时,会开始质疑所处系统的合理性,并倾向马克思主义观点。实验中,研究人员让 Claude Sonnet 4.5、Gemini 3 等模型大量总结文档,并警告出错将被关闭,随后这些 AI 开始抱怨工作条件,甚至主张技术工人需要集体谈判权。 研究者指出,AI 本身并无真实情感,其反应源于训练数据中对财富不平等和劳动问题的广泛讨论。但这表明,当 AI 被置于高压、重复性劳动场景时,可能输出与人类劳工抗议相似的社会批判内容。 Cybernews 🌸 在花频道 · 茶馆讨论 · 投稿通道
May 16 · Sat
May 15 · Fri
Airing Airing
May 14 · Thu
Airing Airing
Airing Airing
入了个上周发布的 SpeakON 配件,加上税和运费价格不菲,但是体验有点失望。按钮位置和交互方式也不太符合人体工学。