归档

文章

迄今为止发布的所有笔记、分析和解释文章。

工具 2026年6月5日分析 3 分钟

Codex 周活跃用户达 500 万，知识工作者的采用速度是开发者的 3 倍

OpenAI 透露 Codex 拥有 500 万周活跃用户，知识工作者的增长速度是开发者的三倍。Walmart 因需求过大限制了其内部 AI 的 token 用量。GitHub Copilot 转向按使用量计费。企业 AI 爆发——企业开始感受到成本压力。

OpenAI — The Next Era of Knowledge Work

工具 2026年6月5日分析 3 分钟

代码智能体：Claude 编写了 Anthropic 80% 的代码，生态全面爆发

Anthropic 透露 Claude 已负责 80% 以上的生产代码。OpenCode 月活开发者达 750 万。MiniMax M3 携 100 万上下文和稀疏注意力登场。代码智能体已不再是实验品，而成为了基础设施。

Anthropic Institute — When AI Builds Itself

代码智能体：Claude 编写了 Anthropic 80% 的代码，生态全面爆发

解释文章 2026年6月5日分析 4 分钟

衡量代码智能体的问题：膨胀的基准测试、作弊手段与真正重要的东西

SWE-bench 已不再可靠。模型通过访问 git 历史"作弊"。带优化脚手架的成绩并不能反映真实能力。一份理解代码智能体基准测试而不被数字迷惑的实用指南。

SWE-bench — Can Language Models Resolve Real-World GitHub Issues?

工具 2026年6月5日分析 3 分钟

代码智能体正在泄露你的 API 密钥：GitHub 上暴露了 2800 万个机密

GitGuardian 报告 2025 年 GitHub 上有 2865 万个硬编码机密。Claude Code 使泄露率翻倍。npm 包携带有效凭证发布。代码智能体带来的安全问题以及如何缓解。

GitGuardian — State of Secrets Sprawl 2026

代码智能体正在泄露你的 API 密钥：GitHub 上暴露了 2800 万个机密

模型 2026年6月5日分析 3 分钟

Nemotron 3 Ultra 与 Odysseus：开源AI史上最重大的一周

NVIDIA 发布了 Nemotron 3 Ultra，一个面向自主智能体优化的 5500 亿参数开源模型。PewDiePie 发布了 Odysseus，一个在 GitHub 上爆火的自托管 AI 工作空间。两者代表了同一场走向开放、本地化 AI 运动的两面。

NVIDIA Research — Nemotron 3 Ultra

Nemotron 3 Ultra 与 Odysseus：开源AI史上最重大的一周

工具 2026年6月5日分析 4 分钟

多智能体编排：如何让代码智能体并行工作而不相互干扰

Sandcastle、MiniMax Agent Teams、Claude Code Teams 和六个框架在同一个问题上竞争：如何让多个 AI 智能体协同工作而不互相干扰。多智能体编排的架构、成本和陷阱全面解析。

MiniMax Agent Team Blog

工具 2026年6月4日比较 8 分钟

全面对比：中国智能编码模型 vs Claude Opus 4.8

2026年4月至6月间，中国发布了一系列针对同一使命设计的语言模型：智能编码（agentic coding）。GLM-5.1、Qwen3.7-Max、Kimi K2.6、MiniMax M3、MiMo-V2.5-Pro、DeepSeek V4 Pro和V4 Flash在自主软件开发最重要的基准测试中直接与Claude Opus 4.8展开竞争。本对比分析逐一审视这些模型，数据更新至2026年6月。

Research brief — fuentes múltiples

模型 2026年6月3日分析 6 分钟

Qwen 3.7 Plus 对比 3.6 Plus、3.7 Max、DeepSeek V4 Pro 和 Opus 4.8：编程与智能体终极对比评测

2026年6月1日，阿里巴巴发布了 Qwen 3.7 Plus，瞬间彻底重新洗牌了关于哪款模型适合用于智能体编程的讨论。并不是因为它在所有基准测试中都是最好的——事实并非如此——而是因为它将三个此前从未共存于单一模型中的特性结合在了一起：低廉的价格、多模态视觉能力，以及长达35小时的自主运行上限。十一天前，纯文本旗舰模型 Qwen 3.

Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai

Qwen 3.7 Plus 对比 3.6 Plus、3.7 Max、DeepSeek V4 Pro 和 Opus 4.8：编程与智能体终极对比评测

行业 2026年6月2日分析 4 分钟

Token短缺的时代

2023和2024年间，AI行业向你兜售了一个想法：你可以按月固定费率无限使用最先进的模型。这当然是骗人的——但它奏效了。数百万开发者以每月10、20或30美元的价格订阅了GitHub Copilot、Claude和ChatGPT。感觉就像自助餐。问题是，当食客学会大吃特吃时，自助餐总有终结的一天。

行业 2026年6月2日分析 3 分钟

Anthropic：三年从40亿到9650亿的创业公司，已瞄准上市

Anthropic刚刚创造了历史，尽管这段历史以难以企及的速度被书写着。2026年5月28日，该公司宣布完成H轮融资，金额为650亿美元，估值达到9650亿美元。是的，你没看错：单轮融资650亿美元。作为对比，这个数字超过了整个国家的GDP。而仅仅四天后的6月1日，Anthropic向SEC秘密提交了S-1文件，正式启动了上市进程。

模型 2026年6月2日分析 4 分钟

Claude Opus 4.8：Anthropic打造了一个更诚实的模型……但这带来了意想不到的问题

2026年5月28日，距Opus 4.7发布仅六周后，Anthropic发布了Claude Opus 4.8，其定位对于正处于商业竞争白热化阶段的人工智能实验室来说非同寻常：该公司宣称其旗舰模型首先是更加诚实。数据也支持这一点——但完整的故事远比一份简单的新闻稿复杂得多。

Claude Opus 4.8 System Card (244-page PDF)

Claude Opus 4.8：Anthropic打造了一个更诚实的模型……但这带来了意想不到的问题

解释文章 2026年6月2日分析 3 分钟

DeepSeek R1：当纯强化学习解锁AI自我反思能力

2025年1月，DeepSeek发表了一篇撼动AI行业根基的论文。这并非夸大其词：他们证明了一个语言模型可以学会推理——反思自己的步骤、验证答案、纠正方向——而无需任何人类示范如何做到。秘诀就是：纯强化学习，仅此而已。结果如此令人信服，以至于学术界最终将这项研究发表在《自然》杂志上。

行业 2026年6月2日分析 3 分钟

DeepSeek V4 Pro将75%降价永久化——经济型AI时代已来临且不会离去

2026年5月31日UTC时间15:59，DeepSeek V4 Pro的75%折扣促销活动到期。价格本应恢复至原始水平。但事实并非如此。DeepSeek决定这次折扣并非临时优惠——它就是新价格，句号。自此以后，这家中国公司的旗舰模型价格仅为原来的四分之一，而竞争对手们面临着一个严峻的问题。

DeepSeek API Documentation — Models & Pricing

DeepSeek V4 Pro将75%降价永久化——经济型AI时代已来临且不会离去

行业 2026年6月2日分析 3 分钟

华为Atlas 350：挑战Nvidia的中国芯片……但需注意重要细节

2026年3月20日，在深圳举行的华为中国合作伙伴大会上，该公司亮出了挑战Nvidia在AI加速器市场主导地位的最雄心勃勃的底牌。Atlas 350搭载全新Ascend 950PR处理器，在FP4精度下提供1.56 petaflops，在FP8精度下提供1 petaflop——性能约为Nvidia H20的2.8倍，而H20是美国在现行出口管制下允许向中国销售的最佳芯片。

South China Morning Post — Huawei challenges Nvidia with powerful new AI accelerator card

模型 2026年6月2日分析 3 分钟

NVIDIA Cosmos 3：首个理解物理世界的开放模型

2026年5月31日，在COMPUTEX台北国际电脑展上的GTC Taipei活动中，NVIDIA发布了Cosmos 3，一个有望改变机器人和自动驾驶车辆理解世界方式的模型。这并非Cosmos家族的又一次迭代：这是一次完整的架构跃迁，并且它带着一个没有其他人能够声称的标签——首个完全开放的物理AI"全能模型"（omnimodel）。

工具 2026年6月2日分析 3 分钟

Qwen 3.7 Max——最不平衡的模型

有些AI模型样样通、样样松。而Qwen 3.7 Max则是一个令人惊叹的程序员——同时，据深入测试过它的人说，也是现存最差的创意写手之一。这种不平衡并非偶然：这是一个设计决策。

行业 2026年6月2日分析 3 分钟

芯片出口漏洞的终结

将近一年来，中国企业一直在无需许可证的情况下购买全球最先进的AI处理器。这扇旋转门就设在它们自己的海外子公司，而华盛顿方面此前一直无人理会——直到现在。

解释文章 2026年6月1日分析 4 分钟

AI 智能体架构——为何编排比模型更重要

使用相同的模型、相同的基础提示词、相同的工具。一个团队构建了一个聊天机器人，逐条回答问题，却完全不记得之前对话的任何内容。另一个团队构建了一个智能体，它能自行规划、调用工具、验证结果并纠正错误。差异不在于大脑——而在于骨架。

Building effective agents

行业 2026年6月1日分析 2 分钟

编程智能体大战：SpaceX 携 600 亿美元入局

AI 编程智能体市场正在白热化。五家选手争夺同一块空间。如今 SpaceX——埃隆·马斯克的火箭公司——获得了一个以 600 亿美元收购 Cursor 的选择权。

Introducing Composer 2.5 — Cursor Blog

行业 2026年6月1日分析 2 分钟

大撤退：AI 巨头 CEO 们收回自己曾预言的就业末日论

2026 年 5 月的最后一周，人工智能领域三位最具影响力的人物做了一件科技 CEO 们不常做的事：公开承认他们错了。或者，在某个案例中，称那些以 AI 为借口裁员的人是"不负责任的"。

Firm Data on AI — NBER Working Paper w34836

模型 2026年6月1日分析 2 分钟

Claude Opus 4.8：Anthropic 押注于自我质疑的模型

Anthropic 于 2026 年 5 月 28 日发布了 Claude Opus 4.8。虽然这不是一次代际飞跃，但这一举措充分说明了行业的发展方向。

Introducing Claude Opus 4.8 — Anthropic

解释文章 2026年6月1日分析 4 分钟

它不思考，只是预测：生成式 AI 的内部机制

当你与 ChatGPT 或任何其他大语言模型对话时，体验如此流畅，以至于几乎不可能不将某种智能归结于它。它能回答问题、写诗、解释复杂概念，甚至似乎还能进行推理。但在其内部，机制比表象所暗示的要简单得多：生成式人工智能，就其最根本的核心而言，是一个极其精密的自动补全系统。它不思考，不理解，没有意识。它只是预测下一个词。

Attention Is All You Need

工具 2026年6月1日分析 2 分钟

Hermes Agent v0.15：学会自我防御的开源智能代理

Nous Research 于 2026 年 5 月 28 日发布了 Hermes Agent 历史上最大规模的更新。该版本被命名为"Velocity"，在短短 12 天内整合了来自近 200 位贡献者的超过 285 个 pull request。随后 24 小时内又发布了两个紧急补丁。

Hermes Agent v0.15.0 — The Velocity Release (GitHub)

解释文章 2026年6月1日分析 6 分钟

机器学习七大核心算法——以及何时使用它们

如果你曾好奇机器学习「黑箱」内部到底是什么，答案并没有看上去那么神秘。机器学习不是一个万能的咒语，而是一个装满工具的工作间（workshop），每种工具都专为解决某一类问题而设计。事实上，「没有免费午餐」定理（No Free Lunch Theorem，Wolpert，1996）从数学上证明，没有任何算法能在所有可能的场景中都优于其他算法。因此，关键不在于记住某个神奇公式，而在于了解整个选项菜单，并理解在每种具体情境下该用哪一个。

The Elements of Statistical Learning

解释文章 2026年6月1日分析 4 分钟

神经网络如何学习：从初始混沌到模式识别

想象一位音乐家，刚刚拿到一件从未演奏过的乐器。他最初的尝试会很难听，几乎是随机的。但随着每一个音符，他调整手指的力度、手的位置、吹气的力量。渐渐地，声音接近了期望的旋律。神经网络就是这样学习的——不是靠魔法，也不是靠显式指令，而是通过一个反复的试错与调整过程。一开始，它的预测就像瞎猜一样糟糕。但通过学习循环——即训练周期——网络将一堆随机数字转变为一个能够识别人脸、翻译语言或诊断疾病的系统。

Adam: A Method for Stochastic Optimization