IA al Día
高效了解 AI 的方式

分类

模型

语言模型、基准测试、发布、评估与对比。

模型 2026年6月3日 分析 6 分钟

2026年6月1日,阿里巴巴发布了 Qwen 3.7 Plus,瞬间彻底重新洗牌了关于哪款模型适合用于智能体编程的讨论。并不是因为它在所有基准测试中都是最好的——事实并非如此——而是因为它将三个此前从未共存于单一模型中的特性结合在了一起:低廉的价格、多模态视觉能力,以及长达35小时的自主运行上限。十一天前,纯文本旗舰模型 Qwen 3.

Qwen 3.7 Plus vs Qwen 3.7 Max — ofox.ai
模型 2026年6月2日 分析 4 分钟

2026年5月28日,距Opus 4.7发布仅六周后,Anthropic发布了Claude Opus 4.8,其定位对于正处于商业竞争白热化阶段的人工智能实验室来说非同寻常:该公司宣称其旗舰模型首先是更加诚实。数据也支持这一点——但完整的故事远比一份简单的新闻稿复杂得多。

Claude Opus 4.8 System Card (244-page PDF)