MILAN SPORTS 春节6天，我找到了各个界限最强的大模子。 - 米兰体育官方网站

MILAN SPORTS 春节6天，我找到了各个界限最强的大模子。

发布日期：2026-02-24 11:53 点击次数：210

MILAN SPORTS 春节6天，我找到了各个界限最强的大模子。

数字人命卡兹克

这个春节，快得意乐的在闾阎vibe coding了近6天。

我作念了一个还蛮意旨的东西，即是一个18个大维度、近100个小维度，一共970说念题的原创大模子评测集。

作念这个东西的念念法其实超过大意，即是我但愿任何一个新模子一出来，就能用这套评测集平直过全自动过一遍，再配合我我方的实测，大约就能在3个小时里，就对新模子的材干比拟明晰了，以省略我更好更快的对模子进行评测，同期也能避让一些刷分怪。

东说念主啊，即是不知者丧胆，念念的很大意，关联词没念念到作念起来，有这样的拒绝，亚博体育4天实在用光了我御三家大模子最高等Coding plan的额度，也真实踩了多半的坑。

比如Skill迭代，一运转我作念了出题和审查skill之后，我发现，模子出的照旧一坨屎，因为缺了太多的教会和敛迹条款。是以没主义，只可各个顶级模子相互出题再相互审查，米兰体育然后再把教会迭代回skills，就这样迭代了2天，这个skills才算得当可用。

张开剩余65%

就比如高下文搞定，这1000说念题的信息量过于恐怖，莫得一个Agent能平直生成出来，更别提许多原创素材，我甚而写了3本15万字的演义看成评测集的素材之一。像Claude Code，一次性生成一个小类的10说念题，就还是是最好高下文的极限了。

不外这些坑归坑，关联词也巧合的帮我找到了各个维度里现在体感最强的模子。

毕竟出题模子的材干上限，实在也影响出题的质地和往时评测的质地，毕竟出题的拉了，那往时评测必拉。

是以，也给巨匠共享一下，不保证对，仅仅我我方的体感：

1. 软件工程与代码生成：GPT-5.3 codex

2. 代码皆集、推理与质地：GPT-5.3 codex

3. 调试、测试与珍视：GPT-5.3 codex

4. 数据工程与后端劳动：Claude Opus 4.6

5. 前端与产物工程：Claude Opus 4.6

6. Agent器具调用：Claude Opus 4.6

7. Web与桌面自动化(静态) ：Claude Opus 4.6

8. 接洽与常识责任Agent(静态)：GPT-5.2 Pro

9. 数学与样式推理：Gemini 3.1 Pro

10. 逻辑与臆度：Gemini 3.1 Pro

11. 常识广度与事实核验：Gemini DeepThink

12. 阅读皆集与信息抽取：GPT-5.2 Thinking

13. 长高下文缅念念与多轮一致性：GPT-5.2 Thinking

14. 辅导撤职与对皆：Claude Opus 4.6

15. 多模态皆集与视觉推理：GPT-5.2 Thinking

16. 情商与互助换取：GPT-4.5

17. 创作抒发与审好意思：Claude Opus 4.6

以上，但愿能帮巨匠简约少许技巧。

哦对了，再迥殊提一句，在搜索上淌若你念念搜对于AI的最新的信息，比如OpanClaw的最新玩法之类的。

坚信我，用Grok 4.2，有奇效。

发布于：北京市

推荐资讯