米兰体育官方网站 - MILAN
你的位置:米兰体育官方网站 - MILAN > 关于米兰 >

数字人命卡兹克
这个春节,快得意乐的在闾阎vibe coding了近6天。
我作念了一个还蛮意旨的东西,即是一个18个大维度、近100个小维度,一共970说念题的原创大模子评测集。
作念这个东西的念念法其实超过大意,即是我但愿任何一个新模子一出来,就能用这套评测集平直过全自动过一遍,再配合我我方的实测,大约就能在3个小时里,就对新模子的材干比拟明晰了,以省略我更好更快的对模子进行评测,同期也能避让一些刷分怪。
东说念主啊,即是不知者丧胆,念念的很大意,关联词没念念到作念起来,有这样的拒绝,易游4天实在用光了我御三家大模子最高等Coding plan的额度,也真实踩了多半的坑。
比如Skill迭代,一运转我作念了出题和审查skill之后,我发现,模子出的照旧一坨屎,因为缺了太多的教会和敛迹条款。是以没主义,只可各个顶级模子相互出题再相互审查,米兰体育然后再把教会迭代回skills,就这样迭代了2天,这个skills才算得当可用。
张开剩余65%就比如高下文搞定,这1000说念题的信息量过于恐怖,莫得一个Agent能平直生成出来,更别提许多原创素材,我甚而写了3本15万字的演义看成评测集的素材之一。像Claude Code,一次性生成一个小类的10说念题,就还是是最好高下文的极限了。
不外这些坑归坑,关联词也巧合的帮我找到了各个维度里现在体感最强的模子。
毕竟出题模子的材干上限,实在也影响出题的质地和往时评测的质地,毕竟出题的拉了,那往时评测必拉。
是以,也给巨匠共享一下,不保证对,仅仅我我方的体感:
1. 软件工程与代码生成:GPT-5.3 codex
2. 代码皆集、推理与质地:GPT-5.3 codex
3. 调试、测试与珍视:GPT-5.3 codex
4. 数据工程与后端劳动:Claude Opus 4.6
5. 前端与产物工程:Claude Opus 4.6
6. Agent器具调用:Claude Opus 4.6
7. Web与桌面自动化(静态) :Claude Opus 4.6
8. 接洽与常识责任Agent(静态):GPT-5.2 Pro
9. 数学与样式推理:Gemini 3.1 Pro
10. 逻辑与臆度:Gemini 3.1 Pro
11. 常识广度与事实核验:Gemini DeepThink
12. 阅读皆集与信息抽取:GPT-5.2 Thinking
{jz:field.toptypename/}13. 长高下文缅念念与多轮一致性:GPT-5.2 Thinking
14. 辅导撤职与对皆:Claude Opus 4.6
15. 多模态皆集与视觉推理:GPT-5.2 Thinking
16. 情商与互助换取:GPT-4.5
17. 创作抒发与审好意思:Claude Opus 4.6
以上,但愿能帮巨匠简约少许技巧。
哦对了,再迥殊提一句,在搜索上淌若你念念搜对于AI的最新的信息,比如OpanClaw的最新玩法之类的。
坚信我,用Grok 4.2,有奇效。
发布于:北京市
下一篇:没有了

备案号: