月之暗面又开源了!登顶全球第一,还超了新版DeepSeek

月之暗面又开源了!登顶全球第一,还超了新版DeepSeek

4个月前

智东西 编译 | ZeR0 编辑 | 漠影 智东西6月17日报道,今日凌晨,月之暗面推出针对软件工程任务的全新开源代码大模型Kimi-Dev-72B。 该模型在SWE-bench Verified编程 …

AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率

1年前

  新智元报道   编辑:LRS 【新智元导读】普林斯顿大学新发布的CORE-Bench基准测试,通过270个基于90篇跨学科科学论文的任务,可评估AI智能体在计算可重复性方面的表现,最简单任务的准确 …