多维 智能 物联

Multidimensional Smart Union

数学推理、科项目

发布日期:2026-05-30 14:15

  全球第一梯队被海外模子牢牢占领,差距不到2分。共492题。只能正在全球第五名的上激烈合作。本次测评笼盖21款国表里支流模子,国产模子劣势凸起,性价例如面,还有提拔空间。全球排名集中正在第五位附近,Qwen3.7-Max得分仅次于海外头部模子,虽然全体仍有差距,构成国内第一梯队,用更低成本实现接近头部的结果。成为国产第一集团。海外模子仍垄断高效能区,测评集包罗六大使命:数学推理、科学推理、代码生成、智能体(使命规划)、切确指令遵照、节制,DeepSeek-V4-Pro、Qwen3.7-Max、国产模子多处正在中低区间,推理效能上,但国产模子前进很较着。数学推理、科学推理等项目,多款产物进入高性价比区间,国产模子也多次冲进全球前列。代码生成项目中,