上海人工智能实验室发布首个 AI 高考评测结果:最高 303 分,数学全部不及格

上海人工智能实验室发布首个 AI 高考评测结果:最高 303 分,数学全部不及格

百货之家 6 月 20 日消息,据上海人工智能实验室官微,近日,司南评测体系OpenCompass选取6个开源模型及OpenAI的GPT-4o开展首个大模型高考“语数外”全卷能力测试。评测采用全国新课标I卷,参与评测的所有开源模型,开源时间均早于高考,确保评测 “闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

首个大模型高考全卷评测结果显示,阿里通义千问Qwen2-72B、OpenAI的GPT-4o及书生·浦语2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,对应得分率分别为72.1%、70.5%和70.4%。大部分模型在“语言”本质上的表现良好,语文平均得分率为67%,英语更是达到了81%。而数学则是所有大模型的短板,平均得分率仅为36%;InternLM2-20B-WQX取得了75分的最高分,超过所有受测模型。然而仍未达到及格水平。原文链接

 
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容