大模型高考全卷评测结果出炉：最高分303，数学全不及格

志斌 • 2024年6月19日下午4:47 • 人工智能

大模型之家讯 6月19日，上海人工智能实验室的司南评测体系OpenCompass公布了其首次针对七个大模型进行的高考“语数外”全卷能力测试结果。在这项测试中，阿里通义千问2-72B以303分的优异成绩位列榜首，紧随其后的是OpenAI的GPT-4o，获得了296分。上海人工智能实验室自家的书生·浦语2.0则以出色的表现位列第三，三个大模型的得分率均超过了70%。

大模型高考全卷评测结果出炉：最高分303，数学全不及格

这次高考全卷评测的总分为420分，涵盖了语文、数学和外语三科。从结果来看，尽管这些大模型在语文和英语方面普遍表现出色，但在数学科目上却遭遇了滑铁卢，最高得分仅为75分，无一及格。这一结果也揭示了当前大模型在特定领域，尤其是数学领域的局限性。

值得注意的是，此次排名末尾的是来自法国大模型初创公司的Mistral。尽管Mistral在其他领域可能有着不俗的表现，但在这次高考全卷评测中，其成绩显然未能达到预期。

原创文章，作者：志斌，如若转载，请注明出处：http://damoai.com.cn/archives/5903

赞 (0)

0 0

AI揭示罕见基因变异：冠心病治疗新途径浮现

上一篇 2024年6月19日上午10:19

百度文库新品「橙篇」引领长文本创作革命，首创10万字长文生成能力

下一篇 2024年6月19日下午5:05

人工智能

百度举办北京首场“龙虾”市集，近千人自由养虾

大模型之家讯 3月11日，北京首场“龙虾”市集活动在百度科技园举行。现场，数十名百度工程师一对一为近千名用户提供了云端OpenClaw免费安装服务，让他们实现养虾自由。活动现场，百…

志斌
2026年3月11日
人工智能

欧洲杯处处都是“黑科技”，大模型能否成功预测冠军？

随着欧洲杯小组赛的激烈角逐逐渐步入高潮，这项仅次于世界杯的足球盛宴再次点燃了全球球迷的热情…… 作为足球界的顶级盛事之一，欧洲杯不仅是球员们展示技艺的舞台，更是球迷心中不可替代的节…

王昊达
2024年6月24日
人工智能

马上消费副总经理孙磊：人工智能已应用于公司业务各个领域，成为发展的基石

大模型之家讯 3月28日，由马上消费联合中国科学技术出版社、金融界共同举办的“大模型驱动下的金融新质生产力创新论坛暨全国首部《金融大模型》著作发布”活动在京隆重举行。本次大会云集…

志斌
2024年3月28日
人工智能

当AI把薯片看成枪：一个“Hard Case”拷问万亿安防产业

“薯片惊魂”事件的背后，不只是AI误报引发的笑话，更暴露了AGI路上不得不面对的坎。近日，在美国马里兰州的校园里，一名16岁高中生因口袋里的一包薯片被学校AI监控系统误判为枪支,…

志斌
2025年10月29日
助推国产算力商业落地首批9家企业11款芯片通过“星火·国产算力AI原生适配认证”

大模型之家讯 1月26日，北京电控旗下人工智能企业北电数智推出面向芯片厂商应用场景适配的“星火·国产算力AI原生适配认证”。目前，华为、海光、沐曦、天数智芯、清微智能、壁仞科技、…

志斌
人工智能 2025年1月26日
人工智能

从概念到落地：巨头们都在聊的AI Agent，给行业带来了多少惊喜？

2025年，AI Agent持续领跑人工智能领域热门赛道。从Auto GPT到百度旗下的Agent Builder，再到如今已经成为行业提升效率、拉动新一轮生产力增长的技术路径………

王殿漪
2025年7月16日
人工智能

联想智能云入选Gartner全球报告，树立企业云成本治理新范式

大模型之家讯近日，国际研究机构Gartner发布《优化云成本的责任共担机制》全球案例报告，联想集团凭借旗下联想智能云（Lenovo xCloud）在多云管理与FinOps领域的系…

志斌
2025年7月15日
百度文心一言率先向全社会全面开放

大模型之家讯 8月31日，文心一言率先向全社会全面开放。广大用户可以在应用商店下载“文心一言APP”或登陆“文心一言官网”（https://yiyan.baidu.com）体验。 …

志斌
人工智能 2023年8月31日
人工智能

“清华系”VS“阿里系”：中国大模型创业的“隐形门派”之争

随着中国大模型赛道持续了一年有余的“百模大战”逐渐褪去其狂热的喧嚣，转而走向应用生态的落地，如今大模型战局不再是简单的巨头与创业公司的对垒，而是演化为以技术传承、人才网络和资本图谱…

志斌
2025年9月4日
人工智能

谷歌发布全新Gemma 2大模型：小参数大性能

大模型之家讯谷歌昨晚发布了全新开源大模型系列Gemma 2，包括Gemma 2 9B和Gemma 2 27B两款型号，旨在满足研究和开发人员的广泛需求。Gemma 2系列凭借其参…

志斌
2024年6月28日

发表回复

登录后才能评论

志斌

数码科技领域深耕多年的专业管理者与技术服务专家，现任大模型之家主编、速途网资深编辑、元宇宙研究院分析师。专注于人工智能、消费电子与IDC行业的深度报道，凭借广泛科技圈人脉，包括媒体、公关、分析师及企业高层，持续引领行业洞察与分析。商务合作咨询： Qiaodao007

1.4K posts

0 comments