中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一
5月9日,中文通用大模型综合性评测基准 SuperCLUE 正式发布。该基准测试主要关注以下问题:中文大模型在不同任务上的表现如何?与国际代表性模型相比,中文大模型的表现达到了何种程度?中文大模型与人类表现相比如何?
该模型可通过多个层面,考验市面上主流的中文 GPT 大模型的能力:
基础能力: 包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项能力。
专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力。
中文特性能力: 针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等 10 项多种能力。
该机构利用 SuperCLUE 测试基准,对市面上主流的支持中文的通用大模型进行了评测与排名。从排名中我们可以看出,GPT-4 一骑绝尘,已经非常接近人类的能力。国产大模型中讯飞科技研发的星火认知大模型总排名第三,国内排名第一。
以下为该机构公布的各个子项目的具体得分。排行榜会定期更新,并于CLUEbenchmarks 官方网站网站进行公示。
最近更新
-
科大讯飞沈海波:讯飞星火认知大模型构建金融科技新生产力
科技 · 05-06 20:40
-
中叉物流科技夏子军获评十大牛商称号
科技 · 04-26 09:41
-
深圳希玛林顺潮眼科医院:干眼还能做近视手术吗?
科技 · 04-11 13:46
-
汤臣倍健用心打造透明工厂,”智造“魅力获消费者认可!
科技 · 03-07 13:56
- 睿联技术自主品牌线上销售排行掺水 产品信息安全漏洞频发存隐忧
- 上市以来首次营收利润双降,中国飞鹤打法失灵?
- 2天股价“腰斩”! 绿竹生物市值减少五成,多家机构股东踩雷
- 一季度商业地产市场供需两端仍走弱,部分头部企业业绩修复 | 商业地产月报
- 5.10号,今日市场利好消息
- 万柳书院爆雷,75套豪宅沦为抵押物
- 美元两连升 警惕欧元/美元和美元/日元汇率爆炸性行情
- 安全性、豪华感兼备:XC90彰显沃尔沃汽车独特魅力
- 中文通用大模型基准测试 SuperCLUE 发布,讯飞星火认知大模型国内第一
- 突发斗鱼被网信进驻,直播涉黄低俗为什么会屡罚屡犯?
专栏推荐
-
军师点兵
浓缩机构研究精华,提前捕捉市场风口
1589人已购
¥258.00/月
-
排股掌内功心法
股市修炼有三大要素,即方法、选股、择时。
132人已购
¥399.00/月
-
尾盘擒牛之如何选股?
学完这些方法,告别选股难!
14人已购
¥288.00/月
-
财报拆解
知识点解读+实战案例,帮你5小时学会看财报
72人已购
¥19.90/月