会员登录 立即注册

搜索

[切换城市]

商汤日日新文科能力登顶 国产大模型首超GPT-4 Turbo!

新资讯 2024-5-22 21:20 IT时报 3 0

作者:孙妍 来源:IT时报


521日,国内权威大模型测评机构SuperCLUE榜单出炉,商汤日日新5.0”(SenseChat V5)的中文基准测评结果排名第一,以总分80.03分的成绩刷新国内最好成绩,并且在中文综合成绩上超越GPT-4-Turbo-0125,这是国内大模型首次在SuperCLUE中文基准测试中超越GPT-4 Turbo实现登顶。



商汤日日新文科能力国内外第一


SuperCLUE综合性测评基准4月评测集,2194道多轮简答题,覆盖理科与文科两大能力,包括计算、逻辑推理、代码、长文本在内的基础十大任务。


在本次测评中,商汤日日新5.0在各项能力上表现较为均衡,尤其在长文本、生成创作、角色扮演、安全能力、工具使用上处于全球领先位置。



在文科任务上,商汤日日新5.082.20分取得国内外最高分,较GPT-4-Turbo-01254.40分。其中,知识百科(82.4)、长文本(79.2)、角色扮演(80.4)、语义理解(81.6)、生成创作(79.4)、传统安全(90.2)均刷新国内最好成绩。


在理科任务上,商汤日日新5.076.78分取得国内最好成绩。其中,计算(80.6)、逻辑推理(73.8)、工具使用(80.8)均刷新国内最好成绩。



数据来源SuperCLUE


SuperCLUE:日日新所有能力均超国内模型平均线


SuperCLUE工作组发现:将商汤日日新5.0所有能力与国内大模型对比,均高于平均线,综合能力较为均衡,尤其在计算、逻辑推理、代码、长文本能力上远高出平均线15分以上。



对比数据来源:SuperCLUE, 2024430


在与国外代表大模型对比时,SuperCLUE的工作组评估,商汤日日新5.0在文科类中文任务上好于国外大模型,尤其在长文本、生成创作能力较为领先。



中国首个GPT-4 Turbo级别大模型


423日,商汤科技发布全新大模型日日新5.0,采用混合专家架构(MoE),参数量高达6000亿,支持200K的上下文窗口。其背后是训练数据和训练方法的有效提升,以及商汤AI大装置SenseCore算力设施与算法设计的联合调优。



在数据方面,日日新5.0生产了10T tokens的高质量训练数据。通过多个模型进行数据的过滤和提炼,显著提升预料质量和信息密度,基于精细聚类的均衡采样确保对世界知识覆盖的完整性。同时,日日新5.0还大规模采用思维型的合成数据(数千亿tokens量级),这对于模型在逻辑推理、数学和编程等方面的能力提升起到关键作用。


日日新5.0采用了自研的多阶段训练链路,包括三阶段预训练、双阶段SFT和在线RLHF。通过在每个阶段设定更加清晰聚焦的目标,实现更敏捷的调优,也避免了不同目标之间的相互干扰。


在预训练阶段,分阶段培养模型的基础语言和知识能力、长文建模能力,以及复杂逻辑推理能力(规模化采用合成数据);在 SFT 阶段,把任务指令遵循和对话体验优化分解到双阶段进行;在 RLHF 阶段,采用统一的多维度奖励模型和动态系统提示词对多维度偏好进行打分,从而更好地实现模型在多个维度和人类期望对齐。


商汤大模型以日日新为名,遵循尺度定律的路径逐渐清晰,不断突破数据与算力的限制,从而提升大模型通用能力提升和落地。


声明:发布此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请联系我们,确认后马上更正或删除,谢谢!
新资讯(www.xinzixun.cn)致力于为用户提供高效、便捷的资讯获取与信息服务,打造一个有影响力的多元化资讯平台。
关于我们
公司介绍
发展历程
联系我们
本站站务
服务协议
本站义务
友情链接
业务合作
广告服务
商家入驻
我要投稿

手机APP

官方微博

官方微信

新资讯:www.xinzixun.cn (盛世汇新旗下网站) 陇ICP备17005351号-5|甘公网安备 62012102000363号 客服邮箱:sshxqy@163.com 投稿邮箱:sshxqy@126.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
返回顶部