高质量、大规模、安全可信的语料数据资源是AI时代的重要基石。7月6日上午,2024世界人工智能大会语料主题论坛在上海成功举办,上海市各相关部门代表、上海人工智能实验室、人民网、上海报业、上海图书馆、上海信投、上海算法创新研究院、中国信通院、复旦大学、华东师范大学、上海资产管理协会、中国银行、招商银行,国泰君安,以及近1000家大模型语料生态企业共同参会。 本次论坛以“语料筑基,智生时代”为主题,围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。 会上,中国工程院院士鄂维南,人民网党委书记、董事长叶蓁蓁发表主旨演讲。华为、阶跃星辰等大模型语料生态企业通过案例分享、圆桌共话的形式畅谈了各自对大模型产业发展的创新想法和实践。库帕思公司携手大模型语料生态伙伴,集中发布了一批大模型语料成果。 上海市政府副秘书长庄木弟在致辞中表示,语料数据是大模型训练的重要“燃料”,高质量的语料对于大模型在各行各业的应用十分关键,有助于大模型更好地适配实际应用场景,加快实现人工智能赋能千行百业的愿景。 未来,上海将围绕战略性语料资源重点发力,为大模型创新发展,创造更好的语料基础的环境:夯实语料数据基座,发挥大模型语料运行平台核心枢纽作用,汇聚基础性综合语料资源,配置行业性、专业性语料资源;厚植语料应用场景,围绕大模型训练需求,保障多知识、多模态、标准化的高质量语料数据供给,赋能大模型行业应用落地;营造语料良好生态,紧密链接大模型语料供给方、需求方、加工方、技术策源方、专家智库等主体,针对语料领域的好企业和好产品,着力制定认证标准、开展品牌建设,不断扩大朋友圈。 语料运营平台1.0上线,首批十大高质量语料产品发布。 对照最高标准、最好水平,打造世界一流的语料枢纽,实现更高效率、更高质量的语料供给,会上发布了“语料运营平台1.0”,实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。 为打响高质量语料品牌,进一步激发市场主体语料创新活力,增强供给侧能级,加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展。会上,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、文因互联、上海电科智能、海天瑞生集中发布了十大语料数据产品。 首个语料库建设导则面世,金融、教育、生命健康三大领域技术白皮书发布 语料数据是人工智能研究和应用不可或缺的资源,高质量语料库更是人工智能赋能新质生产力的关键。大模型赋能千行百业需要构建与场景适配的语料体系需要规则与实践的“并跑”。本次论坛中还发布了金融、生命健康、教育三项行业语料术白皮书。 《高质量金融语料技术白皮书》聚焦银行、证券、保险、基金等行业实践,重新定义了高质量金融语料数据集的内涵和外延,形成了基于金融领域知识体系的“语料魔方”方法论。 《教育人工智能大模型数据治理与共享技术白皮书》对标国内外教育数据的系列政策、标准,确立了教育行业语料数据的标准用例与价值体系,形成了一套教育AI大模型数据治理与共享技术标准。 《高质量生命健康语料技术白皮书》从基础医学、药物研发、临床医学、健康管理、中医中药五个方向确立了生命健康语料库的路线图,创新了从寻源、清洗到标注、测试的工具体系。 为实现“语料数据资源共建共享”“鼓励多元主体共同推动高水平语料数据要素建设”的目标,库帕思公司会同覆盖多模态数据资源供应、加工、应用和运营全链的近二十家企业共同发布了团体标准《语料库建设导则》。 50余单位共同发起语料倡议,10家企业入选2024语料风云榜 建立模型训练、语料供给、学术研究、第三方服务等多方机构合作机制,携手打造资源共享、互利共赢、国际融通的“语料生态圈”,是众多语料生态伙伴共同的愿景。为了进一步强化语料生态全产业链各主体间的交流合作,营造有利于我国大模型产业生态健康发展的环境,会上,50余家单位共同发起“语料生态服务大模型可持续发展倡议”,共同倡导携手为我国大模型产业发展持续提供高质量语料。 为加速促进大模型语料生态企业按照高标准发现“好产品”、培育“好企业”,本次论坛上,由大模型语料数据联盟正式发布“2024语料风云榜”,本榜单经过两个月严格的征集和评选,最终在众多参与企业中遴选出了10家上榜企业。他们提供了高质量和多样化的数据集来支持模型训练和优化,承担了中国大模型开发中数据的收集、清洗、标注和管理,为AI算法提供必需的语料资源,显著提升中国大模型的性能和应用效果。首届语料风云榜上榜企业有:上海恒生聚源数据服务有限公司、上海本原智数科技有限公司、北京云测信息技术有限公司、上海蜜度科技股份有限公司、星环信息科技(上海)股份有限公司、数据堂(北京)科技股份有限公司、整数智能信息技术(杭州)有限责任公司、标贝(青岛)科技有限公司、北京海天瑞声科技股份有限公司、天娱数字科技(大连)集团股份有限公司。 大模型与大数据库双轮驱动的人工智能方法 随着AI技术的不断进步和生态合作的深化,未来数据库将更加智能、灵活和强大,为人工赋能千行百业的实体经济发展提供坚实的基础。主旨演讲环节中,中国科学院院士鄂维南先生带来了主题为“大模型与大数据库双轮驱动的人工智能方法”的精彩演讲。鄂院士分享了如何将大模型方法和高性能的通用AI数据库方法相结合,来建立高效率、高准确率、低门槛、低成本的人工智能系统。 基于价值对齐的模型发展与语料数据的创新供给 与价值对齐是大模型可持续演进的基石主旨环节中,人民网党委书记、董事长叶蓁蓁先生分享了“基于价值对齐的模型发展与语料数据的创新供给”。他重点分享了人民网在主流价值对齐方面的实践与经验,基于多维度价值对齐体系的语料库,让大模型像人一样“有德、有趣、有序、有品、有用” 大模型语料生态企业案例分享 企业案例分享环节中,两家大模型语料生态企业代表从企业如何在AIGC时代通过提升高质量语料的开发利用来赋能业务发展。 上海阶跃星辰智能科技有限公司副总裁李璟以“大模型时代的产业落地新路径”为题,分享了阶跃在大模型语料生态领域的创新应用,他表示大模型技术与语料是相辅相成的,共同构建了人工智能领域的重要基石。语料作为大模型的养料,其质量和多样性直接影响模型的智能水平。阶跃星辰将携手行业伙伴,共建多元开放的合作关系,促进模型生态的繁荣和发展。 随后,游族网络CEO陈芳以“优质语料筑基,打造AI文化娱乐产业生态”为题分享了游族在文化娱乐产业里大模型语料又将面临何种机遇和发展未来。他表示随着AIGC时代的到来,人工智能技术正在成为数字文化产业发展的关键要素和澎湃动能,高质量语料是人工智能突破式发展的核心因素之一,其中互动娱乐语料具有极高的经济和社会价值,游族正在通过“小游酱”AI玩伴、企业内知识库等多方面创新实践,将优质语料多方位应用于文化娱乐产业,实现企业在AIGC时代的转型和加速发展。 共话未来-我们需要怎样的语料供给 语料数据在大模型开发中起到了决定性作用,是模型能力提升的关键基础。那么到底在提升通用大模型及垂直行业模型应用能力方面什么样的语料供给是最有价值的又最被需要呢?在圆桌环节中,来自上海本原智数的创始人李逆勇作为圆桌主持人提出了大模型的出现对于语料供给带来了哪些新的机会和挑战、数据的自动化标注与人工标注现况趋势及合成数据的未来三大问题。圆桌嘉宾华为上海代表处战略官房思哲、北京星尘纪元智能科技有限公司总裁章磊、标贝(青岛)科技有限公司联合创始人&首席技术官李秀林、智境云创创始人&CEO王智武、中云开源数据技术(上海)有限公司创始人、CEO陈刚进行了观点分享和思想碰撞。 本次会议由大模型语料数据联盟、上海库帕思科技有限公司、上海市数商协会、上海市人工智能行业协会、上海资产管理协会承办,中国联合网络通信有限公司上海市分公司、上海报业集团、中国信通院上海工创中心、上海亿欧网络科技有限公司、上海市国资委系统中青年知识分子联谊会、民建上海科创工委协办,并得到了商汤科技、游族网络、阶跃星辰、稀宇极智、智能投研技术联盟(ITL)等众多单位的鼎力支持。 作者:商慧 文:商慧图:采访对象提供编辑:徐晶卉责任编辑:戎兵 来源:文汇报 |