会员登录 立即注册

搜索

[切换城市]

上线文生视频功能,腾讯大模型再追赶

新资讯 2024-12-4 12:10 北京商报 1 0


11月底就被剧透的腾讯混元大模型文生视频功能,在123日正式上线。目前该模型已上线腾讯元宝App,用户可在AI应用中的“AI视频板块申请试用,企业客户通过腾讯云提供服务接入,目前API(应用程序编程接口)同步开放内测申请。自OpenAI发布Sora,国内外的视频生成式大模型轮番抢镜,在国内快手和字节跳动正面交锋,阿里云、MiniMax、美图等也有备而来,和同行相比,腾讯混元不算快节奏。


在提示框输入一段描述,就可以生成一段视频,从使用流程看,腾讯混元大模型的文生视频功能和类似产品无异。在这部分,混元给用户提供了转场视频、多动作视频、超写实视频三种灵感提示。


北京商报记者体验发现,用户可以选择写实、动画、电影、黑白、赛博朋克五种视频风格及五种比例。高级指令部分的选择更多,包括景别、光线、镜头运动等,其中景别包括特写、近景等五种,镜头运动包括固定镜头、手持摄影、拉近镜头等14种。


根据腾讯提供的评测报告,腾讯混元视频生成模型与国内两个同类模型的持续时间都是5秒,在文本对齐方面的得分分别是61.8%62.6%60.1%,运动质量方面分别是66.5%61.7%62.9%,视觉质量方面分别是95.7%95.6%97.7%。和GENN-3 alphaWeb)相比,腾讯混元视频生成模型的持续时间少一秒,文本对齐高14.1个百分点,运动质量高11.8个百分点,视觉质量持平。


腾讯混元多模态生成技术负责人凯撒介绍,混元基于跟Sora类似的DiT架构,在架构设计上进行了升级。混元视频生成模型适配新一代文本编码器提升语义遵循,其语义跟随能力可以更好地应对多个主体描绘,实现更细致的指令和画面呈现;采用统一的全注意力机制,使每帧视频的衔接更流畅,实现主体一致的多视角镜头切换;通过图像视频混合VAE3D变分编码器),让模型在细节表现有明显提升,特别是小人脸、高速镜头等场景。


当天,腾讯宣布开源该视频生成大模型,该模型已在Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者可免费使用和开发生态插件。目前,腾讯混元已开源旗下文生文、文生图和3D生成大模型。


对于为何选在此时上线文生视频功能,凯撒的回答是:一个月前我们训练完了,现在上线水到渠成。业内人士更关心的是,该功能和同行相差的几个月时间差对腾讯的压力,视频生成的成熟度还没有到外界想象得那么高,现阶段还是要自己做技术打磨,凯撒说。


在和北京商报记者交流时,比达分析师李锦清表示,文生视频的实现难度更高,但商业空间更大,短期内竞争门槛不会马上建立,行业和企业有共性或特性的问题要解决,比如数据就是个槛


根据GIR(GlobalInfo Research)调研,2023年全球文生视频大模型收入大约720万美元,预计2030年达到22.19亿美元,20242030年期间,年复合增长率CAGR有望达到56.6%


北京商报记者 魏蔚


声明:发布此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请联系我们,确认后马上更正或删除,谢谢!
新资讯致力于为用户提供便捷、高效的资讯获取与内容创作和知识分享服务,打造一个有影响力的多元化中文新资讯平台。
关于我们
公司介绍
发展历程
联系我们
本站站务
服务协议
本站义务
友情链接
业务合作
广告服务
商家入驻
我要投稿

手机APP

官方微博

官方微信

甘肃盛世汇新资讯科技有限公司 陇ICP备17005351号-5|甘公网安备 62012102000363号 客服邮箱:sshxqy@163.com 投稿邮箱:sshxqy@126.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
返回顶部