会员登录 立即注册

搜索

[切换城市]

GPT-4o深夜炸场!实时通话丝滑如人类,Plus功能免费,网友:“她”真的来了

新资讯 2024-5-16 17:40 浙江日报 4 0

潮新闻 记者 杨一凡 金春华 谢丹颖


科幻电影《她》中,男主人公和一个人工智能女人陷入爱河。除了处理日常的工作和需求,人工智能顺畅地跟男主角对话谈恋爱,满足人的情感需要。如今,真的来了。



GPT-4o 发布


北京时间514日凌晨,OpenAI发布了最新的GPT-4oo代表Omnimodel全能模型),可以处理文本、音频和图像任意组合作的输入,并生成对应的任意组合输出。特别是音频,它可以在短至232毫秒的时间内响应用户的语音输入,平均320毫秒的用时已经接近人类在日常对话中的反应时间。


20多分钟的演示直播看,GPT-4o能看、能听、能说会唱,还能带着情绪和人聊天、随时引吭高歌,和人类的对话丝滑得像个真人,惊掉在场所有观众的下巴。让人惊呼:GPT-4o已经超越当下所有的语音助手,科幻电影中的真的来了!OpenAICTO米拉·穆拉蒂现场宣布,GPT-4o免费向所有人开放,让其使用没有门槛。


GPT-4o为何能引起如此轰动?新成果为何免费使用?未来又能打开哪些新可能? 


更像人


尽管此次发布的不是搜索引擎,也不是GPT-4.5GPT-5,但效果依旧炸裂GPT-4o中的o代表Omnimodel(全能模型,可以处理文本、音频和图像任意组合作的输入,并生成对应的任意组合输出),足见其山登绝顶我为峰的霸气


这次发布的GPT-4o,并没有在模型能力上有巨大突破,但是其展现的融合连贯的交互方式,非常值得关注。人工智能研究者、培训师王柳鸿表示,从交互效果来看,GPT-4o不再是僵硬的语音聊天工具,更像一个越来越接近人类的新物种


发布会上展示GPT-4o能听懂人急促的呼吸声,并引导如何放松


OpenAICEO山姆·奥特曼将之称为人类级别的响应。更灵活的嘴巴:对话实时回复,人类可以随时打断。声音可以带着感情,还能唱歌;会观察的眼睛,通过摄像头看到人穿了什么,通过周围环境布置判断人正在做什么;更聪明的大脑,可以解不等式、做同声翻译;还有更灵敏的耳朵,能听懂过于急促的呼吸声,并引导如何放松。


相较于上一代GPT-Turbo冷冰冰GPT-4o如何打通任督二脉,把各项技能融会贯通,看起来更像人?



推理能力方面,GPT-4o超越多个前沿模型取得最高分。来源:OpenAI官网


在业内技术专家看来,这背后是另择新技术路径的结果。GPT-4o可以在232毫秒内对音频输入做出反应,之前大模型之所以会出现对话延迟,是要先将音频转为文本,接受后再输出文本,然后将文本转成音频。一轮程序走下来,不免有延迟,也很难附着人的情绪。而借助GPT-4oOpenAI跨文本、视觉和音频,端到端地训练了一个新模型,所有输入和输出都在该模型中,交由同一神经网络进行处理。


定量免费


OpenAI不设使用门槛的做法,也引起了热议。


根据官网给出的资料,目前GPT-4o已经支持包括中文在内的20种语言,进行音频等多模态交互。OpenAI表示,这次更新是朝着实用性的方向发展,主要聚焦于免费用户,新功能将在未来几周内逐步推送给所有用户。不过,目前官方给出的免费限制在一定的消息数量,超过这个量后,免费用户的模型将被切换回ChatGPT,也就是GPT3.5,而付费用户则将拥有五倍的GPT-4o消息量上限。



图片来源:OpenAI官网


在多位业内人士看来,苦心研发的成果免费开放,看似不符合商业逻辑,但背后是OpenAIC端用户的争取与重视,在与众多同业巨头的竞争中,加速用户群积累。


从这次发布会内容来看,和之前发布新模型,必强调训练数据量、各项测试成绩等不同,GPT-4o的重点放在使用体验上。发布会后,OpenAI官网还发布了GPT-4o的一系列应用案例探索。包括:照片转漫画风格;会议记录;图片合成;基于图片的3D内容生成;手写体、草稿生成;艺术字体生成等,为C端用户提供了满满当当的个人助理工具箱


穆拉蒂表示,OpenAI使命的一个非常重要的部分,是让其高级人工智能工具能够向所有人免费提供,让人们对技术的能力有直观的感受


结合近期媒体透露出的OpenAI与苹果合作的消息,将对苹果的个人语音助理 Siri 带来颠覆性影响。GPT-4o或要对AIPCAI手机的厂商抛橄榄枝或是掀桌子,从终端设备方面进入更多普通人的工作生活。


来了


202211月推出后,ChatGPT成为历史上增长最快的消费类应用,已拥有约1亿周活跃用户。OpenAI表示,超过92%的财富500强公司正在使用该平台。电影中的《她》向着现实徐徐走来,甚至还有人将电影海报中的男主换成了奥特曼的形象。



GPT-4o可以根据文字生成图片并且将文字置于图片中,图片来源:OpenAI官网


GPT-4o的交互体验,触动了全球网友对应用场景的畅想。面向个体用户,可以提供的主情绪价值,充当AI面试官,助力盲人进行环境观察。依托多模态的交互,大模型或将进化为一个超级语音助理,成为又一个标志性时刻。市场应用的打开,也将对算力、算法、数据相关行业产生积极影响。也有业内人士表示,尽管目前国内模型能力上赶超OpenAI尚需时日,但其探索的技术方向和未来如何落地应用,也同样需要时间观察。


在乌镇数字文明研究院副院长司新颖认为,GPT4o的推出,令人欣喜地看到人工智能进入了转识成智的阶段。从去年开始,国内大模型集中发布,造就了当下百模千态,行业发展压力也变得越来越大。但同时,产品迭代和变现途径越来越大,应用层会在2025年迎来更大爆发。


于浙江而言,又能在哪些领域打开新可能?


在他看来,浙江的优势产业,应该重视GPT4o带来的可能变化。智能产业特别是先进制造,GPT-4o的赋能蕴藏着倍速增长的可能。因此,在新质生产力的构建体系中,应该尽快探索、尽早融入。但他也提醒:技术是一把双刃剑,风险防范意识同样不可或缺。对于大模型调用视听功能等情况,他认为,应该国内尽早出台相应的风险防范机制,避免未来出现信息安全等纰漏。


声明:发布此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请联系我们,确认后马上更正或删除,谢谢!
新资讯(www.xinzixun.cn)致力于为用户提供高效、便捷的资讯获取与信息服务,打造一个有影响力的多元化资讯平台。
关于我们
公司介绍
发展历程
联系我们
本站站务
服务协议
本站义务
友情链接
业务合作
广告服务
商家入驻
我要投稿

手机APP

官方微博

官方微信

新资讯:www.xinzixun.cn (盛世汇新旗下网站) 陇ICP备17005351号-5|甘公网安备 62012102000363号 客服邮箱:sshxqy@163.com 投稿邮箱:sshxqy@126.com
QQ|Powered by Discuz! X3.5 © 2001-2024 Discuz! Team.
返回顶部