凌晨,刚看完直播
OpenAI终于迎来重大更新!
距离上次大更新
也就是GPT4的发布,已经1年多了
期间,各种小道消息就没停过
5月11号,OpenAI创始人和官方媒体,透露了今晚的更新。
不是搜索,也不是GPT5
而是ChatGPT和GPT-4相关更新
但是憋了这么久,我就知道,这次肯定有大招!
今晚,OpenAI到底更新了啥?
OpenAI今晚发布了最新旗舰模型GPT-4o,具有超强的多模态识别处理能力,大幅增强了视觉、听觉、以及推理能力。
GPT-4o中的“o”代表“omni”,文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
给它一张图,它就能理解图内包含的信息,并和我们互动反馈。
不仅如此,也可以直接用GPT-4o视频聊天了,通过视频和声音,他能感知你的情绪,感知你周围的环境。
并且,语音或视频聊天反应速度大幅提升,在 GPT-4o 之前,用语音模式与 ChatGPT 对话,平均延迟为 2.8 秒 (GPT-3.5) 和 5.4 秒 (GPT-4)。
但是GPT-4o平均低至320毫秒,跟正常人实时交互几乎差不多,这个对体验提升可以说十分巨大。真的就像是和真人聊天!
看在线发布会现场视频,嘉宾现场用笔在纸上出题,让GPT-4o现场解答,看我我震惊了!
①通过视频和语音获取信息
②超强推理能力
③实时互动无延迟
大写的服气!
这个很可怕啊!这意味着,教育行业、知识付费行业,都可能被GPT-4o替代!
如何实现这么牛逼的延迟呢?
GPT-4o跨文本、视觉和音频,端到端地训练了一个新多模态模型,所有输入和输出都交给同一神经网络处理。
而且官方文档里提到,因为是首次采用这种架构,目前的效果还只是小试牛刀。意味着,后续还有更大的提升空间。
传统模型基准能力
GPT-4o 在文本、推理和编码智能方面,跟GPT-4 Turbo相当,但是在多语言、音频和视觉功能上,整体实力远超前者。
对于开发人员来说,可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。
并提到,在未来几周内,小部分开发者即可体验到GPT-4o 新音频和视频功能能力。
对于个人用户来说,从今天起,就会逐渐推送使用权限,大家赶紧看看,自己有没有被内测到。
总结
GPT-4o这一次更新,主要不是在于模型基准性能,而是注重实用性的突破。超强的多模态能力,推理能力,加上模型每一个环节的运行效率,GPT-4o在实际使用体验上,有了质的飞跃!
虽然,这一次没有等待AI搜索,或者GPT5,但是也很惊艳!
更多AI工具、AI变现项目,请访问:AI客
加微信:860056696,围观朋友圈实操项目