首页 / 科技
谷歌发言人确认:Gemini AI视频展示并非实时完成
12月9日消息,谷歌近日在一次采访中向媒体透露,他们之前发布的大型语言模型Gemini的演示视频实际上并非实时录制。这一消息引发了业界的关注,因为视频看起来极其先进,显示了Gemini模型在处理各种任务时的能力。
视频中展示了一系列引人注目的场景,例如Gemini模型能够在一个塑料杯中发现藏着的纸团,甚至能够识别出一幅“点线相连”的图画中描绘的是一只螃蟹。然而,据谷歌发言人向外媒透露,这些都是通过镜头捕捉的静止图像帧和文本提示来“拼凑”而成的。换句话说,Gemini模型只能对输入的提示和静态图像做出反应,而非实时处理。同样,视频中展示的用户与Gemini之间的语音互动实际上也是后期配音完成的。
据ITBEAR科技资讯了解,视频中的其他元素,比如人物的对话、绘画、展示物品,甚至魔术表演,似乎都是为了制作这段演示视频而特别安排的。谷歌在其官方YouTube频道上的视频描述中也提到,为了演示的目的,视频中的延迟已经被减少,而Gemini的输出也被缩短,以使内容更加简洁。这暗示了在现实应用中,Gemini模型响应用户输入的时间可能会比演示视频中看起来的要长。
谷歌DeepMind的研究副总裁兼深度学习负责人Oriol Vinyals对视频的目的做了进一步阐述。他指出,视频展示了使用Gemini模型构建的多模态用户体验可能的样子,并旨在激发开发者的创新思维。Vinyals强调,视频中的所有用户提示和输出都是真实的,但为了简洁起见,进行了缩短处理。此外,他还提到,视频中展示的是更高级的Gemini Ultra模型。
此前有报道称,谷歌宣称Gemini Ultra在32个广泛使用的学术基准测试中,在30个测试中都展现了超越当代的领先表现。这些基准测试被认为是大型语言模型领域最常用、最广泛的测试之一。其中,Gemini Ultra在大规模多任务语言理解(MMLU)测试中以90.0%的高分超越了人类专家。这一测试涵盖了包括数学、物理、历史、法律、医学和伦理等多达57个学科。
除此之外,Gemini Ultra还在新的MMMU基准测试中展示出了59.4%的领先水平。MMMU基准测试覆盖了一系列需要深入思考的多模态任务,涵盖了多个不同的领域。这一表现再次证明了Gemini Ultra在大型语言模型领域的先进性和多功能性。
谷歌还计划在明年初推出全新升级的 Bard Advanced,这将使用户能够更好地体验到Gemini Ultra的最佳模型和功能。
内容头条
相关内容
-
12月22日市场消息早报(周五)
-
高效落地大语言模型能力,澜码科技正式发布企业级AI Agent平
-
奔赴产业 大模型加速拥抱医疗健康新未来
-
Stability AI 推出会员订阅计划,Stable Diffusion 模型全面升
-
12月20日市场消息早报(周三)
-
12月19日市场消息早报(周二)
-
12月18日市场消息早报(周一)
-
12月15日市场消息早报(周五)
-
12月15日投资避雷针:6天4板人气股提示风险 公司不涉及“数据
-
安卓14取消App“Shortcut”消息通知功能 引不满
-
vivo发布创新产品:蓝心大模型与“蓝心千询”亮相
-
小爱同学大模型上线“文章摘要”功能:英文文章秒看懂
-
真我GT5 Pro最新消息:首发第三代骁龙8+IMX890长焦
-
iPhone 16最新消息:60Hz刷新率 使用M12有机材料
-
蚂蚁集团百灵大模型宣布通过备案 将向公众开放