界面新闻记者 | 陈振芳
界面新闻编辑 | 宋佳楠
OpenAI 召开春季发布会第二日 ,谷歌则以新一届 I / O 开发者大会对阵。
这场活动自北京时间 5 月 15 日凌晨 1 点开始便“火药味”满满 。谷歌在会上选择“宣布一切”:连续发布、更新了十多款产品,包括 AI 助手 Astra 、文生图模型 Imagen3、对标 Sora 的文生视频模型 Veo,以及备受瞩目的旗舰大模型 Gemini。
当 OpenAI“鸽 ”掉搜索,转而推出最新旗舰大模型 GPT-4o 后 ,长期占据搜索霸主地位的谷歌,不仅重新设计了 AI 搜索,还同步推出 AI 识图助手。
Gemini 的新语音对话功能 Live 更是直接对标 OpenAI 的 GPT-4o ,同样可通过手机实时询问周围的情况,即使中断对话也能再及时跟进。
此外,谷歌浏览器 Chrome 将添加 GeminiNano 。后者是 Gemini 系列中的一个轻量级版本 ,主要针对移动设备设计。
谷歌还表示,另一小模型 Gemma2.0 即将于今年夏天推出,包括开源模型 PaliGemma ,可用于标记照片以及为图像添加标题。Gemma 模型采用与 Gemini 模型相同的技术栈,但规模更小,适合在资源受限的环境中部署 。
很大程度上 ,人工智能竞赛也是一次争夺智能手机的竞赛。谷歌产品管理副总裁 SameerSamat 明确表示,谷歌将通过 Gemini 进一步优化安卓操作系统。这种优化将首先在谷歌自家手机 Pixel 上得到体现 。
Gemini 显然是此次发布会的主角,这当中尤以多模态和长上下文技术被着墨更多。
过去几个月,谷歌已经推出了能够进行长上下文预览的 Gemini 1.5Pro ,在翻译、编码和推理方面进行了一系列改进。目前,Gemini 1.5Pro 的上下文长度由 100 万 token(文本处理的基本单位)刷新到 200 万 token,三个月即翻了一倍 ,表明该公司急于借此向外界“秀肌肉” 。
此时距离 Gemini 问世已有一年,这一多模态大模型已经可以跨文本、图像 、视频、代码等进行推理。据谷歌透露,有 20 亿用户以及超 150 万开发人员都在使用 Gemini 模型 ,该模型可被用于调试代码、获得新的见解并构建下一代人工智能应用程序。
为了能够进一步展示该模型的多种特性,谷歌针对搜索 、照片、安卓系统等不同场景做了更加细致地介绍 。
例如在搜索方面,Gemini 为其带来了全面的 AI 化改造。用户可以提出更新、更长 、更复杂的问题进行查询 ,甚至利用照片进行搜索。谷歌计划在本周开始向美国地区推出“AI 概述”搜索,后续会在其他国家上线。
谷歌在现场展示了“询问照片 ”这一功能 。当用户在停车场付费却忘记了车牌号码时,通常可能会在手机照片中搜索关键字 ,浏览大批过往照片来寻找车牌。但现在,只需询问照片,就能准确告知经常出现的汽车,对车辆进行三角测量 ,并告知车牌号。
再比如,你可以向照片提问自己的孩子是什么时候学会游泳的,甚至于干脆让照片告诉你孩子的游泳进展如何 。
Gemini 不仅仅是一个聊天机器人 ,也是个人助手,能够帮助用户处理复杂的任务以及采取行动。Gemini 1.5 Pro 也被引入谷歌云计算服务 GoogleWorkspace。谷歌号称,Gemini 可以完成所有工作所需步骤 。以退货为例 ,AI 可在邮件中搜索收据,找到相应的订单号,自动填写退货表格 ,并安排取件。
大模型就是一场算力竞赛,训练更先进的模型需要大量的算力。过去六年中,行业对机器学习计算的需求增长了 100 万倍 ,并且每年都会增加十倍 。作为 AI 时代的重要参与者,谷歌也在基础设施方面发力颇多。
当晚,谷歌即发布了第六代 TPU(谷歌专为加速机器学习工作负载而设计的一种应用特定集成电路)——“Trillium”,并称 Trillium 是其迄今为止性能更高、效率更高的 TPU ,与上一代 TPUv5e 相比,每个芯片的计算性能提高了 4.7 倍,计划将在今年底向客户提供。
Gemini 完全在谷歌自研的第四代和第五代 TPU 上接受训练和服务 ,包括 Anthropic 在内的其他领先人工智能公司也在 TPU 上训练了他们的模型 。
但在谷歌为其各种产品“灌注”AI 功能的同时,意味着用户需要对个人隐私数据做出更多让渡。对此,谷歌承诺 ,不会使用其平台上的用户文件来训练 Gemini 或其他人工智能模型。
谷歌 CEO 皮查伊表示,当天的发布会提到了 121 次“AI ”,足以表明 AI 对谷歌的重要性。但除了强调重要之外 ,这场被外界所期待的针对 OpenAI 的反击,并没有带来更大的惊喜 。
评论列表
内容丰富,引人深思。
内容丰富,引人深思。