谷歌深度学习最受期待的基础模型 Gemini 有望在下个月发布。Demis Hassabis 最近表示,DeepMind 的工程师们正在使用 AlphaGo 的技术开发 Gemini,它将成为人工智能领域的竞争对手,并在谷歌 I/O 活动中进行了预告。Hassabis 表示,Gemini 将比 OpenAI 的 GPT-4更具能力。
Hassabis 表示:“从高层次来看,你可以把 Gemini 视为结合了 AlphaGo 类型系统的优势和大模型的惊人语言能力。我们还有一些新的创新,非常有趣。”他补充道。
今年四月,谷歌将 Google Brain 和 DeepMind 团队合并成了一个整体——Google DeepMind。Pichai 意外地进行了这一合并,旨在通过谷歌似乎无穷无尽的计算资源和 DeepMind 的精确研究来提高效率,构建更具能力的系统,这将是人工智能竞赛的下一个前沿。
在此之前,这两个实体都针对 ChatGPT 制定了各自的应对措施。虽然 DeepMind 启动了名为 Chipmunk 的未公开模型的 Goodall 项目,而谷歌则基于 Google Brain 模型推出了 Bard。尽管团队之间存在竞争关系,DeepMind 放弃了 Goodall 项目,转而合作开发 Gemini。
然而,人们忘记了 PaLM 和 PaLM 2并不是由 DeepMind 创建的。因此,Gemini 有望成为 DeepMind 的第一个潜在的商业化模型,不会像 Gato 等有趣的模型一样被困在研究中。
尽管处于早期开发阶段,谷歌报道称 Gemini 在多模态能力方面取得了重大进展,超越了之前的模型。值得注意的是,Gemini 的设计从底层开始,采用了多方面的设计方法。这种设计不仅优先考虑多模态,允许其处理和理解各种形式的数据,而且还强调在工具和 API 集成方面的高效性。Gemini 的架构还可能促进未来的创新,特别是在记忆和计划方面。
这一进展的影响巨大,表明 Gemini 可以更好地理解和处理多种类型的数据。虽然 GPT-4擅长理解和生成对话文本,但 Gemini 将通过熟练处理包括文本、图像和视频在内的各种输入,超越这一能力。Gemini 还将能够生成文本、视频、音频、音乐和图像等形式的输出。此外,它还具备推理能力,能够促进多种语言和输入格式的翻译。
此外,谷歌员工之间的讨论也围绕着使用 Gemini 实现各种功能。这包括分析图表、生成附带文字描述的图形,以及通过文字或语音命令操作软件等任务。
推动企业服务
谷歌寄希望于 Gemini 推动一系列服务。这些应用包括与 OpenAI 的 ChatGPT 相竞争的 Bard 聊天机器人,以及面向企业的平台,如谷歌文档和幻灯片。为了实现这一目标,谷歌希望通过其谷歌云服务器租赁部门向应用开发者收费以获得 Gemini 的访问权限。目前,谷歌云通过 Vertex AI 提供对谷歌设计的较低级别的人工智能模型的访问。通过结合这些新特性,谷歌旨在缩小与微软之间的差距,微软在将新人工智能功能整合到 Office 365套件中已遥遥领先。微软还向其应用用户提供了 OpenAI 的模型。
开发新的医疗用例
谷歌一直致力于将其人工智能模型与开发医疗用例相结合。他们一直在测试名为 Med-PaLM 2的人工智能工具,该工具可以回答医疗问题。该产品正在被著名的医疗机构如 Mayo Clinic 研究医院进行测试。
借助 Gemini 的力量,这些努力可能会有所放大,并可以用于医疗聊天机器人或协助外科手术或医疗程序。
构建机器人
此外,谷歌还可能会利用构建 DeepMind 的“通用”系统 Gato 的经验,这个系统经过多模态、多任务训练,完成了包括图像字幕、对话、机器臂块堆叠、玩游戏和导航 3D 环境等604个任务。
Gato 的独特之处在于任务的多样性和训练方法,它采用了一个 Transformer 神经网络和文本、图像和动作等各种数据形式。在部署过程中,Gato 对提示和观察进行标记以按顺序生成动作。
类似地,最近推出的 RT-2基于 Transformer 架构,并通过在网络文本和图像上进行训练,使其能够直接生成机器人动作。
类似于语言模型,它通过从网络数据中学习来指导机器人的行为。这种创新是在 PaLI-X 和 PaLM-E 等视觉语言模型(VLM)基础上构建的,它在输出中使用动作标记来有效控制机器人的行为。
谷歌 DeepMind 最近推出的 RT-2作为 Robotics Transformer 模型的后继者,也使其在机器人领域迈出了重要一步。RT-2基于 Transformer 架构,并通过在网络文本和图像上进行训练,使其能够直接生成机器人动作。
这一创新借鉴了 PaLI-X 和 PaLM-E 等视觉语言模型(VLM)的发展,它通过在输出中使用动作标记来有效控制机器人的行为。类似于语言模型,它通过从网络数据中学习来指导机器人的行为。
尽管 DeepMind 的 Gato 被视为通往通用人工智能(AGI)的一步,因为它可以完成多样的任务,但 Gemini 可能是实现类似智能的实际进展。
可能打压 OpenAI 的 GPT-4
Google Brain 和 DeepMind 的合作可能给 OpenAI 和其他竞争对手带来麻烦。此外,像谷歌前总裁 Sergey Brin 这样的人也加入了他们的力量,以增强其人工智能能力。
OpenAI首席执行官 Sam Altman 认为视频训练是下一个前沿,然而,谷歌有优势,并拥有世界上最大的视频库——Youtube。
Gemini 正在通过 YouTube 视频进行训练,它将成为第一个不仅训练于文本(或 GPT-4的情况下的文本加图像),而是训练于视频的多模态模型。这可能使 Gemini 具备超越 GPT-4的能力。此外,别忘了它几乎可以访问整个互联网,谷歌最近通过更改其隐私政策宣称了该权益。
不仅如此,有报道表明,Gemini 的训练token数量是 GPT-4的2倍,是 PaLM 2的10倍,这使其变得更智能且不易产生幻觉。不仅如此,随着OpenAI和微软之间的摩擦,谷歌可能是击败OpenAI的,并成为第一个达到AGI或类似AGI模型的公司。