谷歌或开展“Project Ellman”项目：用AI讲述个人生活故事

2023年12月11日由 daydream 发表 432 0

谷歌的一个团队提议使用人工智能技术，通过手机数据（如照片和搜索）为用户创建一个“鸟瞰”式的生活视角。

微信截图_20231211110926

这个项目被命名为“Project Ellmann”，以传记作家和文学评论家理查德·戴维·埃尔曼（Richard David Ellmann）的名字来命名，该想法将使用像Gemini这样的大型语言模型（LLM）来摄取搜索结果，发现用户照片中的模式，创建聊天机器人以及“回答以前不可能的问题”。埃尔曼项目的目标是成为“你的生活故事讲述者”。

目前尚不清楚公司是否计划在Google Photos或任何其他产品中实现这些功能。据谷歌公司的一篇博客文章所述，Google Photos拥有超过10亿用户和4万亿张照片和视频。

Project Ellman只是谷歌公司提出的许多使用人工智能技术创造或改进其产品的方法之一。周三，谷歌推出了迄今为止“最能干”的最先进人工智能模型Gemini，在某些情况下甚至超过了OpenAI的GPT-4。该公司计划通过谷歌云将Gemini授权给广泛的客户，供他们在自己的应用程序中使用。Gemini的一个突出特点是它是多模态的，这意味着它可以处理并理解文本之外的信息，包括图像、视频和音频。

根据文件，Photos的产品经理与Gemini团队一起在最近的一次内部峰会上提出了Project Ellman。他们写道，团队在过去几个月中确定，大型语言模型是实现这种鸟瞰生活故事的理想技术。

埃尔曼可以使用传记、先前的时刻和随后的照片来提供上下文，以便比“只有标签和元数据的像素”更深入地描述用户的照片。演示文稿中称，它可以识别一系列时刻，比如大学时光、湾区时光以及作为父母的时光。

在一个照片旁边描述如：“没有从鸟瞰角度的了解，我们既不能回答艰难的问题，也不能讲述好的故事。”

“我们会在你的照片中搜索，通过观看它们的标签和位置来识别一个有意义的时刻。”一张演示幻灯片这样写道。“当我们退后一步，整体了解你的生活时，你的总体故事变得清晰。”

演示文稿表示，大型语言模型可以推断出像用户孩子的出生这样的时刻。“这个LLM可以使用更高层面的知识推断出这是杰克的出生，而且他是詹姆斯和吉玛的首个也是唯一的孩子。”

“LLM对这种鸟瞰方法如此强大的原因之一，是它能够获取非结构化的上下文，并使用它来提高对其他区域的理解。”一张带有插图的幻灯片这样读，插图展示的是用户生活的不同“时刻”和“章节”。

演示者还给出了其他例子，例如确定一名用户最近参加了同学聚会。“距他毕业刚好10年，而且有很多10年未见面的人，所以可能是聚会。”团队在其演示中推断。

团队还演示了“Ellmann Chat”，描述为：“想象一下打开ChatGPT，但它已经知道你的生活中的一切。你会问它什么？”

它展示了一段示例对话，其中用户问“我有宠物吗？”机器人回答说，是的，用户有一只穿着红色雨衣的狗，然后提供了狗的名字和它最常跟随的两个家庭成员的名字。

还有一个聊天示例是用户询问他们的兄弟姐妹上次什么时候来访。另一个问它列出与他们居住的类似城镇的列表，因为他们在考虑迁移。Ellmann对两者都提供了答案。

Ellmann还展示了用户饮食习惯的总结，其他幻灯片显示。“你好像很享受意大利食物。有几张意面的照片，还有一张披萨的照片。”它还说，用户似乎喜欢尝试新食物，因为他们的照片中有一张菜单上的菜肴是它不认识的。

这项技术还确定了用户正考虑购买的产品、他们的兴趣、工作和旅行计划，这是基于用户的截屏，演示文稿这样说明。它还建议它能够知道用户最喜欢的网站和应用，例如谷歌文档、Reddit和Instagram。

谷歌的一位发言人告诉CNBC：“Google Photos一直使用人工智能帮助人们搜索他们的照片和视频，我们对LLM解锁更多有用体验的潜力感到兴奋。这是早期的内部探索，正如往常一样，如果我们决定推出新功能，我们将花费所需的时间确保它们对人们有帮助，并且在设计时将保护用户的隐私和安全作为我们的首要任务。”

大型科技公司争夺用AI驱动的‘记忆’

提议的Project Ellmann可能会帮助谷歌在科技巨头之间争夺创造更个性化生活记忆的竞赛中取得优势。

Google Photos和Apple Photos多年来一直提供“回忆”和基于照片趋势生成的相册。

去年11月，谷歌宣布，借助人工智能，Google Photos现在可以将类似的照片分组在一起，并将屏幕截图组织成易于查找的相册。

苹果公司在六月宣布，其最新的软件更新将包括其相册应用的能力，以识别人物、狗和猫在他们的照片中。它已经可以对面孔进行分类，并允许用户通过名称搜索它们。

苹果还宣布了即将推出的日记应用，该应用将使用设备内人工智能创建个性化建议，提示用户根据最近的照片、位置、音乐和锻炼来写下描述他们记忆和经历的段落。

但Apple、谷歌和其他科技巨头仍在努力处理适当显示和识别图像的复杂性。

例如，苹果和谷歌在2015年的报告发现该公司错误地将黑人标记为大猩猩之后，避免标记大猩猩。《纽约时报》今年的一项调查发现，苹果和谷歌的Android软件——这是大多数世界智能手机的基础，关闭了对灵长类动物的视觉搜索能力，以免将人标记为动物。

包括谷歌和苹果在内的公司随着时间的推移增加了控制措施以最小化不必要的回忆，但用户报告说它们有时仍然会出现，用户需要切换几个设置才能最小化它们。

文章来源：https://www.cnbc.com/2023/12/08/google-weighing-project-ellmann-uses-gemini-ai-to-tell-life-stories.html

标签：

谷歌 AI Project Ellman

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇苹果为开发者提供MLX框架进行机器学习

下一篇大型科技公司的主导地位扼杀了人工智能创新

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来