谷歌DeepMind推出SIMA智能体,可以跟人一起玩游戏

news/2024/5/20 10:21:15 标签: 玩游戏, 人工智能, 自动化, rpa, 科技, 大数据

谷歌 DeepMind 推出了 SIMA,这是一种通过训练学习游戏技能的人工智能代理,因此它玩起来更像人类,而不是一个只做自己事情的强大人工智能

从早期与 Atari 游戏合作,到以人类大师级别玩《星际争霸 II》的 AlphaStar 系统,谷歌 DeepMind 在人工智能和游戏领域拥有悠久的历史。

01 游戏是人工智能的重要试验场

视频游戏是人工智能 (AI) 系统的重要试验场。与现实世界一样,游戏是丰富的学习环境,具有响应灵敏、实时的设置和不断变化的目标。

在一份新技术报告中,谷歌 DeepMind 介绍了 SIMA(Scalable Instructable Multiworld Agent),它是一种用于 3D 虚拟设置的通用 AI Agent。这项研究标志着智能体首次证明它可以理解广泛的游戏世界,并像人类一样遵循自然语言指令执行其中的任务。 

SIMA 的存在并不是为了获得游戏高分,对于人工智能系统来说,学会玩一款视频游戏本身就是一项技术壮举。SIMA 的研究向人们展示了如何通过语言界面将高级人工智能模型的功能转化为有用的、现实世界的动作。

谷歌 DeepMind 希望 SIMA 和其他智能体研究能够使用视频游戏作为沙箱,以更好地了解人工智能系统如何变得更有帮助。

02 SIMA 经过九种不同游戏测试

谷歌 DeepMind 与八家游戏工作室合作,在九种不同的视频游戏上训练和测试 SIMA,例如Hello Games 的《No Man's Sky》和 Tuxedo Labs 的《Teardown》。

SIMA 产品组合中的每款游戏都开辟了一个新的互动世界,包括一系列可供学习的技能,从简单的导航和菜单使用,到采矿资源、驾驶宇宙飞船或制作头盔。

此外,谷歌 DeepMind 还使用了四个研究环境 - 包括 Unity 构建的“构建实验室”等,智能体需要用积木构建雕塑,以测试他们的对象操作和对物理世界的直观理解。

通过学习不同的游戏世界,SIMA 可以捕捉到界面语言并与游戏行为联系起来。例如,在游戏中,SIMA 会观察玩家所做的事情并记录导致他们进行游戏操作的指令。 

03 SIMA 可在十秒内完成简单任务

SIMA 是一种人工智能代理,可以感知和理解各种环境,然后采取行动来实现指示的目标。它包括一个专为精确图像语言映射而设计的模型和一个预测屏幕上接下来会发生什么的视频模型。

同时,谷歌 DeepMind 还会根据 SIMA 产品组合中特定于 3D 设置的训练数据对这些模型进行微调。

SIMA 不需要访问游戏的源代码,也不需要定制的 API。它只需要两个输入:屏幕上的图像以及用户提供的简单的自然语言指令,SIMA 使用键盘和鼠标输出来控制游戏的中心角色来执行这些指令。

这意味着 SIMA 可以与任何虚拟环境进行交互。

SIMA 的当前版本通过 600 项基本技能评估测试,涵盖导航(例如“左转”)、对象交互(“爬梯子”)和菜单使用(“打开地图”)等简单任务,SIMA 均可在大约 10 秒内完成。

谷歌 DeepMind 希望未来的 SIMA 能够处理需要高层战略规划和多个子任务才能完成的任务,例如“寻找资源和建立营地”。

04 SIMA 表现优于单游戏训练智能体

SIMA 的成功应用证明受过多种游戏训练的智能体比仅学习如何玩一种游戏的智能体更好。

在谷歌 DeepMind 的测试中,SIMA 智能体在九个 3D 游戏上进行了训练,其表现明显优于仅在每个单独的游戏上进行训练的所有专业智能体。而且,多款游戏训练过的 SIMA 在新游戏中的表现几乎与专门针对该游戏进行过训练的智能体一样好。

这种在全新环境中运行的能力凸显了 SIMA 超越其训练的泛化能力,但是 SIMA 需要进行更多的研究才能在已知和未知的游戏中达到人类的水平。

此外,谷歌 DeepMind 的测试结果还表明 SIMA 的性能依赖于语言。在控制测试中,若智能体没有接受任何语言训练或指令,它的行为是漫无目的的。例如,智能体可能会收集资源(这是一种常见行为),但不是按照指示去收集。

SIMA 的测试结果显示了开发新一代通用语言驱动的智能体的潜力。谷歌 DeepMind 也表示,SIMA 代表可扩展、可指导、多世界的智能体,目前还处于内测阶段,期待在更多训练环境中进一步构建 SIMA,并纳入更强大的模型。

最终,SIMA 可以理解并安全地执行各种任务,从而对网上和现实世界中的人们有所帮助。


http://www.niftyadmin.cn/n/5430198.html

相关文章

Java八股文(SpringMVC)

Java八股文のSpringMVC SpringMVC SpringMVC 什么是Spring MVC框架?它的特点是什么? Spring MVC是基于Java的一种Web应用框架,用于开发基于MVC(模型-视图-控制器)模式的Web应用程序。 它的特点包括: ○ 基…

零知识玩转AVH(4)—— 怎么玩(3)

接前一篇文章:零知识玩转AVH(3)—— 怎么玩(2) 上一回讲解了“arm-avh-best-practice-project-product-subscription-guide-cn.pdf”即“Arm虚拟硬件实践专题一:产品订阅指南(百度智能云版&…

HarmonyOS NEXT应用开发之Axios获取解析网络数据

介绍 本示例介绍使用第三方库的Axios获取GBK格式的网络数据时,通过util实现GBK转换UTF-8格式。该场景多用于需要转换编码格式的应用。 效果图预览 使用说明 直接进入页面就可获取GBK格式的用户名信息并进行解码操作。 实现思路 使用第三方库Axios获取网络数据&…

SpringBoot3学习记录(有ssm基础)

目录 一、SpringBoot3 介绍 SpringBoot3 简介 SpringBoot3 快速入门 入门总结 1.为什么依赖不需要写版本 2.Startrer(启动器)是什么 3.SpringBootApplication 二、SpringBoot3 配置文件 统一配置管理 使用yaml配置文件(推荐&#x…

前端页面加载性能优化

优化图片: 使用合适的图片格式(如 JPEG、PNG、WebP 等)。压缩图片以减小文件大小,可以使用工具如ImageOptim、TinyPNG等。使用图片懒加载技术,延迟加载页面中的图片,而不是一次性加载所有图片。使用 CSS Sp…

【汇编】#3 8086与数据有关的寻址方式

文章目录 操作码与操作数1. 8086处理器的与数据有关的寻址方式1.1 立即数寻址方式1.2 寄存器寻址方式 2. 有效(偏移)地址(effective address,EA)与缺省段寄存器选择tips:段跨越前缀2.1 直接寻址tips:直接寻址与立即寻址…

【NC16710】最大公约数(lcm)

题目 最大公约数(lcm) 明明是求最大公倍数,题目名称却叫最大公约数,赶紧改一下题目名称吧 思路 如题目所示,要求两个正整数 a , b a,b a,b 的最小公倍数,就要先求得两个数的最大公约数。 假设 a p g , b q g ap\times g,b…

用网格大师网络重划分时,坐标原点按照XML文件原点填写,导出的瓦块文件命名不对,坐标原点该怎么填写

瓦块名称和原来不一致的原因是瓦块原点这里设置的不对,要和重建设置的瓦块原点保持一致。 网格大师是一款能够解决实景三维模型空间参考、原点、瓦块大小不统一,重叠区域处理问题的工具“百宝箱”,集格式转换、坐标转换、轻量化、瓦片重划分…