河洛网首页 新闻 关注 房产 汽车 教育 健康 婚庆 家居 旅游

| 人工智能

娱乐 体育 财经 科技 人工智能

世界上最难的“沙雕”游戏被AI打破了

来源:河洛网    发布时间:2021-09-09     发布人:洛阳新闻网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载,转载请与来源联系。

世界上最难的“沙雕”游戏被AI打破了

13年前,是这样的“ 变态” 高难度的游戏曾经风靡一时。

它的名字简单粗暴— — QWOP 意味着让玩家在这四个关键位置控制游戏人物的左右大腿和小腿,最快跑100米。

事实上,大部分玩家一开始拿到的时候,可能连起点线都走不动了。

如果能跑几米远,绝对是高手,也可以在朋友面前炫耀。

QWOP的难点在于,如果角色失去平衡,就很难再恢复,需要在100米的距离上不要让重心过于前后倾斜。

当你经过艰苦的练习后第一次跑的时候,就会放在50米作者故意设置的扶手上。 好的百米短跑为什么会有障碍?

△某小编当年的游戏截图

在那个4399小游戏盛行的时代,这也被称为&ldquo。男人跑100米” 。 因为太难了“ 变态” QWOP开发者收到过很多谩骂邮件。

虽然大部分人很难到达终点,但是骨灰级的玩家们依然很享受。 他们不仅可以轻松地奔跑,至今仍在为竞争世界排名而挑战。

两个月前,一个日本玩家创造了新的世界记录。 48.34秒。

看这个&ldquo沙雕游戏” 有没有考虑为了训练双足机器人而加强学习的画面?

来自波士顿的咨询数据分析师Wesley Liao也是这么认为的。

但是&请不要认为是&ldquo。 变态” 困难的游戏在AI面前就下起了毛毛雨。

Liao综合了迄今为止的多种强化学习算法,最后“ 世界名师” 告诉我,辛苦了,终于让AI打破了上周人类选手的记录。

你会发现这个游戏的难度不如围棋啊。 (手动狗头)

小牛刀一开始,Liao就使用OpenAI Gym加强学习环境训练AI,首先设定游戏的状态、操作、奖惩机制。

状态包括每个身体部位和关节的位置、速度和角度。 操作方法仅限于4个QWOP键、6个2键的组合以及完全不按键的11种。

训练AI的算法是ACER (具有经验再生能力的Actor-Critic )。 该算法的优点是不仅可以从最近获得的经验中学习更快的经验,还可以从记忆数据中学习更快的经验。

因为宏碁非常复杂,所以廖是别人的实现代码“ 稳定基线&雷达; 。

Liao先试着让AI自己学习一下。 经过多次实验,他发现AI只学了&ldquo。 擦膝盖” 这种方式跑在终点,速度很慢。

这和大多数人类普通玩家和其他强化学习算法一样,距离高手的水平还很远,更不用说打破记录了。

仔细分析后发现,AI完全没有学习舞步机制,只是学习了最安全、最慢的方法才到达终点。

似乎不可以在AI完全自学。

学习跑步就像DeepMind是顶级棋手教AlphaGo下棋一样,但是Liao认为人类玩家也可以教AI吗?

但是Liao本人的技术和顶级玩家差距太大了,自己最多也只能跑28米。

这不重要。 至少Liao迈出更大步伐的技术是,AI是“ 矿渣技术” 学一点跑步技术吧。

但不幸的是,AI认为“ 邯郸步” :不仅没有掌握跑步技能,反而在起点跌倒了。

然后Liao让AI自己继续训练。 师傅入门,个人修行,意味着AI能结合人类的技术和自学能力吗?

结果很兴奋,经过90个小时的训练,AI终于学会了像人一样跑步!

最终成绩为1分25秒,已经能进入世界排名前15名,超过人类不远了。

接下来要做的是教AI更多的技术。 本人的技术太渣了。

所以,为了进一步提高AI的水平,必须找顶级高手帮忙。

顶级辅助Liao观察了速通排行榜的视频,发现顶级玩家的技巧是通过抬起左腿可以跑得更快。

△第1位玩家gunmaneko的踢技

他是世界排名前两位的玩家gunmaneko和Kurodo教他踢球技巧的操作。

两个玩家热情地回答了他的问题。 其中,Kurodo指出,这个技巧的关键是减少游戏角色的纵向动作,提出了将身高保持在AI上的报酬函数。

Liao向Kurodo分享了他的代码,Kurodo慷慨地用代码把自己游戏记录了50次时的关键记录发给了Liao。

Liao利用这些数据尝试了AI的预训练,但效果并不好。 AI没有掌握踢球的技巧,反而忘记了基本的跑步方法。

Liao必须改变方法,将Kurodo的数据注入到AI的播放缓存* (播放缓冲器) *中。 这相当于修改了AI的记忆,让AI的记忆一半是自己的,另一半来自Kurodo。

然后AI每次自己玩的时候都会注入Kurodo的数据,保证AI随机从记忆中选择一个进行学习时选择两个记忆的概率是相同的,在学习新技术的过程中不要忘记基本的操作。

AI利用Kurodo的数据训练了15个小时,终于学会了踢球,但由于两种记忆不协调,跑步时间一长动作就不稳定。

Liao此时清除了Kurodo的记忆,让AI自己训练25个小时,总训练时间达到了65个小时。

最终AI成绩达到1分08秒,终于进入前十。

打破世界记录的Liao把教AI这个游戏的过程制作成视频发送到了网上。 一个月前,外国媒体Gismodo问他:“为什么AI还没有打破世界记录?”

于是,Liao重新训练了只为了优化速度而存在的新AI。

新的AI转移到了优先ddqn算法上。 由于该算法将权重添加到学习效率较高的状态,而不是均匀的采样,因此新的AI可以迅速掌握旧AI已经掌握的技术。

另外,新AI的奖励函数删除了身高、膝盖弯曲角度等参数,改为只与前进速度相关。

新的AI首先利用现有的数据进行几分钟的事前训练,然后进行40个小时的自我训练。 最终,新AI每秒进行的动作数量在训练环境中从9提高到18,在测试环境中达到25。

新的AI对于踢球技术的掌握非常稳定,即使受到障碍物的影响也会迅速恢复。

快速高效的动作使AI的成绩提高到了47.34秒,比人类最高纪录的48.34秒正好快了1秒。

正是这样,人工智能又被添加到了超越人类的游戏列表中。

你觉得One More Thing就这样结束了吗?

跑100米也跑不完,这个游戏有世界性的难度— — “ 男子跑完了马拉松” 。

支援Liao的玩家Kurodo最近刚提交了世界纪录,全世界也只有两个人完成了这个壮举。

难以想象他们在电脑前连续按QWOP画面几个小时。

此外,QWOP开发者Bennett Foddy还在继续开发这样的&ldquo。 变态” 难度较高的独立游戏

Getting Over It with Bennett Foddy很有名,中文名字“ 挖升&rdquo。 。 玩法是,被放在坛子里的人继续用锤子举起自己。

Foddy曾在普林斯顿大学和牛津大学担任博士后研究员,现在是独立的游戏设计师。 QWOP是普林斯顿大学时代开发的。

我只能说,学霸开发的游戏,学渣真的不能玩。

【编辑推荐】

人工智能“创造”有创造的权利吗?人民日报:没有 随着人工智能技术的发展,人工智能参与创作成为一个引人注目的亮点。然后问题出现了,人工智能的现状;创建和恢复。你享有版权吗? 人工智能“创造”有创造的权利吗?人民日报:没有 几天

当你惹恼程序员时会发生什么!阿里法院的大神很难忍受骚扰电话,创造了“两哈”人工智能 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 不要惹恼程序员。不要惹恼程序员。不要惹恼程序员。 当你惹恼程序员时会发生什么!阿里法院的大神很难忍受骚扰电话,创

麦肯锡《2020年人工智能状况》的报告显示,企业收入增加了,AI真的出力了。根据麦肯锡最近发表的人工智能调查报告《2020年人工智能状况》,显示如下。 麦肯锡《2020年人工智能状况》的报告显示,企业收入增加了,AI真的出力了。 bull; 由于采用了人工智能技术,72%的

“请给我彩色的黑色”,可以用一行命令让AI画画本文经AI新媒体量子位(公众号ID:QbitAI )授权转载,转载请与来源联系。 “请给我彩色的黑色”,可以用一行命令让AI画画 OpenAI今年1月发表的Dall-E为艳惊四座,只需输入一句话就可以根据内容输出图

未来增长的驱动力是什么?大数据+人工智能正在渗透并改变我们的生活 资料来源:Unsplash 未来增长的驱动力是什么?大数据+人工智能正在渗透并改变我们的生活 随着新一代信息技术的快速发展,计算能力、数据处理能力和处理速度都有了很大的提高。机器学习算法发

免责声明:非本网注明“禁止转载”的信息,皆为程序自动获取互联网,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责;如此页面有侵犯到您的权益,请给站长发送邮件,并提供相关证明,站长将在收到邮件24小时内删除。

热门标签

洛阳新闻网 | 新闻 | 关注 | 房产 | 汽车 | 教育 | 健康 | 婚庆 | 家居 | 旅游