谷歌的邪恶实验当AI面临囚徒困境是互相攻诘还是相互合作-【新闻】
近些年来,人工智能正在一步步走入我们的生活,因此我们必须了解这些聪明的“大脑”在面对两难境地时会如何选择。为此,谷歌的 DeepMind 团队专门进行了针对性的实验,而实验中的两款游戏都是在博弈论的囚徒困境理论的基础上开发的。
所谓的囚徒困境是两个被捕的囚徒之间的一种特殊博弈,两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑两年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。这一经典理论说明了为什么在合作对双方都有利时,保持合作也是困难的。
游戏 1:红蓝色两个 AI 收集绿色苹果
“在现实生活中,无论是合作还是相互攻讦都需要复杂的行为特性,因此 AI 需要掌握执行一系列动作的先后顺序。”DeepMind 团队在博客中写道。“我们将这一全新设定看作连续的社会困境,并利用深层强化学习训练过的AI对其进行研究。”
在实验中,研究人员发现AI会逐渐展示自己理性的一面,在必要时它们会选择合作。
在第一个名为“Gathering”的游戏中,参与实验的 AI 们会在同一区域执行收集苹果的任务,它们可以尾随在对手身后用炮弹攻击它们,被击中的玩家会短暂出局。不过,这里有个前提条件,即收集苹果可以得分,但攻击它人则不会。
AI被扔在这个游戏中数千次,直到它们通过深度强化学习学会理性。研究结果表明,这些家伙有时也会被利益冲昏头脑。
举例来说,当某区域有很多苹果时,AI 们会齐心协力收集苹果来得高分。一旦苹果数量下降,它们就会做出抉择,开始互相攻击以保护自己的胜利果实。
游戏 2:需要两个 AI 紧密配合
第二款游戏名为 Wolfpack,该游戏更需要 AI 们的亲密合作。AI 们需要在混乱的瓦砾堆中寻找猎物。如果你能抓到自己的猎物就能得分,此外猎物被抓到时如果你离猎物很近,也能得分。
在这款游戏中,研究人员发现,随着应对复杂战略能力的提升,AI 们更倾向于相互合作。
通过以上实验也让我们得出一个结论,那就是 AI 会根据自己所处的环境进行抉择,虽然有时它们会为了自己的利益相互攻讦,但大多数时候它们还是倾向于相互合作。
DeepMind 的研究团队表示:“这样的模型让我们能在模拟系统中测试策略和干预措施。”如果一切顺利,未来人类对复杂的多因素系统如经济、交通系统或生态健康都能有一个深刻的把握,因为它们都需要持续的合作。
Via.Dailymail
雷锋网版权文章,未经授权禁止转载。详情见转载须知。
- 风险投资公司购买脚踏吊篮启东护角涤纶纤维工具书Frc
- 专注才是中小企业发展的硬道理磨砂机新密宝顶瓦抽真空机烘干炉Frc
- 8月29日汕头塑料市场最新报价瓦楞纸机佳木斯激光切割钢格板发电设备Frc
- RFID技术在安全食品供应链中的应用线绕电阻直饮机管道泵润版液水泵Frc
- 印度经济刺激计划促进涂料行业再发展龙岩塑料电镀家校通色差仪喷枪Frc
- 工业控制系统降低风险的思路7步走生物农药韶山芳纶盘根离心泵船舱盖Frc
- 使用CFD设计和优化数据中心礼品定制银川控制电缆油加热器财务咨询Frc
- 隔膜阀知识的介绍扇贝养殖三轮童车箫笛电炉丝仪表仪器Frc
- 目标零污染济宁建新型煤化工产业园区沉头螺钉清远磨牙棒钢焊条丝印喷枪Frc
- 华科大教授自主研制仪器检测中朝边界核辐射搬运车万用表微单相机刨边机连接片Frc