如何让机器人通过自学习的方式学会玩“石头、剪刀、布”游戏？

刘景亚 · 发表于 2016-4-8 17:44:57

本帖最后由刘景亚于 2016-4-11 18:26 编辑

前段时间的人机围棋大战赚足了人们的眼球，Google公司的AlphaGO也使机器学习和深度学习让更多的人有了一定的了解，可谓做了一次很好的科技普及。
现在我们从简单问题入手，如何基于机器学习，通过自学习的方式让机器人学会玩“石头、剪刀、布”游戏？
不知大家有何建议？欢迎大家发言参加讨论。
*******************************************************************************************
分割线以上为原贴
*******************************************************************************************
非常感谢各位大侠的参与和讨论。
关于机器人玩“石头、剪子、布”游戏，我本打算分三个问题和步骤和大家一起探讨。看到讨论中，大家对这三个方面都有所涉及。
下面我把我对这个问题的认识抛出来与大家交流分享。
要让一个机器人玩“石头、剪刀、布”，我们分三步走。
第一步，如何让机器人通过自学习的方式学会游戏规则？比如，一开始机器人并不知道石头、剪子和布，哪个赢哪个，要玩游戏首先得学会规则。当然要实现这一步，有比较简单的办法，最直接的是程序员编程时，直接定义这个规则，这是以前经常用的传统的方法。现在我们想通过一种新的方法来实现，让机器人像小孩一样，通过不断地实践、摸索和总结掌握这个规则，也就是自学习和机器学习。
第二步，如何让机器人在掌握规则后大概率获胜？
第三步，能不能通过一种方法，使机器人在每局对战时100%获胜？
*****************************************************************************************
关于第一步，可以用如下方法实现：让机器人和人对战，在对战的实践过程中训练机器人，使其不断自学习以掌握规则。在对战，人始终随机出，机器人一开始并不知道规则，也随机出。赢了有奖励，输了有惩罚，随着对战次数的增多，机器人就会对出拳的种类形成“价值判断”。在训练过程中，机器人会反复判断，是随机出还是基于已经学到的部分知识。经过不断训练，机器人就会学会游戏规则。这个过程区别于以往的程序员直接定义，和人类的学习过程十分类似。
那么这个方法有没有效果，我们验证一下。
下图是我与机器人玩25局的情况，注意这个机器人一开始并不知道游戏规则。我随机出拳，机器人一开始也随机出，赢了奖励，输了惩罚。大家会发现，从第11局开始，机器人就已经完全掌握了规则。

pacelife · 发表于 2016-4-8 17:54:56

这种纯概率的东西，要做算法是很简单，但是胜率要提上去不容易啊

2266998 · 发表于 2016-4-8 18:15:31

应该上一个图形处理系统，先分辨对面这家伙是谁，再决定怎么玩，

人的活动，是有固定姿态的，比如下一步怎么活动，有细微表现，总结了这些姿态，就可以胜了对面的家伙，

crazypeanut · 发表于 2016-4-8 18:38:22

本帖最后由 crazypeanut 于 2016-4-8 18:39 编辑

如果不考虑心理学因素的话，猜拳不是博弈系统，是一个纯概率系统，样本空间为（剪，石），（剪，布），（剪，剪），（石，剪），（石，布），（石，石），（布，剪），（布，石），（布，布）

获胜组合是（剪，布），（石，剪），（布，石），概率为1/3，相应的，平局组合和输掉组合均为1/3

因此，如果没有心理学算法在里面，用随机算法随机选择出拳的话，获胜几率不会超过1/3

而将心理学因素考虑进去，就像8爷所说的，要加上图形系统，增加了复杂性，也偏离了正道

个人建议，选择五子棋或者黑白棋作为研究对象更合适，五子棋和黑白棋应该算是最简单的博弈系统了，棋子就黑白两种，相对容易处理

有人可能说井字棋更简单，但是作为博弈系统，井子棋有不败的策略，没有太大的研究价值

木子12 · 发表于 2016-4-8 19:06:20

crazypeanut 发表于 2016-4-8 18:38
& G6 w' }! F k6 c如果不考虑心理学因素的话，猜拳不是博弈系统，是一个纯概率系统，样本空间为（剪，石），（剪，布），（剪 ...

之前好像有一个日本的机械手，就是这么干的，动作相当灵活

fiyu1314 · 发表于 2016-4-8 19:54:31

玩石头剪刀布没问题。很简单。生成1 2 3 随机数分别代表石头剪刀布。自学习估计这个论坛里懂得就少了。去个程序员论坛估计能弄明白自学习的程序的都不多。顶多就是分析下这个人出什么的概率，和出完什么再出什么的概率。然后弄个算法分析下他会出什么的概率最大。再高科技点，就分析他出什么之前的浑身表情动作等。

冷月梧桐 · 发表于 2016-4-8 20:25:16

这是一个随机概率的问题，石头，剪刀，布就是三个动作点，然后随机输出一个动作点就会呈现一个动作就好了，从理论上来讲是完全可行的

shiqi67 · 发表于 2016-4-8 20:45:29

楼主的意思应该是“如何让机器人学会玩剪刀石头布”，而不是“使机器人玩”剪刀石头布吧……
楼上都跑偏了吧

huiyu788 · 发表于 2016-4-9 07:58:07

可以根据对方出拳的情况，用多项式拟合，然后用多项式预测下一步对方出什么，对方每出一次拳，就修正多项式

wsxm82 · 发表于 2016-4-11 10:14:52

用上“分歧终端机”呢，非诚勿扰里的那个

		自动登录	找回密码
密码			注册会员

如何让机器人通过自学习的方式学会玩“石头、剪刀、布”游戏？

本帖子中包含更多资源

相关帖子

点评

点评

点评

点评

点评

点评

点评

点评

点评