网络架构策略(网络结构)

投稿 • 2023年1月9日 14:09 • 行业动态 • 阅读 26

神经网络架构与训练，自学，棋盘对称，Playout Cap Randomization，结果可视化

蒙特卡洛树搜索从我们之前的文章中介绍 (MCTS) 以及如何使用它来获得给定棋盘状态的输出策略。我们也理解神经网络在这里 MCTS 两个主要作用；引导探索神经网络的战略输出，用其价值输出代替传统的蒙特卡洛rollout算法。

在这一部分，我们将从这个神经网络的架构开始，检查它的不同层、输入和输出。然后了解如何使用自我游戏训练网络和研究训练神经网络的损失函数。本文还将仔细研究培训的细节，包括特定的细节 Chain Reaction 游戏的数据增强技术和 Playout Cap Randomization 提高训练效率的方法。最后，我们将可视化地查看我们的工作成果。

神经网络架构

神经网络模型的输入形状是MxNx7，其中M和N分别为Chain Reaction游戏的行数和列数。图中的数字7表示有7个通道，每个通道以二进制数据的形式存储一些特定信息，如下所示：

Description of the encoded stateSize of the state: M*N*7channel 1 : stores the MxN map where red orbs are 1 in numberchannel 2 : stores the MxN map where red orbs are 2 in numberchannel 3 : stores the MxN map where red orbs are 3 in numberchannel 4 : stores the MxN map where green orbs are 1 in numberchannel 5 : stores the MxN map where green orbs are 2 in numberchannel 6 : stores the MxN map where green orbs are 3 in numberchannel 7 : MxN map of ones if it is red player's turn otherwise a map of zeroes

下图显示了神经网络的架构。

我们的神经网络结构是一个resnet结构-它有conv2d, batchnorm2d和relu层，dropout层和两个任务头。

有一个输出值的头tanh产生介于-1和的激活函数+1之间的数字。战略头有一个softmax函数，它帮助我们得到板上所有动作的概率分布。

基本块（small block）如上图所示resnet类似地，我们将组合这些基本块。

输入通过的第一块由conv2d、batchnorm2d和relu层组成

由基本块(conv2d和batchnorm2d层)和relu我们上图所示的残余块的层组成（resnet）

五个resnet我们神经网络的中间块组成

dropout块接收前一块的输出linear层起到控制维度数的作用

在我们的网络结构中使用了两个dropout块

值头输出在-1和1之间（value）

战略头输出被用作棋盘上所有动作的概率分布(0，1之间)

使用显示在下图中PyTorch在Python实现系统结构的代码。

完成我们的模型架构后，我们将看看如何训练

自我对局

上图显示了如何在游戏中进行任何单一操作的过程。在自我竞争框架中，我们有两个玩家(都是AI)，红色和绿色。每个玩家都使用上述步骤。如果红色赢了游戏。对于所有的红色移动，目标值+1.对于所有绿色移动，目标值为-1。

我们的战略目标将是使用蒙特卡洛搜索树。

损失函数

由于我们有两个任务头，损失函数需要包括自价值损失和战略损失

AlphaZero损失函数如下：

价值损失：游戏结束时使用价值分配获得的预测值与目标值之间的均方损失。战略损失：预测策略和从MCTS计算练习中获得的战略目标之间的交叉熵损失。

在AlphaZero这两训练神经网络的损失是这两种损失的总和。我们称之为AlphaLoss”。

数据增强

为了提高训练效率，我们可以这样做作:如果我们知道一个棋盘状态的正确策略，那么我们就知道通过旋转、翻转或转置棋盘矩阵获得的其他七个棋盘状态的正确策略，这就是我们所说的棋盘的对称性。

通过翻转、旋转和换位可以产生7种以上的棋盘状态。对于所有这些状态，我们可以很容易地获正确的政策。

为了在代码中实现这一点，我们需要一个其中存储了棋盘状态和策略目标的缓存区，在游戏结束获得实际奖励值时，目标值分配给临时缓冲区中的每个元素。

下图是构造这个缓存的代码

Playout Cap Randomization

我们还可以引入了Playout Cap Randomization，因为它有助于提高培训效率。

AlphaZero的自我游戏训练过程，它得到的唯一真正奖励是在游戏结束时，所以获得的奖励是非常少的，而价值头专注于预测这个奖励，如果我们想改善价值训练，就需要增加AlphaZero的游戏的次数。

如果我们想提高策略训练，我们则可以关注更多的蒙特卡洛回放。

这里我们可以只增加一些随机选择的动作而不是增加游戏中所有动作的使用次数，只使用一些特定的动作的数据进行训练。在其他动作中，我们可以减少其选择次数。这种技术被称为Playout Cap Randomization。

结果展示

最后让我们看看我们的训练成果

对阵一个随机的代理

随机的代理没有任何策略，只是在棋盘上随机的进行可用的操作。以下是在3×3, 4×4和5×5棋盘上对随机代理的胜率。

可以看到对于一个3 x 3的棋盘，即使没有MCTS，在80个回合后至少可以达到75%的胜率

对于一个4 x 4的棋盘，训练在500个回合后就会饱和，然后就会变成振荡，但在1300回合附近，没有MCTS的代理的胜率超过80%

对于一块5 x 5的棋盘来说，训练在1000个周期左右就饱和了

可视化

每一场比赛都包括棋盘上的一系列动作。对于一块5×5的棋盘，第一步有25种可能。随着训练的进行，神经网络的值头输出不断提高，从而改进了蒙特卡罗搜索。以下是这些动作的可视化。可视化是针对一个5 x 5的棋盘，所以有25种可能性。这25种可能被映射到一个圆(在开始)或一个弧(后面经过训练)。

在1000次蒙特卡洛演练中使用未经训练的值网络所采取的行动。(5 × 5-> 25动作)。25个动作被映射到圆/圆弧中的角度。搜索最多只能到达4步的深度。

25个动作被映射到圆/圆弧中的角度。由于价值网络启发式的存在，搜索甚至深入到20步。

未来的发展方向

Chain Reaction的游戏有一个人类精心设计的启发式策略[2]。训练一个简单AlphaZero代理并试着让它与这样的策略竞争是很有趣的。

有一种称为hidden queen chess”/ “secret queen chess”的国际象棋变体，其中每个玩家在游戏开始时选择他们的一个棋子作为皇后，并且该选择不会向对手透露。但是 AlphaZero 适用于完美信息博弈和实施训练代理在信息不完善的状态下策论的论文会很有趣 [3]。

如果能够超越离散动作空间[4]将是有趣的。连续动作空间将在机器人或自动驾驶汽车应用中更为常见。[4]接受beta分布并学习它的参数。然后使用这个分布的一个缩放版本来近似有界连续空间。

我们有一个在3×3的Chain Reaction棋盘上训练一个效果非常好的代理。如果我们能将这些知识转移到4×4大小或其他大小的棋盘上，那就太好了。这项工作的重点也是一个方向[5]。如果没有这样的传输机制，在更大的棋盘上上进行训练在计算上是非常昂贵的，例如:15×15或20×20棋盘。

作者：Bentou

打赏

微信扫一扫

0 0

关于作者

投稿

5.8K 文章

0 评论

6 粉丝

这个人很懒，什么都没有留下～

除了boss直聘还有什么招聘软件(跟boss直聘差不多的招人软件)

上一篇 2023年1月9日 14:07

电影票在哪个软件买好(订电影票软件哪个好用)

下一篇 2023年1月9日 14:11

行业动态

找手工活在哪个平台上找比较真实可靠（外发加工接单平台）

关于手工活代加工你知道多少？前两天跟一个朋友聊天，他跟我聊起来这个话题，我对这方面不懂，然后就听他给我讲。大概去年三月份时候，他在1688上面找了一个手工活代加工的，当时说的很好很好，还给他看了他们的营业执照和签订合同，想着营业执照什么都看了应该没什么事。当时他就激情澎湃了，脑子一热当时就让他们发了第一批货。第一批货到了，是需要快递到付，付了四百多块，是…

我爱运营
2024年3月25日
14000
行业动态

拼多多开店要钱吗（网上开店铺需要什么流程）

拼多多作为中国的电商平台之一，吸引了越来越多的商家入驻。本文将详细介绍在拼多多开店的流程以及所需的费用。一、拼多多开店流程1. 注册账号首先需要在拼多多官网上注册一个账号，填写正确的手机号码，并设置密码。平台会通过短信验证码的方式验证手机号是否正确，并完成账号的注册。2. 完善店铺信息在注册账号后，需要填写店铺的基本信息，包括店铺名称、店铺LOGO、经营类…

我爱运营
2024年3月24日
9000
行业动态

兼职拿我身份证开淘宝网店（别人拿我的身份证开网店）

遥想当年，电商刚开始发力的阶段，身边经常有人借身份证开淘宝店铺。究其原因，主要就是平台规定一人一店，所以为了多开店铺提高成功率，“七大姨八大姑”借了个遍，甚至村里的留守老人都不放过。时至今日，还不乏这样的人存在。再说几年前，不少之前的电商创业者成了大老板，事业飞黄腾达，开了公司，买了奔驰。虽然小日子越过越滋润，但也遇到烦心事。 “啥事呢”？ “不能大声说的…

我爱运营
2024年3月24日
14000
行业动态

闲鱼一键转卖怎么赚钱（闲鱼的一键转卖是赚佣金吗）

“现在去闲鱼上买东西，刷好几屏都是职业卖家，真正卖闲置物品的个人越来越少了。”有网友吐槽。知乎、百度等平台上也充斥着闲鱼赚钱攻略：“去1688、拼多多、义乌购、微商手里找货源找文案，自己不要的东西，低于均价快速卖出刷好评，提升闲鱼账号的成交量，带动流量和活跃度，权重也会变高。” 就像闲鱼的Slogan所说的，闲鱼本身是一个“卖闲置，淘二手”的平台，因其只需…

我爱运营
2024年3月24日
21000
行业动态

不小心把收款码发给别人了怎么办（如何重置微信收款二维码）

众所周知，微信付款二维码不能随便发给人。但是，收款二维码能不能随便发给别人呢,会不会存在什么风险呢？事实上，还是存在一定风险的。下面简单分析一下： 1、财务风险我们都知道，收款码是我们向别人收钱的二维码。如果发给别人，别人扫码了，我们也只是进账资金，财务上不可能会造成损失，反而是赚了钱。但是，如果正当的钱，我们可以收。如果进账的是不正当的钱，那就会给自己带…

我爱运营
2024年3月24日
260000
行业动态

闲鱼到付安全吗（闲鱼卖家顺丰到付对谁有利）

贩卖二手商品，可以直接把家中闲置物品换成真金白银，把不常用的、或者根本不用的东西变卖后，购入更加常用、更加心仪的产品。对比在各大电子平台开店售卖的方式，二手交易平台是更加合理的选择。闲鱼平台是小编用着最好的闲置物品贩卖平台，下面我所教的基本内容也是适合个人“开店”的方法。此文为经验交流，并不是教授论文，希望各位看官摆平姿态，吸收干货。第一，取得开门红。 …

我爱运营
2024年3月24日
9000
行业动态

1688开店铺需要多少钱（入驻1688一年要多少钱）

阿里巴巴国际站-重庆阿里巴巴国际站有22年的建站历史，目前已经成为全球最大的做外贸B2B（批发）网站，主要招商对象是中国商家，买家分布在200多个海外国家和地区。国际站俗称“1688海外版/英文版”，其实国际站除了有1688相似的找批发买家流量提供之外，还提供了出口、报关退税、出口物流，还有现如今最受关注的收外汇等多项国际贸易辅助业务。先来说说入驻费用:…

我爱运营
2024年3月24日
10000
行业动态

抖音商城怎么开店（怎样在抖音上开店铺卖商品）

抖音上怎么开店，目前在抖音很多用户都在推销自己的视频时候，都附带了很多商店的连接，其中的流量可想而知，对于很多刷抖音的人来说这里是最好的推销地方，那么如何在抖音上开店呢？开店铺需要什么条件？下面就跟小编一起来看看抖音开店教程步骤！抖音开店教程步骤 1.首先你要有自己的抖音号，注册一个并且登录，在“我”这个页面右上角有三条整齐的横线“三”点开，底下有个“设置…

我爱运营
2024年3月24日
5000
行业动态

淘宝中评对卖家的影响（淘宝中评多久显示）

淘宝的评价系统规定只有在商家购买了商品之后才能对其进行评价，一般来说，买家购买的商品只要不和商家描述的有太大出入的话，那么买家是不会恶意给中评的，除了恶评师。店铺很可能会因为顾客的一个差评或者一个中评而对店铺的权重产生影响，从而使店铺的销量下降和声誉受损。那么一个淘宝店铺被给于中评，会对其产生什么影响?以下是关于淘宝的评价系统的介绍。一、淘宝店被中评有啥影…

我爱运营
2024年3月24日
9000
行业动态

女生学美甲赚钱吗（女孩子做美甲行业好吗）

有很多人问我当美甲师一个月能挣多少钱？我告诉你挣不了多少钱。很多女孩喜欢去做美甲，美甲师看似很挣钱，不过挣的也是辛苦钱。美甲师的月收入一般有两种：一种是有底薪的，一种是底薪加提成。在一般城市的美甲师底薪不超过3000，另一种底薪不高，一般提成在20%-30%左右，是一项多劳多得的技术。美甲师的工资还和很多因素有关： ·1.所在地消费水平不同。消费水平高的城…

我爱运营
2024年3月23日
28000
行业动态

速卖通是b2c还是c2c（速卖通跨境电商）

今天，我们将探索的是“速卖通”——被誉为“国际版淘宝”的跨境电商平台！速卖通作为阿里巴巴旗下的跨境电商平台，在中国，它是最大的跨境出口B2C平台之一。同时，速卖通也在俄罗斯、西班牙等国家排名榜首，站点覆盖超过200个国家，广受欢迎。平台费用与平台物流速卖通的费用模式相对灵活，只需要支付佣金，佣金范围为3%到8%，并且享有无月租费优势。收款方面，买家确认…

我爱运营
2024年3月23日
7000
行业动态

一般什么地方招暑假工（暑假临时工招聘网）

马上就要放暑假了，各位大学生们的暑假工作是不是找好了呢。还没有找到的小伙伴们不要着急，我们现在就来分享一下2022网上找暑假工比较靠谱的软件。看看有没有让你心仪的那一款呢？可以根据以下平台来选择，比较可靠真实： 1. BOSS直聘、58同城、赶集网、智联招聘、前程无忧51Job、拉勾招聘等平台都有海量的优质岗位，可以根据自己的需求选择合适的平台。 2. 探儿…

我爱运营
2024年3月23日
6000
行业动态

美甲店一天能挣1000吗（开美甲店会亏钱吗）

我是一家个人美甲店，每天能赚多少钱呢？我是一家个人美甲店，位于谷埠街国际商城。今天的收入达到了1200元，其中包括两个指甲的美甲服务、一个美睫和一个眉毛。 ·第一位顾客是通过抖音视频找到我的，她看到我们家有特色的建构养甲项目，毫不犹豫地选择了纯色加建构的服务，价格为49.9元。 ·第二位顾客是我的老顾客，一直对我的技术非常认可。上个月她在我这里做了一个不开…

我爱运营
2024年3月23日
8000
行业动态

开网店卖什么东西好赚钱（网店初学者适合卖什么）

开网店卖小饰品是一种越来越受欢迎的创业方式。随着人们对个性化产品和定制化服务的需求不断增加，小饰品作为一种简单易行、价格亲民的商品形式，具有很大的市场潜力。虽然开网店卖小饰品是一种相对容易入门的创业方式，但是赚钱并不是轻松的事情。首先，您需要有一个新颖独特的产品系列，以吸引消费者的吸意力；其次，您需要掌握一些基本的营销技巧，例如拍摄高质量的产品图片，并在社…

我爱运营
2024年3月23日
5000
行业动态

电商怎么发货才便宜（拼多多无货源在哪里找货源）

如今快节奏的生活环境下，人们对于生活质量的要求和物质享受的追求也是逐步的提高，单单的吃饱穿暖已经不太符合如今的生活的追求。创业项目，副业项目，现在已经成为了年轻人们的新选择，尤其是目前互联网创业前景广阔，正适合年轻人大展拳脚。但同样，经常有人会说十个创业九个死，虽然机会多，但竞争也更大，在潮流中倒下的创业者同样是一波接着一波。随着拼多多的快速崛起和发展…

我爱运营
2024年3月23日
8000
行业动态

初中学历的宝妈适合考什么证（四十多岁还能考什么证）

初中学历可以考多种证书，以下是一些可供参考的证书类型：会计从业资格证：初中以上学历，年满18周岁即可报名。电工操作资格证（上岗证）：年满18周岁且符合相关工种规定的年龄要求，经医院体检合格且无妨碍从事相应特种作业的疾病和生理缺陷，初中及以上学历，符合相应特种作业需要的其他条件。计算机等级证书：考生不受年龄、职业、学历等背景的限制，均可根据自己学习情况和…

我爱运营
2024年3月23日
7000
行业动态

什么工作可以在手机上做（手机上的兼职有哪些）

1.网上问卷调查网上问卷调查是一个简单的赚钱方法，只需要你花费一些时间填写一些调查问卷，就可以获得一些报酬。一些市场调研公司和在线调查平台，经常需要人们填写一些问卷来帮助他们更好地了解市场和消费者需求。你可以去一些问卷调查网站注册，填写一些问卷调查，一般每份问卷的报酬是2-5元不等，根据问卷的难度不同而有所区别。如果你愿意花费更多时间填写问卷，你可以得到更…

我爱运营
2024年3月23日
15000
行业动态

1688一件代发利润大概在多少（免费一件代发正规平台）

肯定能啊！不然不赚钱为啥有这么多人去做！但是也不是说你做了就能赚钱，就跟做生意一个道理，能不能赚钱看的是个人能力！但是相对来说，一件代发是非常简单的了，机会也比较大，投入和产出的回报比也比较高！至于题主说的一些费用，很多都没有必要，如果想尝试我建议的是以最小的投资来做。先简单说说一件代发： “一件代发”顾名思义，就是你作为卖家，哪怕你只卖出一件产品，…

我爱运营
2024年3月21日
9000
行业动态

暑假工干什么比较好（暑假工一般找什么工作）

给你几点建议，希望能帮到你。 01 如果你去电子厂或者机械厂打工，要防止招你的人是不是中介，干多久可以离职，根据我的经验，一般厂里是干三个月才能走，如果你干两个月，到最后离开会很困难，可能到时候干了中介会不断拖你工资。另外还有一点要注意，在一些APP上找工作，一般招聘者都是中介公司。当你面试之后，不可能马上入职。就例如我和我同学在58同城找工作去了之后才…

我爱运营
2024年3月21日
10000
行业动态

品牌折扣店的货是真是假（折扣店的东西为什么便宜）

你在网上看到那些价格很便宜的品牌折扣网站，比如唯品会，会不会想：“这么便宜，质量能保证吗？”今儿我们就讲讲，他们怎么做到比传统的零售商卖的便宜，还是真货。大概四个原因。第一、品牌折扣平台一般卖的都是品牌的过季产品或者库存产品，品牌商需要清理库存，愿意以很低的价格把产品出掉。第二，品牌折扣品牌所在的品类一般都是服装和家居产品，这类产品的定价策略一般都是按照…

我爱运营
2024年3月21日
7000