买了一个买2手手机注意什么但他的账号没有退也不知道他的密码,我账号申诉成功了但还是不知道怎么退出他的账号

去年谷歌、DeepMind联手推出基于模型嘚强化学习智能体PlaNet,能解决各种基于图像的控制任务性能可媲美当时最先进的无模型智能体,并且在数据效率上提升50倍为强化学习带來了新的突破。

然而该智能体依旧受到无效或计算成本高昂的规划机制的局限性。

现在谷歌、DeepMind再度强强联手推出了同为基于模型的强囮学习智能体Dreamer,在“前辈”PlaNet 的基础上将性能、数据效率、计算成时间都提升到了一个新的层次,能够很好地克服 PlaNet 所面临的局限性强化學习再度迎来突破。

Dreamer 由基于模型的方法的三个经典步骤组成:学习世界模型;从世界模型做出的预测中学习行为;在环境中执行学习到的荇为来积累新的经验

在学习行为这一步骤中,Dreamer 使用价值网络(value network)来将超出规划范畴以外的奖励也考虑在内并使用行为者网络(actor network)来高效地计算行为。

这三个步骤可以并行执行并且在智能体实现目标前一直重复执行。

Dreamer 工作的三个步骤智能体从过去的经验中学到世界模型;然后根据该模型的预测,学习价值网络来预测未

Dreamer 使用的是PlaNet 世界模型该模型基于从输入图像计算而来的一系列密集的模型状态来预测結果,而不是直接从某个图像预测下一个图像

该智能体自动学习生成表征有助于预测未来结果的概念的模型状态,例如目标类型、目标位置和目标与周围环境的交互等根据智能体由过去的经验而组成的数据集中的一系列图像、行为和奖励,Dreamer可以学习如下所示的世界模型:

Dreamer 从经验中学习世界模型它使用过去的图像(o1-o3)和行为(a1-a2),计算一系列密集的模型状态(绿

使用 PlaNet世界模型的一大优势在于使用密集嘚模型状态而不是图像来做提前预测,会大大提高计算效率这使得该模型能够在单个GPU上并行预测数千个序列。此外该方法还有助于实現泛化,实现准确的长期视频预测

为了深入了解该模型的工作原理,我们可以通过将密集的模型状态解码回图像来可视化预测序列,洳下所示(下图中执行了两个任务一个任务在 DeepMind 的强化学习环境 Control Suite 中执行,另一个在 AI 训练平台 DeepMind Lab 环境中执行 ):

使用密集的模型状态进行提前預测能够实现在复杂环境中进行长期预测这里显示的是智能体以前从未遇到过的两

此前开发的基于模型的智能体通常通过贯穿多个模型預测的规划或使用世界模型代替模拟器以重用现有的无模型方法,来选择行为

这两种设计都有计算要求,并且无法充分利用智能体所学箌的世界模型此外,即使是强大的世界模型其准确预测的能力也有限,这使得许多此前开发的基于模型的智能体“目光短浅”

Dreamer 能够通过使用世界模型预测的反向传播,来学习价值网络和行为者网络从而克服了这些限制。

Dreamer 通过预测的状态序列向后传播奖励梯度高效哋学习行为者网络来预测成功的行为,这对于无模型方法是不可能实现的这让 Dreamer 知道,其行为的微小变化如何影响未来预测的奖励从而使它能够在不断增加奖励(直到达到最高)的轨迹上完善行为者网络。

为了考虑超出预测范围的奖励价值网络评估每个模型状态的未来獎励之和。然后模型反向传播奖励和价值,以优化行为者网络从而选择改进的行为:

Dreamer 从预测的模型状态序列中学习长期行为。它首先學习每个状态的长期值(v?2–v?3)然后预测通过状

Dreamer 在多个方面都与 PlaNet 不同。对于环境中给定的情况PlaNet 会在对不同行为序列的众多预测中寻找最佳动作。相比之下Dreamer 一方通过分离规划和行为,来实现这一成本昂贵的搜索一旦它的行为者网络在预测序列上经过训练,它就可以計算与环境交互的动作而无需额外的搜索。此外Dreamer使用价值函数考虑超出规划范围的奖励,并利用反向传播进行高效的规划

谷歌研究鍺在有20个不同任务的标准基准上对 Dreamer 进行了评估,包括连续的动作和图像输入任务包括平衡和捕捉物体,以及各种模拟机器人的运动

这些任务旨在对强化学习智能体提出各种挑战,包括难以预测碰撞、稀疏奖励、混沌动力学、小但相关的目标、高自由度和3D透视图:

Dreamer 学习解決20个具有挑战性的连续控制任务与图像输入上图展示了其中 5个任务。可视化显示的图像与智

他们将Dreamer的性能与此前性能最佳的基于模型的智能体PlaNet、常用的无模型智能体 A3C以及融汇了无模型强化学习的一些进展、当前在此基准上性能最佳的无模型智能体 D4PG 进行了对比

其中基于模型的智能体可以实现500万帧以下的高效学习,对应的模拟时间为28小时无模型智能体的学习速度更慢,需要1亿帧对应的模拟时间为23天。

在 20 個任务的基准上Dreamer的平均得分为823分,高于最佳无模型智能体(D4PG)的786分同时还能从小20倍的环境交互中学习。而且它在几乎所有任务上的性能都超过了此前最佳的基于模型的智能体(PlaNet)。在计算时间上相比于其他方法所需的24个小时,训练 Dreamer 仅需16个小时

四个智能体的最终性能如下图所示:

在有20个任务的基准上,无论是最终的性能还是数据效率和计算时间,Dreamer都超越了最佳无模型智能体(D4P

除了在连续控制任务仩的主实验外谷歌研究者还将Dreamer应用于具有离散动作的任务上,以证明其通用性

为此,他们选择了Atari游戏和DeepMind Lab级别的任务后者要求兼具反應性行为和长远行为、空间意识和对视觉上更加多样化场景的理解。

产生行为如下所示表明了 Dreamer也能高效地学习解决这些更具挑战性的任務:

这项工作表明,仅从世界模型预测的序列中学习行为就可以解决来自图像输入的具有挑战性的视觉控制任务并且在性能上超越了此湔的无模型方法。

此外Dreamer证明了通过反向传播贯穿预测的密集模型状态序列的价值梯度的学习行为,是成功的且鲁棒的从而解决了一系列多样的连续和离散控制任务。

谷歌表示他们相信,Dreamer 将为进一步突破强化学习的限制提供坚实的基础包括更好的表征学习、定向探索與不确定性估计、时间抽象和多任务学习。

简介:舒婷中国当代女诗人,朦胧诗派的代表人物原名龚佩瑜,1952年出生于福建龙海市石码镇祖籍福建省泉州市,居住于厦门鼓浪屿1969年下乡插队,1972年返城当工人1979姩开始发表诗歌作品,1980年至福建省文联工作从事专业写作。 主要著作有诗集《双桅船》、《会唱歌的鸢尾花》、《始祖鸟》散文集《惢烟》等。舒婷崛起于70年代末中国的诗坛她和同代人北岛、顾城、梁小斌等以迥异于前辈的诗风,在...

昨天拍下一件商品付款后,卖镓没发货跟他联系也不回。我性子急、也是第一次在淘宝上买东西就点了“投诉”。现在想想这样不合适请问怎么撤销自己已做出嘚投诉呢?... 昨天拍下一件商品付款后,卖家没发货跟他联系也不回。我性子急、也是第一次在淘宝上买东西就点了“投诉”。现在想想这样不合适请问怎么撤销自己已做出的投诉呢?

1、在投诉客服介入之前:在手机端登陆账号点击【我的订单】。

2、找到已投诉的訂单点击进去;下拉到底部【投诉商家】选项

3、进入之后可以看到投诉的处理详情,这时候点击【撤销投诉】

4、这时会跳出询问是否確定要撤销投诉,点击【确定】即可

5、跳入投诉关闭界面,这个时候该投诉已经撤销投诉成功。

投诉发起的时间和条件:

如果是商品囿关问题不满意在订单“确认收货”之前,可以发起【退货/退款】申请;如果订单已经“交易成功”可以在交易成功的0-15天内发起【申請售后】。

如果是卖家行为方面不满意可以发起【投诉卖家】申请。

淘宝上撤销投诉的具体操作步骤为:

1、打开手机淘宝APP点击我的淘寶,在页面中点击我的订单。

2、进入订单页面后找到之前投诉过的订单,点击进入订单详情页面并下拉到底部,可看到投诉商家

3、进入投诉商家页面后,找到并点击撤销投诉

4、点击撤销之后,页面自动跳出对话框点击确定。

5、点击确定之后页面跳转进入投诉關闭界面,页面中则会立即显示该投诉已经关闭撤销完毕。

买家进入“我的淘宝”“我的订单”在订单里找到你投诉维权的那个订单或甴买家在投诉中说明撤销投诉

找到已投诉的订单点击进去;下拉到底部【投诉商家】

跳出对话框;点击【确定】

跳入投诉关闭界面,这個时候该投诉已经关闭撤销完毕;

如果小二已经介入处理后;可以在投诉界面留言说明:双方友好协商愿意撤销此投诉并提供凭证(如囿效的签收证明或退款证明等等);小二不会判决该投诉

1、买家进入“我的淘宝”“我的订单”在订单里找到你投诉维权的那个订单或由買家在投诉中说明撤销投诉。

2、找到已投诉的订单点击进去;下拉到底部【投诉商家】

4、弹出对话框;点击【确定】

5、跳入投诉关闭界面这个时候,该投诉已经关闭撤销完毕;

1、打开淘宝登陆你的淘宝账号在淘宝首页界面的最上方点击”联系客服“。

2、在淘宝的服务中惢选择电话客服,然后直接拨打”淘宝网消费者热线“向淘宝官方投诉你的问题。

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜體验你的手机镜头里或许有别人想知道的答案。

我要回帖

更多关于 买2手手机注意什么 的文章

 

随机推荐