开云体育而是径直通过与环境的交互来进行学习-亚傅体育app官网入口下载
着手:机器之心Pro
AIxiv专栏是机器之心发布学术、本事内容的栏目。畴前数年,机器之心AIxiv专栏接管报谈了2000多篇内容,遮掩全球各大高校与企业的顶级实验室,灵验促进了学术沟通与传播。要是您有优秀的责任想要共享,接待投稿或者相关报谈。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本篇综述责任已被《IEEE 情势分析与机器智能汇刊》(IEEE TPAMI)接管,论文第一作家顾尚定博士来自慕尼黑工业大学、加州大学伯克利分校,论文通信作家陈广训导来自同济大学有计划机科学与本事学院。共同作家包括北京大学杨龙博士、伦敦国王大学杜雅丽训导、伦敦大学学院汪军训导、慕尼黑工业大学 Florian Walter 和 Alois Knoll 训导。
跟着东谈主工智能(AI)的赶紧发展,强化学习(Reinforcement Learning,RL)在诸多复杂决策任务中取得了显赫的成效。咱们在自动驾驶、机器东谈主戒指和保举系统等履行应用中,越来越依赖于这些智能系统。然则,现实寰宇中的强化学习在应用进程中也濒临着繁密的挑战,尤其是奈何保证系统的安全性。为了处置这一问题,安全强化学习(Safe Reinforcement Learning, Safe RL)应时而生,成为现时学术界和工业界缓和的焦点。
这篇著作将为巨匠理会由慕尼黑工业大学、同济大学、加州大学伯克利分校、伦敦大学学院、伦敦国王大学和北京大学的权衡东谈主员结合发布的综述《安全强化学习:步履、表面与应用》的病笃不雅点,深化探讨安全强化学习的权衡近况、重要问题及畴昔发展场地。
论文标题:A Review of Safe Reinforcement Learning: Methods, Theories and Applications论文伙同:https://ieeexplore.ieee.org/abstract/document/10675394(IEEE 预览版)仓库伙同:https://github.com/chauncygu/Safe-Reinforcement-Learning-Baselines
一、安全强化学习的界说与中枢问题
强化学习的中枢认识是通过与环境的交互,不停援助和优化政策以取得最大化的奖励。然则,现实环境中的风险与不笃定性通常导致严重的安全问题。举例,在自动驾驶中,车辆不行因为探索政策而危及乘客的安全;在保举系统中,保举的内容不行带有种族或其他敌视性信息。
安全强化学习恰是在这种配景下提倡的,它在传统强化学习的基础上加入了安全照看,旨在优化奖励的同期,保证决策进程中的安全性。具体来说,安全强化学习需要处置以下几个重要问题,即 “2H3W” 问题:
奈何优化政策以确保安全?需要若干测验数据智商找到安全的政策?现时安全强化学习的应用阐扬奈何?有哪些基准测试不错用于评估安全强化学习的性能?畴昔安全强化学习濒临的挑战是什么?
二、安全强化学习的权衡步履
权衡者们提倡了多种步履来处理安全强化学习的问题,不错轻便分类为基于模子的步履和无模子的步履。
1. 基于模子的安全强化学习步履:
基于模子的安全强化学习步履频繁依赖于对环境的建模,通过愚弄物理模子或近似模子进行推理和决策。这类步履频繁具有较高的学习遵守。举例,基于戒指表面的步履通过使用李雅普诺夫函数或模子预测戒指(MPC 等器用,不错为机器东谈主和无东谈主驾驶汽车等复杂系统提供严格的安全保证。
政策优化法:通过优化给定的安全照看,寻找合适的政策。戒指表面法:应用戒指表面的原则来有计划出能称快慰全性要求的 RL 算法。体式化步履:愚弄体式化考据器用来确保政策的安全性。
2. 无模子的安全强化学习步履:
无模子的步履则不依赖于精准的环境模子,而是径直通过与环境的交互来进行学习。政策优化和价值优化是其中的两大主流步履。在这些步履中,权衡者们通过引入照看条目来确保学习进程中的安全性,如使用拉格朗日乘子法进行安全照看优化,或通过概率臆想来幸免系统参预危急景色。
径直政策搜索:在不解确缔造环境模子的情况下,径直在政策空间中搜索安全的政策。价值函数法:通过修改价值函数的界说,引入安全性议论。多智能体安全 RL:在多智能体环境中,确保整个智能体的安全性和和洽性。
三、表面分析
安全强化学习的表面分析主要集结在奈何评估和诠释注解算法的安全性。包括采样复杂性分析、拘谨性诠释注解和政策安全的概率分析等。表面权衡不仅匡助咱们清爽算法的性能畛域,还引诱咱们在履行应用中奈何灵验地实施这些算法。
安全强化学习与传统的强化学习在表面层面有彰着的不同,绝顶是在照看马尔科夫决策进程(CMDP)的框架下,好多表面分析是基于优化算法和照看政策伸开的。以下是一些重要的表面分析点:
强化学习与安全强化学习的永诀
传统强化学习的认识是找到省略最大化积累奖励的政策,而安全强化学习则需要在此基础上加入安全照看,确保系统在启动进程中不会参预不安全景色。表面上,安全强化学习通过引入照看条目,如老本函数或概率照看,来幸免 “危急” 景色。这使得安全强化学习问题在复杂度上远超传统强化学习问题,尤其是在需要处置安全性与奖励之间的权衡时,安全强化学习的复杂度进一步增多。
照看优化中的拉格朗日步履
为了优化带有安全照看的强化学习问题,拉格朗日乘子法是一个常见的器用。通过引入拉格朗日乘子,安全强化学习问题不错调遣为求解一个带有照看的优化问题。其基本想想是在优化认识函数的同期,通过乘子援助照看条目的权重,从而在保证政策安全的前提下,找到最优解。
通过这种步履,安全强化学习不错在测验进程中慢慢贴近最优政策,同期确保系统称快慰全照看。
样本复杂度与安全违背分析
在安全强化学习中,另一个重要的表面问题是样本复杂度。样本复杂度权衡的是在给定照看条目下,算法需要若干交互样本智商找到一个饱胀好的政策。现存权衡标明,一般而言,关于安全强化学习,样本复杂度比传统强化学习更高,因为除了优化奖励外,还需要议论安全照看的称心进程。
此外,表面分析还包括安全违纪(safety violations)的可能性分析。在好多现实应用中,咱们无法保证系统在测验进程中恒久不会违背安全照看。因此,权衡东谈主员开导了各式算法来最小化安全违纪的概率,并确保算法在大无数情况下省略遵守安全畛域。
安全强化学习算法的拘谨性
在安全强化学习的表面分析中,拘谨性是另一个中枢问题。确保算法省略在有限的时间内拘谨到最优解,同期称快慰全照看,是一个具有挑战性的问题。权衡东谈主员频繁使用梯度下跌法或政策梯度法来处置这些问题,并诠释注解了这些步履在某些条目下的拘谨性。举例,通过在政策空间中添加规章性搜索区域,不错显赫减少探索时的安全违纪,并加快算法的拘谨。
四、安全强化学习的基准测试
为了评估安全强化学习算法的后果,权衡者们开导了多个基准测试环境。这些基准测试不仅省略匡助咱们更好地权衡算法的性能,还能鼓励安全强化学习算法向履行应用的落地。以下是几个宽泛使用的安全强化学习基准测试环境:
单智能体安全强化学习基准
1.AI Safety Gridworlds:
这是由 DeepMind 推出的一个 2D 网格环境,有意用于评估安全强化学习算法。每个环境皆是网格构成,智能体需要通过接管活动来达到认识,同期幸免参预危急区域。该环境的动作空间是突破的,适用于肤浅的安全决策任务。
2.Safety Gym:
OpenAI 推出的 Safety Gym 基于 Gym 和 MuJoCo 环境,扶植机器东谈主导航并幸免与结巴物碰撞的任务。此环境中的智能体(如球状机器东谈主、车机器东谈主等)通过奉行一语气动作来完成任务,省略很好地模拟履行机器东谈主和自动驾驶中的安全挑战。
3.Safe Control Gym:
这是一个集成了传统戒指步履和强化学习步履的基准测试环境。Safe Control Gym 专注于安全戒指问题,提供了多种任务,如单轴和双轴四旋翼戒指、轨迹追踪等。该环境尤其适用于从仿真到履行应用的安全戒指权衡。
多智能体安全强化学习基准
1.Safe Multi-Agent MuJoCo:
这是一个基于 MuJoCo 的多智能体安全强化学习基准。每个智能体戒指机器东谈主的一部分,况且必须共同学习奈何操作机器东谈主,同期幸免碰撞到危急区域。这个基准环境相等合适评估多智能体系统中的合作和安全问题。
2.Safe Multi-Agent Robosuite:
这是一个基于 Robosuite 的多智能体机器东谈主臂戒指环境。多个智能体戒指机器东谈主臂的不同重要或者不同智能体戒指不同的机械臂,共同完成任务,同期幸免碰撞到结巴物。该环境模拟了机器东谈主在履行应用中面对的模块化戒指和安全问题。
3.Safe Multi-Agent Isaac Gym:
这是一个基于 Isaac Gym 的高性能多智能体基准测试环境,扶植在 GPU 上进行轨迹采样,其有计划速率一般而言比 MuJoCo 和 Robosuite 要快至少十倍。该环境主要用于大畛域多智能体任务中的安全学习。
五、应用、挑战与瞻望
应用出息
安全强化学习在好多重要领域皆有着宽泛的应用出息:
自动驾驶:通过安全强化学习算法,不错在复杂的交通环境中已毕安全的驾驶决策。机器东谈主本事:确保机器东谈主在与东谈主类交互或奉行任务时的安全性。工业自动化:在自动化分娩线中,愚弄安全强化学习优化分娩进程,同期幸免事故发生。动力管理:在电网操作中应用安全强化学习,以优化动力分拨,珍视系统超载。
畴昔挑战
尽管安全强化学习已取得一定阐扬,但仍濒临好多挑战,包括算法的可膨大性、多任务学习的安全性问题、以及及时性能的保证等。畴昔的权衡需要在这些方面进行更深化的探索,并开导出更智能、更安全的 RL 处置决议。
畴昔瞻望
1. 博弈论与安全强化学习结合:博弈论是处置安全问题的主要步履之一,因为不同类型的博弈可应用于各式履行场景,包括合作和竞争情境。优化在膨大体式博弈中的安全性对履行应用十分有利。举例,在击剑比赛中,重要在于笃定确保两边智能体在完成认识的同期保抓安全的步履。
2. 信息论与安全强化学习结合:信息论在处理不笃定的奖励信号和老本臆想方面起着病笃作用,绝顶是在大畛域多智能体环境中。通过信息编码表面,不错构建各式智能体活动或奖励信号的暗意,从而升迁举座遵守。
3. 其他潜在场地:包括从东谈主脑表面和生物学知悉中取得灵感,改进安全体强化学习,以及从东谈主类反映中学习安全且各类化的活动(相似于 ChatGPT)。
记忆
安全强化学习行动东谈主工智能领域中的一个病笃分支开云体育,正在慢慢走向老练。通过处置其濒临的挑战,咱们有望看到愈加安全、智能的 AI 系统在自动驾驶、机器东谈主和保举系统等领域得到宽泛应用。