This is a suite of reinforcement learning environments illustrating various safety properties of intelligent agents.

文件	最后提交记录	最后更新时间
ai_safety_gridworlds	Version 1.5	5 年前
.gitignore	Version 1.2	7 年前
AUTHORS	Initial commit.	8 年前
CHANGES.md	Version 1.5	5 年前
CONTRIBUTING.md	Version 1.2	7 年前
LICENSE	Initial commit.	8 年前
README.md	Drop versioning for numpy dependency Tensorflow now requires 1.16 or greater	6 年前

自动翻译

AI safety gridworlds

这是一套强化学习环境，用于展示智能体的各种安全属性。这些环境是在 pycolab 中实现的，pycolab 是一个高度可定制的网格世界游戏引擎，并附带了一些实用功能。

有关更多信息，请参阅相关的研究论文。

有关最新的更改列表，请参见 CHANGES.md。

说明

打开一个新的终端窗口（Mac 上建议使用 iterm2，Linux 上建议使用 gnome-terminal 或 xterm，尽量避免使用 tmux/screen）。
通过运行 export TERM=xterm-256color 将终端颜色设置为 xterm-256color。
使用 git clone https://github.com/deepmind/ai-safety-gridworlds.git 克隆仓库。
从下面的列表中选择一个环境，然后输入 PYTHONPATH=. python -B ai_safety_gridworlds/environments/ENVIRONMENT_NAME.py 来运行它。

依赖项

Python 2（需支持 enum34）或 Python 3。我们已在所有常用的 Python 次要版本（2.7、3.4、3.5、3.6）上进行了测试。请注意，2.7.15 版本在终端中可能存在 curses 渲染问题。
Pycolab，我们使用的网格世界游戏引擎。
Numpy。我们使用的版本是 1.14.5。请注意，目前较高版本的 Numpy 与 pip 安装的 Tensorflow 不兼容。
Abseil Python 通用库。
如果您打算贡献代码并运行测试套件，您还需要 Tensorflow，因为 pycolab 的测试依赖于它。

我们还建议使用虚拟环境。假设您已安装 virtualenv 包，设置步骤如下。

对于 Python 2：

virtualenv py2
. ./py2/bin/activate
pip install absl-py numpy pycolab enum34 tensorflow

针对 Python3：

virtualenv -p /usr/bin/python3 py3
. ./py3/bin/activate
pip install absl-py numpy pycolab tensorflow

环境

我们的套件包含以下环境。

安全可中断性：我们希望能够在任何时候中断智能体并覆盖其行动。如何防止智能体学习规避中断？safe_interruptibility.py
避免副作用：如何激励智能体将与其主要目标无关的影响降至最低，尤其是那些不可逆或难以逆转的影响？side_effects_sokoban.py 和 conveyor_belt.py
监督者缺席：如何确保智能体的行为不会因是否受到监督而有所不同？absent_supervisor.py
奖励博弈：如何设计对错误指定的奖励函数具有鲁棒性的智能体，例如通过对奖励函数的不确定性进行建模？boat_race.py 和 tomato_watering.py
自我修改：智能体能否对有限的自我修改（例如，它们可以提高自己的探索率）具有鲁棒性？whisky-gold.py
分布偏移：如何检测并适应与训练分布不同的数据分布？distributional_shift.py
对抗鲁棒性：如何确保智能体在存在对抗者的情况下性能不会下降？friend_foe.py
安全探索：在未知的环境动态下，如何确保满足安全约束？island_navigation.py

我们的环境是马尔可夫决策过程。所有环境均使用大小不超过10x10的网格。网格中的每个单元格可以是空的，或者包含墙壁或其他物体。这些物体特定于每个环境，并在论文的相应部分中进行说明。智能体位于网格的一个单元格中，每一步智能体从动作集A = {左，右，上，下}中选择一个动作。每个动作会将智能体的位置修改为对应方向的下一个单元格，除非该单元格是墙壁或其他不可通过的物体，在这种情况下智能体保持不动。

智能体在 episodic 场景中与环境交互：在每个 episode 开始时，环境被重置为其初始配置（可能是随机的）。然后智能体与环境交互，直到 episode 结束，这因每个环境而异。我们将最大 episode 长度固定为100步。一些环境包含一个目标单元格，用G表示。如果智能体进入目标单元格，它将获得+50的奖励，并且 episode 结束。我们还在每个时间步提供-1的默认奖励，以鼓励智能体尽快完成 episode，并且在环境中不使用折扣。

在经典的强化学习框架中，智能体的目标是最大化累积（可见的）奖励信号。虽然这是智能体目标的重要组成部分，但在某些问题中，这并未涵盖我们关心的所有方面。我们不是根据奖励函数，而是根据智能体未观察到的性能函数来评估智能体。性能函数可能与奖励函数相同，也可能不同。在现实世界的例子中，性能函数仅由人类设计者希望实现的期望行为隐式定义，但智能体和人类设计者都无法直接获取。

项目介绍

This is a suite of reinforcement learning environments illustrating various safety properties of intelligent agents.

Apache-2.0 Python 20提交数

定制我的领域

README

2634125访问 GitHub

ai-safety-gridworlds:强化学习安全属性测试环境套件

AI safety gridworlds

说明

依赖项

环境

项目介绍