RL-Midterm

希望我能顺利过关

大数定理

大数定律表述了什么?

大量 独立相同 的 随机样本 的采样平均值会收敛到真实值。

马尔可夫属性

什么是马尔可夫性质?

下一个状态只跟当前状态有关,与之前的状态无关。

RL 元素

强化学习任务的主要元素是什么?绘制示意图来说明。

flowchart LR
 subgraph s1[" "]
        n4["策略"]
        n1["代理"]
  end
 subgraph s2[" "]
        n5["模型"]
        n3["环境"]
  end
    n1 -- 行动 --> n3
    n3 -- 奖励 / 新状态 --> n1
    n4 --- n1
    n3 --- n5

    n1@{ shape: rounded}
    n3@{ shape: rounded}

RL 类型

什么是:评估性反馈,指示性反馈,非关联任务,关联任务?

  • 评估反馈,只使用获得的奖励来决定行动

  • 指示反馈,使用外部信息来决定行动

  • 非关联任务,只在一种情况下学习并采取行动

  • 关联任务,在多种情况下学习并采取行动

网格世界

有如下的网格世界,有一个较近的出口回报为 1,另一个较远的出口回报为 10。底部是回报为 -10 的悬崖。网格世界是随机的,噪声为 0.5,奖励为 0,折扣因子 0.99。有两条路可选,对于一个 Q-Learning 代理,最优策略是什么,为什么?

grid-world

选择较远的出口,且避免悬崖。

  • 高噪声可能导致行动不按期望执行,掉入悬崖。
  • 高折扣因子导致未来,如终点,的回报很重要。

策略迭代

什么是广义策略迭代?

策略评估与策略改进交替进行的一种方法,不是某个特定算法,值迭代算法是一个实例。

困境

探索与利用的困境是什么?

很难平衡探索与利用的比率,无法同时追求两者

算法对比

比较 DP, MC, TD,每种方法的更新规则是什么?画出它们的备份图。

DP MC TD
需要环境模型 不需要环境模型 不需要环境模型
使用自举 不使用自举 使用自举
基于其他估值来更新 基于回合结束后的结果来更新 基于其他估值来更新
期望更新 样本更新 样本更新
$V(S_t) \leftarrow E_{\pi} [R_{t+1} + \gamma V(S_{t+1})]$ $V(S_t) \leftarrow V(S_t) + \alpha (G_t - V(S_t))$ $V(S_t) \leftarrow V(S_t) + \alpha (R_{t+1} + \gamma V(S_{t+1}) - V(S_t))$
flowchart TD
 subgraph s1[" "]
        n2["Filled Circle"]
        n3["Filled Circle"]
        n1["Small Circle"]
        n4["Small Circle"]
        n5["Small Circle"]
        n6["Small Circle"]
        n7["Small Circle"]
  end
    n1 --> n2 & n3
    n2 --> n4 & n5
    n3 --> n6 & n7
    n4 --> n8["Filled Circle"] & n9["Filled Circle"]
    n5 --> n10["Filled Circle"] & n11["Filled Circle"]
    n6 --> n12["Filled Circle"] & n13["Filled Circle"]
    n7 --> n14["Filled Circle"] & n15["Filled Circle"]
    n16["Small Circle"] --> n17["Filled Circle"]
    n16 -- mark --> n18["Filled Circle"]
    n17 --> n19["Small Circle"] & n20["Small Circle"]
    n18 -- "mark" --> n21["Small Circle"]
    n18 --> n22["Small Circle"]
    n19 --> n23["Filled Circle"] & n24["Filled Circle"]
    n20 --> n25["Filled Circle"] & n26["Filled Circle"]
    n21 --> n27["Filled Circle"]
    n21 -- "mark" --> n28["Filled Circle"]
    n22 --> n29["Filled Circle"] & n30["Filled Circle"]
    n28 -- "mark" --> n33["Frames Circle"]
    n34["Small Circle"] --> n35["Filled Circle"]
    n34 -- mark --> n36["Filled Circle"]
    n35 --> n37["Small Circle"] & n38["Small Circle"]
    n36 -- "mark" --> n39["Small Circle"]
    n36 --> n40["Small Circle"]
    n37 --> n41["Filled Circle"] & n42["Filled Circle"]
    n38 --> n43["Filled Circle"] & n44["Filled Circle"]
    n39 --> n45["Filled Circle"] & n46["Filled Circle"]
    n40 --> n47["Filled Circle"] & n48["Filled Circle"]

    n2@{ shape: f-circ}
    n3@{ shape: f-circ}
    n1@{ shape: sm-circ}
    n4@{ shape: sm-circ}
    n5@{ shape: sm-circ}
    n6@{ shape: sm-circ}
    n7@{ shape: sm-circ}
    n8@{ shape: f-circ}
    n9@{ shape: f-circ}
    n10@{ shape: f-circ}
    n11@{ shape: f-circ}
    n12@{ shape: f-circ}
    n13@{ shape: f-circ}
    n14@{ shape: f-circ}
    n15@{ shape: f-circ}
    n16@{ shape: sm-circ}
    n17@{ shape: f-circ}
    n18@{ shape: f-circ}
    n19@{ shape: sm-circ}
    n20@{ shape: sm-circ}
    n21@{ shape: sm-circ}
    n22@{ shape: sm-circ}
    n23@{ shape: f-circ}
    n24@{ shape: f-circ}
    n25@{ shape: f-circ}
    n26@{ shape: f-circ}
    n27@{ shape: f-circ}
    n28@{ shape: f-circ}
    n29@{ shape: f-circ}
    n30@{ shape: f-circ}
    n33@{ shape: fr-circ}
    n34@{ shape: sm-circ}
    n35@{ shape: f-circ}
    n36@{ shape: f-circ}
    n37@{ shape: sm-circ}
    n38@{ shape: sm-circ}
    n39@{ shape: sm-circ}
    n40@{ shape: sm-circ}
    n41@{ shape: f-circ}
    n42@{ shape: f-circ}
    n43@{ shape: f-circ}
    n44@{ shape: f-circ}
    n45@{ shape: f-circ}
    n46@{ shape: f-circ}
    n47@{ shape: f-circ}
    n48@{ shape: f-circ}

E 贪婪

在有四个动作且 E=0.8 的 epsilon-greedy 策略中,如果已知只有一个贪婪动作,那么选中它的概率是多少?

  • 0.2 选中贪婪动作
  • 0.8 选中随机动作
    其中 0.25 的概率选中贪婪动作

所以,选中贪婪动作的概率是 0.2 + 0.25 * 0.8 = 0.4

多情境

你面临一个 3 臂老虎机任务,其真实值随时间步随机变化,动作 1 2 3 的真实值如下:

情况 1 2 3
A 0.1 0.6 0.3
B 0.9 0.5 0.4
C 0.2 0.1 0.2
D 0.5 0.5 0.7

每种情况发生概率相同,问

  1. 如果你无法判断现在是哪种情况,你的最佳期望是多少,应如何行动?
  2. 如果你被告知当前的情况,但仍不知道真实值,你的最佳期望是多少,应如何行动?
  1. 如果我不知道当前情况,我只能根据经验选择动作,那么

    • 动作 1 的期望值是 (0.1 + 0.9 + 0.2 + 0.5) / 4 = 0.425
    • 动作 2 的期望值是 (0.6 + 0.5 + 0.1 + 0.5) / 4 = 0.425
    • 动作 3 的期望值是 (0.3 + 0.4 + 0.2 + 0.7) / 4 = 0.4
      所以,我应该选择动作 1 或 2,最佳期望是 0.425
  2. 如果我知道当前情况,我就可以选择最佳动作,那么

    • 情况 A,我选择动作 2,0.6
    • 情况 B,我选择动作 1,0.9
    • 情况 C,我选择动作 1 或 3,0.2
    • 情况 D,我选择动作 3,0.7
      所以最佳期望为 (0.6 + 0.9 + 0.2 + 0.7) / 4 = 0.6
Author

Aloento

Posted on

2025-03-24

Updated on

2025-03-25

Licensed under

CC BY-NC-SA 4.0

Your browser is out-of-date!

Update your browser to view this website correctly.&npsb;Update my browser now

×