高级人工智能
高级AI复习
一、概述
图灵测试:要求测出来智能体只是“表现上”像人,行动上像人。到底是否是真的与人一样会思考,无人知道。“和人一样思考、行动”。
二、搜索
2.1 搜索问题
- 搜索问题构成
- 状态空间
- 后继函数
- 初始状态和目标测试
- 解是一个行动序列(一系列后继函数),将初始状态转换成目标状态
- 状态数量问题分析
- 状态空间的表示
- 状态空间图:每个状态只会出现一次,每个状态通过行动(后继函数)进行连接。
- 搜索树:每一个节点是一个完整的路径(表示一个序列的行动),状态可能会重复。
- 搜索算法特性
- 完备性:当问题有解时,保证能找到一个解
- 最优性:保证能找到最优解
2.2 无信息搜索 Uniformed Search
深度优先搜索 DFS
- 栈
广度优先搜索 BFS
- 队列
- 当每一步代价相同时,是最优的
迭代深入搜索 Iterative Deepening
- 结合DFS的空间优势和BFS的时间优势
代价敏感搜索 Cost- Sensitive Search
代价一致搜索 UCS
- 优先扩展代价最小的节点
DFS vs BFS
特性对比
2.3 启发式搜索 Informed Search
启发策略:估计一个状态到目标距离的函数
启发函数:
贪婪搜索:
- 扩展离目标最近的节点
- 只用到了最简单的启发式函数f(n)=h(n)
- 通常情况:最佳优先是你很快到达目标
- 最坏情况:类似DFS
A*搜索:结合UCS(向后实际cost)和Greedy(向前估计cost)
A*算法可以看到到达此节点已经花费的代价( g(x) ),A*搜索的启发式函数变为了f(n)=g(n)+h(n)。
可采纳的启发函数:
最优性证明
UCS vs A*
- UCS在所有方向上等可能的扩展
- A*主要朝着目标扩展,能够保证最优性,且搜索效率高
八数码游戏
图搜索
- 主要思想:不要扩展一个状态两次
- 完备yes,最优no
A*图搜索
启发式的一致性
2.4 局部搜索 Local Search
爬山法
可在任意位置起始
重复: 移动到最好的相邻状态,不允许向山下移动
如果没有比当前更好的相邻状态,结束
模拟退火搜索
遗传算法
- 基于适应度函数,在每步中保留 N 个最好状态
- 配对杂交操作
- 产生可选的变异
- 问题的目标函数天然的可作为遗传算法的适应度函数
2.5 传教士和野人问题 The Missionaries and Cannibals Problem
状态空间:\(\{(M,C,B)\}\)
M:左岸传教士数量
C: 左岸野人数量
B:1-船在左岸,0-船在右岸
后继函数:\(\{P_{01},P_{10},P_{02},P_{20},P_{11},Q_{01},Q_{10},Q_{02},Q_{20},Q_{11}\}\)
P:左->右
Q:右->左
下标:穿上传教士、野人数
初始状态:(3,3,1)
目标状态:(0,0,0)
解?
往年试题:
传教士和野人问题通常描述如下:三个传教士和三个野人在河的一边,还有一条能载一个人或者两个人的船。
找到一个办法让所有的人能渡到河的另一岸,要求在任何地方野人数都不能多于传教士的人数。
a.精确地形式化该问题,只描述确保该问题有解所必需的特性。画出该问题的完全状态空间。
b.用一个合适的搜索算法实现和最优地求解该问题,检查重复状态是个好主意吗?
c.这个问题的状态空间如此简单,你认为为什么求解它却很困难?
三、联结主义(神经网络)数据驱动的不确定性智能
3.1 人工神经网络和深度学习基础
人工神经元
组合函数:加权和、径向距离
激活函数:(作用是将可能的无限域变换到指定的有限范围内进行输出)
非线性、连续可导、单调性
ANN结构:前馈(无循环、静态)、反馈(循环、动态)
感知机
实质:一种神经元模型
单层
多层:3层(所有连续函数)、4层(所有函数)、实现异或(2层)
学习:B-P算法,梯度下降,权值更新
优点:很强的表达能力,容易执行
缺点:收敛速度慢、过拟合、局部极小、噪声(不可分情况)、泛化性
BP算法的问题:梯度消失、局部极小、需要带标签训练数据
深度学习
- why go deep
- 深层结构能够有效被表达
- 深层结构可产生层次化特征表达
- 多层隐变量允许统计上的组合共享
- 深层结构有效
- 深度模型是手段,特征学习是目的
- 低层关注局部,高层关注全局(更具有语义化)
- 训练:
- 自下而上的非监督学习(greedy layer-wise training)
- 自顶向下的监督学习(误差自顶向下传输,对网络进行微调)
- 克服BP的限制:对输入的结构建模,产生输入的生成式模型,使生成式模型的概率最大
- 端到端学习
- why go deep
常用模型
AutoEncoder自动编码器:输入无标签数据,调整编码器和解码器的参数,使得重构误差最小
Hopfield Network:单层全互连,对称权值
Boltzmann Machine 波尔兹曼机:具有隐单元(不与外部相连)
- 网络结构复杂,训练代价大,局部极小
Restricted Boltzmann Machine 受限波尔兹曼机:层内无连接
训练:(来源:CSDN博客)
状态初始化:
对比散度CD算法:
Gibbs采样:(来源:CSDN博客)
Deep Belief Networks (DBN):最高一层是RBM(无向/双向),低层是贝叶斯置信网络(有向)
使用层叠RBM组成深度神经网络
经典的DBN网络结构:由若干层 RBM 和一层 BP 组成的一种深层神经网络
-
1.Greedy training:(逐层贪婪训练)
分别单独无监督地训练每一层 RBM 网络,确保特征向量映射到不同特征空间时,都尽可能多地保留特征信息
2.Fine tuning:
在 DBN 的最后一层设置 BP 网络,接收 RBM 的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器。
而且每一层 RBM 网络只能确保自身层内的权值对该层特征向量映射达到最优,并不是对整个 DBN 的特征向量映射达到最优,所以反向传播网络还将错误信息自顶向下传播至每一层 RBM,微调整个 DBN 网络。
RBM 网络训练模型的过程可以看作对一个深层 BP 网络权值参数的初始化,使DBN 克服了 BP 网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点
Deep Boltzmann Machines (DBM):所有层间无向连接,同层神经元间无连接(RBM)
高层表示由无标注数据建立(?),标注数据仅用来微调网络
训练:(和DBN一样,但在训练时采用双方向(上下两层),整个网络相当于一个马尔科夫随机场模型,能量模型与RBM不一样)
1.Pre-training:预训练一系列RBM
2.Generative fine-tuning:极大似然的近似算法(?)
3.Discriminative fine-tuning:BP
3.2 序列数据的深度学习模型
预测序列的下一项,模糊了监督学习与非监督学习的差别
- 循环神经网络RNN
- 可以看作权值共享的多层、前向网络
- 训练:权值一致的BP算法
- 长序列的循环神经网络
- GRU(Gated Recurrent Unit)
- LSTM
- BRNN(Bidirectional RNN)双向循环神经网络
- Deep RNNs
- 序列模型(sequence to sequence)
- 注意力模型
3.3 图像数据的深度学习模型
卷积神经网络CNN
- 局部连接
- 权重共享
CNN实例
ImageNet CNN(AlexNet)、VGG Net、Residual Network、Inception网络、GoogleLeNet
图像数据应用
- 目标定位
- 特征点检测
- 目标检测
- 人脸识别
3.4 生成式对抗网络GAN
- GAN的理论与实现模型
- 基本原理:一个生成器Generator和一个判别器Discriminator
- 不同类型GAN
- Typical
- Conditional
- Unsupervised Conditional
- 对抗学习
3.5 图卷积神经网络GCN
- 基于谱的
- 基于空间的
四、符号主义(知识智能)规则驱动的确定性智能
4.1 命题逻辑
4.2 谓词逻辑
4.3 模糊逻辑
4.4 往年试题
2019:
不到长城非好汉
很少有成绩好的学生特别喜欢玩游戏(模糊)
KB归结
forward chain证明7<3+9
**设计A*启发式算法使归结次数最少**
2018:
一阶谓词:胜者为王败者为寇
很少有成绩好的学生特别喜欢玩游戏(模糊)
KB归结
一阶谓词逻辑转化为CNF
构造一个一阶谓词逻辑的知识库KB和句子a,使得KB到a的归结过程永远不会停止
2016:
使用语义网络表达事实
一阶谓词:胜者为王败者为寇
很少有成绩好的学生特别喜欢玩游戏(模糊)
五、行为主义(群体智能)交互驱动的涌现智能
5.1 演化计算
群体智能:无智能或仅具有相对简单智能的主体通过合作涌现出更高智能行为的特性
集群智能:众多无智能的个体,通过相互之间的简单合作所表现出来的智能行为
特点:分布式、随机性、自适应、正反馈、自发涌现
蚁群优化算法(Ant Colony Optimization,ACO)(基本原理、算法过程、适用范围)
思想:局部随机搜索+自增强
缺点:收敛速度慢、容易陷入局部最优、对于解空间为连续的优化问题不适用
旅行商问题的蚁群优化算法求解
粒子群优化算法(Particle Swarm Optimization,PSO)(基本原理、算法过程、适用范围)
基于种群寻优的启发式搜索算法
优点:易于实现、可调参数较少、所需种群或微粒群规模较小、计算效率高、收敛速度快
缺点:和其他演化计算算法类似,不保证收敛到全局最优解
适用于求解连续空间的优化问题
博弈:具备一定智能的理性个体,按照某种机制行动,在群体层面体现出的智能
众包:设计合适的机制,激励个体参与,从而实现单个个体不具备的社会智能
5.2 强化学习
强化学习
区别于监督学习:
- 监督学习是从标注中学习,使用的是指导性反馈(直接给出某个状态下的正确行为)
- 强化学习是从交互中学习,使用的是评价性反馈(当智能体采取某个行为时给出一个评价)
两大特性(用于判断一个问题是否适用于RL求解):试错搜索&延迟奖励
主体:智能体&环境
状态、行为、奖励
要素:
- 策略(状态到行为的映射)
- 奖励(关于状态和行为的函数)
- 价值(累积奖励)
- 环境模型(刻画环境对行为的反馈)
多臂赌博机(无状态的学习)
固定次数获得期望累积奖励最大
利用和探索的balance
贪心策略和\(\epsilon\) 贪心策略
行为估值方法
根据历史观测样本的均值对\(q_{*}(a)\) 进行估计
\(Q_t(a)=\frac{\sum_{i=1}^{t-1}R_i\cdot\mathbb{1}_{A_i=a}}{\sum_{i=1}^{t-1}\mathbb{1}_{A_i=a}}\)
约定:当分母等于0时,\(Q_t(a)=0\)
当分母趋于无穷大时,\(Q_t(a)\) 收敛到\(q_{*}(a)\)
增量实现
\(Q_{n+1}=Q_n+\frac{1}{n}[R_n-Q_n]\)
更一般公式
\(NewEstimate \leftarrow OldEstimate + StepSize[ Target-OldEstimate]\)
非平稳情形下(\(q_{*}(a)\) 是关于时间的函数)的行为估值:指数带权平均
\(Q_{n+1} = (1-\alpha)^nQ_1+\sum_{i=1}^n\alpha(1-\alpha)^{n-i}R_i\)
更新步长的选择
收敛条件:
\(\sum_{n=1}^\infin \alpha_n(a)=\infin\) 和 \(\sum_{n=1}^\infin \alpha_n^2(a)\lt\infin\)
行为选择策略
乐观初值法
根据非平稳情形下的行为估值公式可以看出:估值一定程度上受到初始值\(Q_1\)的影响,统计学中,这叫做被初值偏置了。初始预估值可以用来根据先验信息提供奖励的期望标准。此外,如果将初始值调高,还有着鼓励模型在早期更多地进行探索的作用。以贪心策略为例,一个很高的初始预期值(称为乐观初值),会诱使模型去选择这个 action ,然而事实上 reward 要比估计值差很多,误差值$ [R_n-Q_n]$ 会是一个较大的负数,导致模型对这个 action “失望”,评价降低,下一次,模型就会去主动尝试其他 action 。通过这一方法,达到了鼓励模型在早期多做探索的作用。
但是乐观初值法的适用面很窄,它仅适用于固定分布的问题。我们知道模型只会在早期多做探索,后期基本上仍是以 Exploiting 为主,对于非稳定的情况,必然需要时刻探索收集信息,此时乐观初值法就不再适用。
UCB行为选择策略(Upper Confidence Bound置信区间上限)
如果重复执行某个 action ,一直返回一个低回报,那么必须要动态调整探索策略,适当调低再探索这个 action 的概率,而要尽可能多去探索“潜力”更高的 action 。 \[ A_t=\arg\max_a\left[Q_t(a)+c\sqrt\frac{\ln t}{N_t(a)}\right] \] 其中,\(N_t(a)\) 为第 t 步之前 action a 被选中的次数,新加入的 \(c\sqrt\frac{\ln t}{N_t(a)}\) 反应对于估值的不确定性。更广义地讲,其意义为方差。
对于更一般的强化学习问题,UCB 算法会遇到一些难点,不再那么适用,比如非稳定问题、大状态空间问题等。
梯度赌博机算法 \[ \Pr\{A_t=a\}=\frac{e^{H_t(a)}}{\sum_{b=1}^ke^{H_t(b)}}=\pi_t(a) \] 其中,\(H_t(a)\) 是action a的偏好值,使用随机梯度上升法更新偏好值
\(H_{t+1}(A_t)=H_t(A_t)+\alpha(R_t-\overline{R_t})(1-\pi_t(A_t))\)
\(H_{t+1}(a)=H_t(a)-\alpha(R_t-\overline{R_t})\pi_t(a),\quad\forall a \neq A_t\)
更一般通式:
\(H_{t+1}(a)=H_t(a)+\alpha(R_t-)(\mathbf{1}_{a=A_t}-\pi_t(A_t))\)
优化目标:第t轮的期望奖励大小
\(\mathbb{E}[R_t]=\sum_{b}\pi_t(b)q_*(b)\)
马尔可夫决策过程
策略学习
动态规划方法
蒙特卡洛方法
时序差分方法
参数近似方法
5.3 博弈基础
局中人Player:在博弈中有权决定自己行动方案的博弈参加者
策略:博弈中可供局中人选择的行动方案
策略集合Strategy Set:参加博弈的局中人\(i\) 的策略集合\(A_i\)
局势:所有局中人的策略形成的策略组,记作$S $
- 多人博弈中,假定有\(n\) 个局中人,每个局中人从自己的策略集合\(A_i\) 中选择一个策略\(s_i\) ,这样就形成了 一个局势\(S=\{s_1,s_2,...,s_n\}\)
效用函数Payoff:
- 通常用\(U\) 表示
- 每个参与博弈的局中人,都有一个相应的效用函数
- 静态博弈中,一般是局势的函数
- 动态博弈中,可能受其他因素影响,如:时间
纳什均衡
最佳应对:
针对局中人2的策略\(t\),若局中人1用策略\(s\)产生的收益大于或等于其任何其他策略,
则称策略\(s\)是局中人1对局中人2的策略的\(t\)的最佳应对
占优策略:
如果一个局中人的某个策略对其他局中人的任何策略都是最佳应对,
那么这个策略就是该局中人的占优策略
纳什均衡(僵局,谁动谁吃亏)(石头剪刀布没有纯策略的纳什均衡,但有混合)
如果一个局势下,每个局中人的策略都是相对其他局中人当前策略的最佳应对,
则称该局势是一个纳什均衡
混合策略
每个局中人以某个概率分布在其策略集合中选择策略
混合策论下的纳什均衡
必要条件:给定其他局中人的策略选择概率分布的情况下,当前局中人选择任意一个(纯)策略获得的期望效用相等
纳什定理
任何有限博弈都至少存在一个纳什均衡(不一定是纯策略的)(寻找博弈的纳什均衡是困难的)
帕累托最优
- 对于一组策略选择(局势)
- 若不存在其他策略选择使所有参与者得到至少和目前一样高的回报,且至少一个参与者会得到严格较高的回报
- 则这组策略选择为帕累托最优
社会最优
使参与者的回报之和最大的策略选择(局势)
机制设计
设计一个博弈,使其达到预期结果(比如实现社会最优)
案例:田忌赛马
第一场 第二场 第三场 获胜方 齐王 上 中 下 田忌1 上 中 下 齐王 田忌2 上 下 中 齐王 田忌3 中 上 下 齐王 田忌4 中 下 上 齐王 田忌5 下 上 中 田忌 田忌6 下 中 上 齐王 局中人:田忌、齐王
策略集合:田忌的策略集合\(A_田=\{上中下、上下中、中上下、中下上、下上中、下中上\}\)
齐王的策略集合\(A_齐=\{上中下、上下中、中上下、中下上、下上中、下中上\}\)
效用矩阵
田忌
上中下 上下中 中上下 中下上 下上中 下中上 上中下 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 上下中 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1 中上下 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 中下上 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 下上中 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1 下中上 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 混合策略纳什均衡解&期望得分
假设齐王选择上述六个策略的概率依次为:\(p_1,p_2,p_3,p_4,p_5,p_6\)
田忌选择上述六个策略的概率依次为:\(q_1,q_2,q_3,q_4,q_5,q_6\)
假设齐王的策略分布不变,田忌策略选择的效用为:
上中下:\(-3\times p_1 -1\times p_2 -1\times p_3 +1\times p_4 -1\times p_5 -1\times p_6\)
上下中:\(-1\times p_1 -3\times p_2 +1\times p_3 -1\times p_4 -1\times p_5 -1\times p_6\)
中上下:\(-1\times p_1 -1\times p_2 -3\times p_3 -1\times p_4 -1\times p_5 +1\times p_6\)
中下上:\(-1\times p_1 -1\times p_2 -1\times p_3 -3\times p_4 +1\times p_5 -1\times p_6\)
下上中:\(1\times p_1 -1\times p_2 -1\times p_3 -1\times p_4 -3\times p_5 -1\times p_6\)
下中上:\(-1\times p_1 +1\times p_2 -1\times p_3 -1\times p_4 -1\times p_5 -3\times p_6\)
令田忌的各个策略的效用相等,且\(p_1+p_2+p_3+p_4+p_5+p_6=1\)
得到 \[ \begin{bmatrix} p_1\\ p_2\\ p_3\\ p_4\\ p_5\\ p_6 \end{bmatrix}= p_1 \begin{bmatrix} 1\\ -1\\ -1\\ 1\\ 1\\ -1 \end{bmatrix}+ \frac{1}{3} \begin{bmatrix} 0\\ 1\\ 1\\ 0\\ 0\\ 1 \end{bmatrix} \] 同理可得 \[ \begin{bmatrix}q_1\\q_2\\q_3\\q_4\\q_5\\q_6\end{bmatrix} =q_1\begin{bmatrix}1\\-1\\-1\\1\\1\\-1\end{bmatrix} +\frac{1}{3}\begin{bmatrix}0\\1\\1\\0\\0\\1\end{bmatrix} \]
将\(P、Q\) 代入效用的六个式子中任意一个,得到田忌、齐王期望得分分别为-1、1。
两个经济学的应用
拍卖Bargaining:多个卖家、一个买家
增价拍卖(英式)
减价拍卖(荷式)
首价密封报价拍卖
纳什均衡:每个竞拍者的报价低于其对商品的估价
最优报价低于估价
竞拍者越多,报价越接近于估价
次价密封报价拍卖
纳什均衡:每个竞拍者会倾向于采用其对商品的估价进行报价
双方出价
讨价Auction:一个卖家、多个买家
- 讨价的对象:双方对商品估价之差
- take-it-or-leave-it
- take-it-or-counteroffer
海盗分金币
5.4 博弈应用
maxmin策略
最大化自己最坏情况时的效用 \[ \arg\max_{s_i}\min_{s_{-i}} u_i(s_i,s_{-i}) \] 最小化损失,控制风险,预防其他局中人的不理性给自己带来损失,把对方往坏了想
minmax策略
最小化对手的最大收益 \[ \arg\min_{s_i}\max_{s_j} u_j(s_i,s_j) \]
零和博弈\(\sum 收益 =0\) 情况下:
- minmax和maxmin是对偶的
- minmax策略和maxmin策略等价于纳什均衡策略
匹配市场
完全匹配
受限集
设\(S\) 为二部图某部节点集的子集,
\(N(S)\) 是\(S\) 的邻居节点集合(来自另一部)
如果\(|N(S)|<|S|\) ,则称\(S\) 为受限集
受限集总是成对出现
匹配定理
对于左右两部节点数相同的二部图,如果其不存在完全匹配,那么该二部图一定包含一个受限集
最优匹配
- 匹配的效用:成功匹配的估价之和
- 最优匹配:效用最大的匹配
市场结清价格
给定买方报价的情况下
如果卖方的某种价格使得对应的买方偏好图中存在完全匹配(无受限集)
则称卖方的这组价格为市场结清价格
寻找市场结清价格的过程:找一个买方受限集\(S\),让\(N(S)\)中的每个卖家价格+1
价格能够引导市场优化配置
中介市场
- 中介与中介的博弈
- 均衡态
- 竞争不充分:中介垄断价格
- 竞争充分:中介收益趋近于0
议价权
找朋友游戏
稳定结局
未参与配对的边两端获得的收益之和大于等于1
纳什议价解
剩余价值\(s=1-x-y\)
A的收益:\(x+\frac{s}{2}=\frac{1+x-y}{2}\)
B的收益:\(y+\frac{s}{2}=\frac{1+y-x}{2}\)
均衡结局
参与配对的边都满足纳什议价解
均衡结局一定是稳定结局
六、统计中的因果推断
6.1 基础知识
辛普森悖论:
总体数据上得出的统计结论和分组数据上的统计结论相反
原因:数据背后的产生机制不同
结构因果模型SCM:Structural Causal Model 用于描述数据的产生机制
外生变量集合:𝑼,不依赖于其他变量
内生变量集合:𝑽,至少依赖一个变量
确定内生变量取值的函数集合:𝑭
因果模型图
有向无环图DAG,节点:变量,边:变量之间的依赖关系
刻画了变量间的关系,但没有给出依赖关系的具体形式\(f_Z\)
乘积分解法则:\(P(x_1,x_2,...,x_n)=\prod_iP(x_i|pa_i)\),其中\(pa_i\) 表示变量\(x_i\) 的所有父节点
独立性
- 链结构
- 分叉结构
- 对撞结构
d-分离:用于确定因果模型图中任意一对节点是否独立
一条路径p会被一组节点Z阻断,当且仅当:
- 路径p包含链结构\(A\rightarrow B \rightarrow C\) 或分叉结构\(A\leftarrow B \rightarrow C\),且中间节点B在Z中
- 或路径p包含一个对撞结构\(A\rightarrow B \leftarrow C\) ,且对撞节点B及其子孙都不在Z中
如果一组节点Z阻断了X和Y间的每一条路径,则X和Y在Z的条件下是d-分离的,即\(X\perp Y \vert Z\)
6.2 干预
干预与校正公式
将变量固定为某个值,限制该变量随其他变量变化的自然趋势,记为 \(do(X=x)\) ,在因果模型图中取消所有指向X的边
校正公式(从观测数据中直接估计干预效果)(Z是X父节点) $$ \[\begin{align} P(Y=y\vert do(X=x))&=P_m(Y=y\vert X=x) \\ &=\sum_ZP_m(Y=y\vert X=x,Z=z)P_m(Z=z\vert X=x) \\ &=\sum_ZP_m(Y=y\vert X=x,Z=z)P_m(Z=z) \\ &=\sum_ZP(Y=y\vert X=x,Z=z)P(Z=z) \end{align}\] $$
因果效应规则:舍变量X得父节点集合为PA,则X对Y的因果效应为(上式将Z换成PA)
后门准则(父节点变量不可观测时)
给定因果模型图中一对有序变量(X,Y),若变量集合Z满足:
- Z阻断了X与Y之间的每条含有指向X的路径
- Z中没有X的后代节点
则称Z满足关于(X,Y)的后门准则
后门校正(Z是后门) \[ P(Y=y \vert do(X=x))=\sum_ZP(Y=y\vert X=x,Z=z)P(Z=z) \]
前门准则(后门准则也不满足时)
给定因果模型图中一对有序变量(X,Y),若变量集合Z满足:
- Z阻断了所有X到Y的有向路径
- X到Z没有后门路径
- 所有Z到Y的后门路径都被X阻断
则称Z满足关于(X,Y)的前门准则
前门校正 \[ P(Y=y\vert do(X=x))=\sum_ZP(Z=z\vert X=x)\sum_{x'}P(Y=y\vert X=x')P(X=x') \]
6.3 反事实
确定性反事实计算
给定观测\(E=e\) ,反事实\(Y_{X=x}\) 的三步法计算:
- 溯因:用观测\(E=e\) (内生变量)确定当前个体/环境,即\(U\) 的值(外生变量)
- 作用:修改结构因果模型\(M\),移除变量\(X\)出现在左边的方程,并用\(X=x\) 来替换它们,从而获得修正的模型\(M_x\)
- 预测:使用修正后的模型\(M_x\) 和\(U\) 的值来计算\(Y\) 的值,即反事实结果
非确定性反事实计算
给定观测\(E=e\) ,反事实\(E(Y_{X=x}\vert E=e)\) 的三步法计算:
- 溯因:用观测\(E=e\) (内生变量)更新\(P(U)\),获得\(P(U \vert E=e)\)(外生变量)
- 作用:修改结构因果模型\(M\),移除变量\(X\)出现在左边的方程,并用\(X=x\) 来替换它们,从而获得修正的模型\(M_x\)
- 预测:使用修正后的模型\(M_x\) 和 \(P(U \vert E=e)\)的值来计算\(Y\) 的期望,即反事实结果
后门的反事实定理