选择性偏差

林一二2022年07月08日 01:02

选择性偏差(selection bias)或 Berkson 悖论(Berkson 1946)或解释移除效应(Kim and Pearl 1983)指这两个独立原因的共同结果的观察会使这两个原因相关,因为如果结果已经发生,那么的值其中一个原因的信息,会使另外一个原因的可能性变大或变小。

例子

如果某个学校的录取标准是「很高的高考分数」或者「特殊的艺术特长」,用贝叶斯网络描述为:

X = 高考分数;Y = 艺术特长;Z = 录取的学生群体

X → Z ← Y

给定 Z 作为已知条件,会使得 X 和 Y 出现相关性,即我们如果发现一个学生高考分数不高,我们就会猜测他很有可能是艺术特长生。而高考分数和艺术特长在更广泛的群体里面可能不具有如此高的相关性。

d-分离

D分离(D-Separation)是一种用来判断变量是否条件独立的图形化方法。

路径p被节点集D d-分离(或称为阻断),定义为:

let D包含中间节点或父节点 = p包含了一个链i→m→j或一个分叉i←m→j,而中间节点m在D中
let D不包含子节点 = p包含一个反向分叉(或对撞)i→m←j,而中间节点m以及m的任何后代节点都不在D中
return D包含中间节点或父节点 && D不包含子节点

集合D将X与Y d-分离 当且仅当D阻断了从X中每个节点到Y中每个节点的所有路径。

在上图中,X 与 Y 不被集合 D = {Z} d-分离,因为只要 Z 或 Z 的后代在 D 中,观察到 Z 之后,X 与 Y 就相关了(即分离的反义词)。

Code
选择性偏差(selection bias)或 Berkson 悖论(Berkson 1946)或解释移除效应(Kim and Pearl 1983)指这两个独立原因的共同结果的观察会使这两个原因相关,因为如果结果已经发生,那么的值其中一个原因的信息,会使另外一个原因的可能性变大或变小。

!! 例子

如果某个学校的录取标准是「很高的高考分数」或者「特殊的艺术特长」,用[[贝叶斯网络]]描述为:

X = 高考分数;Y = 艺术特长;Z = 录取的学生群体

X → Z ← Y

给定 Z 作为已知条件,会使得 X 和 Y 出现相关性,即我们如果发现一个学生高考分数不高,我们就会猜测他很有可能是艺术特长生。而高考分数和艺术特长在更广泛的群体里面可能不具有如此高的相关性。

!! d-分离

{{d-分离}}

在上图中,X 与 Y 不被集合 D = {Z} d-分离,因为只要 Z 或 Z 的后代在 D 中,观察到 Z 之后,X 与 Y 就相关了(即分离的反义词)。