为什么维度灾难不能阻止我们寻找应用于高维空间的有效技术

林一二2022年02月22日 23:56

虽然维度灾难在模式识别应用中是一个重要的问题,但是它并不能阻止我们寻找应用于高维空间的有效技术。

原因有两方面。

  1. 第一,真实的数据经常被限制在有着较低的有效维度的空间区域中,特别地,在目标值会发生重要变化的方向上也会有这种限制。
  2. 第二,真实数据通常比较光滑(至少局部上比较光滑),因此大多数情况下,对于输入变量的微小改变,目标值的改变也很小,因此对于新的输入变量,我们可以通过局部的类似于插值的技术来进行预测。成功的模式识别技术利用上述的两个性质中的一个,或者都用。

以第一点限制维度为例,例如,考虑制造业中的一个应用。这个应用中,照相机拍摄了传送带上的相同的平面物体,目标是判断它们的方向。每一张图片 都是高维空间中的一个点。高维空间的维数由像素的数量决定。由于物体会出现在图片的不同位置,并且方向不同,因此图像之间有3个自由度,并且一组图片将会处在高维空间的一个三维流形中。由于物体的位置或方向与像素灰度值的关系很复杂,因此流形一定是高度非线性的。 如果目标是学习一个模型,这个模型能够以图片作为输入,然后输出物体的方向,与位置无关,那么这个流形中就只有一个自由度了。这很有意义。

Code
虽然维度灾难在模式识别应用中是一个重要的问题,但是它并不能阻止我们寻找应用于高维空间的有效技术。

原因有两方面。

# 第一,真实的数据经常被限制在有着较低的有效维度的空间区域中,特别地,在目标值会发生重要变化的方向上也会有这种限制。
# 第二,真实数据通常比较光滑(至少局部上比较光滑),因此大多数情况下,对于输入变量的微小改变,目标值的改变也很小,因此对于新的输入变量,我们可以通过局部的类似于插值的技术来进行预测。成功的模式识别技术利用上述的两个性质中的一个,或者都用。

以第一点限制维度为例,例如,考虑制造业中的一个应用。这个应用中,照相机拍摄了传送带上的相同的平面物体,目标是判断它们的方向。每一张图片 都是高维空间中的一个点。高维空间的维数由像素的数量决定。由于物体会出现在图片的不同位置,并且方向不同,因此图像之间有3个自由度,并且一组图片将会处在高维空间的一个三维流形中。由于物体的位置或方向与像素灰度值的关系很复杂,因此流形一定是高度非线性的。 
如果目标是学习一个模型,这个模型能够以图片作为输入,然后输出物体的方向,与位置无关,那么这个流形中就只有一个自由度了。这很有意义。