针对神经网络的拓扑学建模

渣翻于原文On Topological Modeling

前言

对于许多数学建模来说,其都是针对于一些基于在动态模型下微分方程的回归形式。然而其对于一些应用来说显得非常的拘束,举个例子而言,一个聚类算法可以被视为线性回归不适用情况下的拟合机制。分层聚类也被认为是一种数学建模机制,其输出是树形图,包括了不同层级聚类行为的信息。Kohonen自组织(SOM)映射可以视为这种情况的一种简化形式。

拓扑学数据分析也是一类非代数的建模方法。对于这类新的建模方法,我们可以视其为一类对于点云信息集的新的建模方法,这也是我们经常进行数学建模的一种非常自然的延伸。本文将会讨论拓扑建模的方法适用于其他的建模手段。所以,让我们先了解这种建模的一些重要的性质是什么。

压缩性

所有的建模手段都应该生成一个对于数据集的非常紧凑的表达,对于使用者而言,其应当是非常易懂的。举例而言,线性回归获得一系列数据点,并且用两个数字(w斜率和b偏置)来表达。大多数数据集包含了过多的信息,所以我们需要删除掉一些细节,来获得对于数据集更好的洞察力。

功用性

拓扑学建模应当允许使用者自定义模型结构的某些特征。举例而言,线性回归允许用户来产生不同的基于模型独立变量的输出。

可解释性

模型应当能解释其结构。举例而言,聚类模型应当解释聚类的不同的特征在哪。

回归模型

我们意识到任意的模型都是针对与数据集的一个代数方程的拟合。其依赖于分析几何,同时几何物体的压缩是经由所有几何对象的可以经过一系列方程组的解表示这个原理所指导。通过这种几何对象的方法来近似数据集也就是整个回归的过程。模型的输出就是一个方程或者方程组。在这种方法下,压缩的性质得以体现,因为由无限多个点组成的几何对象可以由等式中的有限多个系数表示。因为其能具有预测能力,其能具有功用性。同时,其也能提供可解释性。也就是其可以通过研究变量的系数来理解结果变量对于个体自变量的依赖性。虽然这个案例表明代数模型可以适应建模系统的目标,但同样重要的是要注意代数模型通常难以直接用于拟合许许多多的数据。

举例而言,对于下面的对象:

example1.png

如果使用代数表达式来表示上述的对象,其通常需要很高维度的方程。因为现在由很多不同的微分系数都能在模型压缩数据之中变化,这也就意味着压缩数据的程度也很低。这说明了,为了包含尽可能多的信息,代数模型通常需要具有较低的阶,比如线性或者二次型。但是可以肯定的是,我们也可以使用除多项式之外的函数族进行回归,但是我们需要很好的找出这个函数族,但是通常来说,我们很难知道哪个函数是合适的。

聚类分析

聚类分析的结果通常都是对于数据进行分组和分类。在这种情况下,模型的压缩特性可以通过提供聚类来提供,通常来说数据可以被压缩到很小的范围内。这种压缩特性也能够允许人们能够理解这种模型的范式。