统计建模：两种文化

[BLT]FQX

6 years ago

标题其实是 Leo Breiman 于2001年在统计科学杂志发表的一篇论文，而我今天才在机器学习课程的阅读清单里看到它。

我一看到这篇文章就非常喜欢，接下来让我跟你介绍一下这篇文章的主要内容和我的一些感想。

哪两种文化？

作者认为当时统计学有两种文化，他称之为数据模型派（Data Modeling）和算法模型派（Algorithmic Modeling）。其中统计学家有98%是数据模型派的。

数据模型派的主要特点，就是论文先假设统计数据符合某种分布，一般来说是线性回归，然后建模，算显著性水平，得到结论。
数据模型派，更关心的是模型，和模型的可解释性。

而那2%的算法模型派，也假设统计数据符合某种分布，但并不直接对这种分布进行建模，而是通过SVM、分支树等办法（随机森林正是该论文作者发明的）获得模型，并用验证集/测试集确定该模型的预测能力。他们关心的是预测能力，而不是模型的可解释性。

数据模型派有什么问题？

因为数据模型派预设统计数据的分布模型，并且为了可解释性多用线性模型或逻辑回归，用R²作为显著性水平的衡量工具。

但问题在于，即使模型通过了显著性水平测试，对于增加了多项式的线性模型，统计数据也未必真的符合线性回归模型。
David Freedman 和 William Cleveland 等人已经发现了这个问题。

换句话讲，数据模型派的统计学家只是把一个模型套在了数据上，然后说这个模型的显著性水平测试已经通过了，blablabla。
如果增加多项式的话，同一组数据可以回归得到不同的模型，因此也可以得到完全不同的结论。
那么这些统计学家怎么确定哪个模型才是正确的呢？它们都通过了显著性水平测试啊。

对数据模型派更糟糕的是，在应用到复杂系统（例如未知的化学或生物过程）的数据上时，假设数据符合某个模型就更为可笑了。
这一派统计学家为此加上了贝叶斯、蒙特卡洛等方法，然而，如此一来数据模型派的可解释基础就不存在了。

该算法模型派出场了！

算法模型派并不去猜测统计数据的分布模型，因此对于复杂系统的应用没有数据模型派的那个问题。

更好的是，算法模型派支持模型的多样性，（想一想随机森林），并且，由于支持多种模型，在一些实际应用上，其预测的准确性显著高于数据模型派，并且这个效果是通过验证集/测试集证实的。

另一方面，数据模型派经常面对的维度爆炸的问题，算法模型派根本不在乎。数据模型派需要用PCA等方法降低维度，同时也丢弃了一些信息，但是算法模型派可以使用上这些被丢弃的信息。

算法模型就真的是个黑匣子吗？

作者举了三个例子说明，某些时候，因为特征的共线性，随机森林比逻辑回归更能找出关键特征，随机森林还能对特征进行聚类，以及对特征重要性给出更清晰的细节。

因此，作者在最后建议统计学家拥抱算法模型，他认为未来解决实际问题更多得依赖算法模型。（记住这可是2001年）

本人的感想

人工智能（AI）在近几年引起了很多人的关注，有些人认为只是又一个（短暂的）风口，有些人对它目前的能力有一些不切实际的幻想。

我觉得它在这两者之间，它会像互联网一样在相当长的一段时间持续的改变我们的生活，就像90年代互联网浪潮一样，那个时候也没多少人遇见到了目前的移动互联网时代。

而机器学习技术，AI的核心技术，这个源于统计学却又完全不同于传统统计学的东西，正是论文作者所说的算法模型。
作者在那个时候已经看到了机器学习技术的发展潜力，也为机器学习社区贡献了随机森林这种优秀的算法。
*据Kaggle统计，在传统数据分析领域，即非图像非自然语言等领域，随机森林是挑战者最喜欢用的算法之一。

但是我很遗憾的看到，即使在2018年，国内仍有一些学者戴着大数据/人工智能的花环，干着数据模型派的事情。

我也很遗憾，现在才看到这篇论文。
但也许是因为我并没有认真的学过统计学，没有数据模型派的成见，我在学习机器学习的过程中已经形成了这样一种感觉。

就像作者试图告诉我们的，摒弃100%的可解释性，去拥抱未知。