美文网首页动物世界的科学理论
最优模型应该是最正确模型

最优模型应该是最正确模型

作者: 黑猫中度烘焙 | 来源:发表于2020-03-20 22:50 被阅读0次

在构建统计模型分析数据的过程中,选择一个最优模型用于解释变量关系是最理想的结果。在进行模型选择时,通常根据模型预测值与实际观察值的差异最小,说明模型较好的拟合了观察数据;或者使用R2或者AIC等统计学参数,选择备选模型中参数值最高或者最低的模型。

然而实际情况却是,在统计结果中,可能存在两个或者三个最优模型,几个模型的预测值和实际值差异都相似,AIC或者R2也相似,同时这些模型结果要不都很好,要不都很差。这时候不仅无法选择出最优模型,导致分析工作陷入一个无法选择的窘境,更糟糕的是很容易使得正在进行中的研究方向发生偏差。

常见的多变量分析最容易导致这个结果,构建一个全模型进行模型筛选,尤其是各种统计软件的发展都推动了模型选择的便捷性,尤其是在变量很多的时候,极大的减少了人工计算。然而,对于科研工作来说,这种便捷性是无意义的,是噩梦的开始,因为本质上这种模型筛选是完全依靠变量之间的排列组合进行无差别的模型筛选,更像一种建立假设的过程,而不是检验假设的过程,不符合科研中使用模型检验假设的主要目的。此外,另一个思路是逐步回归,已有很多研究案例表明,这个简单的模型筛选方法会产生非常不靠谱的最优模型。

我这里讨论的统计模型不同于机器学习模型,其重要价值就是在于反应变量之间的关系,检验一个具体的假设。所以,我们要寻找的最优模型应该是最正确的模型,正确模型并不一定是统计参数最显著的模型,而是最大限度的反映出变量关系的模型。

随着这个目的性的转变,正确模型应该产生自假设或者理论的模型比较。在一个具体的研究案例中,有理论认为专食性物种的食性受到本地的生物多样性影响更大,而广食性物种的食性受到气候影响更大。我们的研究对象是专食性较强的物种,为了检验该物种的食性是受到哪些因素影响,我们应该构建两个模型进行对比,第一个模型中本地生物多样性为自变量,第二个模型中环境因子为自变量。基于对比结果,比较哪个模型的解释度更高。如果两个模型都无法解释该物种食性的影响因素时,我们便可以考虑交互作用,构建第三个模型,并通过对比这三个模型,分析该物种食性的影响因素。而错误的做法是,构建一个全模型进行自动筛选,选择统计结果中的最优模型,基于最优模型的保留变量分析物种食性的因素,这个做法的错误原因是,数据没有通过模型和理论假设相结合,被浪费在武断的分析结果中,而这更是无意义的。

相关文章

  • 最优模型应该是最正确模型

    在构建统计模型分析数据的过程中,选择一个最优模型用于解释变量关系是最理想的结果。在进行模型选择时,通常根据模型预测...

  • 恋爱中的博弈论

    博弈论最知名的模型应该是囚徒困境。 情侣背叛模型可以视作它的一个变体。 情侣的最优选择是保持忠诚。 但这个模型带来...

  • 芒格的100种思维模型

    1.机会成本思维模型 2.直觉思维模型 3.局部最优与全局最优思维模型 4.决策树思维模型 5.沉没成本思维模型 ...

  • R语言 Logistic回归~变量筛选

    Logistic回归预测模型思路:1.模型构建2.模型评价3.模型验证 最优模型1.模型能够反映自变量与因变量之间...

  • 无约束条件的参数优化(1)--梯度下降算法

    为什么要学习最优化理论? 因为对于ML模型训练,最终都可以归结为最优化问题,寻找最优参数,是模型的loss最小。 ...

  • 统计学习方法

    概论 1.数据->特征->模型->知识->分析与预测 2.训练数据集->模型->策略->算法->最优模型->分析与...

  • 2018-11-7 deep learning举例

    以手写数字识别为例: 第一步:选择模型: step3:找到最优解 利用gradient descent寻找最优模型...

  • 训练集、验证集、测试集

    训练集:拟合模型,用这部分数据来建立模型,找出最佳的w和b。 验证集:用以确定模型超参数,选出最优模型。train...

  • 最优化模型

    数据挖掘之优化模型 1.1数学规划模型 线性规划、整数线性规划、非线性规划、多目标规划、动态规划。 1.2微分方程...

  • 模型

    模型 客观事物的主观物件 系统介绍 这总说法是不切当的 介绍系统 系统介绍意思的正确表述应该是 系统模型 体系...

网友评论

    本文标题:最优模型应该是最正确模型

    本文链接:https://www.haomeiwen.com/subject/rrfeyhtx.html