正文

回归分析算法（回归分析算法原理）

发布时间：2023-04-13 11:42:43 稿源：创意岭阅读： 75

大家好！今天让创意岭的小编来大家介绍下关于回归分析算法的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，如需了解SEO相关业务请拨打电话175-8598-2043，或添加微信：1454722008

本文目录:

1、回归分析二阶三阶都有显著性吗
2、gbase8a支持什么分类算法？
3、spss简单线性回归分析需要多少组数据
4、k近邻算法如何做回归分析？

回归分析算法（回归分析算法原理）

一、回归分析二阶三阶都有显著性吗

我觉得，第一阶段不用很显著，但是模型整体的拟合度要很高吧，因为要计算出“自选择”的概率，这样第二阶段的逆米尔斯比率才更准确（我也是初学者，个人这么理解的，希望多讨论哈(´-ω-`)）

这正是回归分析所追求的目标。它是最常用的预测建模技术之一，有助于在重要情况下做出更明智的决策。在本文中，我们将讨论什么是回归分析，它是如何工作的。

什么是回归分析？

回归分析是作为数据科学家需要掌握的第一个算法。它是数据分析中最常用的预测建模技术之一。即使在今天，大多数公司都使用回归技术来实现大规模决策。

要回答“什么是回归分析”这个问题，我们需要深入了解基本面。简单的回归分析定义是一种用于基于一个或多个独立变量（X）预测因变量（Y）的技术。

经典的回归方程看起来像这样：

回归方程

回归分析源DataAspirant.com

在上面的等式中，hθ（x）是因变量Y，X是自变量，θ0是常数，并且θ1是回归系数。

回归分析的应用

回归分析用于在许多业务情况下做出决策。回归分析有三个主要应用：

解释他们理解困难的事情。例如，为什么客户服务电子邮件在上一季度有所下降。

预测重要的商业趋势。例如，明年会要求他们的产品看起来像什么？

选择不同的替代方案。例如，我们应该进行PPC（按点击付费）还是内容营销活动？

什么是不同类型的回归分析技术？

由于存在许多不同的回归分析技术，因此很难找到非常狭窄的回归分析定义。大多数人倾向于将两种常见的线性或逻辑回归中的任何一种应用于几乎每个回归问题。

但是，有许多可用的回归技术，不同的技术更适合于不同的问题。回归分析技术的类型基于：

自变量的数量（1,2或更多）

因变量的类型（分类，连续等）

回归线的形状

回归分析技术

主要类型的回归分析

1. 线性回归

线性回归是最常用的回归技术。线性回归的目的是找到一个称为Y的连续响应变量的方程，它将是一个或多个变量（X）的函数。

因此，线性回归可以在仅知道X时预测Y的值。它不依赖于任何其他因素。

Y被称为标准变量，而X被称为预测变量。线性回归的目的是通过点找到称为回归线的最佳拟合线。这就是数学线性回归公式 /等式的样子：

线性回归公式

在上面的等式中，hθ（x）是标准变量Y，X是预测变量，θ0是常数，并且θ1是回归系数

线性回归可以进一步分为多元回归分析和简单回归分析。在简单线性回归中，仅使用一个独立变量X来预测因变量Y的值。

另一方面，在多元回归分析中，使用多个自变量来预测Y，当然，在这两种情况下，只有一个变量Y，唯一的区别在于自变量的数量。

例如，如果我们仅根据平方英尺来预测公寓的租金，那么这是一个简单的线性回归。

另一方面，如果我们根据许多因素预测租金; 平方英尺，房产的位置和建筑物的年龄，然后它成为多元回归分析的一个例子。

2. Logistic回归

要理解什么是逻辑回归，我们必须首先理解它与线性回归的不同之处。为了理解线性回归和逻辑回归之间的差异，我们需要首先理解连续变量和分类变量之间的区别。

连续变量是数值。它们在任何两个给定值之间具有无限数量的值。示例包括视频的长度或收到付款的时间或城市的人口。

另一方面，分类变量具有不同的组或类别。它们可能有也可能没有逻辑顺序。示例包括性别，付款方式，年龄段等。

在线性回归中，因变量Y始终是连续变量。如果变量Y是分类变量，则不能应用线性回归。

如果Y是只有2个类的分类变量，则可以使用逻辑回归来克服此问题。这些问题也称为二元分类问题。

理解标准逻辑回归只能用于二元分类问题也很重要。如果Y具有多于2个类，则它变为多类分类，并且不能应用标准逻辑回归。

逻辑回归分析的最大优点之一是它可以计算事件的预测概率分数。这使其成为数据分析的宝贵预测建模技术。

3. 多项式回归

如果自变量（X）的幂大于1，那么它被称为多项式回归。这是多项式回归方程的样子：y = a + b * x ^ 3

与线性回归不同，最佳拟合线是直线，在多项式回归中，它是适合不同数据点的曲线。这是多项式回归方程的图形：

多项式回归

对于多项式方程，人们倾向于拟合更高次多项式，因为它导致更低的错误率。但是，这可能会导致过度拟合。确保曲线真正符合问题的本质非常重要。

检查曲线朝向两端并确保形状和趋势落实到位尤为重要。多项式越高，它在解释过程中产生奇怪结果的可能性就越大。

4. 逐步回归

当存在多个独立变量时，使用逐步回归。逐步回归的一个特点是自动选择自变量，而不涉及人的主观性。

像R-square和t-stats这样的统计值用于识别正确的自变量。当数据集具有高维度时，通常使用逐步回归。这是因为其目标是使用最少数量的变量最大化模型的预测能力。

逐步回归基于预定义的条件一次增加或减少一个共变量。它一直这样做，直到适合回归模型。

5. 岭回归

当自变量高度相关（多重共线性）时，使用岭回归。当自变量高度相关时，最小二乘估计的方差非常大。

结果，观察值与实际值有很大差异。岭回归通过在回归估计中增加一定程度的偏差来解决这个问题。这是岭回归方程式的样子：

在上面的等式中，收缩参数λ（λ）用于解决多重共线性的问题。

6. 套索回归

就像岭回归一样，Lasso回归也使用收缩参数来解决多重共线性问题。它还通过提高准确性来帮助线性回归模型。

它与岭回归的不同之处在于惩罚函数使用绝对值而不是正方形。这是Lasso回归方程：

7. 弹性网络回归

ElasticNet回归方法线性地组合了Ridge和Lasso方法的L1和L2惩罚。以下是ElasticNet回归方程的样子：

8、显著性

假设检验

我们要讨论的第一个概念是假设检验(hypothesis testing)，这是一种使用数据评估理论的方法。“假设”是指研究人员在进行研究之前对情况的初始信念。这个初始信念被称为备择假设(alternative hypothesis)，而相反的被称为零假设(null hypothesis)（也叫原假设）。具体到例子中就是：

备择假设：本校学生的平均睡眠时间低于大学生的全国平均水平。

零假设：本校学生的平均睡眠事件不低于大学生的全国平均水平。

需要注意的是，我们必须要谨慎用语：因为我们要检验一个非常具体的效应，所以需要在假设中规范用语，才能在事后说明我们确实验证了假设而非其他。

假设检验是统计学的基础之一，用于评估大多数研究的结果。适用范围覆盖了从评估药物有效性的医学试验到评估运动计划的观察性研究等各种研究。

这些研究的共同点是，他们关注两组之间或样本与整体之间进行比较。例如，在医学中，我们可以比较服用两种不同药物的群体之间得以恢复的平均时间。而在我们的问题中，需要比较本校学生和本国所有大学生之间的睡眠时间。

有了假设检验，我们就可以使用证据来决定是零假设还是备择假设。假设检验有很多种，这里我们将使用z检验。但是，在我们开始测试数据之前，还需要解释另外两个更重要的概念。

正态分布

第二个概念是正态分布（normal distribution），也称为高斯（Gaussian）或钟形曲线（Bell curve）。正态分布是利用平均数和标准差来定义的数据分布形态，其中平均数用希腊字母μ (mu)表示，决定了分布的位置，标准差用σ (sigma)表示，决定了分布的幅度。

正态分布，平均数μ和标准差σ

正态分布的应用原理是根据标准差来评估观测值。我们可以根据与平均值的标准偏差数来确定观测值的异常程度。正态分布具有以下属性：

68％的数据与平均值相差±1标准差

95％的数据与平均值相差±2标准差

99.7％的数据与平均值相差±3个标准差

如果我们统计量呈正态分布，我们就可以根据与均值的标准偏差来表征任意观测点。例如，美国女性的平均身高是65英寸（5英尺5英寸），标准差为4英寸。如果我们新认识了73英寸高的女性，那么我们可以说她比平均身高高出两个标准差，属于2.5%的最高身高的女性（其中有2.5％的女性要矮于μ-2σ（57英寸），2.5％要高于μ+2σ）。

在统计学中，我们不直接说我们的数据与平均值相差两个标准差，而是用z分数来评估，z分数表示观测值与平均值之间的标准差的数量。我们需要利用公式将数据转化为z分数：观测值减去平均值，除以标准差（见下图）。在身高的示例中，我们可以得到朋友的身高的z分数为2。如果我们对所有观测值进行z分数转化，就会得到一个新的分布——标准正态分布，其平均值为0，标准差为1，如图所示：

从正态分布（右）到标准正态分布（左）的转换。

每次我们进行假设检验时，都需要假定一个检验统计量，在我们的例子中是学生的平均睡眠时间。在z检验中，我们通常假定统计检验量的分布近似正态分布。因为，根据中心极限定理（central limit theorem），从总体数据中获得越多的数据值，这些数据值的平均数则越接近于正态分布。

然而，这始终是一个估计，因为真实世界的数据永远不会完全遵循正态分布。假设正态分布能够让我们确定在研究中观察到的结果有多少意义，我们可以观察z分数，z分数越高或越低，结果越不可能是偶然发生，也就越具有意义。为了量化结果的意义，我们需要使用另一个概念。

P值和α是个啥！

最后的核心概念是p值。p值是当零假设为真时所得观察到的结果，或是更为极端的结果出现的概念。这有点令人费解，所以让我们来看一个例子。

假设我们要比较美国佛罗里达州和华盛顿州人民的平均智商。我们的零假设是华盛顿的平均智商不高于佛罗里达的平均智商。

通过研究发现，华盛顿州的人民智商比佛罗里达州人民智商高2.2，其p值为0.346（大于显著性水平）。这意味着，零假设“华盛顿的平均智商不高于佛罗里达的平均智商”为真，也就是说，华盛顿的智商实际上并没有更高，但是由于随机噪声的影响，仍然有34.6%的概率我们会测量到其智商分数会高出2.2分。之后随着p值降低，结果就更有意义，因为噪声的影响也会越来越小。

这个结果是否具有统计意义取决于我们在实验开始之前设定的显著性水平——alpha。如果观察到的p值小于α，则结果在统计学上具有意义。我们需要在实验前选择alpha，因为如果等到实验结束再选择的话，我们就可以根据我们的结果选一个数字来证明结果是显著的，却不管数据真正显示了什么，这是一种数据欺骗的行为。

α的选择取决于实际情况和研究领域，但最常用的值是0.05，相当于有5%的可能性结果是随机发生的。在我的实验中，从0.1到0.001之间都是比较常用的数值。也有较为极端的例子，发现希格斯玻色子（Higgs Boson particle）的物理学家使用的p值为0.0000003，即350万分之一的概率结果由偶然因素造成。(现代统计学之父R.A.Fischer不知为什么，随便选择了0.05为p值，很多统计学家极其不想承认这一点，并且这个值现在让许多统计学家非常困扰与担忧)！

要从z值得到p值，我们需要使用像R这样的表格统计软件，它们会在结果中将显示z值低于计算值的概率。例如，z值为2，p值为0.977，这意味着我们随机观察到z值高于2的概率只有2.3%。

正态分布下z值低于2的概率为97.7%

总结应用

我们做个总结，截止到目前提到了三个概念

1.假设检验：用来检验理论的方法。

2.正态分布：假设检验中对数据分布形态的近似表示。

3.P值：当零假设为真时观察到的或是出现更为极端结果的概率。

现在让我们把这些概念带入到我们的例子中：

根据国家睡眠基金会（the National Sleep Foundation）的数据，全国学生平均每晚睡眠时间为7.02小时。

针对本校202名学生进行的一项调查发现，本校学生的平均每晚睡眠时间为6.90小时，标准差为0.84小时。

我们的备择假设是，本校学生的平均睡眠时间少于全国大学生的平均睡眠时间。

我们将选取0.05为α值，这意味着当p值低于0.05时，结果是显著的。

首先，我们需要把测量值转换成z分数，用测量值减去平均值(全国大学生平均睡眠时间)，除以标准差与样本量平方根的商（如下图）。另外，随样本量的增加，标准差亦随之减少，这一点可以用标准差除以样本量的平方根来解释。

二、gbase8a支持什么分类算法？

目前支持两种分类算法：

1、Logistic回归算法，Logistic回归又称logistic回归分析，是一种广义的线性回归分析模型，常用于数据挖掘、疾病自动诊断和经济预测等领域。

2、支持向量机算法，

支持向量机是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。

说的通俗一点就是就是在特征空间里面用某条线或某块面将训练数据集分成两类，而依据的原则就是间隔最大化，这里的间隔最大化是指特征空间里面距离分离线或面最近的点到这条线或面的间隔(距离)最大。

三、spss简单线性回归分析需要多少组数据

没有具体数据要求，一般来说，数据越多越好。

通过线性回归算法，我们可能会得到很多的线性回归模型，但是不同的模型对于数据的拟合或者是描述能力是不一样的。我们的目的最终是需要找到一个能够最精确地描述数据之间关系的线性回归模型。这是就需要用到代价函数。

回归分析算法（回归分析算法原理）

代价函数就是用来描述线性回归模型与正式数据之前的差异。如果完全没有差异，则说明此线性回归模型完全描述数据之前的关系。

一条趋势线代表着时间序列数据的长期走势。它告诉我们一组特定数据（如GDP、石油价格和股票价格）是否在一段时期内增长或下降。虽然我们可以用肉眼观察数据点在坐标系的位置大体画出趋势线，更恰当的方法是利用线性回归计算出趋势线的位置和斜率。

四、k近邻算法如何做回归分析？

有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形），下面，我们就要解决这个问题：给这个绿色的圆分类。我们常说，物以类聚，人以群分，判别一个人是一个什么样品质特征的人，常常可以从他/她身边的朋友入手，所谓观其友，而识其人。我们不是要判别上图中那个绿色的圆是属于哪一类数据么，好说，从它的邻居下手。但一次性看多少个邻居呢？从上图中，你还能看到：

如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。于此我们看到，当无法判定当前待分类点是从属于已知分类中的哪一类时，我们可以依据统计学的理论看它所处的位置特征，衡量它周围邻居的权重，而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心思想。

KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN 算法本身简单有效，它是一种 lazy-learning 算法，分类器不需要使用训练集进行训练，训练时间复杂度为0。KNN 分类的计算复杂度和训练集中的文档数目成正比，也就是说，如果训练集中文档总数为 n，那么 KNN 的分类时间复杂度为O(n)。

KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

K 近邻算法使用的模型实际上对应于对特征空间的划分。K 值的选择，距离度量和分类决策规则是该算法的三个基本要素： K 值的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，但容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，但缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，是预测发生错误。在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。该算法中的分类决策规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别距离度量一般采用 Lp 距离，当p=2时，即为欧氏距离，在度量之前，应该将每个属性的值规范化，这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。 KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成反比。　该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。该算法只计算“最近的”邻居样本，某一类的样本数量很大，那么或者这类样本并不接近目标样本，或者这类样本很靠近目标样本。无论怎样，数量并不能影响运行结果。可以采用权值的方法（和该样本距离小的邻居权值大）来改进。

该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑，事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类，而那些样本容量较小的类域采用这种算法比较容易产生误分。

实现 K 近邻算法时，主要考虑的问题是如何对训练数据进行快速 K 近邻搜索，这在特征空间维数大及训练数据容量大时非常必要。

以上就是关于回归分析算法相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。