正文

模型算法有哪些

发布时间：2023-03-13 03:17:00 稿源：创意岭阅读： 118 问大家

大家好！今天让创意岭的小编来大家介绍下关于模型算法有哪些的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

ChatGPT国内免费在线使用，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、常见的分类算法有哪些
2、聚类算法有哪些
3、聚类算法有哪些分类
4、金融风控AI—评分卡模型算法(1)

模型算法有哪些

一、常见的分类算法有哪些

常见的分类算法：

1、决策树：决策树是一种用于对实例进行分类的树形结构。一种依托于策略抉择而建立起来的树。决策树由节点（node）和有向边（directed edge）组成。节点的类型有两种：内部节点和叶子节点。其中，内部节点表示一个特征或属性的测试条件（用于分开具有不同特性的记录），叶子节点表示一个分类。

2、贝叶斯：贝叶斯（Bayes）分类算法是一类利用概率统计知识进行分类的算法，如朴素贝叶斯（Naive Bayes）算法。这些算法主要利用Bayes定理来预测一个未知类别的样本属于各个类别的可能性，选择其中可能性最大的一个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的条件独立性假设前提，而此假设在实际情况中经常是不成立的，因而其分类准确性就会下降。

3、人工神经网络：人工神经网络（Artificial Neural Networks，ANN）是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在这种模型中，大量的节点（或称”神经元”，或”单元”）之间相互联接构成网络，即”神经网络”，以达到处理信息的目的。神经网络通常需要进行训练，训练的过程就是网络进行学习的过程。

二、聚类算法有哪些

基于网格的方法(grid-based methods)，这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法。

6、模型算法

基于模型的方法(model-based methods)，基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。通常有两种尝试方向：统计的方案和神经网络的方案。

扩展资料：

聚类分析起源于分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

在商业上，聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来，并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块，可以作为一个单独的工具以发现数据库中分布的一些深层的信息，并且概括出每一类的特点，或者把注意力放在某一个特定的类上以作进一步的分析；并且，聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。

参考资料：百度百科-聚类算法

三、聚类算法有哪些分类

聚类算法的分类有：

1、划分法

划分法(partitioning methods)，给定一个有N个

5、网格算法

基于网格的方法(grid-based methods)，这种方法首先将数据空间划分成为有限个单元（cell）的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。

代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法；

6、模型算法

基于模型的方法(model-based methods)，基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是：目标数据集是由一系列的概率分布所决定的。

通常有两种尝试方向：统计的方案和神经网络的方案。

扩展资料：

聚类算法的要求：

1、可伸缩性

许多聚类算法在小于 200 个数据对象的小数据集合上工作得很好；但是，一个大规模数据库可能包含几百万个对象，在这样的大数据集合样本上进行聚类可能会导致有偏的结果。

我们需要具有高度可伸缩性的聚类算法。

2、不同属性

许多算法被设计用来聚类数值类型的数据。但是，应用可能要求聚类其他类型的数据，如二元类型(binary)，分类/标称类型（categorical/nominal），序数型（ordinal）数据，或者这些数据类型的混合。

3、任意形状

许多聚类算法基于欧几里得或者曼哈顿距离度量来决定聚类。基于这样的距离度量的算法趋向于发现具有相近尺度和密度的球状簇。但是，一个簇可能是任意形状的。提出能发现任意形状簇的算法是很重要的。

4、领域最小化

许多聚类算法在聚类分析中要求用户输入一定的参数，例如希望产生的簇的数目。聚类结果对于输入参数十分敏感。参数通常很难确定，特别是对于包含高维对象的数据集来说。这样不仅加重了用户的负担，也使得聚类的质量难以控制。

5、处理“噪声”

绝大多数现实中的数据库都包含了孤立点，缺失，或者错误的数据。一些聚类算法对于这样的数据敏感，可能导致低质量的聚类结果。

6、记录顺序

一些聚类算法对于输入数据的顺序是敏感的。例如，同一个数据集合，当以不同的顺序交给同一个算法时，可能生成差别很大的聚类结果。开发对数据输入顺序不敏感的算法具有重要的意义。

参考资料：百度百科-聚类算法

四、金融风控AI—评分卡模型算法(1)

办理过信用卡的朋友知道，开卡需要先申请（筛选好坏用户），可能还会根据你的信用情况会有不同的额度。这就是银行的信用风险计量体系。对于信用卡有4类评分卡：

1）申请评分卡（A卡）

2）行为评分卡（B卡）

3）催收评分卡（C卡）

4）欺诈评分卡（F卡）

这些评分卡算法一样，只是训练的数据不同，所用的参数也就不同。

蚂蚁金服的芝麻信用也是这样的。

模型的开发主要包含以下几大部分工作：数据获取、数据预处理、探索分析、特征选择、模型训练、模型评估、建立评分系统。

本项目数据来源于kaggle竞赛 Give Me Some Credit 。有训练数据共计15万条。

打开数据文件大概这个样子：

字段描述如下

这部分主要做2个事情：缺失值处理和异常值处理。

pd的describe()函数，可以了解数据集的缺失值情况。

打开DataDescribe.csv

我们可以看大部分数据有15万条，其中月收入只有12万条，缺了近3万条，家属数量14.6万条。

对于缺失值，根据不同的情况我们分类处理：

（1）如果缺失的不多，比如家属数量缺失不多，可以直接删除含有缺失值的样本。用dropna()

（2）如果缺失较多，不宜直接全部删除，根据样本之间的相似性填补缺失值。比如用平均值

（3）如果缺失较多，不宜直接全部删除，根据变量之间的相关关系填补缺失值。比如用随机森林法填补。

（4）如果缺失巨大，就失去分析意义，可以将整个字段删除

平均值填补只要一句话：

随机森林法填补：

调用随机森林：

异常值是指明显偏离大多数抽样数据的数值，或者直接违背常识的数据，比如年龄是负数。对于违背常识的记录直接删除，而对于其他异常数据需要具体分析：

具体采用哪种方式其实最好都试一下，看看最后得到的模型怎么样。因为所有这些操作都是有假设条件的，而你的数据是否满足这些条件，试过才知道。

从图看有异常值不少，不过一般只把异常的0值去掉。

对于RevolvingUtilizationOfUnsecuredLines及DebtRatio都是百分数类型。其中第一项肯定不能大于100%而且统计一下这部分异常数据不多，果断删掉。第二项债务百分比不敢确定是否可债务大于100%，统计了一下有3w多条，而且取出来看了一下不是很特别，同样可以试一下删除或者放入不管或者填充看看最后不同的效果。

这3个逾期不还次数指标意义相似放一起看，发现有2个数据特别显眼，是96，98。虽然按箱型图的含义所有圆圈都是异常值，但仔细分析这三个指标发现正常值绝大部分是0，这就导致了箱型图的1/4线和3/4线都是0，所以我们通常把头顶2个值作为异常值。我把这部分异常值取出来发现数量不多，只有200多条，理论上可以直接删除或者放在里面置之不理。但是我看了这部分数据发现非常异常。这208条数据有125条是违约用户，违约占比62%，而全量数据里面违约占比7%不到，所以我觉得应该把这部分数据作为一条规则来处理，遇到这三个指标有超过90的数值，直接报告警。那么是否可以把这部分数据留着置之不理呢，后面我试了，发现会对变量之间的相关性有很大影响（后面会详细讲）。

同样这个指标我们把50以上作为异常值。

这个指标pass

月收入可以去掉特别高的数据

家庭成员可以剔除特别高的

第一篇完

以上就是关于模型算法有哪些相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。