正文

模型评测

发布时间：2023-03-05 03:02:49 稿源：创意岭阅读： 914 问大家

大家好！今天让创意岭的小编来大家介绍下关于模型评测的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

创意岭作为行业内优秀的企业，服务客户遍布全球各地，相关业务请拨打电话：175-8598-2043，或添加微信：1454722008

本文目录:

1、ROC曲线原理实例分析【1】
2、收型不错选择——评测保时捷911汽车模型
3、性价比之选，评测英菲尼迪Q50模型，一起发发发
4、只需要十分之一数据，就能通关四大视觉任务，居然还开源了

模型评测

一、ROC曲线原理实例分析【1】

在选择诊断试验时，许多研究者会在灵敏度和特异度之间进行艰难的取舍。那么，是否可以综合考虑灵敏度和特异度的特点，根据一个指标评价诊断试验的准确性呢？受试者工作特征曲线（receiver operating characteristic curve，简称ROC曲线），用来描述诊断试验的内在真实程度，应用十分广泛。

ROC曲线是以真阳性率（灵敏度）为纵坐标，假阳性率（1-特异度）为横坐标绘制的。每一个点都对应诊断试验的一个截点，我们将这些可能的点连接起来即可制作出经验ROC曲线（empirical ROC curve）。该方法可以帮助研究者简单、直观地分析诊断试验的临床准确性，选择更加合适的截点。

一、背景介绍

在介绍ROC曲线之前，首先来介绍一下预测模型的背景。

（一）预测模型建模流程简介

1.利用数据中的训练集进行模拟的生成。

2.利用测试集进行模型的评测。

3.将评测的结果反馈给生成模型。

4.若评测结果比较满意，进行生成模型的输出，否则重新生成。

那么测试集如何评测预测模型？这里引出混淆矩阵的概念。

（二）混淆矩阵

混淆矩阵也称误差矩阵，是表示精度评价的一种标准格式，常用来预测模型的准确率。

图1 混淆矩阵

P：样本中的正例，n：样本中的负例 Y：通过模型预测出来样本中的正列，N：通过模型预测出来样本中的负列 TP(True Positives)：本来是正列，通过模型预测出来也是正列FP(False Positives)：本来是负列，通过模型预测出来也是正列预测模型准确率accuracy=(TP+TN)/(P+n) （三）案例分析

表1 原始数据

从表1可以看出，有20个观测值，结局有1和0两种状态，分别代表着阳性和阴性。类似于Logistic回归当中某个人是否患疾病，患病为1，不患病为0。预测概率是通过Logistic回归预测的结果。那怎么去预测这组概率的准确率呢？

从表2中可以看出前6个数据预测结局为阳性，其他14个数据预测结局为阴性。计算它的混淆矩阵如表3，真实结局中有10个1和10个0。但是预测结局的阳性数有6个，其中有5个是真实阳性，有1个是真实阴性。第三个观测值结局本来是阴性的，但预测结局是阳性的，这个观测值预测错误。同理，预测结局的阴性数有14个，其中有9个是真实阴性，有5个是真实阳性。第九个观测值结局本来是阳性的，但预测结局是阴性的，这个观测值预测错误。

表3 混淆矩阵表

真阳率是指本来是阳性的，预测出的结果也是阳性的。假阳率是指本来是阴性的，但预测出的结果是阳性的。从表3中可以看出，在真实阳性数这一竖列中，预测正确的观测值有5个，所以真阳率(TPR)=5/P=5/10=0.5。在真实阴性数这一竖列中，预测正确的观测值有1个，所以假阳率(FPR)=1/n=1/10=0.1。

同理真阴率(TNR)=9/10=0.1，假阴率(FNR)=5/10=0.5。

表4 真阳率和假阳率

从表4可以看出，以0.54为阈值，作出来的混淆矩阵真阳率为0.5，假阳率为0.1。真阳率和假阳率是以每一次相应的预测概率为阈值，算出混淆矩阵而得到的。

将1-20每个样本的评分均作为分类器的判定阈值，可以得到20组TPR和FPR的有序数对。然后以TPR和FPR为两个坐标轴建立一个直角坐标系，就可以得到图2。

图2 TPR和FPR的有序数对

二、ROC曲线概念

ROC曲线：受试者工作特征曲线(receiver operating characteristic curve，简称ROC曲线)，又称为感受性曲线(sensitivity curve)。

采用真阳性率和假阳性率作出的曲线，适用于诊断试验结果为连续变量。试验的真阳性率（Sen）为纵坐标（Y），假阳性率（1-Spe）为横坐标（X），坐标轴上的率值由0 1或0% 100%。

图3 ROC曲线示意图横轴FPR：1-TPR，1-Specificity，FPR越大，预测正类中实际负类越多。纵轴TPR：Sensitivity，TPR越大，预测正类中实际正类越多。理想目标：TPR=1，TPR=0，即图中(0,1)点，故ROC曲线越靠拢(0,1)点，越偏离45°对角线越好，Sensitivity、Specificity越大效果越好。

三、最佳阈值的确定——约登指数

约登指数（Youden index，YI）：是评价筛查试验真实性的方法，假设其假阴性和假阳性的危害性同等意义时，即可应用约登指数。约登指数=灵敏度Sensitivity+特异度Specificit-1=[a/(a+c)+d/(b+d)]-1。指数越大说明筛查试验的效果越好，真实性越大。从表中可以看出，真阳率与假阳率的差值就是约登指数，最大的约登指数为0.4，0.4对应的预测概率为0.54，大于0.54认为是阳性的，小于0.54认为是阴性的。0.54就是最佳阈值。

四、AUC概念

AUC(Area Under Curve)值为ROC曲线下方的面积大小。显然，AUC越大，预测效果越好。AUC=1，是完美分类器，采用这个预测模型时，不管设定什么截断点都能得出完美预测。绝大多数预测的场合，不存在完美分类器。0.5<AUC<1，优于随机猜测。这个预测模型妥善设定截断点的话，能有预测价值。AUC=0.5，跟随机猜测一样（例：抛硬币），模型没有预测价值。AUC<0.5，比随机猜测还差，但只要总是反预测而行，就优于随机预测。

图4 包含AUC值的ROC曲线

[参考资料]（ https://mp.weixin.qq.com/s?src=11&timestamp=1584533576&ver=2224&signature=6PwC6AuccTKFKXc0sXP0Cp7rEVSF3Qp2QFHfyfE 7Bq3d1cN-XspGn-EV2gqpTVgaS2q 1ZBqgxp7bx3zDNkhfOxz7DM62BCpshh*EiK7oj9QD517iKBdoR58gaYLBMM&new=1

）

二、收型不错选择——评测保时捷911汽车模型

模型评测

很高兴能参加到家家众测的活动当中来，期盼已久的家家众测雨露均沾的活动终于又来看了，这次活动的奖品是一个2T的移动硬盘，为了它，让我们一起发发发吧。

这次给大家评测的是一款汽车模型，是来自保时捷的911，品牌是威利的国产入门的模型品牌，绝对是出入门者的不错选择首先就是它的型比较准确，整体的比例协调，还原了实车的形态，两车门，前后盖都能开启，前轮转向角度比较满意，外拍时候能摆出更多姿势，带全窗玻璃，要知道这个价位不容易，20寸轮毂做工精致，还原度很高，以假乱真，卡钳也有喷红处理，一定给个赞，内饰做工还算满意，虽然没有植绒，但是各个按键，小细节还算到位。下面一起具体看看吧

模型评测

前脸呆萌，和实车保持一致，只是这大灯，黑压压一片，显得不那么精神，日行灯LED灯的细节造型倒是不错，还是一句话成本成本，不然哪来的这么高性价比

模型评测

车身侧面线条完美还原了蛙王的神韵，缝隙做的也还可以

模型评测

饱满的尾部十分有力量，只是尾灯依旧无神

模型评测

这款车魔师全开模型，什么是全开，就是车门前后盖能打开，增加可玩性，只是内饰细节一般，不够丰富

模型评测

前备箱也是黑压压一片没什么细节

模型评测

尾部保时捷的字样是印上去的字，不是立体的，排气管塑料感略强，不过毕竟价位在这，收型的不错选择

模型评测

三、性价比之选，评测英菲尼迪Q50模型，一起发发发

模型评测

今天来评测一款英菲尼迪Q50汽车模型，这款模型是原厂车模，比例是1:18的，这款模型在原厂模型党中可以说是属于上等水平，为什么这么说呢，听我慢慢道来首先这款模型是合金材质，非常有分量，整体造型也非常的精准，还原度很高，漆面采用了和真是一样的金属漆，表面非常光滑，这款模型有两个颜色，一个就是这款红色，还有一个白色，白色的价格要高上许多，不过红色也还不错吧，再有他的大灯，内部的构造十分细腻，把实车的眼神很好地还原了出来，车子的四车门，前后盖都能够打开，不仅如此，像后视镜折叠，天窗开启，甚至油箱盖都能打开，可玩性很高，内饰也非常的逼真，有植绒，一般原厂车模都会有植绒，还有一点，他的前后盖不再是大狗腿的结构，竟然用上了金属铰链和液压杆，非常走心，所以这款Q50模型的性价比还是非常高的

犀利的外形，模型把他犀利的身姿完美的展现出来

模型评测

前后比例十分协调

模型评测

鹰眼式的大灯炯炯有神

模型评测

尾部仿真度也很高，特别是这两个尾喉，十分粗壮有力

模型评测

内饰，经典的双屏设计，模型也没有含糊，都还原了出来

模型评测

打开机盖，这才是精华所在，超多的分色处理，机油尺，管道，冷却壶都栩栩如生

模型评测

液压杆，铰链，真是下足了功夫

模型评测

一起欣赏一下

模型评测

四、只需要十分之一数据，就能通关四大视觉任务，居然还开源了

Github链接：https://github.com/opengvlab

家人们，你们有没有这种苦恼？

搬一次家就换一次家具，那些又贵又重的家具既不好搬运，又不好全部带走。

下一次又重新购置一遍家具，浪费钱不说，关键是来来回回都做一样的事情！家具还没用过几次，利用率不高呀！

这种搬家的苦恼，就好比AI领域，做几个任务就需要开发几个高度定制的模型，不仅所需的数据采集量非常大，每次还都得从头标注。既提不起数据的学习效率，又耗费巨大的数据获取成本。

光是AI前端研究就耗费如此巨大的精力，更别提应用场景中数以万计的长尾任务。

那怎么办？

做一款通用的深度学习模型，才是关键。

1 通用，才是技术根本

目前，通用语言模型（GLM）已经取得了令人瞩目的进展，比如BERT、T5和GPT-3，它们在应对广泛的语言下游任务时已经游刃有余。

相形之下，通用视觉模型（GVM）的研究迟迟未交出一份令人满意的答卷。

以往的大多数 GVM 研究主要利用一种监督信号来源，如 ViT-G/14 采用有标签监督，SEER 采用样本的不同增强之间的对比学习，CLIP采用图片文本对进行监督。如果是在单个监督信号下进行的预训练，这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景，这些模型就难以胜任了。

比如现在最火的自动驾驶，汽车处于移动状态，既要看到路况，又要看到红绿灯，还要注意行人，甚至在智能座舱兴起后，还要和语言技术、LBS场景服务协同，这么多的感知数据与协同任务，这么多随机的新任务，无论在体量还是维度方面，都对视觉模型的要求极大提高。

这时，打造一款通用视觉模型，降低研发门槛，尤其是学术界的时间成本、资金成本，才能畅享下游的极致场景体验。

去年11月，上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布通用视觉技术体系“书生”（INTERN），一套持续学习框架，用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

前不久，上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab，面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集，以及业内首个针对通用视觉模型的评测基准。

这些开源技术，究竟有何魔力？

2 大力出奇迹，打造通用视觉模型

“书生” （INTERN），就是练就通用视觉能力的底层技术。

从技术实现上讲，“书生”技术体系由由七大模块组成，包括三个基础设施模块和四个训练阶段构成。

书生（INTERN）结构图

首先，通用视觉数据系统。

这是一个超大规模的精标数据集，拥有100亿个样本和各种监督信号，并依照四大视觉任务分别设置了四个数据子集：多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。

另外，这一数据集还包含11.9万的标签系统，不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几乎所有标签，还扩充了大量细粒度标签，涵盖各类图像中的属性、状态等。

而这，就是书生“大力出奇迹”的一大注脚。

其次，通用视觉模型结构。

它是由一个具有CNN和Transformer的统一搜索空间构建而成。

为何要建立这样的混合结构？要知道，多年来，卷积神经网络（CNN）一直主导着视觉表征学习，并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年，Vision Transformer (ViT)仅使用普通的Transformer结构就能作为图像编码模型在ImageNet-1k上取得媲美 CNN 的性能，在大规模数据集上 ViT 更是展示出比 CNN 更大的潜力。

尽管ViT在性能上有优点，但纯Transformer网络相比卷积神经网络缺乏某些归纳偏置（inductive biases），因此需要更多的数据和计算资源。此外，自注意的计算成本相对于输入的数量是平方的，限制了对高输入分辨率的应用。因此，将CNN和Transformer和MLP结合起来，平衡效率和有效性两个方面，才是模型通用的关键。

这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索，从而得到最优的一个模型训练结构。

统一搜索的MetaNet架构：Conv和Trans分别表示卷积和Transformer。C和S为每一阶输出通道数和步幅。

具体来看，MetaNet不仅基于强化学习的PPO算法提出了统一搜索架构，并且，为了避免传统的下采样模块会成为模型性能的瓶颈，“书生“结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM)，用来代替原本的下采样模块。

因此，在浅层，模型依然使用卷积来提取特征，但在深层，模型却能将Transformer模块和LG-DSM结合使用，以便于更好地提取全局信息。

同时，书生还基于最大的MetaNet-B15蒸馏出了多达13种不同的模型结构，共24种不同的模型权重，现已全部开源。

这些模型结构基本涵盖了现有市面上大部分的主流backbone，不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化，而且只需要更短的训练时间就可以达到比原来更好的训练效果。

MetaNet 模型与其他模型结构比较，结果如下：

基于卷积、Transformer和两者混合的结构，分别用C，T和H表示，可以看出，在图像分类性能上，MetaNet系列的MN-B1，MN-B4和MN-B7，和其他的SOTA模型相比，不仅有更高的精度，还有更低的FLOPS和参数量。

除了分类任务，把MetaNet做为检测和分割的backbone，在COCO数据集上使用Mask R-CNN结构训练，结果发现：在模型参数量更小的前提下，MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务，MN-B4的mIoU指标比Swin-T高出5个点之多。

上述两个实验结果表明，MetaNet系列模型结构，在模型精度与计算量之间，都达到了新的SOTA！

最后，通用视觉评测基准。

视觉评测基准GV-B ，就像是一个「擂台」。

如下表所示，测评基准收集了 26 个下游任务数据集，囊括了 4 种视觉任务类型：分类，检测，分割和深度估计。

在设置上，该基准引入了百分比样本（percentage-shot），只需要选取整个数据集的一部分，例如 10%、20% ，对比缩小下游任务的训练数据量后的模型性能。

与传统的少样本设置相比，这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性，并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡，比如下表中的VOC07+12，百分比数据的划分方式却会继承这种分布情况。

右侧三列avg，min和max，分别表示在10%的数据中，不同类别样本数量的平均值，最小值和最大值。

结合上述数据集和任务类型，论文选取了一些具有代表性的模型来做评测对比。为了比较公平性，该对比使用了这些模型的官方预训练权重。这些模型包括：

有了超大精标数据集、模型结构，以及评测基准后，已经是万事俱备，只欠训练。

书生作为中国古代读书人的经典形象，代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色：从基础的知识技能学习开始，到对多种专业知识触类旁通，进而成长为拥有通用知识的通才。借此意象，“书生”（INTERN）系统可通过持续学习，举一反三，逐步实现通用视觉领域的融会贯通，最终实现灵活高效的模型部署。

下面就来看看，这套系统是如何通过训练，一步步从生手变成专家再到多面手，最终在各种任务中大显身手。

第一阶段，训练的是基础能力，被称为“基础模型”（Amateur）。

然而CLIP需要400M的图像-文本对进行前训练，囿于极大的数据量，CLIP很难进一步发展。但“书生”提出了一种新的训练范式，DeCLIP（Data efficient CLIP ），能够同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练，从而更有效地实现通用性。

此外，为了充分利用大规模多模态数据获取基础模型的优势，这一阶段提出了Upstream-Amateur (Up-A)视觉语言预训练框架，同时挖掘模态内和跨模态知识。

这一训练框架分为两个预训练阶段：Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中，Up-A-G(左)使用群体监督功能，从更丰富的监督中学习。Up-A-L(右)采用局部自我监督学习方法，对训练好的视觉-语言模型进行调整，从而提高自身在密集预测CV任务中的表现。

Upstream-Amateur的框架

得益于这些内在的监督，DeCLIP-ResNet50可以在ImageNet上实现60.4%的zero-shot 精度第一。这比CLIP-ResNet50高出0.8%，数据使用量少了81%。当迁移到下游任务时，DeCLIP-ResNet50在11个视觉数据集中有8个优于CLIP。

更关键的是，训练完成的Upstream-Amateur为后续的训练阶段提供了一个很高的起点。

第二阶段，训练的是专业能力，被称为“专家模型”（Expert）。

Up-A阶段得到的基础模型，在一般的视觉识别问题上显示出优异的性能。但要完全掌握检测、分割等更具体的任务，还需要在每个任务中进行更专业的预训练，这就促成了第二个阶段的到来，专家模型。

对于每个专家，“书生”采用了一种简单的多头设计，每个头是一个特定数据集的子网络，从一个公共的、共享的“主干”分支出来。比如Up-E (C)、Up-E (D)和Up-E (S)，分别用于图像分类、对象检测和语义分割。

第三阶段，训练的是组合能力，被称为“通才模型”（Generalist）。

上述的多任务是指不同数据集(如ImageNet和CIFAR)的一个视觉问题(如分类)，或一个数据集的多个视觉问题(如分类和检测)。但关键是，如何将专家整合到一个统一的模型中，获得一个更加通用的视觉模型。因此，在预训练“专家”阶段之后，又将“通才”作为第三个预训练阶段，以进一步统一特征表示。

“书生”提出了一个新的范式，名为“混合参数共享”，从而开发一个名为“多面手”的通才模型。

具体来说，由于专家捕获的知识是相互关联的，当专家的特征融合为一个共享的表示形式时，再利用基于软共享的跨任务知识转移和基于硬共享的通用表示学习的方法，在不引入任务冲突的情况下在专家之间传递信息（特征转移），从而进一步提高了多任务训练的模型(专家)性能，即“通才”能力。

在结构上，通才模型是所有专家的一个相互关联的版本，因此可以把每个“专家主干”称为“通才分支”。此外，我们还可以根据训练相应专家的任务将通才中的每个分支分为图像、补丁和像素。但无论是软共享还是硬共享，都意味着从专家模型到通才模型的一次跃升。

在经历了前三个训练阶段模块后，终于来到最后的任务迁移阶段（Adaptation）。

这个阶段属于技术链条的下游，用来解决各式各样不同类型的任务，而这也是最考验“书生”举一反三能力的时刻。它需要在这个阶段把之前学到的通用知识，融会贯通地应用到不同特定任务中。

在此之前，很多迁移学习方法确实取得了很多进步，但问题是，这些方法既没有利用上游预训练中的隐含信息，也没有考虑到下游数据在少镜头场景中的不足。

因此，“书生”提出了一种Multi-stage Fine-tuning (MF)方法，缓解在数据较少的情况下传输的困难，再通过将上游数据编码成生成模型，即VQ-GAN，可以将预训练的模型转移到多个任务和领域，而无需每次都使用上游数据，而这也使得“书生”更具通用性和可扩展性。

多级微调(MF)概述：VQ-GAN模型首先在第一阶段使用上游数据进行训练，然后在第二阶段由它重构下游数据。在此之后，第三阶段只对新增任务的特定参数进行重新表示的图像训练，第四阶段则通过下游数据对整个模型进行微调。

至此，一个具有持续学习能力的通用视觉模型终于出世。

而具体有哪些提升，不如看一下更直观的实验数据对比！

3 一网打尽视觉领域四大任务

视觉领域，任务繁多，主流任务包含分类、目标检测、语义分割、深度估计四大类型。

在这四大任务中，最强大的视觉模型还是去年OpenAI发布的CLIP模型。但相比较而言，“书生”则在准确率和数据使用效率上都有所提升。

1、精度表现

通过对“书生”训练出的模型在GV-B上的评测对比，发现经过多阶段预训练的MetaNet精度表现优异。

在ImageNet等26个最具代表性的下游场景中， “书生”在分类、目标检测、语义分割及深度估计等四大任务上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

书生（INTERN）与CLIP-R50x16在不同样本量上的性能对比，正确率展示

2、数据使用效率

“书生”在数据效率方面的提升尤为瞩目：只需要1/10的下游数据，就能超过CLIP基于完整下游数据训练的准确度。

以CLIP-R50x16和Up-G MN-B15在GV-B的评测对比为例，分别在分类、目标检测、语义分割、深度估计四大类型的26个下游任务数据集上进行了评测，仅使用了10%数据进行训练的Up-G MN-B15模型，在绝大部分数据集上都能比使用了全部训练数据的CLIP-R50有更好的精度表现。这表明，经过多阶段预训练的MetaNet具有极强的泛化能力，能够在仅有少量的训练样本情况下，达到SOTA的精度表现。

在下游视觉场景中，小样本训练带来的是极高的训练速度，以及极低的训练成本。

例如在花卉种类识别任务上，“书生“只需要每一类型的花卉提供两个训练样本，就能实现99.7%的准确率。

这个花卉数据集由102种英国常见的花组成，每个类别有40至258张图片。其中包含有很大的比例、姿势和光线变化。

102个类别的花卉数据集：

https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

4 通用视觉平台，已正式开源

如此强大的通用视觉训练模型已经正式开源！

更关键的是，连同上述讲到的标签数据集、网络结构以及评测基准，均在OpenGVLab被统一打包开源。

其中的网络结构除了MetaNet，还包含大家普遍使用的ResNet， MobileNet， ViT， EfficientNet等，以满足不同场景的应用，赋能计算机视觉。

然而，「书生」的布局不止于此。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道，共同构筑开源体系OpenXLab，持续推进通用人工智能的技术突破和生态构建。

一位已经使用过此次开源平台的自动驾驶算法研究员表示：“书生系列模型充分覆盖了从移动可部署的小模型，到超大规模自研结构，为行业带来了希望，尤其是它的收敛速度，大幅节省了训练开销，是技术落地的一大助推器。“