正文

gpt训练成本（gpt3 训练成本）

发布时间：2023-03-12 18:40:29 稿源：创意岭阅读： 129 问大家

大家好！今天让创意岭的小编来大家介绍下关于gpt训练成本的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

ChatGPT国内免费在线使用，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、gp7试用版区别
2、毫末布局大模型、智算中心自动驾驶新基建如何筑成？
3、GPT的auto-regressive语言模型架构在信息表示方面有什么架构上的缺陷？具体如何改进？
4、gpt2和cpm2哪个好

gpt训练成本（gpt3 训练成本）

一、gp7试用版区别

您好，GPT-7试用版与正式版的主要区别在于GPT-7试用版的训练数据量较少，而正式版的训练数据量则较多。GPT-7试用版的训练数据量约为2.7TB，而正式版的训练数据量则高达175TB。此外，GPT-7试用版的训练时间也较短，只需要几个小时，而正式版的训练时间则需要几天甚至几周。此外，GPT-7试用版的准确率也较低，而正式版的准确率则较高。总之，GPT-7试用版与正式版的主要区别在于训练数据量、训练时间以及准确率方面。

二、毫末布局大模型、智算中心自动驾驶新基建如何筑成？

2023伊始，先是开年毫末智行举办HAOMOAIDAY，放出自动驾驶行业最大智算中心，再有

智算中心即智能计算中心，是基于人工智能理论，采用领先的AI计算架构，提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施，换句话说，智算中心其实是一个算力的供应和生产平台。那为什么有了它“自动辅助驾驶”就可以变为“自动驾驶”了？

“降服”自动驾驶边际成本自动驾驶智算中心“专云专用”

有人说，智算中心是自动驾驶发展的助推器，因为自动驾驶算法模型训练是机器学习的典型场景之一，其视觉检测、轨迹预测与行车规划等算法模型需要同时完成高并发的并行计算，对算力有着极高的需求，而智算为提高算法模型的成熟度提供了巨大的算力。

在自动驾驶领域，说起智算中心，还得先提

国内方面，2022年8月，小鹏汽车和阿里云合建了当时国内最大的自动驾驶智算中心“扶摇”，专门用于自动驾驶模型训练，算力规模达600PFLOPS，相当于每秒可以完成60亿亿次浮点运算。不过这个记录仅仅维持了4个多月。

今年1月，毫末智行联合火山引擎，共同推出自动驾驶行业最大的智算中心MANA OASIS（雪湖·绿洲），每秒浮点运算达67亿亿次，存储带宽每秒2T，通信带宽每秒800G。吉利也在1月28日上线了吉利星睿智算中心，目前已接入智能驾驶和车联网实验数据近百PB，在线车辆的并发计算支持达百万辆。

从现有情形来看，成本和需求两重因素，是智算中心的诱人之处。

成本层面，算力作为自动驾驶的基本要素，需要更高性能的智算中心来完成训练、标注等工作。以毫末的MANA OASIS为例，通过部署Lego高性能算子库、ByteCCL通信优化能力，以及大模型训练框架，软硬一体，毫末把算力优化到极致。在训练效率方面，基于Sparse MoE，通过跨机共享，轻松完成千亿参数大模型训练，且百万个clips（毫末视频最小标注单位）训练成本只需百卡周级别，训练成本降低100倍。

搭建高效、低成本的数据智能体系是自动驾驶技术健康发展的基础，也是自动驾驶系统能够不断迭代前行的重要环节，更是自动驾驶商业化闭环的关键所在。

小鹏汽车董事长何小鹏曾表态，“如果现在不以这样的方式（智算中心）提前储备算力，那么今后5年内，企业算力成本会从亿级，加到数十亿级。”

如果持续使用公有云服务，边际成本不断上涨只是一方面，更重要的是，智算中心可以让自动驾驶企业实现“专云专用”。自动驾驶的开发包括从数据采集到数据筛选、打标、模型训练、回放性验证、仿真测试等等环节。而云计算的本质是租赁计算设备，云服务商的设备都是统一采购，为了获得更多客户，这些设备都具备很大的通用性，设备内部使用的CPU、GPU/AI加速器、内存的型号与规格都相对固定，很难与车企和自动驾驶公司的算法形成最佳匹配。并且，云服务厂商对自动驾驶算法的了解程度不高，不可避免的会在调度算力时出现损耗和效率不高的问题。所以，从需求的角度来看，智算中心似乎可以成为自动驾驶和车企的托底神器。

同样以毫末为例，有了MANA OASIS的加持，毫末MANA五大模型全新亮相升级，车端感知架构实现跨代升级，毫末的技术栈布局继续保持完整领先的态势，尤其在感知、认知等层面领跑行业，引领大模型、大算力、大数据发展方向，冲刺进入自动驾驶3.0时代。

拿数据采集、筛选和标注来说，自动驾驶系统在前期开发阶段，需要采集大量的道路环境数据，以此让车辆像人类驾驶员一样快速准确地识别车道、行人、障碍物等驾驶环境中的关键信息。唯一的办法是，通过在海量数据基础上不断的重复训练与验证，车辆对道路环境的认知水平逐渐趋近于真实情景，判断的准确性在这一过程中不断提升。

不仅如此，车企收集到的数据还需要进行模型训练，算法通过在数据上进行运算产生模型，而智算中心将是驱动大模型和海量数据训练的加速器。基于Sparse MoE，毫末根据计算特点，进行稀疏激活，提高计算效率，实现单机8卡就能训练百亿参数大模型的效果，实现跨机共享exper的方法，完成千亿参数规模大模型的训练，训练成本降低到百卡周级别；毫末设计并实现了业界领先的多任务并行训练系统，能同时处理图片、点云、结构化文本等多种模态的信息，既保证了模型的稀疏性、又提升了计算效率；MANA OASIS训练效率提升了100倍。

毫末智行CEO顾维灏也在详细阐释了建设智算中心的底层逻辑：“自动驾驶对智算中心的第一要求肯定是算力。智算中心的超大算力代表了有多少的AI工程师在这个练武场中能够做出什么大模型，能训练多少大模型。”

智能辅助驾驶“进城” MANA OASIS帮助毫末解决了哪些难题？

现在很多车企和自动驾驶技术企业已经开始把打造智算中心当成下一阶段竞争重点。今年1月的HAOMO AI DAY上，毫末智行董事长张凯给出了2023年自动驾驶行业趋势的十大新预测，超算中心赫然位列其中，“超算中心会成为自动驾驶企业的入门配置。”

事实上，当下，随着新能源汽车品牌普遍已经把高速公路场景下的辅助驾驶列为标配，赛场已经悄然从高速路转向城市。与高速导航辅助驾驶相比，城市行车涉及了红绿灯、十字路口、行人电动车、遮挡、固定障碍物、频繁刹停起步等一系列难题，复杂度又提升了好几个数量级。

如果仅用实测车辆去挑战这些城市场景无法穷尽的Corner Case，成本、安全性、时间都将成为企业发展的壁垒。由此，虚拟仿真就成为了解决部分成本及场景多样性的关键，其中，大规模的长尾场景需要数据中心提供充足的算力支持。同时，仿真场景对现实的回归过程，同样需要巨大的算力提供支持。

在MANA OASIS的加持下，毫末的数据智能体系MANA五大模型全新亮相升级。而在五大模型助力下，MANA最新的车端感知架构，从过去分散的多个下游任务集成到了一起，形成一个更加端到端的架构，包括通用障碍物识别、局部路网、行为预测等任务，毫末车端感知架构实现了跨代升级。这也意味着毫末的感知能力更强，产品力更强，向全无人驾驶加速迈进。

首先是视觉自监督大模型，让毫末在中国首个实现4D Clip的自动标注。毫末利用海量videoclip，通过视频自监督方式，预训练出一个大模型，用少量人工标注好的clip数据进行Finetune（微调），训练检测跟踪模型，使得模型具备自动标注的能力；然后，将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成clip，其中10%是标注帧，90%是未标注帧，再将这些clip输入到模型，完成对90%未标注帧的自动标注，进而实现所有单帧标注向clip标注的100%的自动转化，同时降低98%的clip标注成本。毫末视频自监督大模型的泛化性效果极佳，即使是在一些非常困难的场景，例如严重遮挡的骑行者，远处的小目标，恶劣的天气和光照，都能准确地完成自动标注。

其次是3D重建大模型，助力毫末做数据生成，用更低成本解决数据分布问题，提升感知效果。面对“完全从真实数据中积累corner case困难且昂贵”的行业难题，毫末将NeRF技术应用在自动驾驶场景重建和数据生成中，它通过改变视角、光照、纹理材质的方法，生成高真实感数据，实现以低成本获取normal case，生成各种高成本corner case。3D重建大模型生成的数据，不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低。增加NeRF生成的数据后，还可将感知的错误率降低30%以上，且数据生成可实现全程自动化，无需任何人工参与。

多模态互监督大模型则可以完成通用障碍物的识别。毫末在成功实现车道线和常见障碍物的精准检测后，针对城市多种异形障碍物的稳定检测问题，毫末正在思考和探索更加通用的解决方案。目前，毫末的多模态互监督大模型，引入了激光雷达作为视觉监督信号，直接使用视频数据来推理场景的通用结构表达。该通用结构的检测，可以很好地补充已有的语义障碍物检测，有效提升自动驾驶系统在城市复杂工况下的通过率。

动态环境大模型，可以精准预测道路的拓扑关系，让车辆始终行驶在正确的车道中。在重感知技术路线下，毫末为了将对高精地图的依赖度降到最低，面临着“道路拓扑结构实时推断”的挑战。为此，毫末在BEV的feature map（特征图）基础上，以标精地图作为引导信息，使用自回归编解码网络，将BEV特征，解码为结构化的拓扑点序列，实现车道拓扑预测。让毫末的感知能力，能像人类一样在标准地图的导航提示下，就可以实现对道路拓扑结构的实时推断。

毫末认为，解决了路口问题实际就解决了大部分城市NOH问题。目前在保定、

仿真测试能有效缩短技术和产品开发周期，降低研发成本。业内典型的长尾场景问题不够丰富，现实中可遇而不可求的极端场景，利用仿真平台可以便捷生成。由于仿真测试中的模拟环境需要实现多模态融合，以支持传感器模组的复杂性，因而也需要大算力的支持。

除了毫末，特斯拉超算中心拥有近2万张GPU，对自动驾驶训练效率产生立竿见影的效果，最大限度地提升了自动驾驶系统的开发效率；大陆集团的高算力集群，将开发周期从几周缩短至几个小时，使自动驾驶得以在中短期商业计划中落实；机器学习时间的缩短加快了新科技进入市场的速度；“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天缩短至1小时内，大幅提速近170倍……

当前，一个不争的事实就是，在自动驾驶领域具有长期规划的车企，无论是造车新势力还是传统品牌，或者技术供应商，都在搭建自己的超算中心，以掌握稳定的算力资源，缩短开发周期，加快自动驾驶产品的上市。相反，如果没有超算中心，那么自动驾驶训练速度将明显放缓，自动驾驶企业间的差距也将愈发明显。

用智算中心打造数据护城河数字新基建逐步成为发展“标配”

自动驾驶发展至今，业界发现乘用车智能辅助驾驶是最有可能大规模铺开的商业场景。据高工智能汽车研究院数据显示，2022年中国市场（不含进出口）乘用车前装标配搭载L2级辅助驾驶的搭载率，已经连续第二个月超过30%。智研咨询数据显示，预计到2025年，全球新车L2自动驾驶的渗透率可达53.99％。

今年，城市导航辅助驾驶也开启了量产的征程。西部证券预测，2023～2025年，国内市场上搭载城市导航辅助驾驶的车型将分别达到70万、169万和348万辆，占比将分别达到17％、40％和70％。

在城市导航辅助驾驶落地加速的背景下，更容易复制、拓展的重感知的方案，受到了更多关注。在重感知技术路线下，面对“道路拓扑结构实时推断”的挑战，毫末的选择是在特征图基础上，以标精地图作为引导信息，使用自回归编解码网络，通过结构化的拓扑点序列解码，实现车道拓扑预测。由此不难看出，业界逐渐达成共识的重感知路线，相比高精地图方案，更依赖算力加持。

人工智能是创新的加速器，智算中心则可以为各类技术创新提供支撑。一方面，智算中心可以为构建安全可信、可复用的技术研发环境提供算力设施支撑，为各领域科技研发提供智能计算服务，加速科技研发的进程；另一方面，智算中心是新一代信息技术的集成应用载体，智算中心的快速建设推广与规模化应用将推动通信服务网络、大数据、人工智能等技术的快速迭代，从而促进技术创新。自动驾驶数据是片段式的，特点是小文件多，达到百亿个，而且训练需要交换的数据多，智算中心可以提供充足的带宽，并且可以让自动驾驶模型拥有更好的并行计算框架，在训练的时候把硬件资源都利用起来。

2020年4月20日，国家发展改革委首次明确新型基础设施的范围，其中就包括以智能计算中心为代表的算力基础设施。2023年1月10日，国家工业信息安全发展研究中心推出《智能计算中心2.0时代展望报告》，指出经过5年多发展，智算中心正由1.0粗放扩张阶段走向2.0精细规划阶段。

根据相关统计和测算，目前全国超过30个城市在建或筹建智算中心，未来5年我国智能算力规模年复合增长率将达52.3%。智算中心的创新发展，将进一步为人工智能夯实“算力底座”，成为带动人工智能及相关产业快速发展的新引擎。

“我们测算，智算中心带来的成本优化是惊人的，将达到亿元级别。”这是今年1月，张凯提出的预测。从目前及未来的规划量产规模来看，毫末自建智算中心可节约巨额成本；同时，其带来的效率提升也非常明显。

人工智能发展很快，新的算法层出不穷，需尽快引入新的技术和模型，与此同时，数据是智能化发展最大的驱动力，也占据了大量成本构成。用自建智算中心来打造数据护城河，不仅能够完善产业智能生态，更能让企业在智能化方面占据先发优势，智算中心作为数字新基建，未来势必将引领自动驾驶技术持续迭代升级。

【本文来自易车号作者车业视界，版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点，与易车无关】

三、GPT的auto-regressive语言模型架构在信息表示方面有什么架构上的缺陷？具体如何改进？

1） GPT

在Bert 之后，OpenAI 的 GPT-2 就是其中之一。它在文本生成上有着惊艳的表现，其生成的文本在上下文连贯性和情感表达上都超过了人们对目前阶段语言模型的预期。仅从模型架构而言，GPT-2 并没有特别新颖的架构，它和 transformer 的 Decoder 类似。相比较于GPT-1，GPT -2 使用了更大的预料，更大和更深的模型。

从transformer的decoder里移除了decoder对encoder的attention部分。也就是消除掉了seq2seq的过程。

GPT是一个语言模型，每一个时刻只能看见当前时刻前面时刻的信息，是一个auto regressive的过程。

GPT2，hidden state的大小有变化，根据层数的多少有small，medum，large，extra large的划分。

GPT的训练过程是交叉式的预测下一个单词，测试的时候是输入一个句子生成另外一个句子。

GPT的预训练就是训练一个语言模型。而bert的预训练是masked language model和nsp的任务。

GPT由多个decocer block组成，每一个decoder block由masked self-attention和feed forward neural network组成。

一个timestamp的hidden state经过线性层转换为vocab size大小的embedding，然后经过softmax，算出每个词汇的概率，找出其中概率最大的词作为预测输出，然后下一个时刻的词作为真实输出，计算两者的cross entropy来训练模型。

每一个timestamp后面的位置都mask掉，设置一个负无群大的值，做softmax的时候，该位置的值就为0。

2）总结