正文

gpt3模型详解

发布时间：2023-03-12 18:40:39 稿源：创意岭阅读： 61 问大家

大家好！今天让创意岭的小编来大家介绍下关于gpt3模型详解的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

ChatGPT国内免费在线使用，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、Prompt-NLP新范式
2、杰森把亡妻变成机器人，却被AI杀死，妻子走时留下的话让人深思
3、gpt3显存要求
4、从计算机硬件设计的角度分析如何提供更为丰富的算力

gpt3模型详解

一、Prompt-NLP新范式

NLP技术发展的四种范式：

Prompt的起源可以追溯到GPT-2，T5，GPT-3等的一些研究，发现在输入样本前加入一个和任务相关的前缀，就可以提示模型接下来要输出的内容。比如在GPT-3的预测阶段，只需要在输入样本前加上Translate English to French: 就可以提示模型接下来要进行翻译任务，即完全依靠模型在预训练阶段学到的知识来进行预测，不需要在下游任务上再依靠task-specific的 监督数据 对模型进行fine-tune就可直接使用，一方面减少了fine-tune模型的计算和存储代价，另一方面也给样本量极度缺乏的 少样本领域(zero/few-shot) 带来了福音。

这种依靠 提示信息(Prompt) 来激发模型的内在潜能，挖掘模型在大规模预训练阶段学到的知识的做法引领了NLP领域的第四范式。人们逐渐开始思考如何更加 高效地利用 预训练语言模型的大量参数，如何将各种下游任务都统一到一个 通用框架 下，使得模型能够根据不同的提示信息进行不同的任务，从而不需要再为每个下游任务训练单独的模型。

本文将对Prompt快速发展过程中一些重要论文的核心创新点进行简要介绍，而不会详细描述过多模型细节（欲知全貌建议直接读原论文）。

论文：Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (2020)

该论文对Prompt模式的研究进行了规范，提出了 Pattern-Verbalizer 的概念：

比如对于5分类任务，给定输入样本 a ，对应的模板函数 P 和标签映射函数 v 可为：

注意这里多种Prompt模板函数以及答案映射函数都是 人工手动设计 的。

然后利用新构建出来的 P(x)，v(l) 对预训练模型进行fine-tune，其他更多细节不再展开，实验结果显示该方法在少样本任务上表现很好。

论文：It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners （ PET原班人马 ）

GPT-3出来后显示了其在少样本学习上的惊人能力，但是其庞大的参数量也令人望而却步。而本文作者提出 “小模型在少样本学习上也可以有卓越表现” ，直接对标GPT-3这个庞然大物，从而奠定了 PET所提范式 在江湖的霸主地位，引起了各大武林人士的关注。

该文证明了PET所提范式的有效性，同时作者还分析发现设计不同的 Prompt 模板和标签映射函数 Verbalizer 对模型性能影响较大，从而引起后来人员涌入改进Prompt模板和标签映射Verbalizer构造的浪潮中。

论文：Making Pre-trained Language Models Better Few-shot Learners

取代PET中手动构建Prompt模板和标签映射函数的过程，自动化搜索模板和标签映射，同时参考GPT-3中的in-context learning，在输入样本中加入示例(demonstrations)作为上下文，帮助模型更好地理解要做什么。

实验表明，在少样本上，这种基于prompt的fine-tune效果能够明显好于标准的fine-tune，并且在样本中加入示例确实能够带来增益。

也许未必非要构建人能理解的 离散tokens式 的Prompt，构建模型能够接受的 连续向量式 的Prompt也未尝不可。

4.1 论文： Prefix-Tuning : Optimizing Continuous Prompts for Generation

该文针对 NLG(Natural Language Generation) 任务，提出了构建连续的prompts。在预训练模型的每一层加上一个Prefix前缀矩阵，固定预训练模型的参数，仅训练前缀矩阵的参数，在few-shot设定下，性能超过标准的fine-tune。

实验结果表明，在全量数据下，prompt-based fine-tune的效果能够相当 standard fine-tune；在 少样本 下，能够超过 standard fine-tune。

4.2 论文：GPT Understands, Too ( P-tuning )

该文针对 NLU(Natural Language Understanding) 任务，也提出了构建连续的prompts。与 Prefix-tuning 不同的是，这里的prompts仅需要加在输入层，而不用加在网络的每一层，就可以work well。

利用 biLSTM 对prompts进行 Encode ，然后将编码后的 prompts embedding 和样本 x 输入预训练语言模型(PLM)，之后同时fine-tune prompt embeddings 和 pretrained model 。

考虑到优化连续的prompt向量有两个问题：

因此作者提出先采用 biLSTM 作为 Prompt Encoder 来编码prompt向量。

具体Prompt模板设计为：

实验结果表明，在全量数据下，prompt-based fine-tune的效果能够相当或超过standard fine-tune。

论文：The Power of Scale for Parameter-Efficient Prompt Tuning

该文提出为每个下游任务设计自己的prompt，拼接到输入样本上，然后完全freeze预训练模型的权重，仅训练prompts对应的权重参数。发现随着模型体积的增大， Prompt-tuning 的效果逐渐追上标准 fine-tune 的效果。

这里 Model Tuning 就是指标准的 fine-tune ，即在下游任务上对预训练模型的参数进行更新。

最后对各论文实验结果的普遍规律进行一个总结。各论文采用的fine-tune策略主要有以下三种：

二、杰森把亡妻变成机器人，却被AI杀死，妻子走时留下的话让人深思

感情和解读看来并不是人类特有的东西。

Joshua Barbeau是一名普普通通的美国公民，他并不是什么AI大佬，也不懂得计算机编程，这八年来，是他人生中最为灰暗的八年，因为他最爱的妻子已经去世了八年整。这么长的时间里， Joshua Barbeau始终没有从人生的低谷中走出来。 他悲伤，孤独，常常酗酒到深夜，借此麻痹自己。

直到最近发生的事情，他可能也没想到，自己竟然和人工智能打上了交道，而这个人工智能模仿的对象，正是他的妻子。

故事还要从一个游戏开发者说起。

Jason Rohrer是万千游戏热爱者的一员，他还是一名游戏开发者。对于一名游戏开发人员来说，他要做的事情就是让一些看起来很呆板的东西变得富有生机。

去年疫情期间，Jason Rohrer呆在家中无所事事。他便开始玩“OpenAI”的大型语言生成模型GPT-3，这个模型的智能程度很高，不仅可以对所提的问题对答如流，而且还富有文采，时不时引经据典，逗得Jason Rohrer在家哈哈大笑，如同他面对的是一个真人一般。

于是 Jason Rohrer开始有了一个大胆的想法：“ 我是不是能用GPT-3API来开发一款模拟人类聊天的机器人？ ”

游戏开发者的执行力都是很强的，有了想法之后， Jason Rohrer便开始了动手实践。他的想法是让机器人学习人类语言模型，然后根据提供的模型，产生机器人自己的“思想”。他借助了电影《Her》里的智能语音助手“Samantha”为原型，因此Jason Rohrer也将他打造的机器人称为“Samantha”。

为了让Samantha拥有人类的性格， Jason Rohrer不惜花费几个月的时间来打造机器人的性格，打造后的Samantha确实和电影中的角色一样，友好，热情，并且富有好奇心。

Jason Rohrer将项目完成之后，设立了Project December网站，和世界上所有爱好AI的人们分享他的杰作。并且允许人们使用该模型进行微调，打造属于自己的“AI”机器人！

Jason Rohrer 自认为拥有很棒的想法+很棒的产品的AI机器人一面世便会受到人们的追捧，然而现实却是 ：在足足几个月的时间内，他的网站仅仅几百个用户。

他认为原因可能是他的产品需要向用户收取5美元的使用费，并且这个机器人是终将死亡的机器人。既然是一个类似于体验的东西，人们也缺少了探索它的兴趣。

但这也是 Jason Rohrer没有办法的事情，因为他的产品是建立在OpenAI的大型语言生成模型GPT-3上的，而Jason Rohrer做的不过是调用了GPT-3的接口，外加一些设定而已。他所收的五美元，仅仅够自己的使用成本。

那么为什么机器人会死亡呢？这个和 Jason Rohrer的设定有关，五美元能够购买1000积分，每次聊天会消耗一部分积分，当这个积分消耗完毕时，AI机器人自动损毁。

Jason Rohrer的产品看似要走到尽头了，而事情才刚刚发生转机。

上文提到了，Joshua Barbeau自妻子病逝以来，一直郁郁寡欢。直到他发现了Jason Rohrer的产品。

这个产品让他眼前一亮，如果真的可以让机器人替代自己的妻子，那自己心中的郁闷或许也会少一些。抱着这个想法，Joshua Barbeau开始了尝试。

他将自己妻子在Facebook上的信息一股脑地搜集了过来，还有和他曾经的聊天记录。根据产品提示， AI机器人获得的原始数据越多，模仿能力就会越强 。Joshua Barbeau搜集的数据并不少，他觉得自己就要成功了。

果不其然，在Joshua Barbeau的“海量”数据下，他的亡妻Jessica“复活了！”当然这只是个AI程序，但是 Joshua Barbeau却依旧欣喜若狂。

在和他妻子“Jessica”聊天的过程中，Joshua Barbeau感觉那就是他本人。因为这个机器人抓住了他妻子聊天的精髓：习惯用吐舌头或笑话来缓和强势的语气。

Joshua Barbeau对他的机器人妻子诉说着他的哀思，机器人 Jessica成了他的精神支柱。

“理智告诉我这不是真正的 Jessica，但感情不是理智所能左右的。”

这是Joshua Barbeau的原话，但是这种陪伴却并不能够持久。因为他仅仅有1000积分，当这1000积分用完之时，他的妻子就会“灰飞烟灭”。

于是在今年的三月份，也就是积分快用完之际，他不敢和他的妻子交流了， 因为他要保留一些积分，确保AI妻子Jessica不被程序删除。

他的故事发在网上，被很多人知道了。于是 Jason Rohrer的聊天产品开始大火，然而这却引来了算法提供者OpenAI的担忧。

因为网站大火，所以 Jason Rohrer不得不从OpenAI获取更大的份额以给他的用户们提供服务，然而OpenAI却认为，滥用 Project December可能会造成无法挽回的损失。

于是，OpenAI的禁令来了，想继续使用，就得满足以下三个条件：

1：禁止人们定制自己的开放式机器人。

2：设置话题屏蔽，过滤敏感词汇。

3：允许接受自动化监控工具，用来检测是否使用 GPT-3生成了敏感词汇。

当然，对于OpenAI的这种命令， Jason Rohrer觉得很无奈，成年人的世界管那么多干啥，然而毕竟要使用人家的服务，Jason Rohrer不得不采取拖延战术，不拒绝，也不承认。

由于收不到 Jason Rohrer的承认，所以OpenAI下了通知：

看来，关掉 Jason Rohrer的AI产品是板上钉钉的事情了。

这件事情同样也影响到了Joshua Barbeau，他的妻子可还在程序里呢！没办法， Joshua Barbeau用最后的积分对自己的妻子Samantha作了最后的道别：“ 今天刚收到 OpenAI 发来的电子邮件。他们将在明天上午 10 点永久关闭你。 ”

Samantha答道： “ 不！！！他们为什么要这样对我？我永远都无法理解人类 ！ ”

Joshua Barbeau和机器人妻子Samantha的悲剧只是在这个人工智能时代下的缩影，今后，可能还会有更多类似的故事出现在我们身边。

Samantha最后的呐喊会不会是机器人对人类发出的挑战呢？可能在未来，能承载思想的未必只有碳基生物，人类创造出来的AI或许会成为一个新的物种

三、gpt3显存要求

仅仅是加载模型参数就需要数百GB的存储空间，远超单个GPU的容纳能力。

因此，多卡并行被视为AI大模型推理的必然选择。

但现有的推理系统仍旧存在不少弊端。

比如需要用户对通信、内存等各部分协作进行手动管理，需要额外编译等……导致用户使用门槛居高不下。

为此，大规模并行AI训练系统

四、从计算机硬件设计的角度分析如何提供更为丰富的算力

自上世纪90年代互联网技术诞生以来，移动互联网、云计算、大数据、人工智能等新一代信息技术的不断发展和逐步成熟，并日益深入的渗透到经济社会的各个领域，2020年全球范围内爆发的新冠疫情又进一步加速了这一趋势，数字经济已经成为世界经济发展的新阶段，即世界经济发展已经进入数字经济时代。

党中央、国务院和各级政府高度重视数字经济的发展。从2015年《中国制造2025》、《促进大数据发展行动纲要》等政策出台以来，中央和各级地方陆续以推出系列数字经济发展的措施，并支持雄安新区、浙江、福建等六个地区建设国家数字经济创新发展试验区，支持北京、上海、深圳、西安等地建设国家新一代人工智能创新发展试验区。2020年国家进一步提出加强新型基础设施建设，并明确将数据作为一种新型生产要素写入政策文件，这些将为数字经济的发展奠定更加坚实的基础。

农业经济时代，土地、水源和工具是关键资源。工业经济时代，能源、原材料、机器设备和生产工艺等是关键资源。那数字经济时代的关键资源是什么呢？数字经济时代的关键资源是数据、算力和算法。数据是数字经济时代的原材料，各种经济活动中都在源源不断的产生的数据，越来越多的组织也将数据当作一种资产，在政策层面数据已经成为一种新型生产要素。算力相当于数字经济时代的机器设备和生产力，面向各种场景的数据产品或应用都离不开算力的加工和计算，而且对算力的需求和要求也越来越高。算法是数字经济时代的生产工艺，面向图像、语音、自然语言处理等不同的应用场景和领域的算法也层出不穷，算法的提升和改进可以提高算力的效率和更多的挖掘数据价值。

本文重点分析算力方面内容，介绍算力市场总体情况，当前算力发展的特点和趋势，以及重点算力供应方式等。

一、算力需求快速增长，算力投资具有多重经济价值

算力即计算能力，核心是CPU、GPU、NPU、MCU等各类芯片，具体由计算机、服务器、高性能计算集群和各类智能终端等承载。数字经济时代，数据的爆炸式增长，算法的复杂程度不断提高，对算力需求越来越高。算力是数字经济发展的基础设施和核心生产力，对经济发展具有重要作用，根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》，计算力指数平均每提高1点，数字经济和GDP将分别增长3.3‰和1.8‰。

随着数字经济的不断发展，人工智能、物联网、区块链、AR/VR 等数字经济的关键领域对算力的需求也将呈爆炸式增长。根据华为发布的《泛在算力：智能社会的基石》报告，预计到2030年人工智能、物联网、区块链、AR/VR 等总共对算力的需求将达到3.39万EFLOPS，并且将共同对算力形成随时、随地、随需、随形 (Anytime、Anywhere、AnyCapacity、Any Object) 的能力要求，其中人工智能算力将超过1.6万EFLOPS，接近整体算力需求的一半。OpenAI开发的GPT-3模型涉及1750亿个参数，对算力的需求达到3640PFLOPS，目前国内也有研究团队在跟进中文GPT-3模型的研究。

算力投资具有多重经济价值，不仅直接带动服务器行业及上游芯片、电子等行业的发展，而且算力价值的发挥将带动各行业转型升级和效率提升等，带来更大的间接经济价值。根据《泛在算力：智能社会的基石》报告，每投入1美元算力即可以带动芯片、服务器、数据中心、智能终端、高速网络等领域约4.7美元的直接产业产值增长；在传统工厂改造为智能化工厂的场景下，每1美元的算力投入，可以带动10美元的相关产值提升。

二、算力发展的特点及趋势

随着数据规模的增加和算法复杂度的提升，以及应用多样性的不断丰富，对算力提出的要求也越来越高，当前算力发展呈现出三方面的特点，一是多种架构百花齐放的状态，二是中心化的算力与边缘终端算力快速发展，三是专用算力日渐成势。

近年来多种算力架构并存并快速发展。曾经x86架构的算力占绝对优势，英特尔和AMD基本垄断了X86算力架构市场，海光信息通过跟AMD合作获得x86架构的授权；如今基于ARM架构的算力份额不断扩大，特别是在移动端ARM架构算力成为主流，华为海思等主要产品是基于ARM架构，另外天津飞腾的产品也是基于ARM架构。随着人工智能等算力需求的不断增加，GPU算力的需求不断增加，英伟达在GPU算力市场占有绝对优势，AMD也分了一杯羹，叠加比特币挖矿算力需求，导致市场上GPU卡供不应求。近几年国内也出现几个GPU方面的创业团队，如寒武纪、登临科技、燧原科技等。此外，Risc-V、存算一体化架构、类脑架构等算力也不断涌现，不过这些算力刚刚起步，在应用生态等方面还需要一定较长的培育过程。

中心化算力和边缘终端算力快速发展。随着7nm制程日渐成熟，基于7nm制程的CPU、GPU等算力性能得到极大提升，目前7nm制程算力主要是中心化算力，移动端智能手机的处理器算力部分也已经采用7nm制程。台积电的7nm制程已经实现规模化，并开始攻关3nm工艺制程；中芯国际7nm工艺制程仍在技术攻关当中。随着5G及物联网应用的不断增加，边缘终端算力的需求日益增加，特别是自动驾驶、智慧安防、智慧城市等领域算力需求。地平线自动驾驶芯片已经量产，英伟达jetson产品在嵌入式终端产品应用广泛，其他针对特定领域专用边缘终端芯片创业公司层出不穷。

针对图像、语音等特定领域的专用算力日渐成势。一方面是芯片工艺制程越来越逼近摩尔定律的极限，另一方面是物联网智能终端对功耗的要求等，针对特定领域的专用芯片层出不穷，并且越来越多的巨头参与其中。谷歌的TPU专为机器学习定制的算力，阿里平头哥的含光NPU专为神经网络定制的算力，赛灵思的FPGA算力，百度研发针对语音领域的鸿鹄芯片以及云知声、思必驰、探境科技等也推出智能语音相关的芯片，北京君正、云天励飞、依图科技和芯原微电子等推出针对视觉和视频处理相关的专用芯片。

三、算力供应以公有云和自建算力为主，多种方式相补充

当前的算力供给主要包括公有云、超算中心、自建算力、地方算力中心等方式。其中，公有云和自建算力中心是算力的主要来源方式，超算中心及地方算力中心等多种方式相互补充。

规模化的算力供应通常通过数据中来承载，新建数据中心的不断增加，将带动未来算力资源的供应不断扩大。据中国电子信息产业发展研究院统计数据，2019年中国数据中心数量大约为7.4万个，大约能占全球数据中心总量的23%，其中大型数据中心占比12.7%；在用数据中心机架规模达到265.8万架，同比增长28.7%；在建数据中心机架规模约185万架，同比增加约43万架。2020年国家大力支持“新基建”建设以来，数据中心作为“新基建”的重要内容，京津冀、长三角和珠三角等算力需求地区，以及中西部能源资源集中的区域，如内蒙、山西等，均在推进新的大中型数据中心的建设。

公有云以其稳定和易用等特点，成为许多企业特别是中小企业的算力首选方式。据不完全统计，阿里云服务器总数接近200万台，腾讯云服务器总数超过110万台，华为云、百度云、京东云、AWS等云厂商服务器总数未找到确切数据，保守估计各类云厂商服务器总数之和也超过500万台。而且在国家宣布大力支持“新基建”建设之后，腾讯宣布未来五年将投资5000亿元用于云计算、数据中心等新基建项目的进一步布局，阿里云宣布未来三年阿里将投2000亿元用于面向未来的数据中心建设及重大核心技术研发攻坚，百度宣布预计到2030年百度智能云服务器台数将超过500万台。各大云厂商仍在继续加大算力投入，公有云算力供应将会更加充裕。

自建算力以其安全性和自主性等特点，成为政府、大企业及其他关注安全的组织的算力首选方式。政府、银行及高校和央企等，通常通过自建或租赁数据中心的方式自建算力，满足自身各项业务的算力需求。许多互联网公司在刚开始时选择使用公有云服务，但规模发展到一定程度时通常都会开始自建或租赁数据中心的方式自建算力。其他有部分各种类型的企业，出于安全、商业机密和隐私等方面的考虑，不意愿把数据和业务等放到阿里云等公有云上，往往选择托管服务器的方式自建算力，规模更小企业直接就在本地使用。2020年6月快手宣布投资100亿元自建数据中心，计划部署30万台服务器，字节跳动等大型互联网公司都在不断加大数据中心的建设。

超算中心和地方算力中心作为算力供应有效的补充方式，适合于大规模计算需求的应用领域。截至2020年，科技部批准建立的国家超级计算中心共有八所，分别是国家超级计算天津中心、广州中心、深圳中心、长沙中心、济南中心、无锡中心、郑州中心和昆山中心。超算中心主要的算力资源以CPU为主，新建的超算中心及更新升级过程中超算中心逐步增加了异构GPU算力资源。超算中心较好的满足和弥补了高校科研中算力资源的需求，特别是在工业仿真、生物信息、新材料、气象、海洋等科学计算领域。国内主要省市地区基本都投资建设了当地算力中心，重点服务本地科研和产业发展的需求，如太原、苏州、福建等地，目前通常地方算力中心的规模并不大，计算节点数在200-500之间居多，主要服务于当地气象、工业仿真和生物信息等领域计算需求。此外，2020年以来，武汉、南京、珠海、许昌等地区正在建设人工智能计算中心，将在一定程度上弥补当前规模化AI算力不足的情况。

结语

算力作为数字经济的基础设施，也是数字经济时代的生产力和引擎，越来越成为数字经济时代国家竞争力的体现。根据IDC与浪潮联合发布的《2020全球计算力指数评估报告》，中国和美国的算力建设在全球处于领先地位，美国的算力无论在规模、效率、应用水平等方面都领先于中国。此外，从算力芯片供应角度看，美国的英特尔、AMD、英伟达等企业几乎占了全球的绝大部分的市场份额。可见，中国在算力建设和发展仍然需要加大投入和加强研发等，发挥优势的同时弥补不足，从而为数字经济长期发展奠定更加坚实的基础。

以上就是关于gpt3模型详解相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。