正文

gpt3参数量（gpt3参数量怎么算的）

发布时间：2023-03-12 23:20:51 稿源：创意岭阅读： 129 问大家

大家好！今天让创意岭的小编来大家介绍下关于gpt3参数量的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

ChatGPT国内免费在线使用，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、Prompt-NLP新范式
2、三星gpt3100平板参数
3、全球十大数字创新技术出炉
4、gpt3.5-turbo什么区别

gpt3参数量（gpt3参数量怎么算的）

一、Prompt-NLP新范式

NLP技术发展的四种范式：

Prompt的起源可以追溯到GPT-2，T5，GPT-3等的一些研究，发现在输入样本前加入一个和任务相关的前缀，就可以提示模型接下来要输出的内容。比如在GPT-3的预测阶段，只需要在输入样本前加上Translate English to French: 就可以提示模型接下来要进行翻译任务，即完全依靠模型在预训练阶段学到的知识来进行预测，不需要在下游任务上再依靠task-specific的 监督数据 对模型进行fine-tune就可直接使用，一方面减少了fine-tune模型的计算和存储代价，另一方面也给样本量极度缺乏的 少样本领域(zero/few-shot) 带来了福音。

这种依靠 提示信息(Prompt) 来激发模型的内在潜能，挖掘模型在大规模预训练阶段学到的知识的做法引领了NLP领域的第四范式。人们逐渐开始思考如何更加 高效地利用 预训练语言模型的大量参数，如何将各种下游任务都统一到一个 通用框架 下，使得模型能够根据不同的提示信息进行不同的任务，从而不需要再为每个下游任务训练单独的模型。

本文将对Prompt快速发展过程中一些重要论文的核心创新点进行简要介绍，而不会详细描述过多模型细节（欲知全貌建议直接读原论文）。

论文：Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference (2020)

该论文对Prompt模式的研究进行了规范，提出了 Pattern-Verbalizer 的概念：

比如对于5分类任务，给定输入样本 a ，对应的模板函数 P 和标签映射函数 v 可为：

注意这里多种Prompt模板函数以及答案映射函数都是 人工手动设计 的。

然后利用新构建出来的 P(x)，v(l) 对预训练模型进行fine-tune，其他更多细节不再展开，实验结果显示该方法在少样本任务上表现很好。

论文：It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners （ PET原班人马 ）

GPT-3出来后显示了其在少样本学习上的惊人能力，但是其庞大的参数量也令人望而却步。而本文作者提出 “小模型在少样本学习上也可以有卓越表现” ，直接对标GPT-3这个庞然大物，从而奠定了 PET所提范式 在江湖的霸主地位，引起了各大武林人士的关注。

该文证明了PET所提范式的有效性，同时作者还分析发现设计不同的 Prompt 模板和标签映射函数 Verbalizer 对模型性能影响较大，从而引起后来人员涌入改进Prompt模板和标签映射Verbalizer构造的浪潮中。

论文：Making Pre-trained Language Models Better Few-shot Learners

取代PET中手动构建Prompt模板和标签映射函数的过程，自动化搜索模板和标签映射，同时参考GPT-3中的in-context learning，在输入样本中加入示例(demonstrations)作为上下文，帮助模型更好地理解要做什么。

实验表明，在少样本上，这种基于prompt的fine-tune效果能够明显好于标准的fine-tune，并且在样本中加入示例确实能够带来增益。

也许未必非要构建人能理解的 离散tokens式 的Prompt，构建模型能够接受的 连续向量式 的Prompt也未尝不可。

4.1 论文： Prefix-Tuning : Optimizing Continuous Prompts for Generation

该文针对 NLG(Natural Language Generation) 任务，提出了构建连续的prompts。在预训练模型的每一层加上一个Prefix前缀矩阵，固定预训练模型的参数，仅训练前缀矩阵的参数，在few-shot设定下，性能超过标准的fine-tune。

实验结果表明，在全量数据下，prompt-based fine-tune的效果能够相当 standard fine-tune；在 少样本 下，能够超过 standard fine-tune。

4.2 论文：GPT Understands, Too ( P-tuning )

该文针对 NLU(Natural Language Understanding) 任务，也提出了构建连续的prompts。与 Prefix-tuning 不同的是，这里的prompts仅需要加在输入层，而不用加在网络的每一层，就可以work well。

利用 biLSTM 对prompts进行 Encode ，然后将编码后的 prompts embedding 和样本 x 输入预训练语言模型(PLM)，之后同时fine-tune prompt embeddings 和 pretrained model 。

考虑到优化连续的prompt向量有两个问题：

因此作者提出先采用 biLSTM 作为 Prompt Encoder 来编码prompt向量。

具体Prompt模板设计为：

实验结果表明，在全量数据下，prompt-based fine-tune的效果能够相当或超过standard fine-tune。

论文：The Power of Scale for Parameter-Efficient Prompt Tuning

该文提出为每个下游任务设计自己的prompt，拼接到输入样本上，然后完全freeze预训练模型的权重，仅训练prompts对应的权重参数。发现随着模型体积的增大， Prompt-tuning 的效果逐渐追上标准 fine-tune 的效果。

这里 Model Tuning 就是指标准的 fine-tune ，即在下游任务上对预训练模型的参数进行更新。

最后对各论文实验结果的普遍规律进行一个总结。各论文采用的fine-tune策略主要有以下三种：

二、三星gpt3100平板参数

若您想要了解三星P3100平板电脑的配置参数，请参考以下介绍：

1.CPU(处理器):1GHz 双核。

2.内存：总RAM约1G；外置存储卡：最大支持32GB micro SD卡。

3.摄像头：采用300万像素的后置摄像头，30万像素前置摄像头；支持4倍变焦。

4.软件格式：APK。

5.蓝牙版本：蓝牙3.0。

三、全球十大数字创新技术出炉

点击蓝字

科技创新世界潮。

全文共计2520字，预计阅读时间7分钟

来源 | 数据观综合（转载请注明来源）

编辑 | 蒲蒲

“

日前，联合国教科文组织2021年 Netexplo 创新论坛在网上举行。由技术领域全球知名大学组成的 Netexplo 大学网络历时一年，在全球范围内遴选出了10项极具突破性的数字创新技术，这些创新对社会具有深远而持久的影响。

”

阿根廷交易平台Abakus

受疫情影响，阿根廷经济遭受重创，也使该国农业部门的动荡加剧。鉴于此，阿根廷初创企业Abakus与瑞士区块链基础设施提供商CoreLedger推出了一个数字易货平台，旨在帮助农民克服金融波动带来的影响，打造数字易货经济。

Abakus系统基于一种以实物资产（例如大豆）为索引的加密货币，这种货币可能比本国不断波动的货币更稳定，而代币可以兑换成货物或比索。这两家公司表示，代币化农业资产将有助于农民对冲通货膨胀，并在国内和国际上获得流动性。

CoreLedger首席执行官Johannes Schweifer表示：“ 在一个饱受通货膨胀困扰的国家，获得有形资产的能力可能是这些农民生存与发展之间的区别。 ”

Abakus首席执行官Martin Furst表示：“ 由于国有公司的垄断地位，阿根廷的农民们难以生存，这些垄断者决定了农产品贸易的条件并大幅度削减了农产品。农业支持的代币解决了现金和股票储蓄计划固有的波动性和流动性问题。 ”

英国人工智能AlphaFold 2

在国际象棋和围棋领域取得巨大成功后，去年年底，人工智能再次大出风头。在国际蛋白质结构预测赛中，AlphaFold 2摘得桂冠，并破解了一个困扰人类50年的难题：预测蛋白质如何折叠。

据DeepMind官方宣布，该算法能够精确地基于氨基酸序列，预测蛋白质的3D结构，其准确性可以与使用冷冻电子显微镜（CryoEM）、核磁共振或X射线晶体学等实验技术解析的3D结构相媲美。

在过去50年中，“蛋白质折叠问题”一直是生物学界的重大挑战。此前，生物学家主要利用X射线晶体学或冷冻电镜等实验技术来破译蛋白质的三维结构，但这类方法耗时长、成本高。而AlphaFold 2不仅预测准确且效率高，有望促进医学领域不断取得进步。

美国图像生成系统Dall-E

美国人工智能非营利组织Open AI于今年1月份推出Dall—E，这是一个可以根据书面文字生成图像的人工智能系统。取名DALL-E，是为了向艺术家萨尔瓦多-达利（Salvador Dali ）和皮克斯的机器人WALL-E致敬。

DALL-E是OpenAI基于GPT-3开发的一种新型神经网络。它是GPT-3的一个小版本，使用了120亿个参数，而不是1750亿个参数。但它已经经过专门训练，可以从文本描述生成图像，使用的是文本-图像对的数据集，而不是像GPT-3这样非常广泛的数据集。它可以使用自然语言从文字说明中创建图像，就像GPT-3创建网站和故事一样。

德国文本AI模型GPT-Neo

OpenAI的GPT—3被认为是目前最好的人工智能文本生成器，其拥有1750亿个参数，现已被数万开发者用于300多个不同的应用程序，每天输出45亿词之多。

但它是收费的，这阻碍了更多开发人员的采用，也不利于文本AI的快速发展。有鉴于此，德国Eleuther人工智能公司于今年3月下旬推出开源的文本AI模型GPT—Neo，以弥补这方面的缺憾。研究人员称，GPT—Neo的推出将会催生出一大批崭新应用，也会以更为低廉的成本释放人们对人工智能未来的想象力。

本质上，GPT-Neo有点像是GPT系列的“高仿”项目：GPT-Neo中的各种模型，设计原理接近GPT系列，但代码并不一样。作者们打算尝试各种结构和注意力类型，最终扩展出GPT-3大小的大语言模型。为了实现这一目标，他们从复现GPT系列的模型开始，不断尝试各种模型架构、和各种注意力机制的实现方式。

中国量子计算机“九章”

“九章”是由中国科学技术大学潘建伟、陆朝阳等学者研制的76个光子的量子计算原型机。

实验显示，当求解5000万个样本的高斯玻色取样时，“九章”需200秒，而目前世界最快的超级计算机“富岳”需6亿年。等效来看，“九章”的计算速度比“悬铃木”快100亿倍，并弥补了“悬铃木”依赖样本数量的技术漏洞。

这一成果使得我国成功达到了量子计算研究的第一个里程碑：量子计算优越性（国外也称之为“量子霸权”），并牢固确立了我国在国际量子计算研究中的第一方阵地位，为未来实现可解决具有重大实用价值问题的规模化量子模拟机奠定了技术基础。

对于“九章”的突破，《科学》杂志审稿人评价该工作是“一个最先进的实验”（astate-of-the-artexperiment），“一个重大成就”（a major achievement）。

美国人工智能“神经破译”

“神经破译”是由MIT CSAIL和谷歌大脑的研究者携手开发的一款人工智能软件，基于语言进化原理，可以在不知道语言来源的情况下破译古代语言，并揭示某种语言和其他语言之间的关联。

研究者们利用同一语族内不同语言之间的联系，用该人工智能破译了两种失传的语言：乌加里特文和线性文字B，堪称现代版的“罗塞塔石碑”！（PS：罗塞塔石碑是一块用3种语言写了同一个内容的石碑，帮助语言学家们读懂古文字。）

乌加里特文（Ugaritic），是一种楔形文字，属于闪米特语族。从字面上来看，就知道它是一个叫做乌加里特（Ugarit）的文明使用的语言，这个文明位于当今地中海沿岸的叙利亚，在公元前6000年前后就初现踪迹，在公元前1190年前后灭亡。

线性文字B（Linear B），由一种人类还没有破译出来的线性文字A演化而来，主要存活于公元前1500年到公元前1200年的克里特岛和希腊南部，是希腊语的一种古代书写形式。

未来，在这项研究起作用的情况下，或许可以像借助罗曼语族三种语言的数据库一样，直接用机器借助其他已知的人类语言，实现暴力破解。

印度区块链应用程序Smashboard

Smashboard网站称自己是一个“另类的社交媒体网络，为性侵受害者提供独特的功能，目的是通过减少报案带来的心理创伤，让他们的生活更轻松”。

借助区块链技术，Smashboard允许用户创建他们所遭受犯罪的私人和加密账本，并将其安全地存储在网上。例如，Smashboard为用户提供了收集材料的选项，“这些材料可作为日记，也可作为加密个人空间中的时间戳证据”。更重要的是，该应用程序允许性虐待受害者找到法律顾问或律师，并与他们私下互动。受害者还可以与女权主义新闻工作者建立联系，甚至可以给他们匿名举报。

目前，Smashboard的另一个障碍是应用的覆盖范围。该应用程序目前只能使用三种语言-英语，法语和西班牙语。这意味着该应用无法覆盖使用印度当地语言的性虐待受害者。

澳大利亚人工智能“蠕虫大脑驱动器”

研究人员从蠕虫微小的大脑中获得灵感，开发出一种能够控制自动驾驶汽车的人工智能系统“蠕虫大脑驱动器”。与大多数网络中使用数百万个神经元相比，该系统只需要几个神经元。

该系统只用了控制电路中的19个神经元和7.5万个参数，就成功控制了一辆汽车。研究小组相信他们的新方法可减少训练时间，并使人工智能在相对简单的系统中实现成为可能。

四、gpt3.5-turbo什么区别

GPT-3.5 Turbo是GPT-3的一个升级版本，也是一个自然语言处理模型。它引入了额外的超参数、更多的预训练数据，以及更复杂的模型结构，使得它可以在更多的任务上取得更好的表现。GPT-3.5 Turbo将原来的13.5B参数增加到了32B，这意味着它可以处理更多的上下文信息和更复杂的语言规则，同时还可以在更高层次上理解语义。与GPT-3相比，GPT-3.5 Turbo在语言生成、对话、翻译和搜索等任务上表现更佳。总的来说，GPT-3.5 Turbo是一种更强大、更智能的AI对话系统。

以上就是关于gpt3参数量相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。