正文

预训练模型还要训练吗（预训练模型还要训练吗）

发布时间：2023-03-19 11:18:21 稿源：创意岭阅读： 90 问大家

大家好！今天让创意岭的小编来大家介绍下关于预训练模型还要训练吗的问题，以下是小编对此问题的归纳整理，让我们一起来看看吧。

开始之前先推荐一个非常厉害的Ai人工智能工具，一键生成原创文章、方案、文案、工作计划、工作报告、论文、代码、作文、做题和对话答疑等等

只需要输入关键词，就能返回你想要的内容，越精准，写出的就越详细，有微信小程序端、在线网页版、PC客户端

官网：https://ai.de1919.com

本文目录:

1、如何构建深度学习预训练模型？
2、迁移学习方法
3、load模型继续训练但是参数不变化
4、不需要大规模预训练的NLP模型

预训练模型还要训练吗（预训练模型还要训练吗）

一、如何构建深度学习预训练模型？

可以直接先找到自己需要的训练模型，一般来说都可以找到的

二、迁移学习方法

如何使用迁移学习

你可以在自己的预测模型问题上使用迁移学习

以下是两个常用的方法

1. 开发模型的方法

2. 预训练模型的方法

开发模型的方法

1. 选择源任务。你必须选择一个具有丰富数据的预测建模问题，它的输入数据、输出数据以及从输入数据和输出数据之间的映射中学到的概念之间有某种关系，

2. 开发源模型。然后，你必须为第一个任务开发一个精巧的模型。这个模型一定要比普通的模型更好，以保证一些特征学习可以被执行。

3. 重用模型。然后，适用于源任务的模型可以被作为目标任务的学习起点。这可能将会涉及到全部或者部分使用第一个模型，这依赖于所用的建模技术。

4. 调节模型。模型可以在目标数据集中的输入输出对上可选择地进行微调，以让它适应目标任务。

预训练模型方法

1. 选择源模型。一个预训练的源模型是从可用模型中挑选出来的。很多研究机构都发布了基于超大数据集的模型，这些都可以作为源模型的备选者。

2. 重用模型。选择的预训练模型可以作为用于第二个任务的模型的学习起点。这可能涉及到全部或者部分使用与训练模型，取决于所用的模型训练技术。

3. 微调模型。模型可以在目标数据集中的输入输出对上可选择地进行微调，以让它适应目标任务。

第二种类型的迁移学习在深度学习领域比较常用。

深度学习中使用迁移学习的例子

下面用两个常见的例子来具体写一下深度学习模型中的迁移学习

使用图像数据进行迁移学习

在使用图像作为输入的预测建模问题中应用迁移学习是很常见的。可以是一个使用图像或视频作为输入的预测问题。

对于这种类型的问题而言，使用为大规模的挑战性图像数据集上的预训练的模型是很常见的做法，例如 ImageNet(1000 类图像分类挑战赛的数据集)。

为这个竞赛开发模型的研究组织通常会将最终模型发布出来，并且具备重新使用的许可。这些模型的训练一般会耗费几天到几星期不等的时间，这取决于所用的硬件环境。

这些模型可以直接下载到，它们将图像作为输入

三、load模型继续训练但是参数不变化

在机器学习中，我们通常会使用一种称为“迁移学习”的技术，该技术涉及加载一个预先训练好的模型，并对其进行微调以适应新的任务。当我们使用这种方法时，有时我们需要继续训练已经预先训练好的模型。但是，如果训练数据与预先训练的模型非常相似，比如相同的数据集或者提取自相同领域的数据集，那么在后续训练时，我们可能会发现参数几乎没有变化，这是因为初始权重几乎与训练中的真实权重相等，即预先训练的模型已经收敛到局部极限。此时，我们应该考虑使用更小的学习率，或通过数据增强、调整网络结构等方法来改进性能。

四、不需要大规模预训练的NLP模型

NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework

原文：https://arxiv.org/abs/2111.04130

发表于2021.11.7

https://github.com/yaoxingcheng/TLM

Pretrained language models have become the standard approach for many NLP tasks due to strong performance, but they are very expensive to train. We propose a simple and efficient learning framework, TLM, that does not rely on large-scale pretraining. Given some labeled task data and a large general corpus, TLM uses task data as queries to retrieve a tiny subset of the general corpus and jointly optimizes the task objective and the language modeling objective from scratch. On eight classification datasets in four domains, TLM achieves results better than or similar to pretrained language models (e.g., RoBERTa-Large) while reducing the training FLOPs by two orders of magnitude. With high accuracy and efficiency, we hope TLM will contribute to democratizing NLP and expediting its development.

预训练语言模型由于其强大的性能，已成为许多NLP任务的标准方法，但训练成本非常高。我们提出了一个简单有效的学习框架TLM，它不依赖于大规模的预训练。给定一些带标签的任务数据和一个大型通用语料库，TLM使用任务数据作为查询来检索通用语料库的一小部分，并从头开始联合优化任务目标和语言建模目标。在四个领域的八个分类数据集上，TLM取得了优于或类似于预训练语言模型（如RoBERTa Large）的结果，同时将训练失败次数减少了两个数量级。我们希望TLM能够以高精度和高效率为NLP的民主化和加速其发展做出贡献。

以上就是关于预训练模型还要训练吗相关问题的回答。希望能帮到你，如有更多相关问题，您也可以联系我们的客服进行咨询，客服也会为您讲解更多精彩的知识和内容。