PyTorch 实现数据并行的 BERT-软件玩家

admin管理员组
文章数量:1443566

PyTorch 实现数据并行的 BERT

在这篇文章里，我们要把 BERT（Bidirectional Encoder Representations from Transformers）和 PyTorch 的数据并行（DataParallel） 这两位重量级选手拉到一起，手把手教你如何高效地在多张显卡上训练 BERT 模型。不管你是 PyTorch 小白，还是刚接触深度学习，这篇文章都能让你轻松理解它们的底层逻辑，并且学会如何在实际项目中使用它们。

1. 数据并行（DataParallel）到底是啥？

在深度学习的世界里，模型越大，训练所需的计算资源就越夸张。如果你曾在单张显卡上跑 BERT，估计你已经被显存爆炸劝退了。幸运的是，我们可以用 PyTorch 自带的 DataParallel 轻松让 BERT 训练时“并行作战”，充分利用多张 GPU，提高计算效率。

1.1 传统的单 GPU 训练方式

通常，我们的代码默认只会使用一张 GPU，比如这样：

代码语言：python代码运行次数：0运行复制

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

这样训练虽然简单，但当你的 BERT 变得越来越大，或者 batch size 增加时，单张显卡很快就会吃不消。

1.2 多 GPU 训练的“升级版”

PyTorch 让我们可以用 torch.nn.DataParallel 轻松把训练任务分配到多个 GPU 上：

代码语言：python代码运行次数：0运行复制

model = nn.DataParallel(model)
model.to(device)

它的原理也不复杂：

把 batch 数据拆分：假设你有 4 张 GPU，每个 batch 有 64 个样本，那 DataParallel 会把数据拆成 4 份，每个 GPU 处理 16 个样本。
并行计算：每张 GPU 用自己的参数计算前向传播和反向传播。
收集结果：主 GPU（默认是 cuda:0）会收集所有 GPU 的计算结果，并进行梯度更新。

这样，每个 GPU 负责一部分工作，整体训练速度就大大提高了！

2. PyTorch 里的 BERT 模型

2.1 BERT 的基本结构

BERT 由多个 Transformer 层堆叠而成，每层包括：

自注意力（Self-Attention）：让模型能看到输入序列中的所有单词，而不是只看前面的词（区别于 RNN）。
前馈神经网络（Feed Forward Network, FFN）：负责对注意力层输出的数据进行非线性变换，提升模型的表达能力。
层归一化（Layer Normalization）：让训练更稳定，防止梯度爆炸或消失。

BERT 有 Base 和 Large 两个版本，其中 bert-base 由 12 层 Transformer 组成，而 bert-large 则有 24 层，训练成本更高。

2.2 加载预训练模型

直接用 transformers 库里的 BertModel 加载预训练的 BERT：

代码语言：python代码运行次数：0运行复制

from transformers import BertModel

model = BertModel.from_pretrained("bert-base-uncased")

这个方法会自动下载 BERT 的预训练权重，并且帮你配置好模型结构，省去了自己搭建模型的麻烦。

3. 让 BERT 在多 GPU 上飞速训练

我们来看看如何利用 DataParallel 让 BERT 进行 多 GPU 训练。

3.1 准备数据

首先，我们需要一些文本数据，通常 BERT 需要的是 tokenized 的数据，所以我们要用 BertTokenizer：

代码语言：python代码运行次数：0运行复制

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

text = ["Hello, how are you?", "I am learning PyTorch!"]
inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt")

这样我们就得到了 PyTorch 格式的张量输入。

3.2 定义训练函数

训练过程中，我们要把 BERT 和数据都搬到 GPU 上，并使用 DataParallel 让多个 GPU 共同工作：

代码语言：python代码运行次数：0运行复制

import torch
import torch.nn as nn
import torch.optim as optim
from transformers import BertForSequenceClassification

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 加载 BERT
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)

# 使用 DataParallel
model = nn.DataParallel(model)
model.to(device)

# 定义优化器
optimizer = optim.AdamW(model.parameters(), lr=2e-5)

# 定义损失函数
criterion = nn.CrossEntropyLoss()

# 训练循环
def train(model, data, labels, optimizer, criterion):
    model.train()
    optimizer.zero_grad()

    # 把数据送到 GPU
    data, labels = data.to(device), labels.to(device)

    # 前向传播
    outputs = model(**data)
    loss = criterion(outputs.logits, labels)

    # 反向传播
    loss.backward()
    optimizer.step()

    return loss.item()

3.3 训练过程

代码语言：python代码运行次数：0运行复制

inputs = {key: val.to(device) for key, val in inputs.items()}
labels = torch.tensor([0, 1]).to(device)

for epoch in range(3):
    loss = train(model, inputs, labels, optimizer, criterion)
    print(f"Epoch {epoch + 1}, Loss: {loss:.4f}")

4. 深入解析 DataParallel 的工作原理

DataParallel 在内部做了这些事：

自动复制模型：PyTorch 会把 BERT 复制到所有 GPU 上，每张 GPU 都有一个完整的 BERT 副本。
切分 batch 数据：每个 GPU 只处理 batch 的一部分，减少单卡负载。
收集结果：所有 GPU 计算完梯度后，主 GPU 会收集它们并更新参数。

不过，DataParallel 有个小问题：主 GPU 负担较重，因为它不仅要训练自己的数据，还要管理多个 GPU 之间的通讯。所以在更大规模的训练任务中，通常会选择 torch.nn.parallel.DistributedDataParallel（简称 DDP），它能进一步提升效率。

本文标签： PyTorch 实现数据并行的 BERT

版权声明：本文标题：PyTorch 实现数据并行的 BERT 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.betaflare.com/biancheng/1748120206a2811389.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

编程频道|软件玩家 - 软件改变生活！

PyTorch 实现数据并行的 BERT

PyTorch 实现数据并行的 BERT

1. 数据并行（DataParallel）到底是啥？

1.1 传统的单 GPU 训练方式

1.2 多 GPU 训练的“升级版”

2. PyTorch 里的 BERT 模型

2.1 BERT 的基本结构

2.2 加载预训练模型

3. 让 BERT 在多 GPU 上飞速训练

3.1 准备数据

3.2 定义训练函数

3.3 训练过程

4. 深入解析 DataParallel 的工作原理

更多相关文章

PyTorch 实现数据并行的 BERT

发表评论

推荐文章

FlexWorld：引入视频到视频扩散模型与渐进扩展过程，从单张图像高效生成灵活视角3D 场景 ！

这几个实战专栏，相当炸裂！

动态规划似包非包系列一＞组合总和IIV

【JavaScript——函数编写】请到下一步（蓝桥杯真题

设备故障预测系统

热门文章

用 AI 读懂网友的健康情绪：搭建你自己的舆情分析助手

Windows7环境下NodeJS环境安装配置（压缩包方式）

怎样用 esProc 实现冷热混合运算

NVIDIA3090 实现 TransGUNet

dll文件丢失怎么办？一文让你3分钟解决这个问题

JAVA简介

基于交互网络的新型编程语言 Vine

重新定义笔记体验：为什么 Daino Notes 是你不可错过的工具

深入解读可扩展伸缩架构中的状态管理最佳实践

【C++】深入探索string类的实现(下)（含源码）

最新文章

解决MySQL自增id用尽的问题

SpringBoot整合Redis、ApacheSolr和SpringSession

如何通过 iTick 外汇数据 API 与 Cursor AI 实现量化策略开发

将 PDF 转换为 Word — 固定布局 vs 重排布局？

深入解析 C++20 中的 std::bind

javascript - Type &#39;undefined&#39; is not assignable to type &#39;menuItemProps[]&#39; - Stack Overflow

javascript - VS 2015 Angular 2 import modules cannot be resolved - Stack Overflow

javascript - Get the JSON objects that are not present in another array - Stack Overflow

javascript - How to dismiss a phonegap notification programmatically - Stack Overflow

c - Solaris 10 make Error code 1 Fatal Error when trying to build python 2.7.16 - Stack Overflow

外星人Alienware M15 ALW15M-D3729S参数报价

海尔S15 Pro-M5i716GB1TB参数报价

海尔S15 Pro-M5i58GB512GB参数报价

技械骑士HZ60 13代酷睿i716GB512GB4G独显参数报价

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显 参数报价

FlexWorld：引入视频到视频扩散模型与渐进扩展过程，从单张图像高效生成灵活视角3D 场景！

javascript - Type 'undefined' is not assignable to type 'menuItemProps[]' - Stack Overflow

ThinkPad L13 11代酷睿 i7 1165G716GB512GB集显参数报价