当前位置：首页 > python > 正文内容

PyTorch自定义Dataset全解析：从理论到实战的完整指南

zhangsir2个月前 (06-30)python51

一、Dataset的核心机制

PyTorch的数据加载体系基于两大核心组件：

Dataset：定义数据集的抽象接口，负责索引到样本的映射。
DataLoader：封装Dataset，提供批量加载、多线程加速等功能。

1.1 数据传递流程

# 典型流程示例
dataset = CustomDataset(...)  # 创建自定义数据集
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)  # 包装为DataLoader
for batch in dataloader:  # 迭代获取批量数据
    inputs, labels = batch

1.2 Map式 vs Iterable式数据集

Map式数据集（常用）：通过__getitem__实现索引访问，支持随机打乱（shuffle）。
Iterable式数据集：适用于流式数据（如实时传感器数据），按顺序迭代。

二、自定义Dataset的实现范式

继承torch.utils.data.Dataset需实现三个核心方法：

2.1 基础模板

from torch.utils.data import Dataset

class CustomDataset(Dataset):
    def __init__(self, data_path, transform=None):
        self.data_path = data_path
        self.transform = transform
        self.samples = self._load_data()  # 加载数据列表

    def __len__(self):
        return len(self.samples)

    def __getitem__(self, index):
        # 1. 读取原始数据
        sample = self._read_sample(index)
        
        # 2. 应用预处理
        if self.transform:
            sample = self.transform(sample)
            
        # 3. 返回样本（如图像+标签）
        return sample

2.2 关键方法详解

__init__：初始化数据路径、预处理变换，并加载数据元信息。
__len__：返回数据集大小，用于DataLoader的进度控制。
__getitem__：核心方法，需完成数据读取、预处理和返回。

三、实战案例：图像分类数据集

以Kaggle的Dogs vs Cats数据集为例，实现自定义Dataset：

3.1 数据准备

dataset/
├── train/
│   ├── cat.0.jpg
│   ├── dog.0.jpg
│   └── ...
└── annotations.txt  # 格式：filename label

3.2 完整实现

import os
from PIL import Image
from torch.utils.data import Dataset
from torchvision import transforms

class DogCatDataset(Dataset):
    def __init__(self, root_dir, ann_file, transform=None):
        self.root_dir = root_dir
        self.transform = transform
        self.samples = self._load_annotations(ann_file)

    def _load_annotations(self, ann_file):
        samples = []
        with open(ann_file) as f:
            for line in f:
                filename, label = line.strip().split()
                samples.append((filename, int(label)))
        return samples

    def __len__(self):
        return len(self.samples)

    def __getitem__(self, index):
        filename, label = self.samples[index]
        img_path = os.path.join(self.root_dir, filename)
        image = Image.open(img_path)
        
        if self.transform:
            image = self.transform(image)
            
        return image, label

# 使用示例
transform = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])

dataset = DogCatDataset(
    root_dir='dataset/train',
    ann_file='dataset/annotations.txt',
    transform=transform
)

dataloader = DataLoader(dataset, batch_size=32, shuffle=True, num_workers=4)

四、高级技巧与优化

4.1 多线程加速

通过num_workers参数启用多进程加载：

pythondataloader = DataLoader(dataset, batch_size=64, num_workers=8)

4.2 自定义Collate函数

处理变长数据（如NLP序列）：

def collate_fn(batch):
    # batch: List[Tuple(image, label)]
    images = [item[0] for item in batch]
    labels = [item[1] for item in batch]
    # 堆叠图像并转换为Tensor
    images = torch.stack(images, dim=0)
    labels = torch.LongTensor(labels)
    return images, labels

dataloader = DataLoader(dataset, batch_size=32, collate_fn=collate_fn)

4.3 内存映射优化

对于大型数据集，可使用内存映射文件（如HDF5）减少I/O开销：

import h5py

class HDF5Dataset(Dataset):
    def __init__(self, h5_path):
        self.h5_file = h5py.File(h5_path, 'r')
        self.length = len(self.h5_file['images'])

    def __getitem__(self, index):
        image = self.h5_file['images'][index]
        label = self.h5_file['labels'][index]
        return image, label

五、常见问题与解决方案

5.1 数据路径错误

问题：FileNotFoundError
解决：使用os.path.join构建跨平台路径，检查文件权限。

5.2 内存不足

问题：加载大型数据集时OOM
解决：

使用生成器（IterableDataset）
分批加载数据
降低batch_size

5.3 数据类型不匹配

问题：RuntimeError: Input type (torch.FloatTensor) and weight type (torch.cuda.FloatTensor)
解决：显式调用.to(device)或使用pin_memory=True加速GPU传输。

六、总结

自定义Dataset是PyTorch数据流水线的核心技能，通过继承Dataset类并实现__len__和__getitem__方法，开发者可以灵活处理各类数据格式。结合DataLoader的多线程加速和自定义collate_fn，可构建高效的数据加载管道。实际应用中需注意路径处理、内存优化和设备兼容性，以确保训练过程的稳定性。

zhangsir版权y1防采集https://mianka.xyz

扫描二维码推送至手机访问。

本文链接：https://www.mianka.xyz/post/186.html

分享给朋友：

返回列表

上一篇：汉字，图片，音频，视频怎么转化成pytorch中的张量

下一篇：PyTorch深度学习任务适配指南：模型架构与优化器选择策略

“PyTorch自定义Dataset全解析：从理论到实战的完整指南” 的相关文章

Python怎么获取命令行参数

输入:“ import sys”,导入 sys 模块。插入语句:“print(sys.argv)”,打印获取的命令行参数。...

Selenium添加Cookie来实现自动登录

Selenium添加Cookie来实现自动登录第一步获取你登录的cookie,以csdn为例from selenium import webdriver driver = webdriver.Chrome() driver.get('...

pip安装三方库国内的一些镜像站点推荐

pip 国内的一些镜像站点推荐镜像套路：使用cmd；输入命令pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名即可开始安装。清华：https://pypi.tuna.tsinghua.edu.cn/simple 阿里云：http...

python selenium find_element_by_xpath 方法已经被弃用的解决办法

背景：在使用最新3.10.4Python版本时候，用selenium进行xpath定位元素，编译器提示：DeprecationWarning:find_element_by_xpath is deprecated. Please use find_element(by=By.XPATH, value...

python 给电脑设置闹钟

python会自动触发windows桌面通知，提示重要事项，比如说：您已工作两小时，该休息了我们可以设定固定时间提示，比如隔10分钟、1小时等用到的第三方库：win10toast - 用于发送桌面通知的工具from win10toast import ToastNoti...

Linux系统下使用Python+selenium+谷歌浏览器下载文件

from seleniumwire import webdriver import time ch_options = webdriver.ChromeOptions() ch_options.add_argument("-...

PyTorch自定义Dataset全解析：从理论到实战的完整指南

一、Dataset的核心机制

1.1 数据传递流程

1.2 Map式 vs Iterable式数据集

二、自定义Dataset的实现范式

2.1 基础模板

2.2 关键方法详解

三、实战案例：图像分类数据集

3.1 数据准备

3.2 完整实现

四、高级技巧与优化

4.1 多线程加速

4.2 自定义Collate函数

4.3 内存映射优化

五、常见问题与解决方案

5.1 数据路径错误

5.2 内存不足

5.3 数据类型不匹配

六、总结

“PyTorch自定义Dataset全解析：从理论到实战的完整指南” 的相关文章

Python怎么获取命令行参数

Selenium添加Cookie来实现自动登录

pip安装三方库 国内的一些镜像站点推荐

python selenium find_element_by_xpath 方法已经被弃用的解决办法

python 给电脑设置闹钟

Linux系统下使用Python+selenium+谷歌浏览器下载文件

Copyright My WebSite.Some Rights Reserved.

pip安装三方库国内的一些镜像站点推荐