基于TransU-Net的遥感图像语义分割与分类，遥感建筑物数据集，基于Pytorch框架，针对不同城市建筑物精准提取

train.py。

DeepLearningYolo

60人浏览 · 2026-05-29 11:02:01

DeepLearningYolo · 2026-05-29 11:02:01 发布

基于TransU-Net的遥感图像语义分割与分类，遥感建筑物数据集，基于Pytorch框架，针对不同城市建筑物精准提取

文章目录

在这里插入图片描述
1

1

基于TransU-Net的遥感图像语义分割与分类是一个非常有趣且具有挑战性的任务，代码示例，包括数据集准备、模型定义、训练和预测等步骤。
代码示例，仅供参考。

项目结构

首先，确保你的项目结构类似于以下内容：

transunet_project/
├── data/
│   ├── train_images/
│   ├── train_labels/
│   ├── val_images/
│   └── val_labels/
├── src/
│   ├── my_dataset.py
│   ├── predict.py
│   ├── train.py
│   └── transforms.py
├── predictions/
└── save_weights/

数据集准备

假设同学你已经有了一个包含遥感图像及其对应标签的数据集，并且已经按照上述结构组织好。

定义数据集类 (`my_dataset.py`)

import os
from torch.utils.data import Dataset
from PIL import Image
import numpy as np

class RemoteSensingDataset(Dataset):
    def __init__(self, image_dir, label_dir, transform=None):
        self.image_dir = image_dir
        self.label_dir = label_dir
        self.transform = transform
        self.images = os.listdir(image_dir)

    def __len__(self):
        return len(self.images)

    def __getitem__(self, index):
        img_path = os.path.join(self.image_dir, self.images[index])
        label_path = os.path.join(self.label_dir, self.images[index].replace('.jpg', '.png'))
        image = Image.open(img_path).convert("RGB")
        label = Image.open(label_path).convert("L")

        if self.transform is not None:
            image = self.transform(image)
            label = self.transform(label)

        return image, label

在这里插入图片描述

数据增强与预处理 (`transforms.py`)

from torchvision import transforms

def get_transform():
    return transforms.Compose([
        transforms.Resize((256, 256)),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
    ])

在这里插入图片描述

模型定义 (`train.py`)

import torch
import torch.nn as nn
from transformers import SwinTransformer

class TransUNet(nn.Module):
    def __init__(self, num_classes=2):
        super(TransUNet, self).__init__()
        self.swin = SwinTransformer()
        self.decoder = nn.Sequential(
            nn.ConvTranspose2d(1024, 512, kernel_size=2, stride=2),
            nn.ReLU(inplace=True),
            nn.ConvTranspose2d(512, 256, kernel_size=2, stride=2),
            nn.ReLU(inplace=True),
            nn.ConvTranspose2d(256, 128, kernel_size=2, stride=2),
            nn.ReLU(inplace=True),
            nn.ConvTranspose2d(128, 64, kernel_size=2, stride=2),
            nn.ReLU(inplace=True),
            nn.Conv2d(64, num_classes, kernel_size=1)
        )

    def forward(self, x):
        x = self.swin(x)
        x = self.decoder(x)
        return x

训练脚本 (`train.py`)

import argparse
import os
import time
from datetime import datetime

import torch
import torch.optim as optim
from torch.utils.data import DataLoader
from torchvision import transforms
from tqdm import tqdm

from my_dataset import RemoteSensingDataset
from transunet import TransUNet
from transforms import get_transform

def parse_args():
    parser = argparse.ArgumentParser(description='Train a segmentation model')
    parser.add_argument('--model', type=str, default='transunet', help='model name')
    parser.add_argument('--epochs', type=int, default=100, help='number of epochs')
    parser.add_argument('--batch-size', type=int, default=4, help='batch size')
    args = parser.parse_args()
    return args

def create_model(args):
    if args.model == 'transunet':
        return TransUNet(num_classes=2)
    else:
        raise ValueError('Invalid model name')

def main():
    args = parse_args()

    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

    train_dataset = RemoteSensingDataset(
        image_dir='./data/train_images',
        label_dir='./data/train_labels',
        transform=get_transform()
    )
    val_dataset = RemoteSensingDataset(
        image_dir='./data/val_images',
        label_dir='./data/val_labels',
        transform=get_transform()
    )

    train_loader = DataLoader(train_dataset, batch_size=args.batch_size, shuffle=True)
    val_loader = DataLoader(val_dataset, batch_size=args.batch_size, shuffle=False)

    model = create_model(args).to(device)
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters(), lr=0.001)

    best_val_loss = float('inf')
    for epoch in range(args.epochs):
        model.train()
        running_loss = 0.0
        for images, labels in tqdm(train_loader):
            images, labels = images.to(device), labels.to(device)
            optimizer.zero_grad()
            outputs = model(images)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()

        avg_train_loss = running_loss / len(train_loader)
        print(f'Epoch [{epoch + 1}/{args.epochs}], Train Loss: {avg_train_loss:.4f}')

        model.eval()
        val_loss = 0.0
        with torch.no_grad():
            for images, labels in val_loader:
                images, labels = images.to(device), labels.to(device)
                outputs = model(images)
                loss = criterion(outputs, labels)
                val_loss += loss.item()

        avg_val_loss = val_loss / len(val_loader)
        print(f'Epoch [{epoch + 1}/{args.epochs}], Val Loss: {avg_val_loss:.4f}')

        if avg_val_loss < best_val_loss:
            best_val_loss = avg_val_loss
            torch.save(model.state_dict(), f'save_weights/{args.model}/best_model.pth')

if __name__ == '__main__':
    main()

预测脚本 (`predict.py`)

import argparse
import os
import time
from datetime import datetime

import torch
from PIL import Image
from torchvision import transforms
from tqdm import tqdm

from my_dataset import RemoteSensingDataset
from transunet import TransUNet
from transforms import get_transform

def parse_args():
    parser = argparse.ArgumentParser(description='Predict using a segmentation model')
    parser.add_argument('--model', type=str, default='transunet', help='model name')
    args = parser.parse_args()
    return args

def create_model(args):
    if args.model == 'transunet':
        return TransUNet(num_classes=2)
    else:
        raise ValueError('Invalid model name')

def main():
    args = parse_args()

    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

    test_dataset = RemoteSensingDataset(
        image_dir='./data/test_images',
        label_dir='./data/test_labels',
        transform=get_transform()
    )

    model = create_model(args).to(device)
    model.load_state_dict(torch.load(f'save_weights/{args.model}/best_model.pth'))
    model.eval()

    test_loader = DataLoader(test_dataset, batch_size=1, shuffle=False)

    with torch.no_grad():
        for images, labels in tqdm(test_loader):
            images, labels = images.to(device), labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)

            # Save the prediction
            predicted = predicted.cpu().numpy()[0]
            predicted_img = Image.fromarray(predicted.astype(np.uint8))
            predicted_img.save(os.path.join('./predictions', f'{datetime.now().strftime("%Y%m%d_%H%M%S")}.png'))

if __name__ == '__main__':
    main()

以上代码提供了一个完整的基于TransU-Net的遥感图像语义分割与分类的实现，包括数据集准备、模型定义、训练和预测等步骤。你可以根据自己的需求进行调整和优化。
以上文字及代码仅供参考学习使用。

加入AMD AI开发者计划！

免费领 100 小时云算力，进群参与显卡、AI PC 幸运抽奖

更多推荐

基于vLLM部署Gemma-4-E2B多模态大模型和调用API 服务

基于vLLM的推理引擎大幅提升模型响应速度，FastAPI接口可直接集成到业务系统中，适用于智能问答、图片分析、多模态交互等实际应用场景。多模态大模型，实现图片+文本的多模态问答功能，并通过FastAPI封装为可视化API服务，最终完成本地接口测试。服务启动后，自动加载Processor和Gemma模型到GPU，加载完成后可接收外部请求。成功部署Google Gemma-4-E2B-it多模态大模

AMD开发者中国社区

PyTorch手写数字识别实战包：含训练好的CNN模型、完整可运行代码与MNIST数据集

直接下载就能跑的PyTorch手写数字识别项目，基于经典MNIST数据集，内置LeNet风格卷积神经网络结构。包含预处理脚本、训练主程序cnn_mnist_pytorch.py、已训练完成的模型参数modelpara.pth（准确率95%+），以及标准MNIST数据目录（raw/和processed/子文件夹）。所有代码带中文注释，无需额外安装或修改路径，Python环境配好PyTorch后即可一

AMD开发者中国社区

FER13人脸表情数据集上用PyTorch实现DCGAN图像增强+CNN分类全流程代码包

直接跑通FER13七类人脸表情识别任务的增强训练方案：原始数据共35886张，存在明显类别不均衡，本包用DCGAN生成高质量合成图像，重点扩充愤怒、厌恶、恐惧等少数类样本，提升CNN分类器在测试集上的泛化能力。包含完整可执行脚本——resize_images.py统一调整图像尺寸，make_csv.py构建标签CSV，dcgan.py定义生成器与判别器结构，training.py控制DCGAN训练