别再为找数据发愁了！手把手教你下载并预处理LandSat8-38Cloud数据集（附Python代码）

张开发

• 2026/4/13 2:42:32 • 15 分钟阅读

分享文章

别再为找数据发愁了！手把手教你下载并预处理LandSat8-38Cloud数据集（附Python代码）

从零开始掌握LandSat8-38Cloud数据集下载、预处理与云检测实战指南遥感影像分析已成为环境监测、农业评估和气候变化研究的重要工具而云检测作为其中关键环节直接影响后续分析的准确性。本文将深入解析LandSat8-38Cloud数据集——这个专为深度学习设计的云检测基准数据集手把手带您完成从数据获取到模型输入的完整流程。1. 认识LandSat8-38Cloud数据集LandSat8-38Cloud是专为语义分割算法优化的云检测数据集包含38幅Landsat 8场景图像及其像素级标注。与常规遥感数据集不同它已预先处理为384×384像素的补丁免去了研究者自行裁剪的麻烦。数据集包含8400个训练补丁和9201个测试补丁每个补丁包含4个独立的光谱通道波段2蓝色450-515nm波段3绿色525-600nm波段4红色630-680nm波段5近红外845-885nm数据集独特之处在于保持各波段分离存储而非合并为RGB图像这为多光谱分析提供了原始数据基础。标注采用单通道TIFF格式像素值含义如下像素值含义0背景/无数据64云阴影128晴朗区域192薄云255厚云注意薄云192在实际应用中常被误判为晴朗但在此数据集中明确归类为云这对模型训练提出了更高要求。2. 数据获取与目录结构解析官方数据集可通过以下两种方式获取IEEE DataPorthttps://ieee-dataport.org/open-access/38-cloud-training-and-test-datasetsGitHub镜像https://github.com/SorourMo/38-Cloud-A-Cloud-Segmentation-Dataset下载完成后解压得到如下目录结构38-Cloud_Dataset/ ├── train/ │ ├── blue/ │ ├── green/ │ ├── red/ │ ├── nir/ │ └── gt/ ├── test/ │ ├── blue/ │ ├── green/ │ ├── red/ │ ├── nir/ │ └── gt/ └── csv_files/ ├── training_patches_38-Cloud.csv └── training_patches_38-cloud_nonempty.csv关键文件说明各波段目录包含对应波段的TIFF图像文件gt目录存放地面真实标注nonempty.csv标记有效补丁非全黑区域3. Python预处理全流程3.1 环境配置与依赖安装推荐使用conda创建专用环境conda create -n landsat python3.8 conda activate landsat pip install rasterio numpy pandas matplotlib tensorflow3.2 数据加载与可视化使用rasterio读取多光谱数据并生成假彩色合成图像import rasterio import numpy as np import matplotlib.pyplot as plt def load_patch(base_path, patch_id): bands {} for band in [red, green, blue, nir]: with rasterio.open(f{base_path}/{band}/{patch_id}_T1.tif) as src: bands[band] src.read(1) with rasterio.open(f{base_path}/gt/{patch_id}_T1.tif) as src: mask src.read(1) return bands, mask def visualize_patch(bands, mask): rgb np.dstack([bands[red], bands[green], bands[blue]]) nir_rgb np.dstack([bands[nir], bands[red], bands[green]]) fig, (ax1, ax2, ax3) plt.subplots(1, 3, figsize(15,5)) ax1.imshow(rgb/np.max(rgb)) ax1.set_title(True Color) ax2.imshow(nir_rgb/np.max(nir_rgb)) ax2.set_title(False Color (NIR-R-G)) ax3.imshow(mask, cmapjet) ax3.set_title(Ground Truth) plt.show() # 示例使用 bands, mask load_patch(38-Cloud_Dataset/train, LC08_L1TP_060013_20160522_1) visualize_patch(bands, mask)3.3 数据增强策略针对遥感数据特性推荐以下增强方法import albumentations as A transform A.Compose([ A.RandomRotate90(p0.5), A.Flip(p0.5), A.RandomBrightnessContrast( brightness_limit0.1, contrast_limit0.1, p0.3), A.GaussNoise(var_limit(10, 50), p0.2), A.RandomShadow( shadow_roi(0, 0, 1, 1), num_shadows_lower1, num_shadows_upper2, shadow_dimension5, p0.2) ])3.4 创建TensorFlow Dataset构建高效数据管道import tensorflow as tf def create_dataset(base_path, csv_file, batch_size8): df pd.read_csv(csv_file) patch_ids df[patch_id].values def _parse_fn(patch_id): bands {} for b in [red, green, blue, nir]: band_data tf.io.read_file(f{base_path}/{b}/{patch_id}_T1.tif) band_data tf.io.decode_tiff(band_data)[..., 0] bands[b] tf.cast(band_data, tf.float32) / 10000.0 mask tf.io.read_file(f{base_path}/gt/{patch_id}_T1.tif) mask tf.io.decode_tiff(mask)[..., 0] # 合并波段并处理标注 image tf.stack([bands[red], bands[green], bands[blue], bands[nir]], axis-1) mask tf.where(mask 192, 1, 0) # 合并薄云和厚云 return image, mask dataset tf.data.Dataset.from_tensor_slices(patch_ids) dataset dataset.map(_parse_fn, num_parallel_callstf.data.AUTOTUNE) dataset dataset.batch(batch_size).prefetch(tf.data.AUTOTUNE) return dataset train_ds create_dataset(38-Cloud_Dataset/train, 38-Cloud_Dataset/csv_files/training_patches_38-cloud_nonempty.csv)4. 常见问题解决方案4.1 数据加载异常处理遇到损坏文件时自动跳过def safe_load_tiff(path): try: with rasterio.open(path) as src: return src.read(1) except: print(fError loading {path}) return None4.2 内存优化技巧对于大范围数据处理建议使用生成器逐块加载启用ZSTD压缩减少存储空间采用TFRecord格式加速IOdef make_tfrecord_example(patch_id, base_path): # 构建TFRecord样本 feature { patch_id: tf.train.Feature(bytes_listtf.train.BytesList(value[patch_id.encode()])), image: tf.train.Feature(bytes_listtf.train.BytesList(value[image.tobytes()])), mask: tf.train.Feature(bytes_listtf.train.BytesList(value[mask.tobytes()])) } return tf.train.Example(featurestf.train.Features(featurefeature))4.3 波段组合策略对比不同任务推荐不同的波段组合任务类型推荐波段组合优势云检测红近红外短波红外增强云与地表对比度植被分析近红外红绿突出植被特征水体识别绿短波红外近红外增强水体边界城市区域检测蓝红近红外区分人造结构与自然景观5. 进阶应用与模型训练5.1 U-Net模型实现示例from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, concatenate def unet_model(input_size(384, 384, 4)): inputs Input(input_size) # 编码器 c1 Conv2D(64, 3, activationrelu, paddingsame)(inputs) c1 Conv2D(64, 3, activationrelu, paddingsame)(c1) p1 MaxPooling2D((2, 2))(c1) c2 Conv2D(128, 3, activationrelu, paddingsame)(p1) c2 Conv2D(128, 3, activationrelu, paddingsame)(c2) p2 MaxPooling2D((2, 2))(c2) # 解码器 u3 Conv2D(64, 2, activationrelu, paddingsame)( tf.keras.layers.UpSampling2D(size(2, 2))(c2)) merge3 concatenate([c1, u3], axis3) c3 Conv2D(64, 3, activationrelu, paddingsame)(merge3) c3 Conv2D(64, 3, activationrelu, paddingsame)(c3) outputs Conv2D(1, 1, activationsigmoid)(c3) model tf.keras.Model(inputsinputs, outputsoutputs) model.compile(optimizeradam, lossbinary_crossentropy, metrics[accuracy]) return model5.2 训练技巧与参数配置model unet_model() callbacks [ tf.keras.callbacks.EarlyStopping(patience10, monitorval_loss), tf.keras.callbacks.ModelCheckpoint(best_model.h5, save_best_onlyTrue), tf.keras.callbacks.ReduceLROnPlateau(factor0.1, patience3) ] history model.fit( train_ds, epochs50, validation_dataval_ds, callbackscallbacks )5.3 评估指标选择除常规准确率外推荐使用IoUIntersection over Union特别适合不平衡数据Precision-Recall曲线直观反映云检测能力F1-Score平衡精确率与召回率from sklearn.metrics import precision_recall_curve, average_precision_score def evaluate_model(model, test_ds): y_true, y_pred [], [] for x, y in test_ds.take(100): # 抽样评估 y_true.extend(y.numpy().flatten()) y_pred.extend(model.predict(x).flatten()) precision, recall, _ precision_recall_curve(y_true, y_pred) ap average_precision_score(y_true, y_pred) plt.plot(recall, precision, labelfAP{ap:.2f}) plt.xlabel(Recall) plt.ylabel(Precision) plt.legend() plt.show()在处理LandSat8-38Cloud数据集时最耗时的环节往往是数据IO而非模型训练。实际项目中我们通过预先生成TFRecord格式数据集将训练速度提升了3倍以上。另一个实用技巧是对近红外波段进行直方图均衡化这能显著改善薄云的识别效果——在测试集上使IoU提高了约8个百分点。

更多文章

前端开发 2026/4/13 2:39:11

CSDN程序员副业图谱

程序员副业图谱概述介绍程序员副业的背景和意义，分析当前技术行业副业发展趋势，说明CSDN作为技术社区在副业探索中的角色。主流副业方向分类技术博客与内容创作：通过CSDN等平台分享技术文章、教程，积累粉丝并实现变现。开源项目与…

1. 硬件选型：DHT11与DHT22深度对比第一次接触温湿度传感器时，我也曾被DHT11和DHT22搞得晕头转向。这两兄弟长得像双胞胎，价格差不了几块钱，但性能差异却直接影响项目效果。实测下来，DHT22的精度确实更胜一筹&#xff…

张开发

前端开发 2026/4/13 2:04:14

人工智能工程师应掌握的核心技能与工具

随着人工智能（AI）领域的持续拓展，对专业 AI 工程师的需求呈指数级增长。无论你是刚入行，还是希望实现职业进阶，扎实掌握特定技能与工具都至关重要。本文将详解每位 AI 工程师想要在这一充满活力且竞争激烈的领域立足所…

张开发

别再为找数据发愁了！手把手教你下载并预处理LandSat8-38Cloud数据集（附Python代码）

最新文章

如果没有 Tools，Agent 什么都做不了悠

济南青少年心理就医指南：专科机构选择逻辑及本地合规机构梳理

用 Laravel AI SDK 构建多智能体工作流计

GD32F103单片机开发指南：从硬件配置到工程搭建

自动导引车（AGV）与自主移动机器人（AMR）控制系统的 C# 开源封装库诠

Xmake进阶指南---打造高效Qt开发工作流

推荐文章

DE1-SoC实战指南：在Qsys/Platform中集成GHRD工程与扩展SPI外设——（de1教程2.5节）

5个核心技术维度解析Cursor Pro激活工具：从机器标识到订阅验证的完整技术栈

vLLM推理引擎教程7-CUDA Graph：从原理到实战的性能优化指南

Rust 泛型与特征约束的应用

利用 milvus-backup 完成从单机到分布式 Milvus 的无缝数据迁移实战

风险管理的识别评估与应对策略

相关文章

Java PTA练习避坑指南：如何避免PersonOverride类中的常见错误（含完整代码示例）

DanKoe 视频笔记：成为失败者：重新定义成功与快乐 [特殊字符]

Caxa二次开发环境配置避坑指南：从ObjectCRX安装到HelloWorld运行

5分钟极速部署：Sakura启动器如何让AI翻译变得像聊天一样简单？

LuckyLilliaBot深度解析：高性能NTQQ OneBot 11协议框架架构设计与实现

OpenClaw 2026年3月史诗级迭代全景深度分析报告：从危机到新生，从工具到生态操作系统

分享文章

更多文章

CSDN程序员副业图谱

WiFiPixels：ESP32上轻量级Wi-Fi控制NeoPixel的固件框架

从数据采集到回放验证：ADTF 适配 ROS 的 ADAS 测试实践俳

解决Pandas读取CSV时的ValueError：Usecols与列名不匹配的实战技巧

[Linux][虚拟串口]x一个特殊的字节旱

AI Agent Harness Engineering 的规划能力深度解析：从思维链到分层任务分解

面向对象表示法：如何用类、对象与方法组织知识

星露谷物语SMAPI模组加载器完全指南：从零开始打造个性化农场体验

避坑指南：处理MODIS NDVI数据时，90%的人会忽略的QA质量控制细节（GEE实战）

ESP32+TB6612FNG驱动12V直流电机保姆级教程（附Arduino完整代码与接线图）

Arduino实战：从零到一构建DHT11/DHT22温湿度监测系统

人工智能工程师应掌握的核心技能与工具