Excel跑不动？Python不会写？这个Skill一键搞定数据处理

张开发

• 2026/4/21 19:45:39 • 15 分钟阅读

分享文章

这是一个关于“数据处理技能”的系统性指南。数据处理是连接原始数据与科研结论的桥梁无论从事的是社会科学、生物信息学还是工程研究这套技能都通用。一、数据处理核心流程原始数据 → 清洗 → 转换/整合 → 分析 → 可视化 → 结果解释 ↑ ↑ ↑ ↑ ↑ (最耗时) (最关键) (因任务而异) (核心) (沟通)二、数据获取1. 数据来源分类类型示例特点公开数据集Kaggle、UCI、ImageNet、Gene Expression Omnibus可复现、有基准、适合练手爬虫获取网页数据、社交媒体API、政府开放数据需合法性判断、动态内容需渲染实验/问卷传感器读数、实验室测量、问卷调查自己生成、成本高、控制力强数据库查询SQL提取公司/机构内部数据需权限、量大2. 数据格式识别格式常见扩展名读取工具Python表格型.csv,.xlsx,.tsvpandas.read_csv()/read_excel()JSON.jsonpandas.read_json()或json库文本.txt,.log原生open()图片.jpg,.pngPIL,opencv音频.wav,.mp3librosa,scipy.io.wavfile科学格式.npy,.h5,.matnumpy,h5py,scipy.io.loadmat三、数据清洗耗时约60%-80%这是最重要且最容易被忽视的环节。常见脏数据及处理问题类型现象处理方法缺失值NaN、null、空白单元格删除dropna、填充均值/中位数/众数fillna、插值法、模型预测填充重复值相同行出现多次drop_duplicates()去重保留首次或末次异常值年龄999、收入负数业务规则判定 IQR法 / Z-score法识别 → 删除或修正格式不一致“北京” vs “BJ” vs “beijing”统一映射表正则表达式re模块标准化数据类型错误数字被存成字符串如“123”、日期存成文本astype()转换、pd.to_datetime()解析无关列/行空列、全是同一个值的列、表头外的说明行手动筛选删除清洗代码示例Python pandasimportpandasaspdimportnumpyasnp dfpd.read_csv(raw_data.csv)# 1. 查看整体信息df.info()df.describe()# 2. 处理缺失值df.isnull().sum()# 统计每列缺失数df[age].fillna(df[age].median(),inplaceTrue)# 用中位数填充数值列df.dropna(subset[label],inplaceTrue)# 删除标签缺失的行# 3. 处理重复值df.drop_duplicates(inplaceTrue)# 4. 处理异常值以IQR法为例Q1df[income].quantile(0.25)Q3df[income].quantile(0.75)IQRQ3-Q1 lowerQ1-1.5*IQR upperQ31.5*IQR dfdf[(df[income]lower)(df[income]upper)]# 5. 格式标准化df[city]df[city].str.lower().replace({bj:beijing,sh:shanghai})df[date]pd.to_datetime(df[date_str])四、数据转换与特征工程将数据整理成适合分析/建模的形态。常用转换操作操作说明代码示例数据透视长表 ↔ 宽表pd.pivot_table()/pd.melt()分组聚合按类别统计df.groupby(category)[value].mean()特征缩放消除量纲影响标准化(x - mean)/std归一化(x - min)/(max - min)编码分类变量文本类别转数字独热编码pd.get_dummies()标签编码LabelEncoder特征构造从现有列生成新特征年龄→年龄段、日期→星期几数据分箱连续值离散化pd.cut()/pd.qcut()代码示例# 标准化sklearnfromsklearn.preprocessingimportStandardScaler scalerStandardScaler()df[[feature1,feature2]]scaler.fit_transform(df[[feature1,feature2]])# 独热编码df_encodedpd.get_dummies(df,columns[city,gender],drop_firstTrue)# 构造新特征df[hour]pd.to_datetime(df[timestamp]).dt.hour df[is_weekend](df[day_of_week]5).astype(int)五、探索性数据分析EDA在建模之前先“认识”你的数据。EDA必做清单任务工具/方法目的查看前几行df.head()直观感受数据数值分布df.hist(),sns.boxplot()看偏态、异常值相关性矩阵df.corr(),sns.heatmap()找强相关特征类别分布df[col].value_counts(), 饼图检查类别不平衡缺失模式missingno.matrix()缺失是否随机双变量关系散点图、分组箱线图探索变量间关系Python可视化快速入门matplotlib seabornimportmatplotlib.pyplotaspltimportseabornassns# 直方图df[age].hist(bins30)plt.title(Age Distribution)plt.show()# 箱线图按类别分组sns.boxplot(xcategory,yvalue,datadf)plt.xticks(rotation45)plt.show()# 相关性热图plt.figure(figsize(10,8))sns.heatmap(df.corr(),annotTrue,cmapcoolwarm,fmt.2f)plt.show()# 散点图矩阵多变量sns.pairplot(df[[feature1,feature2,feature3,target]])六、常用工具链推荐环节推荐工具适用人群/场景快速探索Excel 数据透视表小数据1万行、非技术背景脚本处理Python (pandas, numpy)最通用、可复现、适合10万行以上统计分析R (tidyverse)统计学家、生物信息学偏好大数据SQL Python (Dask, Polars)内存放不下的数据10GB可视化seaborn, plotly, Tableau静态图用seaborn交互用plotly缺失值/异常值missingno, pyod专门化检查七、完整数据处理流程示例Python假设任务分析某电商用户行为数据预测是否购买。# 1. 导入importpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns# 2. 读取dfpd.read_csv(user_behavior.csv,parse_dates[action_time])# 3. 初探print(df.shape,df.dtypes)print(df.isnull().sum())# 4. 清洗df.drop_duplicates(inplaceTrue)df[age].fillna(df[age].median(),inplaceTrue)dfdf[df[price]0]# 价格必须为正# 5. 特征工程df[hour]df[action_time].dt.hour df[action_type]pd.Categorical(df[action_type]).codes# 类别转数字user_statsdf.groupby(user_id).agg(total_clicks(action_id,count),avg_price(price,mean)).reset_index()dfdf.merge(user_stats,onuser_id,howleft)# 6. 拆分X,yXdf.drop([purchased,action_time],axis1)ydf[purchased]# 7. 标准化fromsklearn.preprocessingimportStandardScaler num_cols[age,price,total_clicks,avg_price]scalerStandardScaler()X[num_cols]scaler.fit_transform(X[num_cols])# 8. 最终数据概览X.info()X.head()八、常见误区与避坑指南误区正确做法数据清洗靠肉眼检查编写可重复运行的清洗脚本随意删除含缺失值的行先分析缺失模式判断是否随机缺失未检查异常值直接建模先做箱线图、Z-score异常值可能蕴含重要信息如欺诈标准化在拆分数据后做先划分训练/测试集再分别做标准化防止数据泄露可视化只用来“秀”可视化应贯穿全程是发现问题的第一工具忽略数据来源和文档永远保留数据字典字段含义、单位、编码规则九、一句话速记先问问题→获取数据→清洗最耗时→探索画图统计→转换→交付给分析/建模每一步都记录确保可复现。

更多文章

前端开发 2026/4/21 19:43:21

用Python搞定CALCE电池数据：手把手教你预测锂电池还能用多久（附完整代码）

用Python搞定CALCE电池数据：手把手教你预测锂电池还能用多久（附完整代码） 锂电池寿命预测是新能源领域的热门研究方向，尤其对于电动汽车和储能系统至关重要。CALCE数据集作为业内公认的基准数据，包含了丰富的电池循环测…

VS Code SpringBoot：深入解析Spring Tools 4的Live Data功能与Actuator技术选型当你在VS Code中启动SpringBoot项目时，是否注意到编辑器边缘偶尔闪烁的绿色高亮？或是控制台里那条看似无害却令人不安的"Failed to refresh live data fr…

张开发

前端开发 2026/4/21 19:27:13

SystemUI时钟秒显功能被隐藏？揭秘Android 11定制系统的‘调谐器’入口与实现逻辑

Android 11系统时钟秒显功能的隐藏机制与实现原理你是否注意到，在原生Android 11系统中，状态栏时钟可以精确显示到秒，但在大多数国产定制UI中这个功能却神秘消失了？这背后隐藏着一套复杂的系统调谐机制和厂商定制策略。让我们深入…

张开发

Excel跑不动？Python不会写？这个Skill一键搞定数据处理

最新文章

别再盲目复制libGL.so了！深入理解Linux动态库链接机制，从‘SLAM十四讲’编译错误到系统修复

科研效率翻倍！用CiteSpace 6.3.R1分析知网文献，快速定位领域热点与前沿作者

从单根谱线到频谱搬移：用Matlab pspectrum和fft搞懂实信号与复信号的频谱区别

5分钟搞定B站视频转文字：免费开源神器bili2text终极指南

从 AIGC 到 AIGS：AI 重新定义软件服务

NLopt算法选择指南：从SLSQP到COBYLA，你的优化问题该用哪个？（附性能对比）

推荐文章

FPGA调试效率倍增器——基于JTAG to AXI Master的自动化脚本实践

Qwen-Image-Edit-2511工作流优化：如何结合ControlNet获得更稳定输出

从T3到T5：全志工控处理器性能跃迁与工业应用场景深度解析

从MDK切换到VSCode+GCC开发STM32？这份启动文件与链接脚本(.ld)迁移指南请收好

LeetCode热题100-下一个排列

如何自定义修改 Traccar Web 界面模板

相关文章

Java PTA练习避坑指南：如何避免PersonOverride类中的常见错误（含完整代码示例）

DanKoe 视频笔记：成为失败者：重新定义成功与快乐 [特殊字符]

Caxa二次开发环境配置避坑指南：从ObjectCRX安装到HelloWorld运行

5分钟极速部署：Sakura启动器如何让AI翻译变得像聊天一样简单？

LuckyLilliaBot深度解析：高性能NTQQ OneBot 11协议框架架构设计与实现

OpenClaw 2026年3月史诗级迭代全景深度分析报告：从危机到新生，从工具到生态操作系统

分享文章

更多文章

用Python搞定CALCE电池数据：手把手教你预测锂电池还能用多久（附完整代码）

终极指南：如何免安装Office快速预览Word、Excel和PPT文件

Windows 10上部署Redmine 5.0.0，我踩过的SMTP和中文路径的坑，你都别踩了

Windows Cleaner：3步解决C盘爆红，让您的Windows系统重获流畅体验

STC89C52单片机驱动6位数码管：从原理图到动态显示代码的保姆级教程

多速率信号处理：采样率转换与高效实现技术

MATLAB新手必看：如何用randn函数生成正态分布随机数（附完整代码）

基于ROS2的多功能自主作业机器人设计与实现

【仅限首批Early Adopter】：Spring Boot 4.0 Security Agent 源码级审计报告（含3处高危设计缺陷及官方未公开的Patch 4.0.1-RC2）

Spring WebFlux已过时？Java 25虚拟线程重构亿级订单系统实录（QPS从8k→42k，GC停顿下降92%）

VS Code + SpringBoot：深入Spring Tools 4的‘Live Data’功能，以及为什么你项目里需要（或不需要）Actuator

SystemUI时钟秒显功能被隐藏？揭秘Android 11定制系统的‘调谐器’入口与实现逻辑