大数据开发学习Day8

张开发

• 2026/6/4 21:44:22 • 15 分钟阅读

分享文章

一、Linux / Shell任务批量删除当前目录下所有 .tmp 结尾的临时文件find.-name*.tmp|xargsrm-f# find . -name *.tmp 生成当前目录下所有.tmp文件的列表批量删除文件# 查找并删除所有.log文件find.-name*.log|xargsrm# 更安全的方式处理空格文件名find.-name*.log-print0|xargs-0rm批量复制文件# 复制文件到指定目录find.-name*.txt|xargs-I{}cp{}/target/dir/# 移动特定类型的文件ls*.jpg|xargs-I{}mv{}images/-I{}替换字符串xargs-I{}cp{}/dest/-nN 每次传递N个参数xargs-n1逐个处理-PN 并行处理N个进程xargs-P44进程并行-0以null分隔配合find -print0find...-print0|xargs-0-p交互模式执行前确认xargs-prmxargs把管道传来的多行文本转为命令行参数rm -f强制删除不提示大数据场景常用批量清理日志、临时表、小文件二、SQL百分比计算、累积求和、分组条件筛选1728. 每月活跃用户数 II日期分组去重将原始 Activity 表按 (user_id, 月份) 分组统计每个用户每月的不同活跃日期数WITHuser_daysAS(SELECTuser_id,DATE_FORMAT(activity_date,%Y-%m)ASmonth,COUNT(DISTINCTactivity_date)ASdaysFROMActivityGROUPBYuser_id,month)SELECTmonth,COUNT(DISTINCTuser_id)ASactive_usersFROMuser_daysWHEREdays2GROUPBYmonth;DATE_FORMAT(activity_date, ‘%Y-%m’)把日期如 2026-04-09格式化成 ‘2026-04’用于按月聚合1204. 最后一个能进入电梯的人累积和上限判断WITHweight_sumAS(SELECTname,SUM(weight)OVER(ORDERBYturn)AStotalFROMQueue)SELECTnameFROMweight_sumWHEREtotal1000ORDERBYtotalDESCLIMIT1;SUM(weight) OVER (ORDER BY turn) 是窗口函数ORDER BY turn 确保按排队顺序累加550. 游戏玩法分析 IV次日留存率面试必考WITHfirst_loginAS(SELECTplayer_id,MIN(event_date)ASfirst_dateFROMActivityGROUPBYplayer_id)SELECTROUND(COUNT(DISTINCTa.player_id)/COUNT(DISTINCTf.player_id),2)ASfractionFROMfirst_login fLEFTJOINActivity aONf.player_ida.player_idANDa.event_dateDATE_ADD(f.first_date,1);CTE 找首登日期MIN(event_date) 定位每个玩家第一天登录次日判断DATE_ADD(日期, 1) 精准匹配第二天留存率公式次日登录人数 / 总玩家数去重计数必须用 COUNT(DISTINCT) 避免同一天多次登录干扰 ROUND保留 2位小数面试标准输出格式三、PySpark 核心新内容自定义函数 Pandas UDF 数据倾斜实战分区优化在PySpark分布式计算中数据倾斜某些分区数据量过大是常见瓶颈会导致任务执行缓慢甚至失败。Pandas UDFUser Defined Function结合分区优化能高效缓解此问题它利用Spark的分布式架构将数据分块处理为pandas DataFrame在分区级别应用向量化操作减少JVM与Python的通信开销同时通过自定义分区策略确保负载均衡直接在 PyCharm 运行frompyspark.sqlimportSparkSessionfrompyspark.sqlimportfunctionsasFfrompyspark.sql.functionsimportpandas_udffrompyspark.sql.typesimportDoubleTypeimportpandasaspd sparkSparkSession.builder \.master(local[*])\.appName(day8)\.getOrCreate()# 构造数据data[(1,20.0),(2,30.0),(3,40.0),(4,50.0)]dfspark.createDataFrame(data,[id,score])# 新知识点1Pandas UDF性能远高于普通UDFpandas_udf(DoubleType())defnorm_score(s:pd.Series)-pd.Series:returns/100dfdf.withColumn(norm_score,norm_score(F.col(score)))df.show()# 新知识点2重分区合并小文件 # 增加分区df_repartdf.repartition(4)# 合并分区df_coalescedf_repart.coalesce(1)# 新知识点3数据倾斜常用解法加盐聚合 df_saltdf.withColumn(salt,F.floor(F.rand()*3))df_salt.groupBy(id,salt).count().show()spark.stop()结果------------------|id|score|norm_score|------------------|1|20.0|0.2||2|30.0|0.3||3|40.0|0.4||4|50.0|0.5|------------------Pandas UDF 用法基于 Arrow 格式速度是普通 UDF 的 10~100 倍repartition 与 coalesce 区别repartition(n)全量重分区可增可减有 shufflecoalesce(n)只减不增无 shuffle用于合并小文件加盐两阶段聚合解决数据倾斜随机前缀两阶段聚合解决单分区爆量分区数对性能的影响小知识点生产环境禁止大量小文件必须用 coalesce 合并四、算法LeetCode 3. 无重复字符的最长子串掌握滑动窗口双指针写法理解用哈希集合 / 字典维护窗口时间复杂度 O (n)deflengthOfLongestSubstring(s:str)-int:char_map{}left0max_len0forright,cinenumerate(s):ifcinchar_mapandchar_map[c]left:leftchar_map[c]1char_map[c]right max_lenmax(max_len,right-left1)returnmax_len

更多文章

前端开发 2026/6/3 10:15:36

面向太空应用的钙钛矿光伏：稳定性测试指南

随着全球商业航天产业的快速发展，低地球轨道（LEO）卫星星座（如 Starlink、千帆）正推动航天从“高可靠、小规模”向“低成本、大规模”转型。这一变化对能源系统提出了新的要求：更高比功率、更低成本以及更轻…

最近顶级图像算法论文精读：CVPR 2025《ACL》如何用线性注意力重做图像恢复？ 摘要最近读到一篇很值得分析的图像算法论文：ACL: Activating Capability of Linear Attention for Image Restoration。这篇论文发表在 CVPR 2025，聚焦…

张开发

前端开发 2026/6/3 2:49:20

OpenClaw浏览器插件：Phi-3-mini网页信息提取神器

OpenClaw浏览器插件：Phi-3-mini网页信息提取神器 1. 为什么需要浏览器插件与本地模型结合？ 在日常工作中，我经常需要从网页中提取关键信息、生成摘要或填写表单。传统做法是手动复制粘贴，或者写爬虫脚本，但前者效率低…

张开发

大数据开发学习Day8

最新文章

.NET 11原生AI推理引擎深度解密：如何绕过ML.NET抽象层直驱ONNX Runtime 1.16 SIMD指令集？

告别BIGMAP水印！免费搭建GeoServer离线地图服务：从TIF/SHP数据到OpenLayers展示的保姆级教程

FPGA项目选RAM别纠结！单口、伪双口、真双口RAM性能实测对比（基于Artix-7开发板）

Day05：大模型生产环境常见问题与排障科普笔记

告别Makefile烦恼：用STM32CubeIDE一站式搞定ROS1 rosserial库的集成与编译

iOS企业应用分发太麻烦？手把手教你用MDM实现从上传IPA到员工手机自动安装的全链路

推荐文章

相关文章

分享文章

更多文章

面向太空应用的钙钛矿光伏：稳定性测试指南

创建abb机器人机械装置————简易活塞

扩散模型对抗样本经典baselines揪

F-Theta扫描透镜的性能评估

麦橘超然(majicmixRealistic_v7 AI大模型)

OpenClaw代码审查：Qwen3.5-9B自动化质量检查

2025届学术党必备的AI写作方案横评

2026届最火的六大AI辅助论文网站解析与推荐

Arduino Ethernet库深度解析与W5500硬件协同开发指南

OpenClaw安全指南：千问3.5-9B本地化部署的数据隐私保护

Mamba 不够，Transformer 太贵？CVPR 2025 这篇 ACL 给了图像恢复一个新答案

OpenClaw浏览器插件：Phi-3-mini网页信息提取神器