logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(课堂笔记)数据迁移(Sqoop迁移)Sqoop = 关系型数据库 ↔ Hadoop 的数据传输工具

本文系统梳理了数据迁移的核心知识与实践方法。主要内容包括:1)数据迁移概念(类比搬家过程)及应用场景(国产化替代、数仓建设等);2)标准化三步流程:模型迁移(注意数据类型/分区差异)、数据迁移(Shell/Sqoop两种方式)、数据验证(4维度校验);3)重点工具Sqoop的实战指南(参数详解、并行原理、批量脚本);4)完整的数据验证方案(行数比对、MD5校验等);5)面试高频问题解析。文章提供可

WSL 切换磁盘后验证完整性(MobaXterm、Powershell、WSL 的区别)

本文详细解析了MobaXterm、PowerShell与WSL在大数据开发中的区别与应用场景。WSL作为核心开发环境,支持原生Linux工具(如Sqoop、Hadoop),推荐通过PowerShell或MobaXterm的WSL直接会话进入;MobaXterm的SSH连接适用于多任务隔离测试或远程服务器管理。Cygwin是Windows的Linux模拟层,性能较弱,不适合大数据开发。文章通过对比表

Kettle(Spoon 数据抽取、转换、加载)下载和安装,对比 Hue(Hadoop 大数据平台的 Web 操作与管理界面)

Kettle(现称Pentaho Data Integration)是一款开源ETL工具,通过图形化界面实现数据抽取、转换和加载。安装需Java 8环境,下载压缩包解压至无中文路径后运行Spoon.bat启动。核心组件包括Spoon(设计工具)、Pan/Kichen(执行引擎)和Carte(调度服务)。它能连接多种数据源(如MySQL、HDFS),与Hue形成互补——Kettle专注ETL流程开发

Sqoop 快速入门指南(在关系型数据库之间高效批量传输数据)

《Sqoop快速入门指南》Sqoop是Apache开源工具,专用于关系型数据库(如MySQL)与Hadoop(HDFS/Hive)间的数据传输。

#sqoop
SQL示例:AI也不是万能的,AI也懵逼,果然业务理解才是最难的(这也是人区别于AI的无法取代性)

本文分析了电商平台商品绩效查询的SQL实现难点,重点讨论了利润率过滤时机对查询结果的影响。通过对比错误与正确解法,指出应先计算销售排名再过滤利润率(>20%)的关键步骤。错误解法因过早过滤导致排名不准确,正确解法采用CTE分步处理:先计算所有商品利润率,再按类别分组排名,最后筛选排名前三且利润率达标的数据。两种正确写法(AI修正版和老师版)均采用窗口函数ROW_NUMBER()实现分组排序,

#sql
SQL示例:AI也不是万能的,AI也懵逼,果然业务理解才是最难的(这也是人区别于AI的无法取代性)

本文分析了电商平台商品绩效查询的SQL实现难点,重点讨论了利润率过滤时机对查询结果的影响。通过对比错误与正确解法,指出应先计算销售排名再过滤利润率(>20%)的关键步骤。错误解法因过早过滤导致排名不准确,正确解法采用CTE分步处理:先计算所有商品利润率,再按类别分组排名,最后筛选排名前三且利润率达标的数据。两种正确写法(AI修正版和老师版)均采用窗口函数ROW_NUMBER()实现分组排序,

#sql
电商平台 web桌面版 分析(附:AI PC 详解)

电商平台未开发.exe桌面版的核心原因在于商业策略与用户需求不匹配。移动端已占据85%以上交易量,PC购物场景大幅萎缩。开发桌面客户端面临高成本(需适配多系统、维护更新)、低收益(用户安装意愿低),且与平台强化App生态的战略相冲突——桌面端无法实现精准推送、数据闭环和流量控制。此外,安全风险(易被逆向破解)和行业先例(主流电商均未成功)也佐证了这一决策。平台资源集中投入移动端是更理性的商业选择,

文章图片
Azkaban 安装完整教程(基于 WSL2/Ubuntu)

Azkaban安装教程摘要(WSL2/Ubuntu环境) 本教程详细指导在Windows11的WSL2(Ubuntu24.04)中安装Azkaban工作流调度系统。关键步骤包括: 环境准备:确保Java8、Gradle5.0和Node.js16+已安装,需通过update-alternatives切换Java版本。 编译安装:克隆Azkaban源码后,配置阿里云镜像加速依赖下载,使用Gradle编

SQL示例(使用差分数组 + 窗口函数)统计并发数量问题(处理边界:当开始时间和结束时间相同时,应该先+1再-1,才能正确统计峰值)

本文详细讲解了如何计算视频的最大并发播放量并获取TOP3视频。核心思路是将观看记录拆分为开始(+1)和结束(-1)事件,通过窗口函数累加计算各时刻的并发人数,再取最大值。文章提供了两种SQL实现方案,重点优化了边界情况处理(如时间相同时先加后减),并解释了差分数组算法的数学原理。同时讨论了理论模型与工程实践的时间精度差异,建议在笔试中保持严谨处理边界条件,而实际开发中可根据时间精度适当简化。最终方

#mysql
    共 121 条
  • 1
  • 2
  • 3
  • 13
  • 请选择