Apache Spark中国社区个人主页

@weixin_45906054

Apache Spark中国社区

2023-05-11 17:02:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

双擎湖仓免费体验：EMR Serverless StarRocks × Serverless Spark x DLF 共探 TPC 极致性能

2025 年 9 月，阿里云 EMR 在全球数据仓库性能及性价比排行榜中斩获两项全球冠军：在“数据分析”性能测试 TPC-H 榜单中，阿里云 EMR Serverless StarRocks （Stella 1.2.0 内核）以 QphH 超 754万分的性能结果斩获全球冠军，在“决策支持类”性能测试 TPC-DS 榜单中，阿里云 EMR Serverless Spark （Fusion 2.0

#serverless #spark #云原生 +2

＜span class=“js_title_inner“＞参会指南｜Apache Spark Meetup · 上海站＜/span＞

此外，活动特别邀请来自阿里云、AMD、流利说的行业专家，分享实战场景下，高效、智能的数据处理解决方案。通过此次 Meetup，企业不仅能够全面了解 EMR Serverless Spark 的技术优势和应用场景，还能深入掌握其与 DataWorks 和 AMD 技术的协同价值，为企业在数据驱动的业务场景中构建高效、智能的数据平台提供重要参考与实践指导。无法来到现场的开发者也不用担心，本次 Meeu

#spark #大数据 #分布式

淘宝闪购基于阿里云 EMR Serverless Spark&Paimon 的湖仓实践：超大规模下的特征生产&多维分析双提效

DV 引入了新的机制：写入时记录被删除的数据，读取时过滤。在淘宝闪购上线以来的这一段时间内，业务不断在创造一个又一个峰值，用户活跃度和订单量级都屡创新高，在这背后，数据团队始终以 “稳定、高效、智能” 为准则，在湖仓一体架构的基础上，深度融合流计算与批处理能力，构建起一套高弹性、低延迟、强一致的数据处理体系，作为核心计算引擎，阿里云 EMR Serverless Spark 在湖仓一体架构中扮演了

#阿里云 #serverless #spark +2

阿里云 EMR Serverless Spark TPC-DS 100T 榜首背后的内核技术

EMR StarRocks、Spark 湖仓挑战开启，在 DLF（Paimon）极速运行 TPC 查询，完成任务即领阿里云帆布袋，前55位加赠：定制双肩包*5，小背包*5，StarRocks 定制颈枕*15，足球淘公仔自制*30，数量有限，按照顺序先领先得。周克勇，阿里花名"一锤"，阿里巴巴计算平台事业部 EMR 团队技术专家，大数据领域技术爱好者，对 Spark 有浓厚兴趣和一定的了解，目前主要

#阿里云 #serverless #spark +2

EMR Serverless Spark 携手 PAI/百炼，开启“SQL 即 AI”的新篇章

对于技术团队而言，现在的重点不再是“如何构建一个能调用 AI 的系统”，而是“如何利用现有的数据资产，通过最简单的接口，快速验证 AI 带来的业务价值”。通过注册 PAI-EAS 服务为外部模型源，EMR Serverless Spark 能够在确保“数据不出域”的前提下，直接于计算流程中调用专属模型，实现便捷、高效的安全风控处理。这种架构的特点是：数据无需离开安全的 VPC 环境，直接在湖仓内部

#serverless #spark #sql +2

EMR Serverless Spark 推出 Spark 4.0，加速湖仓架构下的数据处理升级

这是 Spark 项目自诞生以来变化最大的一次版本升级——全新的 VARIANT 数据类型、原生 SQL UDF、重新设计的基础设施架构、以及对 Python 生态的全面增强。阿里云 EMR Serverless Spark 当前已适配 Spark 4.0 ，企业用户可直接在生产环境使用这些能力，无需自建集群、无需手动升级、无需担心兼容性。对于数据湖上的 JSON 密集型工作负载，Paimon V

#serverless #spark #架构 +2

关于Ray，你想了解的都在这里！让分布式计算变得简单

>>>>点击上方蓝字关注我们，获得最新技术资讯主题：Ray - 机器学习应用的计算底盘讲师：张喆，领导Anyscale公司开源工程团队议题重点：Ray的架构和设计R...

#人工智能 #html #机器学习 +1

开源大数据平台 Data+AI 场景经典案例合集（文末有礼）

用友畅捷通基于 EMR StarRocks 搭建实时湖仓，通过其高性能查询、物化视图优化、流批一体能力，支撑实时大屏、BC 一体化报表及用户画像等场景，替代 ClickHouse 等分散方案后，解决了历史系统回写效率低、数据孤岛严重、技术架构分散等问题，解决了查询性能瓶颈，统一了技术栈，同时满足了业务实时数据分析需求。喜马拉雅大数据全面上云架构升级后，实现了秒级弹性伸缩，减少了数万张表，任务性能提

#开源 #大数据 #人工智能

关于云原生分布式计算和存储引擎JindoFS，看这一篇就够了

Jindo 的由来EMR Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。Jindo 原是内部的研发代号，取自筋斗...

如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈

编译：抚月，阿里巴巴计算平台事业部 EMR 高级工程师，Apache HDFS Committer，目前从事开源大数据存储和优化方面的工作。本文出现的所有链接，可点击文末“阅读原文”直...

共 24 条

请选择