🍀 前言


众所周知,在现如今大数据时代,数据越来越重要。据Gartner最新趋势分析,数据分析将成为创新起源与企业核心能力。同时国际数据公司IDC和数据存储公司希捷的一份报告表示,我国产生的数据量将从2019年的约9.4ZB增至2025年的48.6ZB。

面对如此愈加繁杂和庞大的数据,很多公司往往会被这些海量数据与各类要求所淹没,因此如何降本增效,打通数据分析与存储,提高数据数据分析的效率成为了令技术团队头疼的问题。

大数据分析就是指对规模巨大的数据进行数据分析。我们每天打开手机就能看到的疫情确诊人数,各大新闻自媒体平台滚动的疫情实时动态板块,其背后都有着一个海量数据分析的架构平台做支撑。在这样的大数据时代背景下,如何高速高效低成本地进行数据分析,已经成为了各大互联网企业需要解决的难题。


🍀 数据分析平台的发展

数据分析平台的发展历程大致经过如下几个阶段:

🍊关系型数据库

最初,企业的技术人员通常在相对空闲的时间(例如在晚上或清晨)直接在业务数据库中执行某些数据分析查询。 当数据量增加时,通常需要以分库分表的形式在多个业务数据库之间分配逻辑上相同的一块数据。快速分析全量数据的同时不影响在线业务就变成了一件极为复杂的事情。

🍊线下搭建Hadoop集群

随着Google在2004年发布MapReduce论文,2006年Apache Hadoop项目发布。一些前沿的互联网公司,开始在线下机房搭建开源Hadoop集群,使用Hadoop的分布式处理能力解决数据分析中常见的数据量激增、查询出不了结果等问题。

Hadoop架构的基本优点是可扩展性高,从理论上讲,通过解决节点之间的通信和引入多管理节点,可以根据数据量的大小无限扩展集群的大小。集群规模跟需要参与计算的数据量强相关,尤其像购APP,可能在双十一用户量激增,但火上半个月后用户热情冷却,又下降到最初的业务量;而线下机房采购服务器走流程,周期基本都是以月为单位,根本无法满足快速变化的业务场景。

🍊云上自建Hadoop集群

云上搭建Hadoop集群可以帮助企业灵活使用Hadoop,企业可以根据需要,多次放大或缩小,很好地解决了Hadoop集群对于节点伸缩能力的诉求。云为Hadoop提供了一种经济高效的解决方案。大多数云提供商按使用情况付费,因此企业可以为所需的存储或分析付费,而无需进行前期投资或在不使用系统时支付维护费用。除此以外通过在云上可用的特定Hadoop分发,企业可以立即访问其数据以进行实时处理和分析。

🍊云上半托管大数据服务

云厂商也在大力推进大数据分析,推出了AWS等基于云的半托管的大数据服务。 随着云计算应用场景的不断扩展,越来越多的大数据中心需要提供更强大的计算能力来满足需求,而这些能力主要来自于云端虚拟化技术的发展。目前,大数据处理已成为行业趋势。 从简单虚拟机的性能竞争到大数据管理软件的易用性,到大数据组件的高性能等。 对于用户而言,云上半托管的云计算大数据服务的核心优势在于简化安装、升级和运维,增强可视化。 同时,由于组件是开源+自研优化,因此接口上与开源保持一致,降低了业务转型改造的成本。


🍀 Amazon EMR简介

Amazon EMR是云上的数据分析平台,通过 Amazon EMR 的图形化或命令行接口,用户可以快速搭建和部署基于 Amazon EC2 实例的数据分析系统,并能动态扩展集群。Amazon EMR 也可以读写其他 AWS 数据存储服务,例如 Amazon S3 和 Amazon DynamoDB。用户也可以在该平台上使用开源分析框架(如 Apache Spark、 Presto 等)运行大规模分布式数据处理作业,交互式 SQL 查询,以及机器学习 (ML) 应用程序。

特别注意:亚马逊云科技目前提供了100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量,详情请点击下方链接:

https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*allhttps://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all

🌳 发展历程

这么说是不是还是不太了解 Amazon EMR 的魅力?那么想要深入理解 Amazon EMR,我们就需要了解与之相关的产品和它自身的发展历程:

2006年,Hadoop推出,MapReduce 是 Hadoop 分布式计算框架的组成部分。HDFS是分布式存储理念的产物,其提供跨集群中多个计算节点的数据分发,非常适合管理不同类型的数据源,它为数据湖的发展奠定了基础。而为了兼容Hadoop集群,AWS于2009年推出了 Amazon Elastic MapReduce(EMR)数据湖架构,以跨EC2实例集群自动置备HDFS。AWS EMR包含了几乎所有Hadoop 生态体系中的核心组件,能够满足用户各种各类的数据分析需求。同时,在运维层面,帮助业务人员自动完成计算机资源准备、操作系统安装、Hadoop组件安装、组件配置等一系列繁杂工作。


🌳 功能简介

了解完Amazon EMR的过去,那么我们用它有什么好处呢?我这边主要列举了一些我个人认为比较实用的一些特点,而这么多的优点仅仅只是AWS EMR的冰山一角!

🥝 成本低廉

使用Amazon EMR,可以更快地运行大数据应用程序和 PB 级数据分析,并且成本不到本地解决方案成本的一半。Amazon EMR 旨在降低处理大量数据的成本。其中一些功能有助于降低成本,包括较低的每秒单价、Amazon EC2 Spot 实例集成、Amazon EC2 预留实例集成、弹性和 Amazon S3 集成。

例如:日志文件分析就是一个不需要一直运行的批量数据处理任务,我们可以每天定时运行亚马逊EMR集群进行分析,分析完成后再删除集群。 而传统的人工构建集群往往耗费大量时间和精力,使用AmazonEMR会让创建集群变得更容易。我们只需要一个命令就可以建立所需要的集群。特别是在数据量日益庞大的当下,定时运行集群与云计算的按需计费模式(通过每秒单价来计算)相结合,可以大大节约处理成本。

PS:我这边把定价链接放在下边,真的划算!!!点击就可以按需计算使用AWS EMR的费用啦!

大数据处理和数据分析 - Amazon EMR 定价 - Amazon Web Serviceshttps://aws.amazon.com/cn/emr/pricing/?nc=sn&loc=4

🥝 数据存储灵活

借助 Amazon EMR,我们可以利用多种数据存储,包括 Amazon S3、Hadoop 分布式文件系统 (HDFS) 和 Amazon DynamoDB,可以灵活地进行存储。

🥝 支持各类工具

Amazon EMR 除了上述这些优点之外,它还支持各种功能强大、经过验证的 Hadoop 工具,如 Apache Spark、Apache Hive、Presto 和 Apache HBase,洞察时间提升为足足原来的 2 倍。对此数据分析师使用 EMR Studio、Hue 和 EMR Notebooks 进行交互式开发、编写 Apache Spark 作业,并向 Apache Hive 和 Presto 提交 SQL 查询。

🥝 具有高弹性

Amazon EMR还具有高弹性的特点。它使我们能够快速、轻松地预配置所需的容量,以及自动或手动添加和移除容量。在处理要求不确定或者不能预料的情况下,这一功能对我们来说是十分有用的。

例如,如果您大多数实例的处理发生在夜间,那么您白天可能需要 1000 个实例,而夜间则可能需要5000 个实例。另一种情况是,您可能在短期内需要巨大的容量。借助 Amazon EMR,您可以快速预置数百或者数千个实例,自动扩展以满足计算要求,并在作业完成后关闭集群(避免为空闲容量付费)。


🌳 使用场景

Amazon EMR的功能如此丰富,那使用场景广泛嘛?

废话,Amazon EMR的使用领域也相当广泛,主要可应用于以下几种情况:

(1)执行大数据分析:使用统计算法和预测性模型运行大规模数据处理和 what-if 分析,发现隐藏的模式、相关性、市场趋势和客户偏好。

(2)构建可扩展的数据管道:从各种来源中提取数据、大规模处理数据,并将数据提供给应用程序和用户。

(3)处理实时数据流:实时分析来自流式数据源的事件,以创建长期运行、高度可用且具有容错能力的流式数据管道。

(4)加速数据科学和 ML 采用:使用 Apache Spark MLlib、TensorFlow 和 Apache MXNet 等开源 ML 框架。连接 Amazon SageMaker Studio 进行大型模型训练、分析和报告。

可以说Amazon EMR基本涵盖了你能想象到的,所有一切和数据分析相关的领域,所以安心的选择Amazon EMR准没错!


🍀 Integral Ad Sciences 使用 Amazon EMR 处理大数据

积分广告科学 (IAS) 是数字广告验证领域的全球领导者,致力于确保真实用户在安全、合适的环境中观看广告。IAS 平均每天处理超过 1000 亿笔网络交易以进行广告验证,即每月处理数万亿个数据事件。它每天分析数百万个页面以确保品牌安全,并提供实时竞价建议,在10-50毫秒内响应API调用。它还在 10 毫秒内为 99% 的请求提供已知的上下文分析分数。

遇到的问题:直到2019年,IAS在美国和欧洲运营数据中心,在澳大利亚、新加坡和日本运营混合本地和云模型。该公司使用了中心辐射型模型,其中所有数据从这些分散的中心提取到新泽西州的数据中心进行分析。为了支持峰值流量,IAS 必须购买更多硬件,这需要数周的时间来配置,并且在较慢的季节中一直未使用,导致了闲置资源与浪费。

客户的需求:由于其持续的全球增长,IAS希望架构更快、更高效,选择将数据迁移到AWS上。

使用AWS EMR后:IAS提高了敏捷性和成本效益,使其能够在新区域推出并在数小时而不是数周内部署产品。具体来说,在将数据池化到数据湖中后,临时 Amazon EMR 集群将运行作业,以将数据合并、丰富和聚合到数据仓库中,它会根据工作负载自动增加或减少集群中的实例或单位数,最终使得 IAS 的成本降低了 12%。


🍀 Paytm 使用 Amazon EMR 实现数据平台现代化并简化数据处理

Paytm是数字金融服务的先驱,是印度最大的数字支付,商业和金融服务平台。今天,它支持超过1700万商家,每天有数百万人使用它来支付水电费,杂货,电影票等。该公司的使命是帮助印度各地5亿银行业务不足的企业和个人建立信誉。

遇到的问题:随着数字支付服务的增长,Paytm预见到数据量将迅速增长,原本的数据分析平台可能无法承载日益增长的数据。

客户的需求:Paytm需要一个能够处理更大数据工作负载的平台,并在正确的时间为其商家以及它们的产品和业务团队提供正确的数据。

使用AWS EMR后:Paytm 在其本地数据基础架构方面面临两个主要挑战:性能和可扩展性。为了应对这些挑战,Paytm 的数据工程团队采用了大数据平台 Amazon EMR,以较低的运营开销重新构建其核心 ETL 处理。Amazon EMR 与 Paytm 预先存在的开源工具兼容,使公司大数据平台易于设置、操作和扩展,并与其他机器学习和人工智能堆栈集成。

借助 Amazon EMR,Paytm 现在可以轻松地安全地处理超大规模数据工作负载 ,该平台可以启动大数据集群,并在短短 10 分钟内执行 Paytm 的大部分核心 ETL 处理,而之前最多需要 12 小时。此外,它可以在不再需要时被关闭,从而最大限度地减少不必要的基础结构成本。

Amazon EMR 为Paytm提供了构建面向未来的数据平台所需的工具和功能。由于容量预置和集群扩展由 Amazon EMR 管理,Paytm现在可以以本地解决方案 70% 的速度向业务用户交付数据,在此基础上,交付数据的速度提高了30%。


🍀 关于Amazon EMR 的总结

一顿操作下来,我来这里总结一下。

首先亚马逊云科技的 Amazon EMR 给我的感觉只有两个字:方便!Amazon EMR 简化了大数据环境和应用程序的构建和操作,让大数据处理更为便捷,用户无需部署、管理和扩展底层的基础设施,可以直接使用开源的数据框架运行分析型程序。

其次从实战效果和成本角度来说,IAS与Paytm的实战案例都清楚地体现了Amazon EMR为企业大大降低成本,从这方面打分的话,可以打95分(满分100)。

最后尽管Amazon EMR的使用已经十分简便了,但是亚马逊云科技还是为我们准备了非常详细的官方教程,我将这些资源贴在下方,大家可以直接点击学习:

Amazon EMR 入门 – 大数据平台 – Amazon Web Services


🍀 更多相关内容

除此以外亚马逊云科技还专为开发者们打造了多种学习平台:

1. 入门资源中心:从0到1 轻松上手云服务,内容涵盖:成本管理,上手训练,开发资源。

https://aws.amazon.com/cn/getting-started/?nc1=h_ls&trk=32540c74-46f0-46dc-940d-621a1efeedd0&sc_channel=el

2. 架构中心:亚马逊云科技架构中心提供了云平台参考架构图表、经过审查的架构解决方案、Well-Architected 最佳实践、模式、图标等。

https://aws.amazon.com/cn/architecture/?intClick=dev-center-2021_main&trk=3fa608de-d954-4355-a20a-324daa58bbeb&sc_channel=el

3. 构建者库:了解亚马逊云科技如何构建和运营软件。

https://aws.amazon.com/cn/builders-library/?cards-body.sort-by=item.additionalFields.sortDate&cards-body.sort-order=desc&awsf.filter-content-category=*all&awsf.filter-content-type=*all&awsf.filter-content-level=*all&trk=835e6894-d909-4691-aee1-3831428c04bd&sc_channel=el

4. 用于在亚马逊云科技平台上开发和管理应用程序的工具包:

aws工具下载_aws开发工具_资源下载-AWS云服务

亚马逊云科技居然为我们提供了这么多有趣的学习平台,这真的对开发者来说太好了!读到这里真的已经心满意足,收获满满了!

难道你这就满足了?

难道还有福利?

没错,现在加入还有专属福利

福利一:100余种产品免费套餐。其中,计算资源Amazon EC2首年12个月免费,750小时/月;存储资源 Amazon S3 首年12个月免费,5GB标准存储容量。

https://aws.amazon.com/cn/free/?nc2=h_ql_pr_ft&all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc&awsf.Free%20Tier%20Types=*all&awsf.Free%20Tier%20Categories=*all&trk=e0213267-9c8c-4534-bf9b-ecb1c06e4ac6&sc_channel=el

福利二:最新优惠大礼包,200$数据与分析抵扣券,200$机器学习抵扣券,200$微服务与应用开发抵扣券。

https://www.amazonaws.cn/campaign/?sc_channel=el&sc_campaign=credit-acts-ldr&sc_country=cn&sc_geo=chna&sc_category=mult&sc_outcome=field&trkCampaign=request-credit-glb-ldr&trk=f45email&trk=02faebcb-3f61-4bcb-b68e-c63f3ae33c99&sc_channel=el

福利三:解决方案CloudFormation一键部署模版库

https://aws.amazon.com/cn/quickstart/?solutions-all.sort-by=item.additionalFields.sortDate&solutions-all.sort-order=desc&awsf.filter-tech-category=*all&awsf.filter-industry=*all&awsf.filter-content-type=*all&trk=afdbbdf0-610b-4421-ac0c-a6b31f902e4b&sc_channel=el

亚马逊云科技提供了这么多的福利与资源,还不心动嘛?反正我是心动了,现在就去领福利啦~

Logo

亚马逊云科技开发者 Build On 是由亚马逊团队策划、开发者社区联合打造的动手实操系列活动。

更多推荐