一文通览腾讯云大数据ES、数据湖计算、云数据仓库产品新版本技术创新
腾讯全球数字生态大会-大数据专场要点分享
目录
3.2、什么是Elasticsearch Serverless
3.3、Elasticsearch Serverless 优势特性
四、Elasticsearch新版本特性:强大的云端AI增强与向量检索能力
零:前言
9月7-8日,腾讯召开了腾讯全球数字生态大会。
2023腾讯全球数字生态大会-大数据专场,关注了云原生和AI增强搜索能力的解读和实践。会议分享了大数据和AI能力融合的发展趋势,以及云原生大数据产品的突破和最佳实践。这些内容为企业注入了新的动力,帮助他们提升数据优势。
虚竹哥把参会的心得整理成文章,跟大家分享分享。
一、Elasticsearch
1.1、Elasticsearch的现状
Elasticsearch是一个开源的分布式搜索和分析引擎,构建在Apache Lucene之上。它被广泛用于处理大规模数据集,提供快速、实时的搜索和分析功能。
Elasticsearch通过将数据分布在多个节点上来实现水平扩展,从而使其具有高可靠性和高可扩展性。它使用倒排索引来加速搜索操作,并支持复杂的查询语言和过滤器。同时,Elasticsearch还集成了分布式文档存储、数据聚合、实时分析等功能,使其成为一个强大的全文搜索和分析引擎。
Elasticsearch在企业中得到了广泛应用。许多组织使用Elasticsearch来构建实时搜索引擎、日志分析系统、基于内容的推荐系统等。它已经成为一种常见的技术选择,在快速增长的数据领域中扮演着重要角色。
1.2、腾讯云Elasticsearch是什么?
腾讯云 Elasticsearch 是云端全托管的海量数据检索分析服务,拥有高性能自研内核,集成X-Pack商业特性。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。通过使用腾讯云 ES,我们可以高效构建信息检索、日志分析、运维监控等服务,近期推出的ES 8.8.1版本,更是提供了独特的向量检索能力,可帮助我们构建基于语义、图像的AI深度应用。在本次大会上,腾讯云ES重点介绍了其自研的存算分离、Serverlss以及AI增强与向量检索能力,下面我们逐一进行回顾介绍。
二、Elasticsearch 存算分离
2.1、行业问题
存算一体架构的ES引擎存在一些问题,其中包括多副本机制作为分布式架构的依赖、主从副本同时写入导致的计算冗余,以及弹性伸缩时数据搬迁和资源浪费等。这些问题都是ES引擎在存算一体架构下所面临的弊端。
2.2、存算分离核心优势
腾讯云大数据团队针对ES引擎存在的问题,研发了存算分离技术。该技术的基本思想是将原本存在本地磁盘上的数据存储到远程的分布式存储——对象存储中,实现存算分离,这样做带来了以下几个好处。首先,从存储层面来看,对象存储的成本远低于磁盘。其次,在技术层面上,无论多少个副本都可以共享一份存储,进一步降低了成本,同时也实现了秒级弹性。针对计算冗余,研发了segment物理复制功能,只在主分片上完成索引构建,然后同步到副本分片,这样消耗的计算资源只有一次。为了保证对象存储的性能,还研发了本地的智能缓存和IO并行,确保查询性能不弱于本地磁盘。由于存算分离,去除了存储和计算冗余,整个集群的拥有成本下降了50-80%,同时支持秒级弹性伸缩,在读写高峰时,可以按需扩缩容和按需付费,从而获得更好的收益。
2.3、存算分离关键技术-物理复制
在物理复制技术中,采用了一种基本思想:写入数据时只写主分片,副本分片只通过translog来维持数据的一致性。随着主分片的segment生成,数据会实时同步到副本分片,从而消除了副本写入时的计算资源开销。
2.4、存算分离关键技术-混合存储
通过结合SSD和对象存储两种介质,实现了数据逐步降温的存储方式,以降低成本。下面是索引的逐步降温过程。
- 第一阶段:Read-Write索引(当天索引)保存在本地的主从分片。
- 第二阶段:Read-Only索引(温数据),通常在两三天后,主分片仍保存在本地,副本分片存储在对象存储中。
- 第三阶段:冷数据,一般在一到两周后,查询量更少,用户对查询延时的容忍度更高。逐步将主分片上的一些数据下沉到对象存储中,仅保留少量索引文件和元数据文件。
- 第四阶段:冻结数据,一般在一个月甚至一年后,几乎不会被查询。此时,将主副本分片的所有存储数据全部下沉到对象存储中,只保留少量元数据。这样,90%的数据都存储在对象存储中,大大降低了成本。
三、Elasticsearch Serverless
3.1、行业问题
在进行日志分析时,使用开源 Elasticsearch 的用户需要预估集群配置,包括计算资源和存储资源等,以确保业务平稳运行。然而,这种方式存在一些问题:首先,弹性能力不足,无法应对业务发展中的突发流量,在大型促销、节假日等特定场景下尤为明显。其次,基于业务高峰期进行集群容量规划会导致资源浪费和成本增加,因为在低峰期时可能存在很多冗余资源。最后,Elasticsearch 集群的运维与管理成本也很高,用户需自行规划配置和索引配置,并搭建监控告警平台等,对于企业而言,这是一个重要的开支点,希望能够进一步降低相关的成本。
为了解决Elasticsearch的行业问题,腾讯云基于自研云原生 Serverless 技术架构打造了Elasticsearch Serverless 服务。
3.2、什么是Elasticsearch Serverless
腾讯云推出的Elasticsearch Serverless服务是基于自行研发的云原生Serverless技术架构构建的一项全面托管的云端Elasticsearch解决方案。该服务具有自动弹性和免运维能力,能够有效地应对日志分析、指标监控等业务场景中波峰波谷所带来的资源成本问题。同时,它与ELK生态完全兼容,提供端到端的数据接入、数据管理和数据可视化等功能,用户可以立即开始使用并获得出色的产品体验。
3.3、Elasticsearch Serverless 优势特性
- 索引自动弹性:根据流量增长自动伸缩索引粒度,降低运维成本。
- 完全免运维:内置自动调优、智能管理和故障自愈,让用户无需关心底层配置和扩缩容。
- 极致成本效益:采用低成本、高性能、高可用的存算分离架构,实现按需付费和资源动态匹配,降低成本支出。
- 灵活易用:提供端到端的一站式产品能力,简化云上业务部署,分钟级实现业务落地。
- 开放集成:与ELK生态兼容,无缝迁移,快速上云,同时简化数据接入。
- 稳定可靠:后台优化集群配置和读写性能,提升稳定性,为业务保驾护航。
四、Elasticsearch新版本特性:强大的云端AI增强与向量检索能力
国内首发 8.8.1版本,为AI革命提供高级搜索能力!
4.1、行业问题
- 传统搜索 vs. 新技术:传统搜索采用结构化文本、分词、倒排索引和排序。在AI和大模型时代,能否利用向量检索和AI大模型为搜索带来更好的能力和彻底改变用户体验。
- 向量化的优势:向量化通过embedding将各种结构化、半结构化和非结构化数据映射成高维空间中的点,并通过点之间的距离推导相关性。维度越高,判断相关性的准确性越高。这为语义搜索、图像搜索和推荐等提供了更有效的方法。
- 企业应用和商业增长:向量化能力可助力企业在多个场景应用中发挥作用,提升经营效能和商业增长。
- 结合向量检索和生成式AI:向量检索和生成式AI(大模型)可以相互联动,支持垂直行业知识整合和智能化输出。
4.2、结合AI大模型与向量检索优势
- ES的独特性:ES具备原生文本搜索➕向量检索的混合搜索能力,与其他NoSQL数据库插件不同,它在内核层面支持自己的向量搜索引擎。ES还是一款优秀的全文检索引擎,可轻松实现多路召回、混合打分和聚合分析,提升搜索结果准确性。
- ES的全方位解决方案:ES提供端到端一站式向量检索方案,包括模型部署、向量化embedding生成和向量检索等环节,大幅降低企业算法工程接入成本。
- ES的丰富集成能力:ES可与第三方工具集成,如LangChain,帮助构建复杂数据管道和生成式AI应用程序,并可以与第三方Transformer模型集成。
- ES的稳定性与可靠性:ES作为成熟的分布式搜索引擎,已被广泛应用于核心在线业务和大规模日志场景,并得到充分验证和认可。
如果想体验腾讯云大数据 ES 服务的同学,可以扫描下方二维码,领取无门槛免费体验券哦!还有千元以上精美大奖等你来拿!
五、数据湖计算产品DLC
5.1、什么是数据湖计算产品DLC
腾讯云的数据湖计算DLC是一种基于云原生和Serverless架构的大数据分析服务。
腾讯云大数据近期推出了DLC - AIGC大数据基座和下一代Lakehouse湖仓架构。DLC在新兴的AIGC场景中得以广泛应用,其中包括Serverless形态下的无运维、轻量化和低门槛的特点。此外,它还具备内置的Pyspark支持与优化功能以及与Jupyter的良好集成性,使其成为AIGC领域的理想大数据基础设施。
另一方面,下一代Lakehouse湖仓架构则致力于实现数据资产的统一建设。它能够帮助用户以敏捷和低成本的方式管理和分析海量数据。与传统单一的数据架构相比,这种创新架构能够有效解决多变的数据分析需求所带来的挑战。通过Lakehouse湖仓架构,用户能够更好地满足各类数据分析任务的要求。
5.2、产品特点
- 集成了数据湖和数据仓库的优势:能够满足各种场景下的大数据存储和分析需求。
- DLC具备云原生特性:能够提供实时性强、简单易用和可扩展性强等特点。
- 多源联合查询:用户可在云上使用多种数据设施,如对象存储、云数据库和云数据仓库等。不需要额外加载数据,通过一个统一的数据视图即可实现多源数据联合分析。
- 支持标准 SQL:
- 用户可以直接使用标准的SQL语言进行数据分析,而不需要去理解不同数据设施的数据结构或者学习新的编程语言。该服务即插即用,操作非常简单。
- 资源极致弹性:采用无服务器(Serverless)架构,使用户不必关注底层的运维工作。此外,计算资源在使用完毕后即可被销毁,系统能够快速响应计算负载的需求并提供秒级伸缩和动态扩容能力。
- 云端无缝融合:该服务能够与腾讯云数据生态系统无缝融合,直接读取云存储服务中的数据。同时,它还具备很好的跨平台兼容性,可以支持各种上层数据应用。
5.3、价值
陈万东是腾讯云大数据DLC专家工程师,他在会议上向与会嘉宾介绍了数据湖计算DLC在百万级实时Upsert场景中的成功应用。腾讯云基于DLC、Flink和Wedata等技术,为某头部金融券商搭建了一个湖仓一体的近实时数据分析平台。该平台将业务数据库的数据流入kafka,通过Flink实现实时数据写入DLC,大幅简化了架构并节约了资源。通过实测,每秒钟Upsert次数可达120万次,并结合Smart Optimizer服务,数据能够分钟级别可见。同时,作业时间从几小时缩短到数分钟,整体提升效率超过50%,并降低使用资源的成本约20%。
5.4、适合使用场景
敏捷实时数据湖分析
企业日志批量查询
用户通常以json、文本文件等格式存储企业的日志数据。他们可以将这些日志数据存储到COS中,并且可以直接使用标准SQL来对COS中的海量数据进行批量分析。通过这个方式,用户可以快速生成数据报表,实现数据可视化,从而大幅提升工作效率。为了将云上日志服务的数据导入到DLC中进行加速分析,只需要进行几个简单的配置步骤即可。
敏捷搭建数据中台
统一元数据视图
在云上,用户可能会有多个元数据视图,比如EMR、DLC以及其他各种数据源产品。为了方便用户管理和使用不同数据源的元数据,DLC内置了一个企业级统一元数据视图。借助这个功能,用户可以敏捷快速地构建企业级元数据中心,并且可以在不同产品和版本之间无缝切换。值得一提的是,通过DLC,用户可以方便地在不同产品(比如DLC和EMR)之间切换使用同一份元数据。
一份数据敏捷泛场景分析
在大数据生态系统中,Presto和Spark都有各自擅长的领域。Presto擅长处理交互式分析,而Spark则擅长处理ETL任务。通过DLC提供的统一语法和轻量级集群功能,可以实现同一份数据在不同引擎之间无缝切换,以满足各种不同的使用场景。此外,通过结合Wedata,还可以将数据导入或导出到其他数十种数据产品和数据源,例如EMR、CDW、ES、数据库、日志服务等。通过这种灵活的数据流动,可以充分发挥不同产品的优势。
敏捷数据湖联邦分析
跨业务数据联合查询
不同的企业部门和业务线通常会采用不同的数据架构来管理业务数据,导致业务数据存储在不同的存储系统中,例如交易型数据存储在关系型数据库、活跃数据存储在Redis、历史记录存储在对象存储等,从而造成数据割裂的情况。DLC通过打通异构数据,帮助用户跨越多个数据源进行联合分析,使得用户能够更加迅捷地进行跨业务数据分析。
丰富多元数据湖科学
数据科学赋能业务增长
DLC为用户提供机器学习能力和智慧分析解决方案,助力业务增长。在机器学习场景中,用户面临大数据量、慢模型训练和差算法效果的问题。DLC提供开箱即用的机器学习算法模型,轻松构建预测模型。同时,还提供BI能力,提高企业运营效率。
六、腾讯云数据仓库TCHouse-C云原生弹性版
6.1、什么是云数据仓库TCHouse-C云原生弹性版
TCHouse-C是基于ClickHouse开源引擎的全托管数据仓库产品,它提供了一种高性能的列式分布式数据库管理系统。作为近年来最热门的OLAP引擎之一,在许多顶级互联网公司中已经广泛应用,尤其在处理PB级海量数据分析方面表现强劲。企业对于大量数据处理任务往往有很高的成本和实时要求,而ClickHouse正是满足这些需求的理想解决方案之一。
目前,我们进一步将云托管架构升级为云原生架构,采用存算分离架构实现了更细的资源管控粒度,资源扩缩容变得更加灵活,应对存储和计算资源的非对称需求。另外,TCHouse-C发布了SchemaLess能力,标准版与弹性版的TCHouse-C均支持SchemaLess进行半结构化数据分析,带来了日志分析场景下的新突破。
6.2、产品特点
优势:基于ClickHouse 内核,升级为存算分离的全新架构,支持多个特性
1)弹性效率:实现计算/存储独立扩容,秒级弹性;
2)性能优化:数据摄入、读写性能、BITMAP加速、SchemaLess查询半结构化数据
3)运维能力:配置管理、账户管理、监控告警、数据重分布、集群迁移等
简单易用:通过控制台分钟级构建 ClickHouse 分析集群,提供完善的集群运维管理、监控告警等功能使您无需关注底层基础设施,利用完善的 SQL 语句支持便可专注于数据价值的分析。
极致性能:支持向量化引擎、充分发挥列存优势,并充分利用所有可用的硬件,以尽可能快地处理每个查询。查询效率数倍于传统数据仓库,单个查询的峰值处理性能高达每秒数 TB。支持SchemaLess对半结构化数据实时分析性能提升20倍。为公有云客户节约了大量硬件成本,做到秒级返回查询结果。
弹性伸缩:通过控制台简单操作就可以快速实现的集群的扩容,缩容,节点的变配等操作,通过完善的云端弹性伸缩能力,为业务高速发展提供匹配的动态支撑。
安全可靠:用户集群独立部署,支持 VPC 私有网络隔离,数据访问安全多重保障。完善支持集群高可用,实现用户无感的服务容灾转移和故障恢复。
成本更低:利用云端高性价比设备,构建极具成本优势的托管 ClickHouse 集群;配合 ClickHouse 高达10倍的高效数据压缩算法,有效减少磁盘用量,相比传统数仓大幅降低使用成本。
6.3、价值
- 存算分离架构,资源成本更低;
- 业务扩容不停服,数据自动均衡;
- 日志场景下对半结构化数据实时分析性能大幅提升。
6.4、场景
构建通用日志分析系统
业务系统运行过程中,服务器、数据库产生大量日志和监控数据,且存储分散、种类繁多、规模庞大因此对降本要求高,日志查询的时候,一般按照某一维度统计数量、总量、均值等,符合TCHouse-C 面向列式存储的使用场景。 TCHouse-C凭借极致的列存和向量化计算会有更加出色的并发表现。 TCHouse-C支持高吞吐实时写入,支撑高峰期每小时百亿日志数据的写入同时,ClickHouse支持数据压缩,适合低成本、大数据量的分析场景, TCHouse-C更加具有绝对的优势。
游戏买量分析
采集游戏各类数据源数据,汇聚进入数据存储与计算体系,完善指标和标签体系建设(包括用户自然属性、行为属性、消费属性、设备属性、游戏偏好等), TCHouse-C擅长大宽表聚合查询分析场景,对海量数据进行高性能分析。借助数据应用服务,提供人群圈选、实时推荐、自动化营销、实时报表反馈,实现细化运营。
用户画像及人群圈选
在网站、APP 和游戏等场景中,通过CDW-C对用户的点击、操作、浏览、支付、评论等用户行为数据进行收集、加工和处理,实现秒级的实时数据分析,大幅度提升大数据分析与处理的工作效率,为精准营销和会员转化等业务提供强力支持。
BI分析/数据看板
由于科学探索是随机的,很难通过预建模的方式来解决,因此,可以将规模庞大的业务数据导入到TCHouse-C中,构建实时数据分析平台。 TCHouse-C的查询效率数倍于传统数据仓库,而且扩展灵活,极大降低了探索数据的门槛,可实现实时 PV、UV、营收、用户圈层等各类指标高效分析,让用户随时进行个性化统计和不间断的分析,辅助商业决策。
6.5、行业对比优势
对比友商/社区版本:数据自动均衡解决集群扩容带来的运维问题、schemaless解决半结构化数据查询性能问题。
七、小结
本文介绍了Elasticsearch的现状和行业问题,并详细介绍了腾讯云推出的Elasticsearch Serverless服务及其优势特性。同时,还介绍了存算分离技术,以及新版本中提供的强大的云端AI增强与向量检索能力。
Elasticsearch是一个开源的分布式搜索和分析引擎,在处理大规模数据集方面具有快速、实时的搜索和分析功能。然而,传统的Elasticsearch在弹性能力、集群容量规划和运维管理等方面存在一些问题。为了解决这些问题,腾讯云推出了Elasticsearch Serverless服务,采用自研的云原生Serverless技术架构,具有自动弹性和免运维能力,可以有效地解决日志分析等业务场景中的资源成本问题。
Elasticsearch Serverless服务的优势特性包括索引自动弹性、完全免运维、高成本效益、灵活易用、开放集成、稳定可靠等。通过存算分离技术,将数据存储到对象存储中,去除了计算和存储冗余,降低了成本,并实现了秒级的弹性优势。
此外,新版本的Elasticsearch提供了强大的云端AI增强与向量检索能力。结合向量化和AI大模型,可以为搜索带来更好的能力,提升用户体验,并在企业应用和商业增长方面发挥作用。ES具有原生向量搜索和混合搜索能力,在全文检索、多路召回和聚合分析方面表现出色,同时提供了端到端的一站式向量检索方案,降低了企业算法工程接入成本。
数据湖计算产品DLC是腾讯云基于云原生和Serverless架构的大数据分析服务。它集成了数据湖和数据仓库的优势,具备云原生特性,支持多源联合查询和标准SQL语言。DLC具有资源极致弹性和云端无缝融合的特点。在实际应用中,DLC在百万级实时Upsert场景中展示出了成功的应用价值,提高了数据处理效率并降低了成本。DLC适用于敏捷实时数据湖分析、企业日志批量查询、敏捷搭建数据中台等多种场景,用户可以通过DLC快速生成数据报表、实现数据可视化,并能够灵活地在不同引擎之间切换以满足各种使用需求。同时,通过结合Wedata等技术,还能够将数据导入或导出到其他数据产品和数据源,进一步发挥不同产品的优势。
TCHouse-C是基于ClickHouse开源引擎的全托管数据仓库产品,具有高性能的列式分布式数据库管理系统。它具有弹性效率、性能优化和运维能力等优势,并提供简单易用、极致性能、弹性伸缩、安全可靠和成本更低等特点。TCHouse-C适用于处理大规模数据分析任务,可以满足企业对于大量数据处理、实时要求和成本控制等需求。相较于其他友商或社区版本,TCHouse-C通过资源成本更低、自动均衡数据、半结构化数据查询性能优化等方面具备行业对比优势。它可以极大提升日志场景下对半结构化数据的实时分析性能。
腾讯云的Elasticsearch Serverless服务,数据湖计算产品DLC,TCHouse-C以及新版本的AI增强与向量检索能力,为企业提供了高效、稳定和可靠的解决方案,帮助企业降低成本、提升效率,并在竞争激烈的市场中获得商业增长的优势。
我是虚竹哥,我们下文见~
更多推荐
所有评论(0)