
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
随着人工智能技术在业务中的渗透,我们逐渐意识到:AI 不仅是提升效率的工具,更是重构数据处理与消费方式的核心驱动力。在这一背景下,我们思考:能否构建一款「AI + Data」一站式融合的数据引擎? 它不仅能够统一处理文本、音视频等非结构化数据与传统结构化数据,还能为算法工程师提供流畅的数据开发体验,实现数据处理与 AI 模型无缝衔接,并能确保数据处理负载与在线服务负载完全隔离。这是 2024 年末

随着人工智能技术在业务中的渗透,我们逐渐意识到:AI 不仅是提升效率的工具,更是重构数据处理与消费方式的核心驱动力。在这一背景下,我们思考:能否构建一款「AI + Data」一站式融合的数据引擎? 它不仅能够统一处理文本、音视频等非结构化数据与传统结构化数据,还能为算法工程师提供流畅的数据开发体验,实现数据处理与 AI 模型无缝衔接,并能确保数据处理负载与在线服务负载完全隔离。这是 2024 年末

在数据库系统的核心层,查询优化器如同一位精明的策略家,不断分析数据特征并制定最优执行计划。Apache Doris 作为一款高性能的 MPP 分析型数据库,其优化器内置的 Data Trait 分析机制,通过挖掘数据内在的统计特征和语义约束,为查询优化提供了基础设施。让我们一起来探索这个强大的功能!

在分析型数据库中,列式存储是压缩和查询性能的核心基础。它按列组织数据,同一列值类型一致且分布相似,为编码与压缩算法提供极高空间局部性和可预测性。当存储的值变化较小或重复频繁时,列式布局能够减少冗余存储,并提升向量化扫描的 CPU 效率。Apache Doris 作为一款典型的列式存储引擎,可独立存储每一列数据。导入时,每列数据写入近似固定大小的数据页,经过编码和压缩处理,以实现更紧凑的存储。在 D
将日志检索和报表分析统一到一个系统中,Doris 2.0 版本在增加倒排索引后,能同时满足这两个场景,从而缩短了数据处理的链路和复杂度,显著提高了数据处理的效率。聚合分析性能得到数量级的提升,之前在 Elasticseach 中需要近 10 秒才能完成聚合查询,而在 Doris 中不到 1 秒就能完成,聚合分析效率至少提升 100%。Doris 提供了高效的数据压缩效率,相较于 Elasticse

借助AI_AGG与EMBED函数,Apache Doris 拥有了了强大的智能分析能力,极大地拓展了数据分析与智能应用的边界。AI_AGG通过其动态预聚合机制,将非结构化文本的智能聚合分析带入数据库,轻松应对海量用户评论、日志分析等场景。而EMBED函数则与 Doris 的向量函数无缝集成,提供从文本到语义向量、再到相似度检索的一站式解决方案,极大简化了问答系统、内容推荐等应用的开发。

容器化凭借其灵活性、跨平台性、自动化管理和极致弹性,吸引了众多企业的关注。一些企业希望将容器化部署,以实现高效的资源利用与部署迭代。Kubernetes 提供的编排和管理功能,能完成大规模容器部署,但 Kubernetes 自身的复杂性也导致众多企业面临部署复杂、运维困难、使用难度高等挑战。该工具集成了原生 Kubernetes 资源的复杂管理能力,并融合了 Doris 组件间的分布式协同、用户集

目前我们已经完成数仓建设的初期目标,未来我们有计划基于 Apache Doris 进行中台化的改造,同时 Apache Doris在用户画像和人群圈选场景的能力十分强悍,支持 Bitmap 等格式进行导入和转换,提供了丰富的 Bitmap 分析函数等,后续我们也将利用这部分能力进行客户群体分析,加快数字化转型。
截至目前,基于 Apache Doris 的数据智能服务体系已经部署了近十套生产集群,节点规模已经接近百台,存储的数据总量达数百 T,覆盖了实时数仓、BI 多维分析、用户画像、车云中心(Serving)、日常分析等多个业务场景。从业务侧来看,Apache Doris 为极越汽车在提升客户用车体验、实时监测车辆信息、保障安全驾驶等方面提供了更全面、更准确的业务洞察和决策支持,有力推进了极越汽车创新数

Doris Manager 将用户提供更好的 Apache Doris 集群管理方式,极大地提升运维效率,降低运维管理的成本,服务质量和稳定性将显著提升。







