作者 | 伍杏玲

出品 | CSDN

阿里开源搜索引擎 Havenask 的技术演进

我们正处于信息爆炸式增长的时代,如何在信息海洋里迅速定位到目标信息成为人们关心的问题。搜索引擎作为互联网和应用的关键入口,向来是兵家必争之地。

然而在人们简单的搜索行为背后,对搜索引擎技术实际有诸多挑战:以电商场景为例,当遇到双11等大促活动时,百万级 QPS 的高并发访问,对千亿级商品 & 订单数据、保单 & 物流类数据时效性要求极高,那么搜索引擎该如何做到毫秒级时效?还有为了更准确理解人们的搜索意图,对搜索算法的要求越来越高,搜索引擎该如何做到算法分钟级迭代?这些都是技术上需要直面的挑战。

近年来,随着大数据技术、深度学习等 AI 技术的发展,搜索引擎能够更智能地帮助人们快速、准确地获取信息,我们对信息的处理能力也随之逐步提高。

阿里自研大规模分布式搜索引擎 Havenask 便是集大成者,基于阿里搜索十多年来的技术沉淀,Havenask 目前广泛应用于阿里巴巴和蚂蚁集团内众多业务,如淘宝搜索和推荐、 蚂蚁人脸支付、优酷视频搜索、阿里妈妈广告检索等。Havenask 支持算法高效快速迭代,内置性能优异的向量检索能力;做到毫秒级查询性能,并拥有稳定性保障 ;支持单应用实例千亿级别数据,确保百万 TPS 高时效性。

2022 年 12 月,阿里将 Havenask 开源,在几个月时间里 Star 数已超过 1000+。为何 Havenask 有这样优异的表现,在短时间内获得众多开发者的喜爱?下面我们从 Havenask 的技术演进谈起,让大家更加深入了解 Havenask 以及未来更多可能性。

传送门:https://github.com/alibaba/havenask

01 Havenask 技术演进之路

回顾 Havenask 从内部自研技术走向成熟,这一路走来可分为以下阶段:

第一阶段:1999 年~2008 年,以解决各业务部门的搜索需求为主

阿里搜索技术最早可追溯 1999 年,起源于雅虎搜索技术,基于 Apache Module 的单机版搜索引擎,支撑淘宝、B2B 等子公司的搜索业务需求。

第二阶段:2009 年~2011 年,重构搜索系统,开启自研大规模分布式高性能搜索引擎时代

自 2008 年起,开始构建阿里统一的搜索系统,内部代号为“iSearch”,它代表完全由阿里自研的搜索技术全新启航。iSearch 迅速迭代 iSearch3.0、iSearch3.2……2009 年演进到 iSearch4.5 版本,也就是 HA3(Havenask)最早的雏形。

2009 年,Havenask 开始逐步统一各子公司版本,去除 Apache Module。2011 年,彻底完成搜索系统的重构,HA3(Havenask)全部替代老的雅虎搜索系统,开始极致性能时代。

第三阶段:2012 年~2018 年,完成阿里内部搜索系统的“大统一”,进入快速迭代时代

2013年,HA3(Havenask)完成阿里集团各个业务搜索系统的“大统一”,不仅版本再次合并,还将 B2B、淘宝等搜索团队统一整合,以产品化、规模化的方式支撑起整个集团的搜索业务。

2018 年,随着深度学习技术的广泛应用,同时迎来信息流推荐机遇,HA3(Havenask)快速迭代,逐步形成一套以搜索引擎、在线推理引擎等为主的 AI 工程技术体系“AI·OS”。(OS”代表“Online Serving” )

第四阶段:2018 年~至今,对外开源,技术普惠

2022 年,阿里将搜索引擎 Havenask 开源,为更多用户提供更高性能、更低成本、更便捷易用的搜索服务。

总的来说,Havenask 的发展是遵循先解决内部业务应用需求,再从核心业务延伸到其他业务,随着技术发展潮流不断向前演变,从单一的搜索引擎到大数据深度学习在线服务体系 AI·OS 的重要组成部分,打造成统一平台提供更强大的能力支撑,继而逐步开源对外,普惠开发者,这和阿里其他技术产品的发展思路是一脉相传的。

02 Haveansk 架构优势

从定位来看,Havenask 作为阿里巴巴自主研发的大规模分布式搜索引擎,支撑起淘宝、天猫、菜鸟、优酷阿里整体的搜索业务,并扛得住双 11 大促活动。这背后,离不开底层架构设计,让 Havenask 有了坚实的技术基底。

从架构来看,Havenask 由四个核心模块组成:

索引系统(Build Service)。通常搜索引擎需要对原始数据构建索引,才能在提供服务时实现高性能。这部分在 Havenask 是支持全量、增量、实时流的复杂分布式流计算系统。

在线集群(Havenask Runtime)。在线系统支持不同的数据规模分列查询,不同的查询并发做多副本。在系统里设计有类似于大脑的复杂角色,可以自动做查询处理、调度查询节点、数据节点等。如果出现机器坏了的情况,在线系统可自动识别这些情况,来保证系统的高可用。

消息中间件(Swift)。消息中间件用于实时数据传递,处理后的文档传递,是 Havenask 实现毫秒级时效性,支撑海量数据实时更新的基石。消息中间件 Swift 不仅可以用在 Havenask 系统中,也可以单独部署使用,与其他开源中间相比具有明显的性能和成本优势。

管控系统(Hape)。为了方便开发人员的日常运维,Havenask 对管控运维的 API 进行了封装,提供方便实用的运维工具 Hape ,使用它开发人员可以方便的对表和集群进行管理。

阿里巴巴智能引擎事业部云服务负责人、Havenask 开源项目负责人郭瑞杰博士介绍,在架构设计上,Havenask 更具备适合工业级业务场景的特性:

1、通过灵活稳定的扩展方式支持业务多样化需求,轻松应对数据规模和流量规模的快速增长;

2、通过领先的实时索引技术,提供性能出色的亚秒级实时搜索能力,通过对实时索引的不断自动整理优化,保证搜索性能持续优异;

3、传统倒排索引技术和 AI 时代普遍应用的向量检索技术深度结合,端到端极致性能优化,支持千亿级别文档或高维向量的极低延迟计算。

人们进行商品搜索时,由于每个人有不同的喜好,搜索引擎需实现个性化和智能化,以准确召回商品。当用户开始进行搜索时,往往是用关键词或一段自然语言的描述,搜索引擎先采用 NLP 技术理解和拆分成关键词,再根据关键词的语义相关性,采用向量等多路召回方式,返回有可能是用户想要找的商品信息,再对商品做粗排,粗排后收敛到集合里,再做精排,这个过程中 Havenask 使用了大量机器学习算法进行优化,以实现较好的用户体验。

这对搜索引擎有较高的性能要求,Havenask 利用前置化思想,并发完成多路召回,实现非常小的延迟效果。另外在算法上,Havenask 支持离线计算转在线计算、在线计算转离线计算做优化,还支持模型的实时更新以保证在离线的一致性。如此一来,算法工程师可以用更复杂的召回策略来做 A/B 测试验证效果,如果效果可以的话,可以实现分钟级上线。

在拍照搜图场景中,以淘宝拍照购物“拍立淘”为例,用户通过手机拍摄实物或通过相册照片搜索,就能搜索同款或相似商品。 Havenask 利用向量进行图片搜索,完成向量索引存储并将向量化后的图片与向量索引比对召回,实现高精度图片搜索。上述能力得益于 Havenask 和达摩院向量库 Proxima 深度结合,并进行端到端能力优化,支持百亿甚至千亿级别的高维度向量的低延迟计算。

总体来看,Havenask 区别于其他产品的特点主要体现在两大场景中:一是大数据检索场景,实现亚秒级的时效性和极致的性能优化,达到较高的性价比。二是在 AI 场景上,Havenask 实现异步高并发、超低召回延迟,提供在离线一致性保障机制,以及高性能高维度向量计算能力。

即使在双11特殊场景里,数据更新量突然爆增至十倍、百倍,Havenask 仍能保证时效性在亚秒级。在查询上,单集群到近百万 QPS 时,Havenask 确保查询延迟毫秒级别。另外,Havenask 足够弹性,针对双11的流量急速变化,集群一键平滑扩缩容,变更对业务0影响,灵活应对流量峰谷。

03 Havenask 开源开放,普惠开发者

Havenask 起源于阿里内部搜索业务需求,如今作为核心搜索引擎在阿里内部广泛应用,那么团队为什么选择将 Havenask 对外开源?

郭瑞杰表示,Havenask 围绕着电商场景演化出来,在阿里核心头部业务、中台业务等均广泛使用。希望通过开源的方式让广大开发者参与进来,让 Havenask 迭代更快走得更远。以开源 Elasticsearch 为例,在十年时间中,Elasticsearch 因为开源发展迅速,Havenask 也期待通过开源吸引更多开发者参与进来,一起联合共创。

再者,近年来国际形势变幻莫测,人们对国产化替代诉求与日俱增。期望自主研发的 Havenask 能帮助一些企业实现国产化替代,让更多开发者和企业以更低的成本实现业务创新。

不仅如此,Havenask 还提供商业版本来支持企业实现搜索场景、推荐场景、大模型应用场景创新。

“ Havenask 自开源后,在尚未开展过多活动的情况下,Star 数快速突破 1000,对我们来说还挺意外的,这也让我们坚定了后续持续建设开源 Havenask 的信心。”郭瑞杰说。

Havenask 作为 AI·OS 体系的重要部分,沉淀了阿里 10 多年的搜索技术,整体系统庞大,采取逐步开源的形式对外开放,从2022年首发时的单机预览版,到如今刚刚发布的的分布式正式版,已经完成了 Havenask 几乎全部核心代码的开源。

在2023年9月份最新发布的 Havenask 1.0.0 分布式版本中,支持读写分离与读写统一两种部署架构,可以分别满足开发者不同业务场景的需求,同时分布式版本提供基于机器资源池的集群自动化管理能力、动态表管理能力,降低开发者集群运维的成本;并且集成了自研的消息中间件,支持更完善的实时数据更新能力。

据郭瑞杰透露,在后续的版本中, Havenask 会更聚焦开发者的真实使用场景,特别是大数据检索和智能检索等领域不断构建 Havenask 的开源生态,让 Havenask 更加广泛的应用在更多业务中,解决开发者面临的性能、成本、稳定性等核心问题。

与此同时,Havenask 还开源了 Havenask-federation(简称Fed)项目(https://github.com/alibaba/havenask-federation),在 Havenask 和 Elasticsearch 之间架起一条桥梁,方便 Elasticsearch 开源生态用户,快速迁移和扩展,实现优势互补。

04 Next Big Thing

最近技术人话题离不开热门的 ChatGPT,ChatGPT 一经发布,大家认为被最早被颠覆的是搜索引擎。传统搜索引擎 + ChatGPT 将产生巨大化学反应,或将改写搜索引擎的产品形态。ChatGPT 能更好地理解人们的搜索意图,为用户提供汇总答案,提供更准确的搜索结果,还能以自然语言来搜索,让搜索体验有质的提升。

郭瑞杰表示,有了 ChatGPT 能力加持,不仅在 to C 端搜索引擎发生巨变,在 to B 端也将催化诞生颠覆性的产品形态。其中 to B 端和 to C 端搜索引擎稍有差异,to B 搜索引擎是面向企业,主要搜企业数据,而不是搜全网数据,更多的是围绕企业数据来提供更智能和更准确的答案。

针对不同行业的用户想基于大模型能力完成业务创新,Havenask 除了在底层传统搜索引擎技术上提供帮助,也正在做如下两个方面的能力增强,并持续开源:一是向量检索。在大模型时代下,向量检索技术是大模型应用创新的基石,我们正在构建新的向量检索引擎 VectorStore,预计性能大幅超越 Milvus,期望能提供给开发者更高性能、更低成本的向量检索方案;二是大模型推理加速。将全面支持各种 LLM(qwen、chatglm、baichuan、xverse、interlm、llama、falcon、mpt、starcoder 等)的推理加速,支持量化、多机多卡分布式、上下文 cache 等多种特性,预计性能超越 vllm 15%,期望给开发者提供更低成本的大模型推理服务。

现在,我们看到阿里已先行一步:在 2023 阿里云峰会上,正式推出大语言模型“通义千问”,并宣布阿里所有产品未来将接入“通义千问”,进行全面改造。例如在网购场景,用户如果想开生日 party,通义千问可以帮助生成生日活动方案和购物清单。

期待后续 Havenask 与“通义千问”联合创新,为人们带来更好地搜索体验,帮助企业和开发者量身定做适合业务发展的智能搜索服务,促进业务飞速增长,共享科技红利。

此外,基于 Haveansk 与“通义千问”打造的AI搜索产品——OpenSearch LLM 智能问答版,也已在阿里云上为企业级开发者提供全托管、免运维的一站式对话式搜索服务,欢迎企业级开发者们试用。

心动不如行动,欢迎立即体验:

Havenask 开源项目地址:https://github.com/alibaba/havenask

Havenask-federation 开源项目地址:https://github.com/alibaba/havenask-federation

OpenSearch LLM 智能问答版:OpenSearch LLM智能问答版_对话式搜索_大模型_阿里云

活动预告:

2023年11月1日13:10-13:25,杭州云栖大会 B3-4 馆,Havenask 开源正式版发布演讲

2023年11月1日14:40-15:10,杭州云栖大会 C 区舞台,Havenask 开源细节与案例分享

欢迎开发者前往会场参加,或通过线上渠道收看关注

嘉宾介绍:郭瑞杰博士,2008年加入阿里巴巴,深耕阿里搜索领域开发十余年,先后负责 iSearch4.5、问天2、问天3等多个搜索架构及产品的设计与开发工作,现任阿里巴巴智能引擎事业部云服务负责人,阿里云计算平台事业部搜索推荐云服务负责人,Havenask 开源项目负责人。

Logo

纵情码海钱塘涌,杭州开发者创新动! 属于杭州的开发者社区!致力于为杭州地区的开发者提供学习、合作和成长的机会;同时也为企业交流招聘提供舞台!

更多推荐