搜索引擎在信息世界的地位是填补人与信息世界的信息断层,而大搜索服务技术对于互联网用户的体验与应用,具有革命性的提升和改善。与传统搜索引擎相比,其基本流程主要包括如下几个方面:




首先,泛网数据获取,即支持对泛在网络空间中的数据和信息进行获取,包括互联网、物联网、社交网络、医疗健康、视频监控、地理信息等空间中去采集各种社会资源、信息资源、物理资源的数据。大搜索的数据获取与采集是有目的性的围绕着解答去搜集数据的,包括语法与语义上相关的数据。在数据类型方面,包括文本、图片、语音、视频等各种类型的多模态数据。

其次,多源融合知识获取,即基于泛在网获取的数据,面向泛在网络空间的海量实体及关系进知识挖掘 [34,35],通过融合、关联、统计、推理、乃至众包等方法,支持巨规模实体与关系等知识,及时空属性的表示与获取;知识聚合中的知识是支持经过二次加工的,经过用户的查询、修改、反馈和自演化的过程,逐步完善的过程,该过程是大搜索引擎的核心过程。

第三,用户搜索意图理解,即面向意图理解的准确性和歧义消除的基本需求,结合用户的上下文和语义知识等方法,迅速、准确地理解用户的真实意图,并转变成与知识聚合可匹配推演的表示方式[36-38]。大搜索是新一代具有“智慧”的搜索,能够面向用户查询输入的关键词、语音、手势等内容,结合用户手机终端、所处运动轨迹的时空场景以及历史记录和个人偏好等信息,准确理解用户的意图,并采用支持高效查询推演的统一模型进行表示。

第四,智慧解答的在线匹配,是基于意图理解表示和索引后的知识聚合与索引,经过快速匹配、排序等技术,形成若干个满足用户真正意图的智慧综合的解决方案,并通过结果评价方式给出其相关性排序。在大搜索中,搜索是一种智慧的服务,知识推演过程是在准确了解用户的需求的基础上,在可选择的范围内,为用户快速提供智慧的解答方案。

第五,安全隐私保护,即保证用户搜索的全程是安全的。首先确保数据来源和推演加工结果是可信的;其次挖掘搜索出用户的隐私不被曝光和恶意利用;同时支持暴力、色情等恶意信息的过滤。在数据搜集获取过程中,对数据来源进行确认来保证信息可溯源,最终使搜索返回结果可信。大搜索会并进行细粒度的访问控制测试,保证合适的搜索结果只返回给合适的用户而不被滥用,并采取相关技术手段,保证用户的隐私不被泄露或恶意分析利用。





Logo

开源、云原生的融合云平台

更多推荐