logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Elasticsearch-03-kNN算法

Elasticsearch的kNN实现提供了灵活的选择:暴力搜索:适用于小规模数据集和高精度需求近似搜索:适用于大规模数据集和实时搜索需求理解两种算法的特性和限制,可以帮助根据具体应用场景选择合适的kNN实现,平衡搜索精度和性能。HNSW索引的引入使得Elasticsearch能够处理大规模向量搜索,为现代AI应用提供了强大的支持。

#elasticsearch#算法
Text2SQL-03-开源框架Vanna

Vanna 是一个开源的 Text2SQL 框架,旨在将自然语言问题转换为 SQL 查询。它利用大型语言模型(LLM)的强大能力,结合数据库模式信息,为用户提供准确的 SQL 查询生成服务。Vanna 支持多种数据库和 LLM,并提供了简单易用的 Python API。

Spring集成DeepSeek方法3:Ollama本地部署 + Spring AI Ollama

本文介绍如何使用Ollama在本地部署DeepSeek模型,并通过Spring AI的Ollama模块进行访问。这种方法实现了完全的本地化部署,数据无需上传到云端,适合对数据隐私有严格要求的场景。

#spring#java
Spring集成DeepSeek方法2:使用Spring AI OpenAI模块

本文介绍如何使用Spring AI的OpenAI模块来集成DeepSeek API。DeepSeek提供了与OpenAI兼容的API接口,因此我们可以直接使用Spring AI的spring-ai-openai模块,只需修改API基础URL即可。这种方法简化了开发,利用了Spring AI的成熟功能。

#spring#java
架构之构建高阶RAG系统的六种除幻方案

RAG(Retrieval-Augmented Generation)系统在知识检索与生成过程中,常常面临幻觉问题——即模型生成的内容与事实不符或编造不存在的关联。本文档详细介绍了六种有效的除幻方案,从资源管理、架构设计到知识约束,全面解决RAG系统的幻觉问题。

#架构#RAG
NVIDIA GPU-01-架构指南

NVIDIA GPU架构的演进反映了计算需求的变化和技术发展的趋势。从Volta专注于AI计算,到Turing引入实时光线追踪,再到Ampere和Hopper在AI训练领域的持续突破,以及Blackwell在多媒体处理方面的增强,每一代架构都在特定领域实现了显著进步。

#架构#GPU
NVIDIA GPU-01-架构指南

NVIDIA GPU架构的演进反映了计算需求的变化和技术发展的趋势。从Volta专注于AI计算,到Turing引入实时光线追踪,再到Ampere和Hopper在AI训练领域的持续突破,以及Blackwell在多媒体处理方面的增强,每一代架构都在特定领域实现了显著进步。

#架构#GPU
02-大模型部署之Kubernetes+vLLM安装大模型和容器调度

Kubernetes提供了企业级的容器编排能力,特别适合vLLM部署的以下场景:弹性伸缩:根据负载自动调整vLLM实例数量高可用性:自动故障恢复和负载均衡资源管理:精细化的GPU资源分配和调度多租户隔离:不同模型或用户之间的资源隔离版本管理:无缝的模型版本升级和回滚

#kubernetes#容器
02-大模型部署之Kubernetes+vLLM安装大模型和容器调度

Kubernetes提供了企业级的容器编排能力,特别适合vLLM部署的以下场景:弹性伸缩:根据负载自动调整vLLM实例数量高可用性:自动故障恢复和负载均衡资源管理:精细化的GPU资源分配和调度多租户隔离:不同模型或用户之间的资源隔离版本管理:无缝的模型版本升级和回滚

#kubernetes#容器
01-大模型部署之vLLM基础知识

vLLM是一个开源的大语言模型推理和服务引擎,由UC Berkeley的LMSYS Org开发。它专门针对大语言模型的高性能推理进行了优化,特别适用于生产环境中的模型部署。核心特性PagedAttention机制:vLLM引入了PagedAttention技术,将注意力计算的内存管理从连续内存分配改为分页管理,显著提高了内存利用率连续批处理(Continuous Batching):动态调整批处理

    共 156 条
  • 1
  • 2
  • 3
  • 16
  • 请选择