logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开源大模型生产环境部署方案(二) 基于Qwen

本文介绍了Qwen开源大模型在阿里云ModelScope生态下的生产环境部署方案。该方案采用Kubernetes集群和KServe推理服务,支持从Qwen-1.8B到Qwen-Max全系列模型的部署,重点优化了AWQ量化、vLLM推理适配和中文RAG流程。部署架构包含WAF防护、API网关、向量数据库和监控系统,针对Qwen模型的trust_remote_code、MoE支持和中文分词等特性进行了

文章图片
#开源
开源大模型生产环境部署方案(二) 基于Qwen

本文介绍了Qwen开源大模型在阿里云ModelScope生态下的生产环境部署方案。该方案采用Kubernetes集群和KServe推理服务,支持从Qwen-1.8B到Qwen-Max全系列模型的部署,重点优化了AWQ量化、vLLM推理适配和中文RAG流程。部署架构包含WAF防护、API网关、向量数据库和监控系统,针对Qwen模型的trust_remote_code、MoE支持和中文分词等特性进行了

文章图片
#开源
开源大模型生产环境部署方案(一)

本文提出了一套开源大模型生产环境部署方案,涵盖从需求分析到运维保障的全流程。方案针对不同业务场景需求(如智能问答、内容生成等)提供模型选型建议,详细说明硬件资源配置和软件环境搭建要求。采用分层分布式架构设计,包括接入层、服务层、存储层和监控运维层,确保系统的高可用性和可扩展性。部署流程包含模型预处理、容器化打包、K8s集群部署等关键步骤,并提供了API接口封装示例。最后提出高可用保障和性能优化措施

文章图片
#开源
开源大模型生产环境部署方案(一)

本文提出了一套开源大模型生产环境部署方案,涵盖从需求分析到运维保障的全流程。方案针对不同业务场景需求(如智能问答、内容生成等)提供模型选型建议,详细说明硬件资源配置和软件环境搭建要求。采用分层分布式架构设计,包括接入层、服务层、存储层和监控运维层,确保系统的高可用性和可扩展性。部署流程包含模型预处理、容器化打包、K8s集群部署等关键步骤,并提供了API接口封装示例。最后提出高可用保障和性能优化措施

文章图片
#开源
【AI】PgVector向量数据库详细部署安装应用

pgvector 是 PostgreSQL 的官方向量扩展,支持稠密向量存储和相似度搜索,适用于中小规模 RAG 应用。部署方式包括 Docker、云托管和源码编译,支持 IVFFlat 和 HNSW 索引优化查询性能。Python 可通过 psycopg、LangChain 或 Django 集成,生产环境需调整 work_mem 等参数。优势在于零新系统引入和 SQL 生态融合,但超大规模性能

文章图片
#人工智能#数据库
【AI】Weaviate向量数据库详细部署安装应用

📌 Weaviate 部署与集成指南摘要 核心功能: 混合搜索(向量+关键词) 语义图谱关系 模块化AI流程 动态schema和多租户支持 部署方案: 单机Docker(开发首选) 支持OpenAI API或本地Embedding 提供详细docker-compose配置 Kubernetes集群(生产环境) Helm Chart部署 支持高可用和自动扩缩容 安全特性: 多种认证方式(API K

文章图片
#人工智能#数据库
【AI】Qdrant 向量数据库详细部署安装应用

Qdrant向量数据库部署与应用指南 摘要:本文详细介绍了Qdrant向量数据库的部署方案与应用方法。Qdrant采用Rust编写,支持RESTful API和gRPC协议,具备HNSW索引、元数据过滤、量化压缩等特性。部署方式包括:1)Docker单机部署(推荐开发使用);2)二进制安装;3)集群化部署(支持Raft共识)。安全方面强调必须配置API Key认证,并提供快照备份方案。应用集成部分

文章图片
#人工智能#数据库
AI RAG 向量数据库深度对比

本文对比了主流向量数据库在AI RAG场景下的性能与特性。从开源性、托管服务、混合搜索、延迟等维度分析了Pinecone、Weaviate、Qdrant、Milvus、Chroma和pgvector的优劣。结果显示:Pinecone适合快速上线的托管需求,Qdrant性能最优,Milvus适合超大规模,Weaviate支持混合搜索,pgvector是已有PostgreSQL用户的最佳选择,Chro

文章图片
#人工智能#数据库
ES8 单机版本部署健康状态为黄色处理方案?

allocate_explanation”: “cannot allocate because allocation is not permitted to any of the nodes”:解释为什么分片不能被分配,因为不允许将其分配到任何节点。“explanation”: “”:提供了不允许分配的详细解释,即该节点上已经分配了该分片的主副本,并且状态为 STARTED。因为我只开启了一个es

文章图片
【Spring AI MCP】三、MCP 客户端

Spring AI MCP客户端启动器为Spring Boot应用提供模型上下文协议(MCP)的自动配置,支持多种传输协议和客户端类型。核心功能包括多实例管理、工具集成、自动序列化/反序列化、降级兼容等。提供标准(基于JDK HttpClient)和WebFlux两种启动器,支持STDIO/HTTP/SSE等多种传输方式。配置灵活,可通过YML文件定义服务器连接参数,包括命令执行、环境变量、URL

文章图片
#spring#人工智能#网络
    共 65 条
  • 1
  • 2
  • 3
  • 7
  • 请选择