logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI Ollama 下载和安装

Ollama是一款可以在macOS、Linux和Windows系统上运行的跨平台工具,它帮助用户快速在本地运行大模型,极大地简化了在Docker容器内部署和管理LLM(大型语言模型)的过程。

文章图片
#人工智能
大模型Ollama RestAPI 详解

Ollama 是一个开源的本地化工具,允许用户在本地运行大型语言模型(如 LLaMA、Mistral、Gemma 等),并通过 REST API 与模型交互。

#AI#人工智能
大模型deepseek-r1 本地Open WebUI部署详解

Open WebUI是一个用户友好的Web界面,专为本地大语言模型(LLMs)设计。它支持多种模型,包括Ollama和OpenAI兼容的API,并允许用户通过图形界面轻松调试和调用模型。Open WebUI的功能丰富,包括代码高亮、数学公式支持、网页浏览、预设提示词、本地RAG集成、对话标记、模型下载、聊天记录查看以及语音支持等。

文章图片
#人工智能
面试题-MyBatis 面试篇

本文总结了26个MyBatis面试常见问题,涵盖核心概念、优缺点、应用场景及技术细节。主要内容包括:MyBatis与Hibernate的对比、SQL映射处理、参数传递、动态SQL、关联查询实现(一对一/一对多)、延迟加载原理、缓存机制(一级/二级)、插件开发等。重点解析了#{}与${}的区别、字段映射方案、分页实现、批处理操作等实用技巧,同时探讨了MyBatis作为半自动ORM工具的特性及其与全自

文章图片
#mybatis#面试#java
问题 : Error: embedding models require input text. Usage: ollama run qwen3-embedding:4b “your text

摘要:本文解释了如何正确使用Ollama的qwen3-embedding:4b嵌入模型。该模型用于将文本转换为向量,不能直接交互使用。正确方法包括:1)命令行直接输入文本获取向量;2)通过API调用获取JSON格式结果。文章特别指出常见错误用法(如空输入或尝试交互模式),并建议确认模型状态。最后对比了嵌入模型与聊天模型的不同用途,提供了对应的正确命令格式。(149字)

文章图片
#chrome#前端
Spring AI 介绍

Spring AI 是 Spring 生态系统推出的面向人工智能工程的应用框架,旨在将 Spring 的设计原则(如可移植性、模块化)引入 AI 领域,为 Java 开发者提供便捷的 AI 集成方案。其核心特点包括生态融合、跨模型支持、提示工程、嵌入技术、Advisor 拦截器机制和检索增强生成(RAG)。Spring AI 通过标准化接口、模块化设计和快速集成,降低了 Java 开发者使用 AI

文章图片
#spring#人工智能#java
vLLM(vLLM.ai)生产环境部署大模型

vLLM是一款高性能大语言模型推理框架,提供单机API、多机分布式和K8s容器化三种生产部署方案。部署前需确保环境满足CUDA 11.8+/12.1+、Python 3.8~3.11、NVIDIA显卡等要求。核心部署模式包括:1)单机API服务,支持多卡并行;2)多机分布式部署,适用于70B+大模型;3)K8s容器化方案,便于生产环境管理。所有方案均兼容OpenAI API接口,支持量化模型优化显

文章图片
#人工智能
K8S 算力架构

Kubernetes(K8s)作为云原生算力架构核心,通过资源池化、智能调度和弹性伸缩实现高效算力管理。其架构分为控制平面(调度决策)和节点层(执行单元),将底层异构资源抽象为标准化单位,通过Pod声明式定义算力需求。核心机制包括资源调度(基于requests/limits)、水平/垂直自动伸缩(HPA/VPA)以及异构算力(GPU/NPU)支持。K8s还支持Serverless、边缘计算等云原生

文章图片
#kubernetes#架构#容器
vLLM(vLLM.ai)生产环境部署大模型

vLLM是一款高性能大语言模型推理框架,提供单机API、多机分布式和K8s容器化三种生产部署方案。部署前需确保环境满足CUDA 11.8+/12.1+、Python 3.8~3.11、NVIDIA显卡等要求。核心部署模式包括:1)单机API服务,支持多卡并行;2)多机分布式部署,适用于70B+大模型;3)K8s容器化方案,便于生产环境管理。所有方案均兼容OpenAI API接口,支持量化模型优化显

文章图片
#人工智能
【AI】PgVector向量数据库详细部署安装应用

pgvector 是 PostgreSQL 的官方向量扩展,支持稠密向量存储和相似度搜索,适用于中小规模 RAG 应用。部署方式包括 Docker、云托管和源码编译,支持 IVFFlat 和 HNSW 索引优化查询性能。Python 可通过 psycopg、LangChain 或 Django 集成,生产环境需调整 work_mem 等参数。优势在于零新系统引入和 SQL 生态融合,但超大规模性能

文章图片
#人工智能#数据库
    共 77 条
  • 1
  • 2
  • 3
  • 8
  • 请选择