logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

docker-开源nocodb,使用已有数据库

【代码】docker-开源nocodb,使用已有数据库。

文章图片
#docker#开源#数据库
Fastllm+CPU+GPU混合推理+支持到P100、MI50等老卡

fastllm是一个高性能全功能大模型推理库,采用C++自有算子替代PyTorch实现,支持Qwen、Llama、Phi等稠密模型及DeepSeek、Qwen-moe等MOE模型。该库兼容多种硬件平台(包括Nvidia、AMD显卡及国产芯片),支持FP8推理和动态量化,可在单卡上运行DeepSeek R1 671B等大模型。 主要特点包括: 安装简单,支持pip一键安装 支持CPU+GPU混合推理

#人工智能
Fastllm+CPU+GPU混合推理+支持到P100、MI50等老卡

fastllm是一个高性能全功能大模型推理库,采用C++自有算子替代PyTorch实现,支持Qwen、Llama、Phi等稠密模型及DeepSeek、Qwen-moe等MOE模型。该库兼容多种硬件平台(包括Nvidia、AMD显卡及国产芯片),支持FP8推理和动态量化,可在单卡上运行DeepSeek R1 671B等大模型。 主要特点包括: 安装简单,支持pip一键安装 支持CPU+GPU混合推理

#人工智能
第八十三篇-V100-32G+llama-cpp运行+Qwen3.5-27B-UD-Q4_K_XL-多模态

在CentOS-7系统上使用Tesla V100-32G显卡成功部署Qwen3.5-27B模型,通过llama-cpp实现高效推理。配置参数包括32K上下文窗口、28线程、0.7温度值等,模型加载999层到GPU。运行效果良好,推理速度达29 token/s,GPU利用率100%,显存占用20GB+。多模态功能正常,系统资源消耗较高但性能表现优异。访问地址为http://192.168.31.22

第八十二篇-V100-32G+llama-cpp运行+Qwen3.5-35B-A3B-UD-Q4_K_XL-多模态

在CentOS-7系统上部署了Qwen3.5-35B大模型,硬件配置为Tesla V100-32G显卡、64GB内存和14核CPU。使用llama-server运行35B参数的量化模型(Q4_K_XL),加载999层到GPU,上下文长度32k。非思考模式下,模型推理速度达到80.65 token/s,GPU利用率100%,显存占用22GB+,CPU仅需单核。该配置支持多模态输入,响应速度快,适合高

第七十二篇-V100-32G+WebUI+Flux.1-Schnell+Lora+文生图

本文介绍了一个轻量级Flux工具,用于加载LoRA模型进行图像生成。该工具基于PyTorch和Diffusers库实现,主要功能包括: 模型管理:通过ModelManager类实现基础模型和LoRA权重的加载、生成和清理 环境优化:设置CUDA环境变量,启用xformers内存高效注意力 轻量级加载:针对V100显卡优化的超轻量模型加载模式 图像生成:支持带LoRA权重的图像生成,自动保存输出结果

#python#人工智能#开发语言
第七十六篇-V100+llama-cpp-python+Qwen3-30B+GGUF

本文介绍了在配备Tesla V100-32G显卡的CentOS-7系统上部署Qwen3大语言模型的过程。通过conda创建Python 3.12环境,使用CUDA 12.2和CMake 3.17.5编译llama-cpp-python,成功加载30B参数的Qwen3-30B-A3B模型。配置参数包括50层GPU卸载、32768上下文窗口、26线程CPU并行等,充分利用硬件资源。测试显示模型推理时G

#python#开发语言
第七十篇-ComfyUI+V100-32G+运行SD3.5-文生图

本文介绍了在CentOS-7系统上配置ComfyUI环境并运行SD3.5模型的工作流程。硬件配置包括E5-2680V4 CPU、64GB内存和Tesla V100显卡,软件环境采用Python 3.12和PyTorch 2.9.1。详细说明了模型文件的下载地址和存放目录(包括checkpoints、text_encoders和vae),并提供了完整的工作流JSON配置。该配置包含TripleCLI

#人工智能
第二十六篇-Ollama-监听本地IP与端口

修改ollama配置使其可以监听0.0.0.0和修改端口,可以外网访问。

文章图片
#人工智能
    共 50 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择