
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
【代码】docker-开源nocodb,使用已有数据库。

fastllm是一个高性能全功能大模型推理库,采用C++自有算子替代PyTorch实现,支持Qwen、Llama、Phi等稠密模型及DeepSeek、Qwen-moe等MOE模型。该库兼容多种硬件平台(包括Nvidia、AMD显卡及国产芯片),支持FP8推理和动态量化,可在单卡上运行DeepSeek R1 671B等大模型。 主要特点包括: 安装简单,支持pip一键安装 支持CPU+GPU混合推理
fastllm是一个高性能全功能大模型推理库,采用C++自有算子替代PyTorch实现,支持Qwen、Llama、Phi等稠密模型及DeepSeek、Qwen-moe等MOE模型。该库兼容多种硬件平台(包括Nvidia、AMD显卡及国产芯片),支持FP8推理和动态量化,可在单卡上运行DeepSeek R1 671B等大模型。 主要特点包括: 安装简单,支持pip一键安装 支持CPU+GPU混合推理
在CentOS-7系统上使用Tesla V100-32G显卡成功部署Qwen3.5-27B模型,通过llama-cpp实现高效推理。配置参数包括32K上下文窗口、28线程、0.7温度值等,模型加载999层到GPU。运行效果良好,推理速度达29 token/s,GPU利用率100%,显存占用20GB+。多模态功能正常,系统资源消耗较高但性能表现优异。访问地址为http://192.168.31.22
在CentOS-7系统上部署了Qwen3.5-35B大模型,硬件配置为Tesla V100-32G显卡、64GB内存和14核CPU。使用llama-server运行35B参数的量化模型(Q4_K_XL),加载999层到GPU,上下文长度32k。非思考模式下,模型推理速度达到80.65 token/s,GPU利用率100%,显存占用22GB+,CPU仅需单核。该配置支持多模态输入,响应速度快,适合高
异常处理,mysql Permission denied
本文介绍了一个轻量级Flux工具,用于加载LoRA模型进行图像生成。该工具基于PyTorch和Diffusers库实现,主要功能包括: 模型管理:通过ModelManager类实现基础模型和LoRA权重的加载、生成和清理 环境优化:设置CUDA环境变量,启用xformers内存高效注意力 轻量级加载:针对V100显卡优化的超轻量模型加载模式 图像生成:支持带LoRA权重的图像生成,自动保存输出结果
本文介绍了在配备Tesla V100-32G显卡的CentOS-7系统上部署Qwen3大语言模型的过程。通过conda创建Python 3.12环境,使用CUDA 12.2和CMake 3.17.5编译llama-cpp-python,成功加载30B参数的Qwen3-30B-A3B模型。配置参数包括50层GPU卸载、32768上下文窗口、26线程CPU并行等,充分利用硬件资源。测试显示模型推理时G
本文介绍了在CentOS-7系统上配置ComfyUI环境并运行SD3.5模型的工作流程。硬件配置包括E5-2680V4 CPU、64GB内存和Tesla V100显卡,软件环境采用Python 3.12和PyTorch 2.9.1。详细说明了模型文件的下载地址和存放目录(包括checkpoints、text_encoders和vae),并提供了完整的工作流JSON配置。该配置包含TripleCLI
修改ollama配置使其可以监听0.0.0.0和修改端口,可以外网访问。








