
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
异常处理,mysql Permission denied
本文介绍了一个轻量级Flux工具,用于加载LoRA模型进行图像生成。该工具基于PyTorch和Diffusers库实现,主要功能包括: 模型管理:通过ModelManager类实现基础模型和LoRA权重的加载、生成和清理 环境优化:设置CUDA环境变量,启用xformers内存高效注意力 轻量级加载:针对V100显卡优化的超轻量模型加载模式 图像生成:支持带LoRA权重的图像生成,自动保存输出结果
本文介绍了在配备Tesla V100-32G显卡的CentOS-7系统上部署Qwen3大语言模型的过程。通过conda创建Python 3.12环境,使用CUDA 12.2和CMake 3.17.5编译llama-cpp-python,成功加载30B参数的Qwen3-30B-A3B模型。配置参数包括50层GPU卸载、32768上下文窗口、26线程CPU并行等,充分利用硬件资源。测试显示模型推理时G
本文介绍了在CentOS-7系统上配置ComfyUI环境并运行SD3.5模型的工作流程。硬件配置包括E5-2680V4 CPU、64GB内存和Tesla V100显卡,软件环境采用Python 3.12和PyTorch 2.9.1。详细说明了模型文件的下载地址和存放目录(包括checkpoints、text_encoders和vae),并提供了完整的工作流JSON配置。该配置包含TripleCLI
修改ollama配置使其可以监听0.0.0.0和修改端口,可以外网访问。

【代码】第四十二篇-离线升级Ollama-V4.1。

Tesla-P40还是挺令我惊讶的,14B模型速度还是非常好的,有机会大家可以用来试试。

llm任务进行基准测试,包括AI2推理挑战、HellaSwag、MMLU等。

【代码】第三十篇-Ollama-TeslaP40-Ollama-Qwen2-57B等速度。

ollama-离线安装,使用离线方式安装ollama。








