logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

在SCNet DCU异构环境使用Ollama 0.5.7启动deepseek等大模型

摘要:SCNetDCU异构环境使用官方Ollama 0.5.7版本镜像时,发现该版本较旧,不支持qwen3和文心4.5等新模型。测试显示deepseek 1.5b模型响应速度快(1秒),但14b模型需24秒。ERNIE-4.5-0.3B和qwen3 14b均因版本问题报错。结论表明官方Ollama镜像推理速度快但不兼容新模型,需升级版本以支持最新大模型。

#人工智能
使用Ollama实现一键本地部署deepseek-v3.1:671b超级大模型,太阳照进现实里!

摘要:Ollama现支持在本地部署deepseek-v3.1:671b等大型语言模型,突破硬件限制。通过简单安装Ollama并登录认证,用户可轻松拉取云模型到本地运行,支持多机同时使用。提供两种调用方式:本地部署(使用OpenAI库)或直接调用Ollama云API(需Python库)。目前支持12个云模型,包括glm-4.6、gpt-oss:120b等四大高性能模型。该方案解决了用户硬件不足的痛点

文章图片
#人工智能
MegaTTS3 目前效果最好的文本转语音模型 在openi启智社区平台部署实践

MegaTTS3是目前效果领先的文本转语音模型。本文详细介绍了在启智社区平台部署该模型的完整流程:从创建云脑任务、下载模型代码(支持GitHub和GitCode源)、通过HuggingFace或镜像站获取模型文件,到实际推理操作(包含参数调整技巧)。特别说明了如何使用自己的语音文件(需上传WAV至指定链接获取对应NPY文件),并解决了常见的ffprobe报错问题。实测显示模型能精准模拟不同口音,生

文章图片
#人工智能
使用llama.cpp和ollama推理LFM2.5-1.2B模型(速度较快,大约每秒15个token,它是thing模型)

LFM2.5-1.2B是由LiquidAI推出的开源轻量级AI模型,专为端侧设备优化,具有1.2B参数和仅900MB内存占用。该模型采用混合架构实现高效推理,支持8种语言,擅长指令遵循和复杂任务。测试发现,在星河社区使用CPU推理速度极慢,而在本地通过Ollama运行效果较好,能完成基础问答但编程输出存在错误。虽然推理速度不及主流大模型,但其低内存特性适合多任务处理,特别适合作为任务拆解的前置模型

openai代码研读:OpenAI Python SDK 中 AsyncOpenAI 类的定义

该代码展示了AsyncOpenAI客户端的实现,它支持异步调用OpenAI的API服务。客户端初始化时,会自动从环境变量获取API密钥和基础URL(若无则使用默认值)。它提供了多种功能模块(如聊天、嵌入、文件处理等)的异步接口,并支持原始响应和流式响应处理。使用时需传入API密钥,可通过环境变量或直接参数设置。示例展示了如何初始化客户端并调用聊天功能生成文本。

#python#开发语言#人工智能
vLLM cpu版可以支持哪些流行的大模型

本文记录了在CPU环境下编译安装vLLM并调试文心ERNIE-4.5系列模型的过程。测试发现ERNIE-4.5-0.3B小模型可以正常运行,但28B大模型调试失败,出现多种错误:包括需添加trust_remote_code参数、内存不足、AVX指令集缺失等问题。最终通过设置dtype=float和max_model_len参数降低内存需求后,仍因虚拟机内存溢出而终止测试。结论表明CPU仅适合运行小

#python#开发语言#人工智能
Ollama转存模型报错 unknown command “export“ for “ollama“

所以需要手工转存模型文件,比如从一台机器cp到另一台机器!但是没有export,也没有save。大模型说有,但是实际上没有。Ollama转存模型。

如何理解VM虚拟化的工业化工程化

一句话核心理解:VM虚拟化的工业化工程化,就是把虚拟机技术从「实验室能用的原型」,改造成工业生产/企业级场景下「能放心大规模用、能稳定赚钱、能标准化复制」的成熟技术体系‌。拆解成4个可落地的核心维度,就能清晰抓住本质:1️⃣ 从「单点能用」到「规模化可复制」早期虚拟化只是单台服务器上跑几个虚拟机的原型技术,工业化改造后:制定了统一的硬件抽象、接口、部署标准(比如x86架构的VM规范、OVF虚拟机模

#linux#服务器
言知(Yanzhi)系统提升建议报告和完工报告 by AutoCoder

言知系统优化报告摘要 言知系统经过全面优化,在架构、性能、监控等方面取得显著提升。系统采用三层智能架构(监控层、预测层、执行层),实现了动态分区调整、机器学习预测和全面监控功能。优化后系统具备自适应能力,可根据负载自动调整配置,预测准确率达70-85%,故障检测时间缩短至秒级。性能方面,分区调整响应时间<100ms,预测延迟<50ms,预计缓存性能提升20-40%。系统还完善了文档体系

#开发语言
使用llama.cpp运行模型unsloth/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf 速度大约5.5 token/s

在2个任务同时进行的情况下,可以达到7.3 token/s。

文章图片
#人工智能
    共 709 条
  • 1
  • 2
  • 3
  • 71
  • 请选择