
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:SCNetDCU异构环境使用官方Ollama 0.5.7版本镜像时,发现该版本较旧,不支持qwen3和文心4.5等新模型。测试显示deepseek 1.5b模型响应速度快(1秒),但14b模型需24秒。ERNIE-4.5-0.3B和qwen3 14b均因版本问题报错。结论表明官方Ollama镜像推理速度快但不兼容新模型,需升级版本以支持最新大模型。
摘要:Ollama现支持在本地部署deepseek-v3.1:671b等大型语言模型,突破硬件限制。通过简单安装Ollama并登录认证,用户可轻松拉取云模型到本地运行,支持多机同时使用。提供两种调用方式:本地部署(使用OpenAI库)或直接调用Ollama云API(需Python库)。目前支持12个云模型,包括glm-4.6、gpt-oss:120b等四大高性能模型。该方案解决了用户硬件不足的痛点

MegaTTS3是目前效果领先的文本转语音模型。本文详细介绍了在启智社区平台部署该模型的完整流程:从创建云脑任务、下载模型代码(支持GitHub和GitCode源)、通过HuggingFace或镜像站获取模型文件,到实际推理操作(包含参数调整技巧)。特别说明了如何使用自己的语音文件(需上传WAV至指定链接获取对应NPY文件),并解决了常见的ffprobe报错问题。实测显示模型能精准模拟不同口音,生

LFM2.5-1.2B是由LiquidAI推出的开源轻量级AI模型,专为端侧设备优化,具有1.2B参数和仅900MB内存占用。该模型采用混合架构实现高效推理,支持8种语言,擅长指令遵循和复杂任务。测试发现,在星河社区使用CPU推理速度极慢,而在本地通过Ollama运行效果较好,能完成基础问答但编程输出存在错误。虽然推理速度不及主流大模型,但其低内存特性适合多任务处理,特别适合作为任务拆解的前置模型
该代码展示了AsyncOpenAI客户端的实现,它支持异步调用OpenAI的API服务。客户端初始化时,会自动从环境变量获取API密钥和基础URL(若无则使用默认值)。它提供了多种功能模块(如聊天、嵌入、文件处理等)的异步接口,并支持原始响应和流式响应处理。使用时需传入API密钥,可通过环境变量或直接参数设置。示例展示了如何初始化客户端并调用聊天功能生成文本。
本文记录了在CPU环境下编译安装vLLM并调试文心ERNIE-4.5系列模型的过程。测试发现ERNIE-4.5-0.3B小模型可以正常运行,但28B大模型调试失败,出现多种错误:包括需添加trust_remote_code参数、内存不足、AVX指令集缺失等问题。最终通过设置dtype=float和max_model_len参数降低内存需求后,仍因虚拟机内存溢出而终止测试。结论表明CPU仅适合运行小
所以需要手工转存模型文件,比如从一台机器cp到另一台机器!但是没有export,也没有save。大模型说有,但是实际上没有。Ollama转存模型。
一句话核心理解:VM虚拟化的工业化工程化,就是把虚拟机技术从「实验室能用的原型」,改造成工业生产/企业级场景下「能放心大规模用、能稳定赚钱、能标准化复制」的成熟技术体系。拆解成4个可落地的核心维度,就能清晰抓住本质:1️⃣ 从「单点能用」到「规模化可复制」早期虚拟化只是单台服务器上跑几个虚拟机的原型技术,工业化改造后:制定了统一的硬件抽象、接口、部署标准(比如x86架构的VM规范、OVF虚拟机模
言知系统优化报告摘要 言知系统经过全面优化,在架构、性能、监控等方面取得显著提升。系统采用三层智能架构(监控层、预测层、执行层),实现了动态分区调整、机器学习预测和全面监控功能。优化后系统具备自适应能力,可根据负载自动调整配置,预测准确率达70-85%,故障检测时间缩短至秒级。性能方面,分区调整响应时间<100ms,预测延迟<50ms,预计缓存性能提升20-40%。系统还完善了文档体系
在2个任务同时进行的情况下,可以达到7.3 token/s。








