QingLiYiXiaBa 个人主页

@QingLiYiXiaBa

QingLiYiXiaBa

2025-10-20 13:54:37 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

告别 Ollama 慢推理！利用 RDK S100 BPU 算力自制 OpenAI API 接口并实战 Chatbox

本文提出了一种基于FastAPI的算力路由中间件，将边缘计算设备RDKS100的BPU硬件加速能力封装为标准化的OpenAI API接口。通过深入优化内存分配策略、设备树调整和性能模式设置，解决了嵌入式环境下的"内存墙"问题。系统采用异步子进程管理和零缓冲技术，实现了高效的流式响应。实验表明，该方案成功将本地BPU算力转化为云端服务能力，使标准客户端能直接调用边缘端的大模型推理

#linux #ubuntu #边缘计算 +4

告别 Ollama 慢推理！利用 RDK S100 BPU 算力自制 OpenAI API 接口并实战 Chatbox

#linux #ubuntu #边缘计算 +4

告别 Ollama 慢推理！利用 RDK S100 BPU 算力自制 OpenAI API 接口并实战 Chatbox

#linux #ubuntu #边缘计算 +4

BPU加速大模型：双核引爆80TOPS算力

本文详细介绍了在RDKS100嵌入式设备上利用BPU加速运行大语言模型(DeepSeek 1.5B)的全过程。主要内容包括：1)通过FTP获取推理引擎包和专用模型文件；2)使用scp安全传输大文件到设备；3)配置BPU运行时环境并解决内存分配问题；4)通过修改设备树调整BPU专属内存配额；5)对比原生BPU推理与Ollama模拟的差异。文章提供了完整的操作指令和排错指南，特别针对BPU专属内存不足

#linux #ubuntu #c++ +3

BPU加速大模型：双核引爆80TOPS算力

#linux #ubuntu #c++ +3

ollama本地部署大模型全流程解析

本文详细介绍了在RDKS100开发板上部署大语言模型的完整流程和技术原理。主要内容包括：1）模型部署的四个关键步骤：下载原始权重、格式转换、量化压缩和推理引擎运行；2）Ollama工具的作用及运行机制，包括其客户端/服务器架构设计；3）RDKS100硬件特性，对比CPU和BPU的运行差异；4）具体操作流程和系统资源管理方法，包括启动、运行和终止模型服务的详细指令。文章特别强调了量化技术的重要性，以

#linux #ubuntu #边缘计算 +2

到底了