logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

养慢虾哲学:8.5 t/s 就够了

《慢虾哲学:低配硬件上的高效AI实践》摘要 作者通过迷你主机(AMDAI9HX370)运行27B参数大模型(Qwen3.6)的实践,提出"慢虾"理念:8.5token/s的生成速度恰与人类思考节奏同步,创造了理想的交互体验。关键技术突破在于采用多token预测算法(MTP),使推理速度提升近一倍(4.57→8.5t/s)。文章对比了稠密模型与混合专家模型的特点,指出稳定性比速度

文章图片
#云计算#人工智能
AMD AI9 HX370 小主机跑 Qwen3.6-27B:8.5 t/s 的“养慢虾“哲学

本文介绍了一种基于1升体积小主机的本地AI部署方案,搭载AMDAI9HX370处理器和Radeon890M集成显卡,通过优化配置在96GB内存中流畅运行27B参数的稠密大模型Qwen3.6-27B-MTP(Q4量化)。关键创新在于:1)利用推测解码技术(76.7%接受率)将生成速度提升至8.5t/s;2)采用KV缓存量化等内存优化手段;3)实现65W超低功耗与静音运行。作者通过实际日志分析证明,该

文章图片
#人工智能
P104-100 矿卡跑 35B-A3B 大模型:从“电子垃圾”到“Token FREE”

《矿卡重生记:8GB显存P104在Ubuntu上跑35B MoE模型的实战指南》 本文记录了作者将一张被淘汰的NVIDIA P104-100矿卡(8GB显存)改造成AI推理卡的完整过程。通过破解驱动、优化PCIe通道、精细调整卸载层数等技术手段,最终在Ubuntu系统上实现了Qwen3.6-28B MoE模型51t/s的prefill速度和20t/s的生成速度。文章详细分享了驱动安装、编译调优、P

文章图片
#人工智能#云计算#个人开发
Quadro P2000 5G 老卡跑 35B 大模型:从“鸡肋”到“真香”的调优实录

摘要: 本文记录了在老旧Quadro P2000显卡(5GB显存)上成功运行35B参数MoE模型的全过程。通过对比测试发现,35B MoE模型在优化参数(ngl=8)下生成速度达11.88 t/s,反超9B稠密模型45%,且回答质量显著提升。关键优化包括精准控制GPU加载层数、采用KV Cache量化(q4_0)缓解显存压力。测试涵盖Qwen3.5和Gemma-4系列模型,证明老卡搭配MoE架构仍

文章图片
#云计算#人工智能
阿里狗16.6的自动布线使用之二

自动布线在电路设计中的价值主要体现在其高效性和准确性,尤其在处理复杂和密集的布线任务时。与手工布线相比,自动布线能够快速完成大量的查找、对比、分析和决策工作,极大地减轻了设计师的脑力负担。通过自动布线,设计师可以轻松判断元器件布局的合理性,并进行必要的调整,如改变边缘接口位置或芯片的旋转方向,从而优化布线结果。此外,自动布线还能帮助设计师完善布线规则,通过多次循环调整,确保布线结果符合预期。局部的

#硬件工程#嵌入式硬件
阿里狗16.6的自动布线使用之三

阿里狗16.6的自动布线功能虽然强大,但用户在使用时可能会遇到一些问题。本文提供了几条优化自动布线的建议:首先,设计合理的布线规则,包括线宽、间距和过孔规格,特别是针对不同类型的信号线进行区分设置。其次,确保覆铜shape指定了正确的网络名,以便于连接同名引线。此外,在antiEtch逻辑层和viakeepout层放置拒布区域或禁止过孔区域,可以帮助自动布线更符合实际需求。最后,如果自动布线出现无

#硬件工程#嵌入式硬件
nanobot 高阶应用:AI 自己开发 Web 服务--微纳龙虾上云实录

本文记录了将AI助手nanobot部署到阿里云虚拟主机,并接入飞书机器人的全过程。通过科大讯飞MaaS平台的免费大模型token,实现了让AI自主开发Web服务的创新实践。文章详细介绍了云端环境配置、飞书接入方法,以及AI自主编程的完整案例,包括解决端口放行等实际问题。特别强调了免费token资源对AI实验的重要价值,使开发者能够无顾虑地进行大量调试迭代。整个过程展现了AI从本地工具升级为云端服务

文章图片
#前端
nanobot 进阶指南——打造能自我进化的智能体

《nanobot进阶指南:打造自我进化的智能体》深入解析了如何定制和扩展nanobot智能代理的核心功能。文章揭示了nanobot作为LLM调度中枢的设计哲学,展示了通过修改Markdown文件即可定义智能体"人格"的工作空间架构。重点介绍了技能开发方法、自主代码维护能力(通过TODO.md驱动自我优化)、创新的对话压缩技术(实现无限长对话),以及Cron定时任务与Heartb

文章图片
#python#人工智能#自然语言处理 +1
HX 370上使用 NPU 加速 LLM 实践

《在HX 370上使用NPU加速LLM实践》介绍了如何利用AMD Ryzen AI 300系列处理器(如HX 370)集成的XDNA 2架构NPU来运行大语言模型。文章详细说明了安装Lemonade Server工具、配置NPU的Turbo模式、选择适配的ONNX格式模型以及通过镜像站加速下载模型的方法。作者还分享了如何让Lemonade自动识别模型,并验证NPU是否正常工作。相比GPU推理,NP

文章图片
#人工智能#个人开发#云计算
到底了