laot007 个人主页

@laot007

laot007

2024-02-07 14:53:19 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

养慢虾哲学：8.5 t/s 就够了

《慢虾哲学：低配硬件上的高效AI实践》摘要作者通过迷你主机(AMDAI9HX370)运行27B参数大模型(Qwen3.6)的实践，提出"慢虾"理念：8.5token/s的生成速度恰与人类思考节奏同步，创造了理想的交互体验。关键技术突破在于采用多token预测算法(MTP)，使推理速度提升近一倍(4.57→8.5t/s)。文章对比了稠密模型与混合专家模型的特点，指出稳定性比速度

#云计算 #人工智能

AMD AI9 HX370 小主机跑 Qwen3.6-27B：8.5 t/s 的“养慢虾“哲学

本文介绍了一种基于1升体积小主机的本地AI部署方案，搭载AMDAI9HX370处理器和Radeon890M集成显卡，通过优化配置在96GB内存中流畅运行27B参数的稠密大模型Qwen3.6-27B-MTP（Q4量化）。关键创新在于：1）利用推测解码技术（76.7%接受率）将生成速度提升至8.5t/s；2）采用KV缓存量化等内存优化手段；3）实现65W超低功耗与静音运行。作者通过实际日志分析证明，该

#人工智能

P104-100 矿卡跑 35B-A3B 大模型：从“电子垃圾”到“Token FREE”

《矿卡重生记：8GB显存P104在Ubuntu上跑35B MoE模型的实战指南》本文记录了作者将一张被淘汰的NVIDIA P104-100矿卡（8GB显存）改造成AI推理卡的完整过程。通过破解驱动、优化PCIe通道、精细调整卸载层数等技术手段，最终在Ubuntu系统上实现了Qwen3.6-28B MoE模型51t/s的prefill速度和20t/s的生成速度。文章详细分享了驱动安装、编译调优、P

#人工智能 #云计算 #个人开发

Quadro P2000 5G 老卡跑 35B 大模型：从“鸡肋”到“真香”的调优实录

摘要：本文记录了在老旧Quadro P2000显卡（5GB显存）上成功运行35B参数MoE模型的全过程。通过对比测试发现，35B MoE模型在优化参数（ngl=8）下生成速度达11.88 t/s，反超9B稠密模型45%，且回答质量显著提升。关键优化包括精准控制GPU加载层数、采用KV Cache量化（q4_0）缓解显存压力。测试涵盖Qwen3.5和Gemma-4系列模型，证明老卡搭配MoE架构仍

#云计算 #人工智能

阿里狗16.6的自动布线使用之二

自动布线在电路设计中的价值主要体现在其高效性和准确性，尤其在处理复杂和密集的布线任务时。与手工布线相比，自动布线能够快速完成大量的查找、对比、分析和决策工作，极大地减轻了设计师的脑力负担。通过自动布线，设计师可以轻松判断元器件布局的合理性，并进行必要的调整，如改变边缘接口位置或芯片的旋转方向，从而优化布线结果。此外，自动布线还能帮助设计师完善布线规则，通过多次循环调整，确保布线结果符合预期。局部的

#硬件工程 #嵌入式硬件

阿里狗16.6的自动布线使用之三

阿里狗16.6的自动布线功能虽然强大，但用户在使用时可能会遇到一些问题。本文提供了几条优化自动布线的建议：首先，设计合理的布线规则，包括线宽、间距和过孔规格，特别是针对不同类型的信号线进行区分设置。其次，确保覆铜shape指定了正确的网络名，以便于连接同名引线。此外，在antiEtch逻辑层和viakeepout层放置拒布区域或禁止过孔区域，可以帮助自动布线更符合实际需求。最后，如果自动布线出现无

#硬件工程 #嵌入式硬件

nanobot 高阶应用：AI 自己开发 Web 服务--微纳龙虾上云实录

本文记录了将AI助手nanobot部署到阿里云虚拟主机，并接入飞书机器人的全过程。通过科大讯飞MaaS平台的免费大模型token，实现了让AI自主开发Web服务的创新实践。文章详细介绍了云端环境配置、飞书接入方法，以及AI自主编程的完整案例，包括解决端口放行等实际问题。特别强调了免费token资源对AI实验的重要价值，使开发者能够无顾虑地进行大量调试迭代。整个过程展现了AI从本地工具升级为云端服务

#前端

nanobot 进阶指南——打造能自我进化的智能体

《nanobot进阶指南：打造自我进化的智能体》深入解析了如何定制和扩展nanobot智能代理的核心功能。文章揭示了nanobot作为LLM调度中枢的设计哲学，展示了通过修改Markdown文件即可定义智能体"人格"的工作空间架构。重点介绍了技能开发方法、自主代码维护能力（通过TODO.md驱动自我优化）、创新的对话压缩技术（实现无限长对话），以及Cron定时任务与Heartb

#python #人工智能 #自然语言处理 +1

HX 370上使用 NPU 加速 LLM 实践

《在HX 370上使用NPU加速LLM实践》介绍了如何利用AMD Ryzen AI 300系列处理器（如HX 370）集成的XDNA 2架构NPU来运行大语言模型。文章详细说明了安装Lemonade Server工具、配置NPU的Turbo模式、选择适配的ONNX格式模型以及通过镜像站加速下载模型的方法。作者还分享了如何让Lemonade自动识别模型，并验证NPU是否正常工作。相比GPU推理，NP

#人工智能 #个人开发 #云计算

到底了