
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
最近帮几个项目做大模型API选型,发现一个普遍的问题:大家选服务商基本靠"同行推荐"和"官网标称数据",很少有人做过系统性的横向测试。官网数据的问题在于------每家都说自己快、自己稳、自己便宜,但测试条件不统一,数据没有可比性。而同行推荐往往带有场景偏差,做批量标注的和做实时客服的,对"好用"的定义完全不同。所以我花了一周时间,设计了一套尽量公平的评测方案,对6家服务商做了横向对比。同时也拉了
最近帮几个项目做大模型API选型,发现一个普遍的问题:大家选服务商基本靠"同行推荐"和"官网标称数据",很少有人做过系统性的横向测试。官网数据的问题在于------每家都说自己快、自己稳、自己便宜,但测试条件不统一,数据没有可比性。而同行推荐往往带有场景偏差,做批量标注的和做实时客服的,对"好用"的定义完全不同。所以我花了一周时间,设计了一套尽量公平的评测方案,对6家服务商做了横向对比。同时也拉了
本文介绍了如何在昇腾NPU平台上使用CANN 8.0和MindSpore框架进行AI模型开发与调优。文章展示了从环境配置到模型训练的全流程:通过预集成容器镜像快速搭建开发环境,使用npu-smi工具检查硬件状态;以LeNet-5网络训练MNIST数据集为例,详细演示了数据加载、网络定义和训练过程,包括指定NPU计算后端、定义数据处理流水线、构建网络结构等关键步骤。最后通过MindSpore高阶AP

本文探讨了如何将PyTorch模型迁移到NPU(如Ascend 910B)上的解决方案。针对PyTorch代码在NPU上运行的痛点,文章介绍了CANN生态系统的torch_npu插件,该插件充当"桥梁",让PyTorch API调用能够被CANN底层运行时执行,无需重写代码。文章详细演示了环境准备步骤,包括NPU状态检查和插件安装,并通过ResNet-18训练脚本对比了CPU和

本文详细介绍了在昇腾Atlas 800I A2服务器上部署DeepSeek-R1-671B大模型的实战过程。采用vLLM-Ascend框架,通过W8A8量化和PagedAttention技术,在双机16卡环境下实现高效推理。重点包括:硬件选型考量、环境配置、容器启动参数、关键环境变量设置以及主副节点启动流程。特别强调了网络配置、显存优化和并行策略等关键技术点,为大规模模型部署提供了可复现的解决方案

GitHub 仓库:https://github.com/AstrBotDevs/AstrBotAstrBot 是一个专为 AI 大模型设计的开源聊天机器人框架,它让你可以轻松地把ChatGPT、DeepSeek、Claude 等 AI接入到 QQ、企业微信、Discord 等各种聊天平台。🤖原生支持主流 AI 模型:DeepSeek、OpenAI、Claude、GLM、通义千问等开箱即用🔌丰

在快节奏的现代生活里,我们总在和 “时间不够用” 较劲:早上出门忘关空调,要远程控制却找不到合适的工具;到了公司发现关键文件落在家里,只能干着急;收到全英文的工作邮件,逐字翻译耗时又费力;想做一份亮眼的 PPT,却卡在排版和内容构思上…… 我们需要的不是一个个零散的工具,而是一个能统筹所有需求、像真人一样替我们处理事务的 “数字员工”。OpenClaw 的出现,恰好填补了这一空白。

本文探讨了在ARM架构(如鲲鹏920)上优化TensorFlow Serving性能的实践。通过分析BoostKit开源项目中的tensorflow-serving补丁,揭示了如何通过编译优化和线程亲和性设置来提升推理性能。文章详细介绍了补丁的核心技术:1)针对性编译选项开启ARM指令集优化;2)将gRPC通信线程与计算线程隔离绑定到不同CPU核心,避免缓存失效。实践部分展示了如何打补丁、编译优化

本文详细介绍了在昇腾Atlas 800I A2服务器上部署DeepSeek-R1-671B大模型的实战过程。采用vLLM-Ascend框架,通过W8A8量化和PagedAttention技术,在双机16卡环境下实现高效推理。重点包括:硬件选型考量、环境配置、容器启动参数、关键环境变量设置以及主副节点启动流程。特别强调了网络配置、显存优化和并行策略等关键技术点,为大规模模型部署提供了可复现的解决方案

飞算JavaAI的企业级专有模型,将采纳率提升至90%,以Java后端最简单的字符串去掉空格为例,此前用DS生成的代码,虽然能实现基础功能,但给出的代码示例罗列了空格、tab字段、换行符等各种情况或者替换空白字符的各种方法,但是程序员不关心有几种实现方式,更关心的是能不能直接给出一种简单又实用的代码,不需要让我们自己来衡量性能如何,是否需要手动补充匹配条件等;此前我遇到一个棘手的现场定位问题,跟踪








