
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文分析了AI模型生成token速度(tokens/s)与用户体验的关系,指出30-60 tokens/s是流畅交互的基准。文章对比了输入和输出token处理的差异:输入处理(prompt分词)可并行且快速(~1600 tokens/s),而输出生成必须串行且依赖上下文(典型100 tokens/s)。关键发现包括:1)输出速度是用户体验的决定因素;2)输出阶段计算量随上下文长度增加;3)用户更关

本文分析了不同硬件环境下大模型生成tokens的速度差异。在纯CPU推理场景中,内存带宽成为主要瓶颈,导致即使强大CPU也无法充分发挥计算能力,如7B模型受限于DDR5内存带宽只能达到40-60 tokens/s。相比之下,GPU凭借更高显存带宽(如RTX 4090达1TB/s)能更好发挥并行计算优势。文章特别推荐了微软优化的Phi-3-mini模型(3.8B),其通过架构精简、CPU友好设计和算

本文探讨了大模型中的关键概念"token",解释了其在中文和英文中的不同处理方式(1个汉字≈1-2 tokens,1个英文单词≈1-3 tokens)。通过具体示例展示了文本和代码的token拆分过程,并区分了输入token和输出token(tokens/s)的概念。文章对比了不同参数量的模型(如Phi-3-mini、CodeLlama-7B等)在相同硬件条件下的推理速度,指出

本文探讨了本地运行AI大模型的关键技术指标,重点解析了模型参数规模(如3.8B、7B等)、量化格式(如Q5_K_M)和性能表现的关系。作者通过实测数据展示了不同规模模型在CPU上的推理速度和内存占用情况,指出7B~13B量级模型适合主流开发者使用。文章详细解释了量化技术的原理(如将16位浮点数压缩为5位整数),并对比了不同量化级别在文件大小、内存占用和精度上的差异,推荐Q5_K_M作为CPU推理的

本文探讨了AI Agent的实现架构与本地部署方案。文章指出Agent本质是LLM大模型的代理执行器,需通过连接大模型才能运作。部署方式分为联网使用闭源模型(如GPT-4)和本地部署开源模型两种方案。重点分析了本地部署的两种实现路径:基于Docker的Ollama方案和原生Linux方案,并详细介绍了评估本地硬件(CPU架构、核心数、指令集等)的关键指标。作者以AMD Ryzen 9处理器为例,解

摘要: AI Agent(智能体)是具备自主性、目标导向性和环境交互能力的智能系统,区别于传统被动响应的AI模型。其核心特征包括自主运行、目标驱动、工具调用、记忆学习等,典型架构由LLM(大模型)、规划器、执行引擎和记忆模块组成。当前主流类型涵盖单智能体(如AutoGPT)、多智能体协作(如MetaGPT)等。未来趋势包括Agent OS、个性化数字分身等。值得注意的是,AI Agent可完全离线

本文分析了Hugo博客中RSS订阅和首页列表配置的技术细节。主要内容包括:1) RSS文件格式解析,重点说明<item>元素中的标题、链接、发布时间等关键字段;2) 博客页面的条件渲染逻辑,特别是标题锚点功能的实现方式;3) 首页文章列表的筛选机制,通过mainSections参数和hiddenInHomeList属性控制文章显示。文章基于公开技术文档,不涉及任何商业机密,为个人博客搭

本文介绍了在Hugo博客中实现侧边导航栏的技术方案。作者首先解释了不应直接修改主题模板的原因,而是通过创建/layouts/_default/single.html文件来覆盖主题默认模板。文章详细分析了HTML语义标签<main>、<div>和<article>的区别与适用场景,其中<main>表示页面主要内容区,<article>用于独








