logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI大模型入门】08:通义千问——阿里的开源大模型,程序员和开发者必知

封闭模型(GPT/Claude):你只能用API调用 → 必须付费 → 不知道内部怎么工作开源模型(通义千问/Llama):代码和权重公开 → 可以免费下载 → 可以在自己服务器运行可以修改训练 → 可以商业使用 → 可以针对自己的业务微调🔓开源:可以免费下载、本地运行、商业使用💻代码能力强:专门的 Qwen-Coder 版本🧮数学推理好:Qwen-Math 竞赛级别表现🌐多语言支持:中文

文章图片
#人工智能#开源#深度学习 +1
【AI大模型入门】A04:Whisper——AI终于能“听懂“人说话了

📖:约7分钟🎯:对语音识别感兴趣的人、想给视频自动加字幕的创作者、开发者💡:Whisper是什么、为什么它是语音识别的里程碑、能做什么、怎么用。

文章图片
#人工智能#xcode
【AI大模型入门】B13:Phi——微软“小钢炮“,用高质量数据颠覆参数神话

📖:约7分钟🎯:对边缘计算/手机AI感兴趣的人、开发者、想了解"小模型哲学"的人💡:Phi系列是什么、为什么小模型能强过大模型、适合什么场景。

文章图片
#人工智能#microsoft
【词汇专栏】PagedAttention:分页注意力——推理引擎的显存革命

借鉴OS分页:按需分配KV Cache显存利用率:40% → 90%(提升125%)吞吐量提升:3-4倍延迟降低:60-70%vLLM生产级实现:业界标配PagedAttention = 存储层优化FlashAttention = 计算层优化Speculative Decoding = 生成加速三者结合 = 极致推理性能ChunkKV:长上下文压缩ThinKV:推理模型优化R-KV:NVIDIA原

文章图片
#python#开发语言
【词汇专栏】Chain of Density:密度链——AI摘要的进化

问题说明问题1长度固定,容易丢失信息——用户说"100字摘要" → 模型截断 → 关键信息被砍问题2不知道该保留什么——"重要"的定义因人而异,模型可能保留不重要的细节问题3一次性决策,容易出错——摘要只有一次机会,错了就没法补救问题4信息密度不均匀——开头详尽,结尾草草收场方法特点优点缺点Extractive直接提取原文句子保留原话,不会出错信息碎片化生成式摘要连贯通顺可能产生幻觉针对问题摘要精

文章图片
#人工智能
【词汇专栏】DPO:直接偏好优化——让大模型对齐变得更简单

简化对齐:用分类问题代替强化学习稳定训练:不需要PPO,不调几十个超参数高效计算:只需前向传播,不需要采样开源可用:TRL、FastChat等工具开箱即用IPO:加正则项,更稳定KTO:利用损失厌恶心理CPO:对比学习增强扩散模型DPO:图像生成也能用“对齐不再是大厂专属,中小团队也能训练自己的ChatGPT!

文章图片
#人工智能
【词汇专栏】Reasoning Model:推理模型——o1/o3/o4的崛起

传统LLM的工作方式:"两个鸡蛋+三个鸡蛋=?→ 直接从训练知识中检索答案 → "5个鸡蛋"Reasoning Model的工作方式:"两个鸡蛋+三个鸡蛋=?→ 内部展开思考链:"让我想想,我有两个鸡蛋,又拿来三个...""所以一共是5个鸡蛋"→ 输出答案:"5个鸡蛋"范式转变:从"知识检索"到"动态推理"技术突破:Test-time Compute性能飞跃:数学/代码能力质的提升代表作:Open

文章图片
#人工智能#算法
【词汇专栏】Reasoning Model:推理模型——o1/o3/o4的崛起

传统LLM的工作方式:"两个鸡蛋+三个鸡蛋=?→ 直接从训练知识中检索答案 → "5个鸡蛋"Reasoning Model的工作方式:"两个鸡蛋+三个鸡蛋=?→ 内部展开思考链:"让我想想,我有两个鸡蛋,又拿来三个...""所以一共是5个鸡蛋"→ 输出答案:"5个鸡蛋"范式转变:从"知识检索"到"动态推理"技术突破:Test-time Compute性能飞跃:数学/代码能力质的提升代表作:Open

文章图片
#人工智能#算法
【词汇专栏】Speculative Decoding:投机解码的智慧

核心洞察:验证比生成快(10倍差距)方法:小模型猜,大模型验效果:2-3倍加速,保证输出质量本质:用并行换串行,用小错换大效EAGLE系列:接受率突破85%+LongSpec:长上下文支持Medusa:无需额外小模型自适应:动态调整猜测策略"投机"不丢人,省力才是真聪明!

文章图片
#人工智能
【词汇专栏】KV Cache:大模型推理的加速引擎

││ KV Cache的核心价值:││ ├─ 时间换空间:用显存换速度│ ├─ 避免重复计算:O(N²) → O(N)│ ├─ 吞吐提升:5-10倍甚至更高│ └─ 是大模型推理引擎的标配优化││ 2026年进化:│ ├─ PagedAttention:显存管理革新│ ├─ ChunkKV/ThinKV:长上下文压缩│ └─ LongSpec:超长推理加速││ 没有KV Cache,就没有大模型的

文章图片
#人工智能
    共 96 条
  • 1
  • 2
  • 3
  • 10
  • 请选择