logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

上下文窗口的秘密:从 4K 到 1M 的技术演进

本文探讨了大模型上下文窗口从4K到1M的技术演进历程,揭示了长上下文扩展背后的工程挑战与解决方案。全文分为三个部分: 上下文窗口的重要性:6年增长500倍的曲线背后,是消除信息切片、实现Agent应用和知识记忆的技术需求。但每扩展10倍上下文都会带来显存占用、计算复杂度和延迟的指数级增长。 物理瓶颈分析:传统Attention的O(n²)复杂度导致计算量飙升,KV Cache显存占用在1M上下文时

文章图片
#语言模型
Tokenizer 那些事:BPE、SentencePiece 与中文分词的爱恨情仇

文章摘要 Tokenizer是大模型系统中关键但常被忽视的组件,直接影响API费用、上下文窗口容量和模型性能。本文深入解析了BPE、BBPE、WordPiece和SentencePiece等主流分词算法: BPE:通过合并高频字符对构建词表,平衡了词级和字符级的优缺点,被GPT系列采用 BBPE:在字节级别进行BPE,实现真正的多语言支持,成为Llama等模型的选择 WordPiece:BERT系

文章图片
#中文分词#自然语言处理
大模型时代全景图:从 GPT 到 Claude/DeepSeek,一文看懂 LLM 演进史

大模型演进与技术全景图 本文系统梳理了大模型从2017年Transformer诞生到2026年的完整演进历程,揭示了当前大模型工程化的复杂技术栈。文章指出,大模型已从简单的API调用发展为包含训练、部署、应用的全链路基础设施,涉及模型选型、推理优化、成本控制等核心挑战。作者通过时间线展示了关键技术节点,包括GPT-3的Scaling Law、ChatGPT的RLHF突破,以及开源生态的崛起。本文作

文章图片
OpenClaw 手机端实战:在 Android 上用 openclaw-termux 随身运行 AI Gateway

摘要: OpenClaw-termux 让 Android 手机成为可运行 AI Gateway 的移动开发环境,提供 Flutter App 和 Termux CLI 两种安装方式。核心架构通过 proot-distro 运行 Ubuntu+Node.js,支持本地 Gateway 管理和 Android 设备能力调用(摄像头、传感器等)。安装需 Android 10+、4GB RAM 和 3G

文章图片
#android#人工智能
模型参数解密:7B、13B、70B、671B 到底意味着什么

本文解析了大模型参数量的含义及其工程影响。7B、13B等数字代表模型参数规模,但实际工程中还需考虑架构类型(Dense/MoE)、数据精度和包含参数范围。文章拆解了Transformer Block的参数构成,对比了Dense和MoE模型的差异——MoE模型通过专家机制实现"大容量知识、小计算量"的特性。最后提供了主流模型参数对照表,并指出不同规模模型对应的部署要求:7-8B适合单卡,70B需双H

文章图片
一文读懂 Transformer:从 Attention 到 LLM 的核心架构

在上一篇《大模型时代全景图》里,我们梳理了从 2017 年 Transformer 论文到 2026 年大模型生态的完整演进。过去八年所有的大模型——GPT、Claude、Llama、Qwen、DeepSeek——本质上都是 Transformer 的变体。这一篇我们就来彻底搞懂 Transformer。但这不是一篇"复现论文"的文章。论文级的推导网上已经太多,多数读者读完仍然不知道这玩意儿在生产

文章图片
#transformer#架构#深度学习
大模型时代全景图:从 GPT 到 Claude/DeepSeek,一文看懂 LLM 演进史

大模型演进与技术全景图 本文系统梳理了大模型从2017年Transformer诞生到2026年的完整演进历程,揭示了当前大模型工程化的复杂技术栈。文章指出,大模型已从简单的API调用发展为包含训练、部署、应用的全链路基础设施,涉及模型选型、推理优化、成本控制等核心挑战。作者通过时间线展示了关键技术节点,包括GPT-3的Scaling Law、ChatGPT的RLHF突破,以及开源生态的崛起。本文作

文章图片
大模型时代全景图:从 GPT 到 Claude/DeepSeek,一文看懂 LLM 演进史

大模型演进与技术全景图 本文系统梳理了大模型从2017年Transformer诞生到2026年的完整演进历程,揭示了当前大模型工程化的复杂技术栈。文章指出,大模型已从简单的API调用发展为包含训练、部署、应用的全链路基础设施,涉及模型选型、推理优化、成本控制等核心挑战。作者通过时间线展示了关键技术节点,包括GPT-3的Scaling Law、ChatGPT的RLHF突破,以及开源生态的崛起。本文作

文章图片
小白也能看懂的大模型量化:int4、Q4、Q8 到底是什么意思?

本文通俗解释了大模型量化技术,重点解析了int4、Q4、Q8等常见术语的含义。量化通过将模型参数从高精度浮点数(如FP16)转换为低位整数(如4位),显著减小模型体积和运行资源需求。例如27B模型从FP16的54GB缩减到int4约13.5GB,使普通电脑也能运行大模型。文章对比了不同量化级别的特点:Q4最节省资源但精度损失较大,Q8更接近原模型质量,并给出了量化版本选择建议。量化虽会带来一定精度

文章图片
用 Dify 工作流把新闻自动变成分析报告、HTML 页面和思维导图

本文介绍了一个基于Dify工作流的"智能资讯雷达"系统,能够自动将新闻资讯转化为结构化分析报告、HTML页面和思维导图。系统通过多节点工作流实现:首先接收用户输入,然后调用大模型进行结构化分析,再通过代码节点清洗数据并生成多种格式输出,最后整合为Markdown、HTML、思维导图JSON和完整JSON四种形式。文章详细讲解了工作流设计思路、节点功能划分,并介绍了配套的本地前后端调用页面,帮助读者

文章图片
#html
    共 148 条
  • 1
  • 2
  • 3
  • 15
  • 请选择