sara_han 个人主页

@sara_han

sara_han

2023-06-25 14:29:39 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

70B大模型也能在笔记本上跑？揭秘让AI“瘦身”的黑科技

模型量化技术让大模型在普通笔记本上运行成为现实。通过将模型参数从32位浮点压缩至4位整数，700亿参数的大模型体积可缩小75%，显存需求从280GB降至35GB。主流方法包括无需重新训练的PTQ和精度更高的QAT，工具如bitsandbytes、llama.cpp实现4-bit量化。实测显示，INT4量化在几乎不影响准确率的情况下，资源消耗减半，使Llama-3等大模型能在MacBook等消费级设

#人工智能 #科技 #机器学习 +1

大模型是怎么“学会说话”的？真相竟然是“喂”出来的！

本文揭秘了像ChatGPT这样的大模型如何通过数据训练"学会"语言能力。大模型训练分为四个关键步骤：数据准备（爬取、清洗、分词）、模型架构（Transformer的注意力机制）、分布式训练（千卡集群并行计算）和分阶段训练（预训练、微调、对齐）。其中预训练是最耗资源的阶段，以GPT-3为例需要460万美元和上千块GPU训练一个月。整个过程实质上是对语言规律的"压缩&qu

#人工智能 #机器学习 #语言模型

为什么你问一个问题，AI 要“思考”好几秒？

大模型推理为何慢？揭秘AI生成背后的计算瓶颈。不同于搜索引擎查表，大模型采用自回归生成方式，需逐字计算上下文，每生成一个字就完整跑一次推理。性能瓶颈主要来自：1）KVCache显存占用过高；2）序列长度二次方级计算复杂度；3）批处理效率低下。当前优化方向包括vLLM的显存分页管理和参数量化技术。AI的"思考"实则是千亿次数学运算的累加过程。

#人工智能 #机器学习 #深度学习 +2

大模型是如何“学会”思考的？——从预训练到推理的全过程揭秘

这篇文章用通俗易懂的方式解释了大语言模型"学会思考"的三个关键步骤：预训练阶段 - 通过海量文本学习语言规律，建立基础语言知识库微调阶段 - 通过指令训练学会理解并响应人类需求推理阶段 - 基于学习到的知识模式进行创造性回答文章用生动类比说明，大模型虽不具备人类意识，但通过这三步训练能表现出类似思考的语言能力。这种"类思考"能力不是检索，而是基于概率

#人工智能 #深度学习 #机器学习 +1

AI 真的“懂”上下文吗？自注意力机制带你揭开大模型的思维密码

摘要：自注意力机制是AI理解上下文的核心技术，通过Q（问题）、K（索引）、V（答案）三个向量模拟信息检索。例如，判断“他”指代谁时，AI用Q匹配上下文中的K，计算相似度后加权融合V，最终关联到“小明”。多头注意力则像多专家投票，从不同角度分析语义。相比传统RNN的逐字处理，自注意力赋予AI全局视野，能捕捉远距离依赖关系，实现逻辑推理。尽管AI的“理解”本质是统计关联，但自注意力机制使其接近人类的

#人工智能 #机器学习 #深度学习 +1

Transformer 是什么？ChatGPT 的“大脑”原来是它

《Transformer：AI大模型背后的"技术地基"》摘要： 2017年诞生的Transformer架构彻底改变了AI发展路径，成为ChatGPT、BERT等大模型的核心技术。其革命性在于：1）突破传统RNN顺序处理限制，实现并行计算；2）独创自注意力机制，让每个词动态关注全句重点；3）采用编码器-解码器结构，分别处理语言理解和生成任务。这种设计使AI能像人类一样"

#人工智能 #transformer #深度学习

AI Agent如何扛住百万并发？揭秘高可用低延迟系统架构设计

《揭秘AIAgent系统架构：高并发稳定运行的秘密》文章揭示了现代AI助手背后的分布式架构设计。不同于单一模型调用，真正的AIAgent需具备任务调度、多模态处理和状态管理等能力。核心架构通过七大模块实现四大流程：请求调度、多模态感知、决策引擎和执行管理。系统采用分层解耦设计，结合Kafka消息队列、Redis缓存和向量数据库等技术，实现高可用（多副本部署、熔断机制）和低延迟（异步处理、边缘计算）

#人工智能 #系统架构

AI Agent的“大脑”到底怎么思考？揭秘决策引擎的底层逻辑

《AI决策引擎：智能系统的"大脑"》 AI决策引擎是智能系统的核心中枢，负责在复杂场景中做出最优判断。它通过感知输入、理解上下文、任务分解、生成候选动作、评估决策和执行反馈的闭环流程运作，驱动智能客服、自动驾驶等应用。决策引擎的智能来源分为三类：规则驱动型（稳定但死板）、模型驱动型（灵活但黑箱）以及前沿的大模型+推理框架型（能处理开放任务）。随着AutoGPT等自主Agent的

#人工智能 #大数据 #机器学习

Kubernetes就绪探针揭秘：AI服务上线不再“秒挂”

AI模型服务在Kubernetes上部署时，常常遇到"刚启动就503"的问题。这是因为K8s默认认为容器启动即可接收流量，而AI服务需要加载大模型，导致未就绪时就被分配请求。解决方案是配置就绪探针(ReadinessProbe)，通过特定接口检查模型是否加载完成。关键配置包括initialDelaySeconds预留加载时间、periodSeconds设置检查频率等。建议AI服

#kubernetes #人工智能 #容器

AI系统背后的“数据保险箱”：S3与MinIO如何撑起MLOps的数据底座？

项目阶段推荐方案快速验证、小团队AWS S3（省心省力）企业级、合规要求高MinIO（自主可控）混合云/边缘场景MinIO + 多站点复制希望避免厂商锁定抽象存储层，统一使用S3 API🔑核心建议：无论选择哪种后端，都应通过标准接口（如boto3）进行抽象，让上层应用不感知底层差异。这才是MLOps工程化的正确姿势。AI不是一个人的算法秀，而是一群人的系统工程。当你的模型开始频繁迭代、数据不断积

#人工智能

共 16 条

请选择