
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
目的:规范提示工程容灾备份的应急响应流程,确保在发生故障时快速恢复服务,最小化业务影响。范围:适用于所有基于大模型的AI服务中的提示工程环节,包括提示模板、动态提示、生成结果日志等资产的容灾备份。适用人员指挥组(架构师、项目经理):负责整体指挥与决策;技术组(开发工程师、DevOps工程师):负责故障排查与服务恢复;沟通组(产品经理、客服):负责内部与外部沟通;恢复组(测试工程师、数据工程师):负
把所有能拿到的信息都塞进上下文。信息过载:智能体需要处理大量无关信息,响应速度变慢(比如从200ms变成2s);理解偏差:无关信息会干扰智能体的判断(比如用户问“明天的高铁票”,智能体却提到“去年你买过的机票折扣”)。上下文的本质是“与当前任务强相关的信息集合”——不是越多越好,而是“刚好够”。我们可以用3个维度任务类型:比如“订高铁票”任务,只需要“用户身份信息、出行日期/时间、座位偏好、历史订
目的:解决AI原生应用的“三大痛点”——大模型=大内存:比如GPT-3的1750亿参数,用float32存储需要约700GB内存,根本无法在手机(通常8GB内存)上运行;大模型=慢推理:比如DALL·E生成一张图片需要10秒以上,无法满足“实时交互”需求;大模型=高功耗:比如自动驾驶的边缘设备(如车载芯片),持续运行大模型会导致电池快速耗尽。范围:本文聚焦AI原生应用的模型量化优化,涵盖量化的核心
当我们在构建大模型应用时,提示(Prompt)是连接人类意图与模型能力的核心桥梁——它决定了模型“理解问题的方式”和“输出结果的质量”。但你是否遇到过这些痛点?手动测试10条提示要花2小时,覆盖不了边界场景(比如歧义输入、多轮上下文);模型版本迭代后(比如GPT-4→GPT-4o),原本稳定的提示突然“失效”;多轮对话中,模型经常“忘记”前面的上下文,导致输出偏离预期;无法量化评估提示的“鲁棒性”
AI提示设计的实证研究,是指通过系统的实验设计,量化分析提示词的不同特征(如结构、语义、长度、示例数量等)对LLM输出性能(如准确性、相关性、创造性等)的影响,并得出可重复的结论。问题定义 → 假设提出 → 实验设计 → 结果分析 → 结论总结问题定义:示例数量(0-shot、1-shot、5-shot、10-shot)如何影响LLM在分类任务中的准确性?假设提出:示例数量越多,准确性越高,但超过
为什么需要预测性维护?事后维护:设备坏了才修,导致生产中断、损失惨重(比如工厂停机一天损失百万元);定期维护:不管设备有没有问题,到时间就修,浪费人力、物力(比如明明还能用的零件被提前换掉)。预测性维护(Predictive Maintenance, PdM)的目标是**“在故障发生前,准确预测故障时间”**,让维护人员在设备“生病”前做好准备,把损失降到最低。本文将围绕“如何用物联网和大数据实现
异构计算(Heterogeneous Computing)是指将多种不同架构的硬件(CPU、GPU、NPU、FPGA、边缘芯片等)组合在一起,让每个硬件处理自己最擅长的任务,从而实现「性能+成本+延迟」的最优平衡。CPU是「厂长」:负责整体调度、逻辑判断(比如决定「这个用户的请求该交给GPU还是NPU处理」);GPU是「装配线」:负责大规模并行计算(比如生成式AI的预训练、高维特征的矩阵乘法);
TensorFlow和PyTorch是深度学习领域的“基石框架”,也是提示工程中大模型微调、推理的核心工具。它们的并行机制主要针对深度学习任务(如模型训练、推理),支持数据并行、模型并行、管道并行三种核心策略。Ray是一个分布式计算框架,专注于任务并行(Task Parallelism)和Actor模型它的设计目标是“让分布式计算像单机计算一样简单”,非常适合提示工程中的动态任务(如多轮提示的并行
TensorFlow和PyTorch是深度学习领域的“基石框架”,也是提示工程中大模型微调、推理的核心工具。它们的并行机制主要针对深度学习任务(如模型训练、推理),支持数据并行、模型并行、管道并行三种核心策略。Ray是一个分布式计算框架,专注于任务并行(Task Parallelism)和Actor模型它的设计目标是“让分布式计算像单机计算一样简单”,非常适合提示工程中的动态任务(如多轮提示的并行
你是AI应用架构师,负责把大模型(比如GPT-4、ResNet50)部署到手机、IoT设备或边缘服务器。太大、太慢、太费电——比如GPT-4有万亿参数,手机根本装不下;ResNet50推理一张图片要100ms,实时应用(比如手机拍照识别)根本卡得没法用。知识蒸馏的目的,就是把大模型的“智慧”压缩到小模型里:让小模型的准确率接近大模型,同时体积缩小10倍、速度提升5倍。本文会讲透知识蒸馏的“底层逻辑