weixin_47231119 个人主页

@weixin_47231119

weixin_47231119

2022-12-07 12:19:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

概率预测 vs 链式推理：大模型时代的两大核心范式

概率预测与链式推理的协同进化，正在重塑 AI 技术的应用边界。随着 DeepSeek 等开源模型的普及，开发者需要深入理解两者的互补特性概率模型提供效率基线，推理模型突破能力上限。未来，动态感知任务特征并自动切换处理模式的认知弹性架构，或将开启人机协作的新纪元。关注我，获取更多 AI 技术深度解读、模型原理剖析与开发实战干货，一起在技术浪潮中探索前沿，解锁更多编程与 AI 融合的创新思路！

#人工智能 #语言模型 #DeepSeek

一文读懂什么是大模型上下文学习

简单来说，上下文学习就是大模型通过分析输入文本的前后信息，理解其语境，进而给出更贴合实际需求的输出。以日常生活中的对话为例，当你和朋友聊天说：“我昨天去超市，想买点水果，但是……”，朋友自然会根据前文 “买水果” 和 “但是” 这个转折，猜测你接下来可能会说水果没货、价格太贵等相关内容。大模型的上下文学习也是如此，它从海量文本数据中学习到词汇、语句在不同语境下的关联，从而在面对新文本时，利用这些知

#自然语言处理 #人工智能

借助具体案例理解大模型的两大核心特性：扩展法则与涌现能力

定义：大模型的扩展法则主要描述了模型性能与模型规模（如参数数量、训练数据量、计算资源等）之间的关系。简单来说，在一定范围内，随着模型规模的增大，模型在各种任务上的性能会以可预测的方式提升。生活案例：这就好比盖房子，房子越大（模型规模越大），能容纳的功能就越多（模型性能越强）。实例：以 GPT 系列模型为例，GPT - 3 拥有 1750 亿个参数，相比之前参数规模较小的模型，它在语言生成、知识问答

#语言模型 #人工智能

大语言模型构建三部曲：预训练、微调与人类对齐详解

大语言模型的构建是一场数据、算力与人类智慧的协同作战。理解这三个阶段的本质，才能更好地把握 AI 技术的发展脉络。无论是研究者还是开发者，都需要在技术突破与伦理约束之间找到平衡点。扩展阅读GPT-4 技术报告核心解读十分钟看懂 Transformer 架构开源大模型训练实战指南。

#语言模型 #人工智能 #自然语言处理

一文读懂大模型的 “幻觉问题”：现象、根源与破局之道

幻觉问题指大模型生成看似合理但实际错误、虚构或不符合现实的内容的现象。它不同于简单的知识错误，而是模型在“自信地编造”与真实世界脱节的信息，具有隐蔽性强、逻辑自洽的特点。据统计，GPT-4 在开放域问答中的幻觉率仍高达 15%-20%。

一文搞懂预训练是什么：深度学习的基石，大模型时代的核心方法论

预训练（Pre-training）指在大规模无标注或弱标注数据集上，通过自监督学习（Self-supervised Learning）或弱监督学习（Weakly-supervised Learning）的方式，预先训练一个通用模型，使其学习到数据的内在规律与特征表示能力。未来，随着多模态学习、高效训练算法的进步，预训练将继续引领深度学习的新范式。在自然语言处理（NLP）、计算机视觉（CV）等领域，

#人工智能 #深度学习 #语言模型

一文搞懂全量微调和 LoRA 微调的区别

实际应用中，LoRA 因高效灵活的特性，已成为开源社区的主流选择（如 LLaMA、Alpaca 的微调多采用 LoRA）。全量微调和 LoRA 微调是模型微调的两种主要方法，它们的核心区别在于。

#人工智能 #深度学习 #机器学习

从 GPT-1 到 ChatGPT4o：ChatGPT的发展之路（2018-2025）

2015 年，伊隆・马斯克、山姆・奥特曼等人创立 OpenAI，目标是推动安全的通用人工智能（AGI）发展。首代生成式预训练模型，通过 Transformer 架构实现语言理解，但泛化能力有限，主要作为研究工具。参数量增至 15 亿，首次展现文本生成能力（如摘要、续写），因担忧被滥用而限制发布，但后续开源推动了 NLP 研究。突破性模型，1750 亿参数，支持零样本学习，可完成翻译、问答等任务。微

#人工智能

一文搞懂预训练是什么：深度学习的基石，大模型时代的核心方法论

#人工智能 #深度学习 #语言模型

一文读懂什么是大模型上下文学习

#自然语言处理 #人工智能

共 28 条

请选择