logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

概率预测 vs 链式推理:大模型时代的两大核心范式

概率预测与链式推理的协同进化,正在重塑 AI 技术的应用边界。随着 DeepSeek 等开源模型的普及,开发者需要深入理解两者的互补特性概率模型提供效率基线,推理模型突破能力上限。未来,动态感知任务特征并自动切换处理模式的认知弹性架构,或将开启人机协作的新纪元。关注我,获取更多 AI 技术深度解读、模型原理剖析与开发实战干货,一起在技术浪潮中探索前沿,解锁更多编程与 AI 融合的创新思路!

文章图片
#人工智能#语言模型#DeepSeek
一文读懂什么是大模型上下文学习

简单来说,上下文学习就是大模型通过分析输入文本的前后信息,理解其语境,进而给出更贴合实际需求的输出。以日常生活中的对话为例,当你和朋友聊天说:“我昨天去超市,想买点水果,但是……”,朋友自然会根据前文 “买水果” 和 “但是” 这个转折,猜测你接下来可能会说水果没货、价格太贵等相关内容。大模型的上下文学习也是如此,它从海量文本数据中学习到词汇、语句在不同语境下的关联,从而在面对新文本时,利用这些知

#自然语言处理#人工智能
借助具体案例理解大模型的两大核心特性:扩展法则与涌现能力

定义:大模型的扩展法则主要描述了模型性能与模型规模(如参数数量、训练数据量、计算资源等)之间的关系。简单来说,在一定范围内,随着模型规模的增大,模型在各种任务上的性能会以可预测的方式提升。生活案例:这就好比盖房子,房子越大(模型规模越大),能容纳的功能就越多(模型性能越强)。实例:以 GPT 系列模型为例,GPT - 3 拥有 1750 亿个参数,相比之前参数规模较小的模型,它在语言生成、知识问答

文章图片
#语言模型#人工智能
大语言模型构建三部曲:预训练、微调与人类对齐详解

大语言模型的构建是一场数据、算力与人类智慧的协同作战。理解这三个阶段的本质,才能更好地把握 AI 技术的发展脉络。无论是研究者还是开发者,都需要在技术突破与伦理约束之间找到平衡点。扩展阅读GPT-4 技术报告核心解读十分钟看懂 Transformer 架构开源大模型训练实战指南。

文章图片
#语言模型#人工智能#自然语言处理
一文读懂大模型的 “幻觉问题”:现象、根源与破局之道

幻觉问题指大模型生成看似合理但实际错误、虚构或不符合现实的内容的现象。它不同于简单的知识错误,而是模型在“自信地编造”与真实世界脱节的信息,具有隐蔽性强、逻辑自洽的特点。据统计,GPT-4 在开放域问答中的幻觉率仍高达 15%-20%。

文章图片
一文搞懂预训练是什么:深度学习的基石,大模型时代的核心方法论

预训练(Pre-training)指在大规模无标注或弱标注数据集上,通过自监督学习(Self-supervised Learning)或弱监督学习(Weakly-supervised Learning)的方式,预先训练一个通用模型,使其学习到数据的内在规律与特征表示能力。未来,随着多模态学习、高效训练算法的进步,预训练将继续引领深度学习的新范式。在自然语言处理(NLP)、计算机视觉(CV)等领域,

#人工智能#深度学习#语言模型
一文搞懂全量微调和 LoRA 微调的区别

实际应用中,LoRA 因高效灵活的特性,已成为开源社区的主流选择(如 LLaMA、Alpaca 的微调多采用 LoRA)。全量微调和 LoRA 微调是模型微调的两种主要方法,它们的核心区别在于。

文章图片
#人工智能#深度学习#机器学习
从 GPT-1 到 ChatGPT4o:ChatGPT的发展之路(2018-2025)

2015 年,伊隆・马斯克、山姆・奥特曼等人创立 OpenAI,目标是推动安全的通用人工智能(AGI)发展。首代生成式预训练模型,通过 Transformer 架构实现语言理解,但泛化能力有限,主要作为研究工具。参数量增至 15 亿,首次展现文本生成能力(如摘要、续写),因担忧被滥用而限制发布,但后续开源推动了 NLP 研究。突破性模型,1750 亿参数,支持零样本学习,可完成翻译、问答等任务。微

文章图片
#人工智能
一文搞懂预训练是什么:深度学习的基石,大模型时代的核心方法论

预训练(Pre-training)指在大规模无标注或弱标注数据集上,通过自监督学习(Self-supervised Learning)或弱监督学习(Weakly-supervised Learning)的方式,预先训练一个通用模型,使其学习到数据的内在规律与特征表示能力。未来,随着多模态学习、高效训练算法的进步,预训练将继续引领深度学习的新范式。在自然语言处理(NLP)、计算机视觉(CV)等领域,

#人工智能#深度学习#语言模型
一文读懂什么是大模型上下文学习

简单来说,上下文学习就是大模型通过分析输入文本的前后信息,理解其语境,进而给出更贴合实际需求的输出。以日常生活中的对话为例,当你和朋友聊天说:“我昨天去超市,想买点水果,但是……”,朋友自然会根据前文 “买水果” 和 “但是” 这个转折,猜测你接下来可能会说水果没货、价格太贵等相关内容。大模型的上下文学习也是如此,它从海量文本数据中学习到词汇、语句在不同语境下的关联,从而在面对新文本时,利用这些知

#自然语言处理#人工智能
    共 31 条
  • 1
  • 2
  • 3
  • 4
  • 请选择