logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

为什么大模型能记住那么多知识?从参数到涌现能力讲透

模型架构的能力增强(Model Scaling)是指通过增加神经网络的参数数量、训练数据规模或计算资源来提升模型性能的现象。这种增强不仅仅是简单的"量变",更常常带来意想不到的"质变"——模型开始展现出在小规模时完全不具备的新能力。想象你有一个学生,当他只读过几本书时,只能回答简单的问题。但当他读过的书越来越多,大脑中的神经连接越来越复杂时,他不仅能回答更难的问题,甚至开始能够进行逻辑推理、创作诗

文章图片
#语言模型#人工智能#自然语言处理
当参数突破千亿:大数据+大模型范式与AI涌现能力的秘密

《大数据与大模型:AI发展的范式转变》摘要 本文系统阐述了"大数据+大模型"这一AI发展新范式。该范式通过同步扩大训练数据规模(万亿级词元)和神经网络参数量(千亿级),产生了显著的协同效应。研究发现,当模型规模达到临界点时,会涌现出小模型不具备的新能力,如复杂推理和代码生成。这种范式虽带来通用性强、知识覆盖面广等优势,但也面临计算资源消耗大、可解释性差等挑战。目前广泛应用于AI

文章图片
#大数据#人工智能#rnn +1
什么是外在评测?为什么最终还是要看模型在实际任务中的表现?

📌 外在评测(Extrinsic Evaluation)是AI模型评估的核心方法,它通过将模型部署到真实应用场景中,直接衡量其业务价值而非技术指标。与内在评测(如BLEU分数、准确率等)相比,外在评测聚焦三大优势: 1️⃣ 真实性 - 在完整系统中评估用户满意度、任务效率等实际表现 2️⃣ 业务导向 - 直接关联商业KPI如转化率、收入增长 3️⃣ 综合性 - 考量数据质量、用户行为等全链路因素

文章图片
#语言模型#人工智能#自然语言处理
AI的‘温度‘旋钮:为什么调高温度能让机器写出更疯狂的创意?

在使用大语言模型时,你可能经常听到"temperature"(温度)这个参数。它就像AI的"创造力调节器",通过调整这个看似神秘的数字,我们就能控制AI输出是保守稳妥还是天马行空。那么,temperature到底是什么?它又是如何影响AI的创造力的呢?temperature参数本质上是一个控制概率分布平滑度的超参数。要理解这一点,我们需要先了解大语言模型是如何生成文本的。大语言模型在生成每个词时,

文章图片
#人工智能#自然语言处理#nlp +1
为什么AI不需要考虑所有可能性?Top-K采样的智慧选择

本文介绍了top-k采样技术及其在AI文本生成中的应用。top-k采样通过仅考虑概率最高的前k个候选词,在保持生成合理性的同时增加多样性。文章详细解析了其工作原理,包括排序、筛选、重归一化和随机选择四个步骤,并探讨了k值选择的关键性。对比了top-k采样的优劣势,指出其在避免不合理输出与平衡多样性方面的优势,但也存在参数调优困难等局限。最后,文章提及了top-k采样在聊天机器人、内容创作等场景的实

文章图片
#人工智能
为什么AI不需要考虑所有可能性?Top-K采样的智慧选择

本文介绍了top-k采样技术及其在AI文本生成中的应用。top-k采样通过仅考虑概率最高的前k个候选词,在保持生成合理性的同时增加多样性。文章详细解析了其工作原理,包括排序、筛选、重归一化和随机选择四个步骤,并探讨了k值选择的关键性。对比了top-k采样的优劣势,指出其在避免不合理输出与平衡多样性方面的优势,但也存在参数调优困难等局限。最后,文章提及了top-k采样在聊天机器人、内容创作等场景的实

文章图片
#人工智能
为什么给AI一点‘混乱‘反而让它更聪明?随机采样的神奇力量

随机采样是AI文本生成中引入随机性的策略,通过概率分布选择词语而非总是选择最优解,使输出更自然多样。核心参数温度(Temperature)控制随机程度,配合Top-k/Top-p采样避免失控。这种技术让AI对话更接近人类表达,但也可能产生不连贯内容。应用包括创意写作、聊天机器人等,现代系统常结合束搜索等混合策略平衡创造性与可控性。随机采样解决了AI输出单调的问题,但需在参数调优与结果质量间找到平衡

文章图片
#人工智能#transformer#大数据 +1
为什么给AI一点‘混乱‘反而让它更聪明?随机采样的神奇力量

随机采样是AI文本生成中引入随机性的策略,通过概率分布选择词语而非总是选择最优解,使输出更自然多样。核心参数温度(Temperature)控制随机程度,配合Top-k/Top-p采样避免失控。这种技术让AI对话更接近人类表达,但也可能产生不连贯内容。应用包括创意写作、聊天机器人等,现代系统常结合束搜索等混合策略平衡创造性与可控性。随机采样解决了AI输出单调的问题,但需在参数调优与结果质量间找到平衡

文章图片
#人工智能#transformer#大数据 +1
传话游戏的AI版:为什么RNN记不住开头说了什么

RNN的长距离依赖问题指循环神经网络难以保持远距离序列信息完整性的缺陷。在自然语言处理中,理解长句需要跨越多个词建立联系(如代词指代),但RNN通过隐藏状态传递信息时,随着时间步增加会出现梯度消失/爆炸问题,导致关键信息衰减或失真。这一问题影响机器翻译、文本生成等任务的表现。解决方案包括引入LSTM/GRU的门控机制、采用Transformer的自注意力架构,以及使用残差连接等技术。虽然RNN逐渐

文章图片
#人工智能#游戏#rnn +1
一文读懂 n-grams:大模型出现前,语言模型就靠它

在深度学习时代之前,让机器理解人类语言是一个巨大的挑战。早期的AI系统面对文本时,就像一个完全不懂中文的外国人看一本中文小说——每个字都认识,但组合起来就懵了。

文章图片
#语言模型#人工智能#自然语言处理
    共 29 条
  • 1
  • 2
  • 3
  • 请选择