logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

神经网络如何学习:从损失函数到反向传播

本文通过冰淇淋销量预测的简单示例,形象地解释了神经网络训练的核心机制。作者将训练过程类比为调整老式收音机旋钮,通过不断试错来优化模型参数。文章重点阐述了三个关键环节:1)损失函数量化预测误差,如均方误差;2)梯度计算确定参数调整方向;3)前向传播执行当前参数下的预测。整个过程展示了模型如何通过"预测-计算误差-调整参数"的闭环逐步改进,最终使预测值逼近真实值。这种直观的解释方式有助于理解复杂的神经

#神经网络#学习#机器学习
从 y = ax + b 到神经网络:为什么 AI 可以被看作函数逼近

神经网络本质上是复杂的函数逼近器,它将各种智能任务(如图像识别、翻译、文本生成)统一视为输入到输出的映射问题。不同于传统的手写规则方法,神经网络通过大量可学习参数让数据自动塑造函数结构。从最简单的线性函数到多层非线性变换,神经网络通过隐藏层和激活函数逐步构建复杂的决策边界。这种数据驱动的学习方式避免了人工规则的局限性,能够自动捕捉输入与输出之间的统计关系,从而在图像、语言等复杂任务中展现出强大能力

#人工智能#神经网络#深度学习
大模型收费从来不是统一价?输入、输出、缓存命中各算各的,这背后到底藏着什么门道?

本文解析了大模型API计费背后的逻辑,指出token计费差异源于推理过程的不同阶段。输入token对应prefill阶段的并行处理,输出token反映顺序生成的decode过程,缓存命中token则体现复用计算的价值。文章通过具体案例说明,相同数量的token在不同阶段会产生不同成本,并分析了长上下文、缓存机制对费用的影响。核心观点是:API计费不是简单的字符计数,而是反映了模型在不同推理阶段的实

#人工智能
到底了