
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
自从Transformer诞生以来,LLM(Large Language Model)大模型技术就开始蓬勃发展,从ChatGPT系列到国内的DeepSeek、通义千问系列,大模型技术不断迭代,一次次突破性能指标上限。但是,大模型的落地应用成为行业难题,诸如智能体、RAG等技术不断解决落地难和应用难的问题。繁多的技术规范不统一,学习起来极为困难,而Spring AI、LangChain等技术正是统一

自从Transformer诞生以来,LLM(Large Language Model)大模型技术就开始蓬勃发展,从ChatGPT系列到国内的DeepSeek、通义千问系列,大模型技术不断迭代,一次次突破性能指标上限。但是,大模型的落地应用成为行业难题,诸如智能体、RAG等技术不断解决落地难和应用难的问题。繁多的技术规范不统一,学习起来极为困难,而Spring AI、LangChain等技术正是统一

梯度爆炸/梯度消失:训练神经网络的过程中,由于网络层数过多以及激活函数选择原因,出现的导数很大或很小的现象,导致训练难度加大。举一个栗子:假如网络的每层每个权重值都>1,就是1.5,忽略偏置b,网络有100层,激活函数是线性激活函数即输出原值,那么1.5的100次方约为406,561,177,535,215,237,这就是指数爆炸带来的效果。如果权重值都<1,那么网络层数很多的话,输出就会趋于0,

对于一个神经网络我们知道,归一化输入特征是加速网络训练的技巧之一,因为归一化后,损失函数的图像就会由狭长变得更圆,那么这是否启发我们,在深度更深模型中,对各层的输出进行归一化,有益于下一层的学习?毕竟上一层的输出是下一层的输入。这就是由于每一层的参数更新后,对于同一输入,输出的分布就会发生改变(这称之为),这带来的影响是下一层需要不断适应上一层输出的分布,从而导致下一层与上一层之间的联系紧密(有点

如果想了解更多细节,可以查看官方文档和git仓库:分布式任务调度平台XXL-JOB源码仓库XXL-JOB是一个分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。该技术最初是由许雪里于2015年研发,随后开源,逐渐成为国产热门的分布式任务调度平台。在需要定时执行的方法(定时任务)前添加@XxlJob注解,并声明JobHandle

由于是在虚拟机里安装的RabbitMQ,因此一般遇到进程无法启动就考虑:端口号占用问题、ip主机名映射、配置文件问题等等方面。这里已经排除了端口号占用问题,发现是ip主机名映射问题导致的问题。这是由于个人配置的静态ip由于网络环境问题经常发生变化,因此ip和主机名的映射经常是旧的关系。
在之前的博客《深度学习—简单的卷积神经网络》,仅由卷积层构成网络的全部,这还不是标准的网络结构,本文将继续介绍标准的卷积神经网络结构有哪些?深度学习基础—简单的卷积神经网络假设需要进行手写数字识别,输入图片是32*32*3大小的RGB图片,下面我们来构建一个卷积神经网络实现这个功能:注:该网络和经典网络LeNet-5非常相似,灵感也来源于此。LeNet-5是多年前Yann LeCun创建的,但是我

第l层的输入是第l-1层的输出,nH[l-1]和nW[l-1]表示第l层输入的图片的高和宽(不一定是正方形图片),由于l-1层有几个过滤器,最后输出的图片就有几个通道,因此l层的输入图片的通道数等于l-1层的过滤器的数量。假设当前位于l层,则输入6*6*3的彩色图片,有两个3*3*3的过滤器,卷积操作后将输出2个4*4的图片。假设输入的彩色图片为x,大小是39*39*3,在第一层中,过滤器有10个

多任务之间通常具有一定程度的相似性,因此数据之间也可以提供一定的帮助,比如某个任务只有1000个样本,需要进行100个任务,但如果只专注于第100个任务的学习,那么网络只有1000个样本,利用上其余99个任务的数据,在多任务数据量接近的情况下,就多了99000个样本,对网络的性能就有大幅提升。假设需要进行无人驾驶汽车模型的训练,对于一个图片,需要同时识别出图片中的汽车、行人、告示牌、交通信号灯,如








