King的王国个人主页

@qq_28057379

King的王国

2023-01-17 11:21:04 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

RL 并非只能 “打磨” LLM 已有能力，通过两阶段奖励调度 + 持续探索，它能让模型实现顿悟，解锁基座完全不具备的全新算法；但这种突破的泛化能力仍有局限，未来需重点优化跨场景迁移，让 RL 真正成为 LLM 推理能力跃迁的核心驱动力。

#人工智能 #机器学习 #深度学习

【RL】RL Grokking Recipe: How Does RL Unlock and Transfer New Algorithms in LLMs?

#人工智能 #机器学习 #深度学习

【RL】ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

核心结论：这篇NeurIPS 2025论文（NVIDIA 团队）: ProRL 通过延长稳定的 RL 训练，让模型在新颖、困难、基座不会的任务上，真正学到新的推理策略，实现推理边界的扩展，而不是简单地优化已有能力。主流观点：RL 仅提升基础模型中已有高奖励输出的采样概率，无法解锁新推理能力。本文质疑：过往研究训练步数太少（<500 步）、任务单一，未给模型足够探索时间。RL 能否让 LLM 发现b

#语言模型 #人工智能 #深度学习

深度学习基础知识-----多通道卷积计算

以彩色RGB三通道图像为例：1、一个卷积核（一个Filter）的计算输入层与卷积核，需要有相同的channel数；输入层的每个channel 与卷积核对应的channel 进行卷积计算，然后每个 channel 的卷积结果按位相加得到最终的特征图。2、多卷积核（多个Filter）的计算（下图以2个Filter为例）当有多个卷积核时，可以学习到多种不同的特征，对应产生包含多个 channel 的 F

目标检测-----准确率、精准率、召回率、F1值

Precise表示正确预测正样本占实际预测为正样本的比例Recall表示正确预测正样本占正样本的比例Accuracy表示预测符合标签的样本与总样本的比例F1 measure

深度学习基础-----BN层

https://zhuanlan.zhihu.com/p/34879333

卷积神经网络发展历程

CNN模型发展史：从LeNet，AlexNet，GoogleNet，VGG到ResNet，SENet，Xception，MobileNet，ShuffleNet_山中有石为玉-CSDN博客

#神经网络

目标检测-----准确率、精准率、召回率、F1值

Precise表示正确预测正样本占实际预测为正样本的比例Recall表示正确预测正样本占正样本的比例Accuracy表示预测符合标签的样本与总样本的比例F1 measure

深度学习基础知识-----多通道卷积计算

深度学习基础----ConvTranspose2d(反卷积操作)

1、函数：torch.nn.ConvTranspose2d(in_channels,out_channels,kernel_size,stride=1,padding=0,output_padding=0,

共 21 条

请选择