
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我们描述了一种简单的无监督域自适应方法,即通过交换源和目标分布的低频频谱来减小源和目标分布之间的差异。我们在语义分割中说明了该方法,其中密集注释的图像在一个领域(例如,合成数据)中很丰富,但在另一个领域(例如,真实图像)中很难获得。目前最先进的方法是复杂的,一些需要对抗性优化,以使神经网络的主干对离散域选择变量保持不变。我们的方法不需要任何训练来执行域对齐,只需要一个简单的傅里叶变换及其逆变换。尽

拿到一台新服务器的一些环境配置和一些linux指令,老是搞忘咋办呢
简单记录一下docker 部署vllm 服务, 为什么呢,因为我就是记不住啊

今年因为开学一个月之后才拿到签证被迫gap了,最近论文没啥好思路,再则又攒了点文章想着看看能不能申请个更好的项目所以搭个个人网站,本人之前纯算法开发可以说0经验,所以这个笔记也希望帮到更多的人?以后个人网站和csdn同步更新啦,github 关注主播Scabbards1500谢谢喵

verl 强化学习框架以及一些llm ppo 理论速通一下,不太懂,如果里面有不对的欢迎指正

模型推理速度和吞吐量,算Inference Speed (in ms)的!

本文研究了在缺乏显式标签的数据上,对大型语言模型(LLMs)进行推理任务的强化学习(RL)。该问题的核心挑战在于:在推理阶段无法访问真实标签(ground truth)的情况下,如何进行奖励估计。尽管这一设定看似难以实现,我们发现,测试时扩展(Test-Time Scaling, TTS)中的常见做法(如多数投票),能够产生出乎意料地有效的奖励信号,足以驱动强化学习训练。在此基础上,本文提出了测试

我们提出了一种新的分割任务-推理分割。该任务的目的是在给定复杂且隐式的查询文本的情况下输出分割mask。此外,我们建立了一个由一千多个图像指令对组成的基准,将复杂的推理和世界知识纳入评估目的。最后,我们提出了LISA:大型语言指导分割助手,它继承了多模态大型语言模型(LLM)的语言生成能力,同时还具有生成分割掩码的能力。LISA可以处理以下情况:1)复杂推理;2)世界知识;3)解释性答案;4)多回

verl 强化学习框架以及一些llm ppo 理论速通一下,不太懂,如果里面有不对的欢迎指正

大型语言模型正越来越多地通过强化学习在可验证领域(如代码和数学)进行后训练。然而,当前基于可验证奖励的强化学习方法(RLVR)仅依赖每次尝试的标量结果奖励进行学习,这导致了严重的信用分配问题(credit assignment bottleneck)。实际上,许多可验证环境能够提供丰富的文本反馈,例如运行时错误或评审打分,这些信息能够解释一次尝试为何失败。本文将这一情境形式化为一种带有丰富反馈的强








