logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM】Openai之gpt-oss模型和GPT5模型

Openai开源两个模型:gpt-oss-120b,对标 o4-mini,117B 参数,5.1B 激活量,运行该模型,需要 80G 内存,单卡 H100 GPU 可运行。gpt-oss-20b,对标 o4-mini,21B 参数,3.6B 激活量,运行该模型,需要 16G 内存,单卡 4060 Ti 可运行。原生MXFP4量化,模型采用原生MXFP4精度训练MoE层。关于部署,https://g

文章图片
Colab简明使用教程

demo:https://reurl.cc/ra63jE学习目标:用GPU加速、下载文件、将colab连接google drive等ps:下文部分翻译自李宏毅dl课程的google colab tutorial。文章目录1.通过google drive下载文件2.安装google drive3.使用linux命令操作4.其他Reference1.通过google drive下载文件注意:(1)每次

文章图片
#python#自动驾驶#深度学习
机器人操作系统ROS浅析

文章目录一、ROS简介二、学习路径三、ROS的核心概念3.1 ROS是一种跨平台模块化软件通讯机制(1)节点Node——执行单元(2)节点管理器 (ROS Master)—— 控制中心3.2 话题通信3.2 服务通信3.3 文件系统R eference一、ROS简介ROS是Robot Operating System的缩写,原本是斯坦福大学的一个机器人项目,后来由Willow Garage公司发展

文章图片
【RL】Does RLVR enable LLMs to self-improve?

论文:Does RLVR enable LLMs to self-improve?研究问题:这篇文章探讨了强化学习(RL)在提升大型语言模型(LLMs)推理能力方面的潜力,特别是是否超越了基础模型的推理能力。研究难点:该问题的研究难点包括:如何准确评估LLMs的推理能力边界,以及现有的RLVR方法是否能够引入新的推理模式。相关工作:该问题的研究相关工作包括OpenAI的o1模型、DeepSeek-

文章图片
#深度学习
【MLLM】全模态Omni模型(持续更新)

meituan开源全模态大模型:https://github.com/meituan-longcat/LongCat-Flash-Omni。基于稀疏专家架构的全模态训练 Ming-flash-omni-Preview 将 Ling-flash-2.0 稀疏 MoE 架构拓展到全模态大模型,基于 Ming-lite-omni 提出的模态级路由实现对各模态分布和路由策略建模,实现各模态的 “大容量、小

文章图片
【MLLM】全模态Omni模型(持续更新)

meituan开源全模态大模型:https://github.com/meituan-longcat/LongCat-Flash-Omni。基于稀疏专家架构的全模态训练 Ming-flash-omni-Preview 将 Ling-flash-2.0 稀疏 MoE 架构拓展到全模态大模型,基于 Ming-lite-omni 提出的模态级路由实现对各模态分布和路由策略建模,实现各模态的 “大容量、小

文章图片
【RL】Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

提出了监督强化学习(SRL)框架,通过将专家解决方案分解为可管理的步骤并提供密集的序列相似度奖励,显著提高了LLMs在复杂推理任务上的性能。实验结果表明,SRL不仅在数学推理和软件工程任务上优于基线方法,还能与RLVR结合形成强大的课程学习策略。SRL作为一种稳健且通用的技术,能够解锁模型从具有挑战性的多步问题中学习的能力,为训练更强大、更多功能的AI代理奠定了基础。SRL巧妙地融合了SFT和RL

文章图片
【Python可视化】绘制学生成绩的雷达图

一、雷达图介绍雷达图,又叫蜘蛛网图、极坐标图。雷达图相当于平行坐标图,其中轴径向排列。二、Python代码栗子:给定某学生的各科成绩,绘制雷达图。步骤:(1)得到自变量和因变量;(2)需要用angles角度数组,将圆周分为dataLength份,然后【闭合】操作。(3)设置雷达图参数。# -*- coding: utf-8 -*-"""Created on Mon Feb 14 15:09:43

文章图片
#数据可视化
【RL-LLM】Self-Rewarding Language Models

Self-Rewarding Language Models- 研究问题:这篇文章要解决的问题是如何通过自我奖励的语言模型(Self-Rewarding Language Models)来实现超人类智能代理。具体来说,现有的方法通常依赖于人类偏好数据来训练奖励模型,然后使用这些模型来训练大型语言模型(LLM),但这种方法存在瓶颈,即人类偏好数据的大小和质量限制。- 研究难点:该问题的研究难点包括:

文章图片
【LLM】deepseek多模态之Janus-Pro和JanusFlow框架

# note@[toc]# 一、Janus-Pro:解耦视觉编码,实现多模态高效统一anus-Pro是一个新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码分离为“理解”和“生成”两条路径,同时仍采用单一的Transformer架构进行处理,解决了以往方法的局限性。这种分离不仅缓解了视觉编码器在理解和生成中的角色冲突,还提升了框架的灵活性。## 技术亮点- 视觉编码解耦:采用独立的路径分别处

文章图片
    共 359 条
  • 1
  • 2
  • 3
  • 36
  • 请选择