
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
骨干网络演进从手工设计到神经架构搜索(NAS)从纯CNN到CNN-Transformer混合架构特征融合创新FPN:自顶向下的特征金字塔PANet:双向特征融合BiFPN:加权双向特征金字塔NAS-FPN:神经架构搜索的特征融合检测头设计耦合头 → 解耦头锚点机制 → 无锚点设计单尺度 → 多尺度预测传统分类器 → 动态分类器目标检测技术在过去十年中经历了从传统方法到深度学习,从封闭集到开放世界的
由于工厂、车厂的任务需求场景非常明确,加之自今年年初以来,我司在机器人这个方向的持续大力度投入(包括南京、长沙两地机器人开发团队的先后组建),使得近期我司七月接到了不少来自车厂/工厂的订单,比如其中的三个例子:柔性上料、物料分拣、RL仿真平台搭建也让我们越来越坚定在机器人方向发力具身智能和工业协作机器人,且细分为如下三大场景初级,面向教学场景,即高校实验室的具身「教学机器人」,及给青年少年小孩的「
交叉熵损失:是分类任务的标准损失函数,通过 Softmax 将 logits 转换为概率分布,并最小化预测与真实标签之间的差异。它适用于监督学习任务。InfoNCE:是一种自监督学习中的损失函数,通过区分正负样本对的相似度来学习数据表示。它避免了 Softmax 计算的昂贵成本,适用于对比学习任务。构建一个类似于多类对比任务的框架,在其中正样本是“正确类别”,负样本是“错误类别”。在优化过程中平衡
(Volcano Engine Reinforcement Learning)是字节跳动 Seed 团队开源的强化学习训练框架,专为大规模语言模型(LLM)的后训练设计,特别适用于强化学习与人类反馈(RLHF)任务。该框架采用了混合控制器(HybridFlow)编程模型,旨在提供灵活、高效且适用于生产环境的训练能力。
理解能力 (X→Text):评估模型理解各种多模态输入(文本、音频、图像、视频)并生成文本响应的能力语音生成 (X→Speech):评估模型的语音生成能力Qwen2.5-Omni 的性能总体介于 Qwen2-7B 和 Qwen2.5-7B 之间,在大多数基准上优于 Qwen2-7B,特别是在 MMLU-Pro、MMLU-redux、MATH、GSM8K、MBPP、MultiPL-E 和 LiveC
三大组件: Thinker (理解) + Talker (语音) + Captioner (描述)渐进式训练: SFT → 蒸馏 → GSPO/DPO创新算法: GSPO 序列级优化混合奖励: 规则 + 模型评估多模态融合: 统一的 ChatML 格式关键优势✅ 训练稳定高效✅ MoE 模型友好✅ 基础设施简化✅ 性能持续提升版本: v1.0更新: 2025年用途: 快速参考和实践指导。
Referring Object Detection 是目标检测与自然语言处理(NLP)的交叉任务,核心目标是:给定一张图像和一段自然语言指称表达式(如“左边的猫”“穿红色衣服站在中间的人”),定位图像中与该表达式匹配的唯一目标,并输出其边界框(Bounding Box)。与通用目标检测通用检测:输出“所有猫的位置”(类别已知,多目标可能);ROD:输出“符合‘左边的猫’描述的位置”(依赖语言描述
相似的图像(如同一个人的不同照片)在特征空间中距离很近不相似的图像(如不同人的照片)在特征空间中距离很远传统的分类损失(如交叉熵)需要预先知道所有类别,但在人脸识别中,我们可能会遇到训练时没见过的新人脸。Triplet Loss通过学习一个嵌入空间(Embedding Space),使得相似样本靠近,不相似样本远离,从而解决这个问题。三元组结构目标DapαDanDapαDan损失函数L∥fa−fp
关键配置参数类别参数值说明模型model_pathQwen2.5-VL-7B-Instruct基础视觉-语言模型数据train_filesjourneybench-multi-image-vqa@train多图像VQA训练集val_filesjourneybench-multi-image-vqa@test多图像VQA测试集rollout_batch_size256Rollout批次大小limit
下面这版是面向「全模态训练与工程落地」的解释:把 RoPE → M-RoPE →串起来,并把与一个讲清楚。关键结论与出处均在段尾给出引用。







