logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深度学习及LLM/VLM目标检测算法发展史调研报告

骨干网络演进从手工设计到神经架构搜索(NAS)从纯CNN到CNN-Transformer混合架构特征融合创新FPN:自顶向下的特征金字塔PANet:双向特征融合BiFPN:加权双向特征金字塔NAS-FPN:神经架构搜索的特征融合检测头设计耦合头 → 解耦头锚点机制 → 无锚点设计单尺度 → 多尺度预测传统分类器 → 动态分类器目标检测技术在过去十年中经历了从传统方法到深度学习,从封闭集到开放世界的

#深度学习#目标检测#算法
ReKep——李飞飞团队提出的让机器人具备空间智能:基于VLM模型GPT-4o和关系关键点约束(含源码解析)

由于工厂、车厂的任务需求场景非常明确,加之自今年年初以来,我司在机器人这个方向的持续大力度投入(包括南京、长沙两地机器人开发团队的先后组建),使得近期我司七月接到了不少来自车厂/工厂的订单,比如其中的三个例子:柔性上料、物料分拣、RL仿真平台搭建也让我们越来越坚定在机器人方向发力具身智能和工业协作机器人,且细分为如下三大场景初级,面向教学场景,即高校实验室的具身「教学机器人」,及给青年少年小孩的「

#人工智能
Loss/损失函数04:InfoNCE(Information Noise-Contrastive Estimation)【对比学习损失】【用于Embedding模型(BiEncoder双塔结构)】

交叉熵损失:是分类任务的标准损失函数,通过 Softmax 将 logits 转换为概率分布,并最小化预测与真实标签之间的差异。它适用于监督学习任务。InfoNCE:是一种自监督学习中的损失函数,通过区分正负样本对的相似度来学习数据表示。它避免了 Softmax 计算的昂贵成本,适用于对比学习任务。构建一个类似于多类对比任务的框架,在其中正样本是“正确类别”,负样本是“错误类别”。在优化过程中平衡

#学习#人工智能
RL(强化学习)-训练开源库01:VeRL

(Volcano Engine Reinforcement Learning)是字节跳动 Seed 团队开源的强化学习训练框架,专为大规模语言模型(LLM)的后训练设计,特别适用于强化学习与人类反馈(RLHF)任务。该框架采用了混合控制器(HybridFlow)编程模型,旨在提供灵活、高效且适用于生产环境的训练能力。

#人工智能
Qwen2.5-Omni-详解05:Evaluation

理解能力 (X→Text):评估模型理解各种多模态输入(文本、音频、图像、视频)并生成文本响应的能力语音生成 (X→Speech):评估模型的语音生成能力Qwen2.5-Omni 的性能总体介于 Qwen2-7B 和 Qwen2.5-7B 之间,在大多数基准上优于 Qwen2-7B,特别是在 MMLU-Pro、MMLU-redux、MATH、GSM8K、MBPP、MultiPL-E 和 LiveC

#人工智能
Qwen3-Omni-详解03:Post-training(后训练)

三大组件: Thinker (理解) + Talker (语音) + Captioner (描述)渐进式训练: SFT → 蒸馏 → GSPO/DPO创新算法: GSPO 序列级优化混合奖励: 规则 + 模型评估多模态融合: 统一的 ChatML 格式关键优势✅ 训练稳定高效✅ MoE 模型友好✅ 基础设施简化✅ 性能持续提升版本: v1.0更新: 2025年用途: 快速参考和实践指导。

#人工智能
目标检测:指代目标检测(ROD/Referring Object Detection)【比如:“沙发上的抱枕”】【“语言描述→视觉特征映射→目标定位”】

Referring Object Detection 是目标检测与自然语言处理(NLP)的交叉任务,核心目标是:给定一张图像和一段自然语言指称表达式(如“左边的猫”“穿红色衣服站在中间的人”),定位图像中与该表达式匹配的唯一目标,并输出其边界框(Bounding Box)。与通用目标检测通用检测:输出“所有猫的位置”(类别已知,多目标可能);ROD:输出“符合‘左边的猫’描述的位置”(依赖语言描述

#目标检测#人工智能#计算机视觉
Loss/损失函数05:Triplet Loss(三元组损失)详解【拉近类内距离、拉远类间距离】【应用场景:人脸识别、图像检索、行人重识别、签名验证、语音识别】

相似的图像(如同一个人的不同照片)在特征空间中距离很近不相似的图像(如不同人的照片)在特征空间中距离很远传统的分类损失(如交叉熵)需要预先知道所有类别,但在人脸识别中,我们可能会遇到训练时没见过的新人脸。Triplet Loss通过学习一个嵌入空间(Embedding Space),使得相似样本靠近,不相似样本远离,从而解决这个问题。三元组结构目标DapαDanDapαDan损失函数L∥fa−fp

#人工智能
EasyR1 强化学习训练详细分析

关键配置参数类别参数值说明模型model_pathQwen2.5-VL-7B-Instruct基础视觉-语言模型数据train_filesjourneybench-multi-image-vqa@train多图像VQA训练集val_filesjourneybench-multi-image-vqa@test多图像VQA测试集rollout_batch_size256Rollout批次大小limit

#人工智能
Qwen2.5-Omni-详解01:TMRoPE【多模态旋转位置嵌入M-RoPE+强制绝对时间对齐(40 ms/ID)】

下面这版是面向「全模态训练与工程落地」的解释:把 RoPE → M-RoPE →串起来,并把与一个讲清楚。关键结论与出处均在段尾给出引用。

#人工智能
    共 976 条
  • 1
  • 2
  • 3
  • 98
  • 请选择