logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态大模型研究每日简报【2025-08-28】

训练数据方面,SCAR框架提出多模态数据集评价指标,多个团队发布了孟加拉语、韩语等低资源数据集及儿科问答基准。智能体研究关注强化学习优化和人机协作,如SWIRL框架和InquireMobile系统。训练策略上,提出轻量级知识整合框架NLKI和自奖励视觉推理方法Vision-SR1。行业应用涵盖机器人控制、电商分类、医疗预测等领域,如Long-VLA机器人模型和动脉瘤预测网络MCMeshGAN。

文章图片
#人工智能#计算机视觉#机器学习 +1
多模态大模型研究每日简报【2025-09-22】

在数据生成方面,GUI-ReWalk框架通过随机探索和意图推理生成多样化GUI交互数据;UNIV模型实现了红外与可见光模态的统一表征。智能体研究取得突破,ACDC系统实现自然语言驱动的无人机拍摄,MicroRCA-Agent则用于微服务故障诊断。模型预训练方面,Manzano框架整合混合视觉分词器,VOX-KRIKRI实现语音与语言的连续融合。训练策略创新包括动态CFG调度框架和基于思维图的双层强

文章图片
#计算机视觉#人工智能#深度学习 +2
多模态大模型研究每日简报【2025-09-29】

在Agent方面,WebGen-Agent和Labeling Copilot分别提出网站生成和数据标注的创新框架。训练数据相关研究包括DeeptraceReward视频伪造检测数据集、MesaTask桌面场景生成数据集等。训练策略方面,SPARK和GCPO分别优化强化学习与图像生成。行业应用领域涉及TrueGradeAI考试评估系统、HyCoVAD视频异常检测等实用解决方案。

文章图片
#人工智能#计算机视觉#机器学习 +2
多模态大模型研究每日简报【2025-08-07】

在数据合成方面,提出了自动生成2D/3D/4D数据的Follow-Your-Instruction框架和面向低资源语言的MELLA数据集;训练策略创新包括Shuffle-R1强化学习框架、VFlowOpt剪枝技术和MulCoT-RD蒸馏模型;行业应用涵盖医疗(MoMA临床预测、CT-GRAPH报告生成)、化学(Chemist Eye实验室监控)等领域。

文章图片
#人工智能#计算机视觉#深度学习 +1
多模态大模型研究每日简报【2025-09-10】

在数据集方面,Visual-TableQA和EgoGazeVQA分别针对表格图像推理和注视引导视频问答提出新基准;在智能体领域,Mini-o3、TA-VLA等研究探索了视觉搜索、力矩感知和视频推理的新方法;行业应用方面,医疗、教育等领域涌现出数据高效微调、联邦学习等创新方案;文生图/视频技术结合神经隐式表示实现矢量动画。此外,HiPhO物理竞赛基准、TextlessRAG无文本问答框架等突破性工作

文章图片
#人工智能#计算机视觉#深度学习 +2
多模态大模型研究每日简报(2025-07-24)

数据方面,SynC通过one-to-many映射优化零样本图像描述数据,VideoMind构建多模态视频理解数据集,VolDoGer利用LLM标注扩展视觉语言任务数据。训练策略上,QR-LoRA通过QR分解实现高效微调,VAPS系统引入动态视觉提示提升零样本学习,Open-MeDe框架通过元优化增强开放词汇动作识别。大模型应用涵盖3D软件合成、神经假体视觉辅助及数字证据发现等场景,如Scout利用

文章图片
#人工智能#计算机视觉#深度学习 +2
多模态大模型研究每日简报【2025-09-25】

Agent方面,TissueLab通过协同进化的Agentic AI实现医学图像分析的自动规划、工具调用和持续学习。预训练方向,WEST提供基于LLM的语音理解与生成工具包。数据增强方面,针对科学VQA的简单策略和历史文本识别模型CHURRO均取得显著提升。行业应用中,RAD框架通过检索增强提升临床诊断可靠性,PS3多模态Transformer整合病理、图像与生物通路预测癌症生存率。生成领域,Ed

文章图片
#人工智能#机器学习#计算机视觉 +2
多模态大模型研究每日简报【2025-08-06】

训练数据方面,研究者关注对象幻觉问题,提出Obliviate方法缓解训练偏差;生物医学领域则探索有害知识移除方案。训练策略创新包括:结合检索增强生成与强化学习的深度伪造检测框架RAIDX、生成式多模态过程奖励模型GM-PRM,以及轻量级强化学习算法VL-DAC。行业应用方面,自进化计算机代理SEAgent、医学异常定位框架K2Sight和C到Rust项目翻译系统EVOC2Rust展现了广泛潜力。

文章图片
#人工智能#深度学习#机器学习 +1
多模态大模型研究每日简报【2025-08-11】

VGGSounder、RSVLM-QA等数据集通过重新标注或自动生成方式提升音频-视觉、遥感VQA等任务评估质量。训练策略方面,OTReg优化语音文本对齐,CATP减少视觉token冗余,EDiT改进扩散模型效率。行业应用中,ODYSSEY框架实现四足机器人长时程任务规划,GPT-5在医学推理表现突出,MuaLLM辅助电路设计。这些工作通过数据增强和算法创新推动多模态大模型在复杂场景的应用。

文章图片
#人工智能#深度学习#机器学习 +1
多模态大模型研究每日简报【2025-09-18】

EDITS框架通过文本语义增强数据集蒸馏;CLAW利用视觉-语言-动作框架提升机器人抓取精度;PhysicalAgent整合扩散模型实现机器人操作。医疗领域探索LLM在VR培训中的应用,临床任务中结合文本与时间序列数据。新基准如Cinéaste评估电影理解能力,PairTally测试细粒度视觉计数。底层架构方面,DVU通过门控残差tokenization提升视频处理效率。

文章图片
#人工智能#计算机视觉#深度学习 +2
    共 104 条
  • 1
  • 2
  • 3
  • 11
  • 请选择