
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在数据集方面,FLUX-Reason-6M(600万图像)和MMOral(牙科X光指令数据集)等填补了文生图推理、医疗多模态任务的数据空白;PRISM-Bench等评测基准推动模型优化。智能体领域提出非侵入式AR交互框架Sensible Agent,结合LMM实现情境感知。大模型应用扩展至医疗(DRiFt特征解耦框架)、无线通信(LLM驱动网络优化)及文生视频(Kling-Avatar级联动画生成

在数据集方面,FLUX-Reason-6M(600万图像)和MMOral(牙科X光指令数据集)等填补了文生图推理、医疗多模态任务的数据空白;PRISM-Bench等评测基准推动模型优化。智能体领域提出非侵入式AR交互框架Sensible Agent,结合LMM实现情境感知。大模型应用扩展至医疗(DRiFt特征解耦框架)、无线通信(LLM驱动网络优化)及文生视频(Kling-Avatar级联动画生成

在数据方面,GeneVA数据集系统标注文生视频伪影,AdsQA构建广告视频理解基准,VR语音转录增强提升共指消解性能;模型应用上,FinZero实现金融时序预测,VLM成功用于中微子检测和皮肤病诊断,CLAPS实现视网膜图像统一分割;生成技术中,RewardDance创新奖励机制提升视觉生成质量,HuMo框架实现多模态人体视频生成。

在数据方面,GeneVA数据集系统标注文生视频伪影,AdsQA构建广告视频理解基准,VR语音转录增强提升共指消解性能;模型应用上,FinZero实现金融时序预测,VLM成功用于中微子检测和皮肤病诊断,CLAPS实现视网膜图像统一分割;生成技术中,RewardDance创新奖励机制提升视觉生成质量,HuMo框架实现多模态人体视频生成。

在数据集方面,Visual-TableQA和EgoGazeVQA分别针对表格图像推理和注视引导视频问答提出新基准;在智能体领域,Mini-o3、TA-VLA等研究探索了视觉搜索、力矩感知和视频推理的新方法;行业应用方面,医疗、教育等领域涌现出数据高效微调、联邦学习等创新方案;文生图/视频技术结合神经隐式表示实现矢量动画。此外,HiPhO物理竞赛基准、TextlessRAG无文本问答框架等突破性工作

在数据集方面,Visual-TableQA和EgoGazeVQA分别针对表格图像推理和注视引导视频问答提出新基准;在智能体领域,Mini-o3、TA-VLA等研究探索了视觉搜索、力矩感知和视频推理的新方法;行业应用方面,医疗、教育等领域涌现出数据高效微调、联邦学习等创新方案;文生图/视频技术结合神经隐式表示实现矢量动画。此外,HiPhO物理竞赛基准、TextlessRAG无文本问答框架等突破性工作

在数据集方面,Visual-TableQA和EgoGazeVQA分别针对表格图像推理和注视引导视频问答提出新基准;在智能体领域,Mini-o3、TA-VLA等研究探索了视觉搜索、力矩感知和视频推理的新方法;行业应用方面,医疗、教育等领域涌现出数据高效微调、联邦学习等创新方案;文生图/视频技术结合神经隐式表示实现矢量动画。此外,HiPhO物理竞赛基准、TextlessRAG无文本问答框架等突破性工作

在数据集方面,Visual-TableQA和EgoGazeVQA分别针对表格图像推理和注视引导视频问答提出新基准;在智能体领域,Mini-o3、TA-VLA等研究探索了视觉搜索、力矩感知和视频推理的新方法;行业应用方面,医疗、教育等领域涌现出数据高效微调、联邦学习等创新方案;文生图/视频技术结合神经隐式表示实现矢量动画。此外,HiPhO物理竞赛基准、TextlessRAG无文本问答框架等突破性工作

在Agent系统方面,Preacher实现了论文到视频的自动转换,ChatCFD构建了OpenFOAM仿真的自动化流程,CAFA开发了助听器个性化调整方案,MESHAgents则用于心脏表型分析。大模型行业应用方面,Curia构建了130TB的放射学基础模型,MM-DINOv2优化了医学图像分析。文生图/视频领域,IRG框架通过交错推理提升生成质量,Zo3T实现零样本视频生成。

在Agent系统方面,Preacher实现了论文到视频的自动转换,ChatCFD构建了OpenFOAM仿真的自动化流程,CAFA开发了助听器个性化调整方案,MESHAgents则用于心脏表型分析。大模型行业应用方面,Curia构建了130TB的放射学基础模型,MM-DINOv2优化了医学图像分析。文生图/视频领域,IRG框架通过交错推理提升生成质量,Zo3T实现零样本视频生成。
