简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文旨在解决离线强化学习中的互模拟缺陷。强化学习中的表征学习对于控制任务而言至关重要,将来的一个重要研究方向是将大模型为基础的文本或图像信息与控制任务对应的状态表征做进一步对齐。这里,互模拟为基础的表征算法可能是一个重要的未来研究方向,可能对多模态数据与控制任务的对齐起到关键性作用。
FaceChain-FACT:开源10秒写真生成,复用海量LoRa风格,基模友好型写真应用。FaceChain-FACT的代码和模型目前已经在github和modelscope创空间上同步开源。FaceChain-FACT具有简单的交互式界面设计,只需一张人物形象图片和简短的操作,即可实现无限风格写真和固定模板写真的生成。同时,FaceChain-FACT还支持包括指定人物姿态、自定义风格LoRA
本文提出Cambrian-1,这是一系列以视觉为中心的多模态大型语言模型(MLLMs),由谢赛宁与LeCun领导的团队研发,主张通过强化视觉表征来提升MLLM性能,而非仅增强语言模型。Cambrian-1通过评估20多种视觉编码器,提出新的基准CV-Bench,旨在改善视觉基础,与Mini-Gemini以及LLaVA-NeXT相比,性能有显著提升。
CVPR 2023将于2023年6月18-22日举办。届时第三届“无人机跟踪”挑战赛将作为第三届反无人机挑战研讨会的一部分与CVPR2023一起举办。近来国内外多次发生无人机滥用事件。因此,开展复杂环境下低慢小(无人机)目标智能感知的研究,从而对无人机进行有效的探测和监管,具有重要意义。
当前人脸识别研究集中于设计高效的基于Margin损失函数和复杂的网络架构,以提升卷积神经网络捕捉人脸细节特征的能力。无监督学习和图神经网络的成功显示了数据结构对模型泛化能力的重要性。尽管大规模人脸识别数据集包含丰富的结构信息,但目前尚无研究探讨如何利用这些信息提升模型在实际场景中的泛化性能。本文提出TopoFR,将大规模人脸数据集中的内在结构信息融入隐层空间,以显著提高人脸识别模型在真实环境中的泛
Lumina-T2X是由上海人工智能实验室开发的基于流匹配的扩散变换器(Flag-DiT)系列,它能够根据文本指令生成图像、视频、3D对象和音频。该框架通过标记化潜在的空间时间并使用如[nextline]和[nextframe]的占位符,实现了不同模态和分辨率的统一表示。Lumina-T2X允许在单一框架内训练不同模态,并在推理时灵活生成多模态数据。集成了DiTs、流匹配、RoPE和RMSNorm
让Virtualbox虚拟机中Ubuntu能够全屏:(1)“设备”–“安装增强功能”,然后执行第二步重启之后就能看到下载的镜像文件(2)在终端中运行:sudo apt-get install dkms 然后会自动下载安装312kb的软件包,然后“控制”–“重启”
第一步,输入命令 sudo apt-get install poppler-data 安装完成后打开pdf文档发现中文乱码都变成方块了,于是进行第二步,删除字体 sudo rm /etc/fonts/conf.d/49-sansserif.conf 完成后再打开pdf文档,发现中
我是7月5日来的实验室,我来的时候我们组有一位同学已经在4月份的时候就来了。呆实验室的这段时间,我学到了不少东西,学习的一条主线就是完成导师给的OpenGL的Training。在此学习过程中我接触到了Linux下的C/C++编程,用的开发环境是emacs(代码编辑器)+g++(编
AIGC大模型在人工智能领域取得了重大突破,涵盖了LLM大模型、多模态大模型、图像生成大模型以及视频生成大模型等四种类型。这些模型不仅拓宽了人工智能的应用范围,也提升了其处理复杂任务的能力。a.) LLM大模型通过深度学习和自然语言处理技术,实现了对文本的高效理解和生成;b.) 多模态大模型则能够整合文本、图像、声音等多种信息,实现跨模态的交互和理解;c.) 图像/视频生成大模型则进一步将AI技术