logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

图像质量评价与大模型——Q系列(3)Q-ALIGN

基于摘要中所说的人类学习的过程,以及LLM倾向于对文字定义的level进行响应(Q-ben'ch中也发现直接打分会效果很差,但是输出poor和good的二分类效果好一些),因此作者提出了Q-ALIGN,在训练阶段,将MOS分转化为五等的文字输入,推理阶段,提取不同评级级别的对数概率,采用 SoftMax 池化来获得每个级别的概率,用五个等级概率加权值得到分数。而LLM是如何打分的呢?在IQA方法的

文章图片
#人工智能#计算机视觉#图像处理 +1
图像质量评价与大模型——Q系列(1)Q-BENCH

(对应轴1的失真和轴2的全局)③图像中哪个区域比较亮(对应轴1的其他和轴2的局部)④图像中人脸的清晰度?该策略的提出基于一个思想:由于前面的提示词直接获得质量的方法可以得出,good和poor是MLLMs对质量的两种感知,这其实是MLLMs内部有关质量分数的tokens的二分类的结果,近似于argmax的激活函数。Low-level的视觉能力对图像质量评价尤为重要,因为它与感知视觉的失真(例如模糊

文章图片
#人工智能#计算机视觉#图像处理 +1
视频质量评价与大模型——VQA2

大型多模态模型(LMM)的出现和扩散为计算机视觉引入了新的范式,将各种任务转变为统一的视觉问答框架,视觉问答(VQA)可以显着增强低水平的视觉质量评估。前言:对于视频质量评价而言,基于LMM方法的探索还是处于一个比较初期的阶段,可能是因为有Q-AlLIGN这个珠玉在前,所以凭借着对图像质量的视觉感知就已经可以对视频质量进行准确的打分了,但是显然这种图像质量模型缺失了对视频时间信息和运动失真的表征,

文章图片
#音视频#人工智能#算法
到底了