logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ISP中的Demosaic技术:从传统算法到深度学习算法:

摘要:Demosaic技术是图像信号处理(ISP)中的关键环节,用于从拜耳阵列单通道数据恢复全彩图像。本文系统梳理了传统算法与深度学习方法:传统方法基于手工设计先验,包括插值、边缘判别、频域分离等技术,计算高效且硬件友好;深度学习方法通过端到端训练实现去马赛克与去噪等任务的联合优化,显著提升复杂场景重建质量。研究从空间域统计和频域确定性角度分析技术原理,并探讨客观(MSE/PSNR)与主观视觉相结

文章图片
#算法#深度学习
图像处理——边缘检测

边缘检测是图像处理和计算机视觉中的一项基本技术,用于识别图像中亮度变化剧烈的像素点,这些像素点通常对应于物体的边界。它通过检测图像中亮度或颜色变化显著的区域,提取出物体的轮廓,常用于计算机视觉、图像处理和模式识别等领域。边缘检测的原理是通过计算图像中每个像素点与其周围像素点的亮度或颜色差异来确定该像素点是否为边缘。通常使用卷积操作来实现边缘检测,通过计算像素点与其周围像素点的差异来判断该像素点是否

文章图片
#图像处理#计算机视觉#人工智能
FFmpeg解封装、解码音频和视频(分别使用OpenGL和OpenAL播放)

1 ffmpeg解码大致流程  下图是ffmpeg解码播放音视频的基本流程:首先是网络媒体解协议,解协议之后得到对应的媒体文件比如mp4,ts等,这些格式是媒体文件的封装格式,也就是将音频,视频,字幕等码流编码后打包到一起的格式;之后就是对容器进行解封装,解封装能够分别得到对应的流的编码流,比如视频可能是h264码流,音频可能是aac码流,这些都是对应的流经过编码后的数据;再然后就是需要将编码的流

#音视频#c++
ISP中的Demosaic技术:从传统算法到深度学习算法:

摘要:Demosaic技术是图像信号处理(ISP)中的关键环节,用于从拜耳阵列单通道数据恢复全彩图像。本文系统梳理了传统算法与深度学习方法:传统方法基于手工设计先验,包括插值、边缘判别、频域分离等技术,计算高效且硬件友好;深度学习方法通过端到端训练实现去马赛克与去噪等任务的联合优化,显著提升复杂场景重建质量。研究从空间域统计和频域确定性角度分析技术原理,并探讨客观(MSE/PSNR)与主观视觉相结

文章图片
#接口隔离原则#算法#深度学习
Prompt Engineering to Context Engineering

从Prompt Engineering到Context Engineering的演进反映了LLM应用的发展趋势。早期依靠精心设计的Prompt引导模型输出,但随着模型能力提升和应用场景复杂化,Prompt Engineering的局限性(如提示敏感、泛化能力不足等)日益凸显。Context Engineering通过系统化的上下文管理、外部知识检索和多模态融合,构建更稳健的LLM应用。文档分析了P

Function CAll和MCP

Function Call技术使大语言模型(LLM)能够与外部工具交互,扩展其能力。通过解析用户意图,模型生成函数调用信息,外部软件执行具体操作后返回结果。例如,图像处理函数(如显示、调整大小)可通过Function Call被LLM调用。工作流程包括意图理解、函数选择、参数生成、执行与结果整合。该技术简化了用户与底层功能的交互,提升了任务执行效率。示例展示了如何定义函数描述、传递意图并解析模型响

文章图片
#AI
Vulkan学习——渲染3D模型

Vulkan是一个低开销、跨平台的二维、三维图形与计算的应用程序接口(API),最早由科纳斯组织在2015年游戏开发者大会(GDC)上发表。与OpenGL类似,Vulkan针对全平台即时3D图形程序(如电子游戏和交互媒体)而设计,并提供高性能与更均衡的CPU与GPU占用,这也是Direct3D 12和AMD的Mantle的目标。与Direct3D(12版之前)和OpenGL的其他主要区别是,Vul

文章图片
#学习#3d#microsoft +1
pytorch 提取卷积神经网络的特征图可视化

文章目录1、效果图2、完整代码3、代码说明  文章中的代码是参考基于Pytorch的特征图提取编写的代码本身很简单这里只做简单的描述。1、效果图  先看效果图(第一张是原图,后面的都是相应的特征图,这里使用的网络是resnet50,需要注意的是下面图片显示的特征图是经过放大后的图,原图是比较小的图,因为太小不利于我们观察):2、完整代码import osimport torch...

#pytorch#python#opencv
FFmpeg解封装、解码音频和视频(分别使用OpenGL和OpenAL播放)

1 ffmpeg解码大致流程  下图是ffmpeg解码播放音视频的基本流程:首先是网络媒体解协议,解协议之后得到对应的媒体文件比如mp4,ts等,这些格式是媒体文件的封装格式,也就是将音频,视频,字幕等码流编码后打包到一起的格式;之后就是对容器进行解封装,解封装能够分别得到对应的流的编码流,比如视频可能是h264码流,音频可能是aac码流,这些都是对应的流经过编码后的数据;再然后就是需要将编码的流

#音视频#c++
语义分割综述《A SURVEY ON DEEP LEARNING-BASED ARCHITECTURES FOR SEMANTIC SEGMENTATION ON 2D IMAGES》论文翻译

论文地址:A SURVEY ON DEEP LEARNING-BASED ARCHITECTURES FOR SEMANTIC SEGMENTATIONON 2D IMAGES文章目录摘要1. 简要1.1 语义分割调查2 数据集,挑战和性能指标2.1 数据集和挑战2.1.1 通用语义分割数据集2.1.2 城市街道语义分割数据集2.2 性能指标2.2.1 准确率2.2.2 计算复杂度3 FCN...

    共 18 条
  • 1
  • 2
  • 请选择