logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

主流抠图算法trimap-based/free

抠图类任务目前是基础类任务,是我们不需要去训练的,目前开源的抠图类算法很多,包括通用抠图,头部抠图,物体抠图,人像抠图,视频抠图这些目前都是有相当丰富的开源接口可以使用,通常来说,最多需要finetune一次,基本拿来即用,在基础的ai项目上,其实有很多项目都不需要在训练了,比如说目前的行人识别,行人骨骼点识别,人脸识别等很多项目主要是在部署这块,包括后处理逻辑的开发和多平台的移植这块,算法侧的训

#算法
pycharm:Process finished with exit code -1073741819 (0xC0000005)

这个错误发生在保存模型为 h5py 时,一到第一轮保存文件就发生这个错误,一开始以为是pycharm本身的问题,更换了pycharm2018依然没有解决,之前一直使用pycharm2016,后来重新找到原来是 h5py的问题先卸载已有的 h5py,再重新安装这个包问题就解决了...

高光谱图像输入卷积神经网络的维度问题

现在处理高光谱影像大多使用3D-CNN,对于高斯光谱数据而言,输入网络模型的shape是(x,y,z)这种形式,x,y是长宽尺寸,而z是光谱维度,IN数据集一般是200,UP数据集一般是103。keras中Conv2D的输入张量尺寸:(samples, rows, cols, channels)Conv3D的输入张量尺寸:(samples, conv_dim1, conv_dim2, conv_d

基于卷积神经网络的图像语义分割

论文地址基于卷积神经网络的图像语义分割浙江大学硕士论文图像分割:就是把感兴趣的内容从图像上分割出来,但是一般会对这个目标加上一定的语义信息,即语义标签,把加上语义的图像分割称为图像语义分割。 本文主要研究图像语义分割,并且以提升图像语义分割的准确性和他通用性为目标。1.分析了卷积神经网络在图像语义分割的应用前景,实现基于卷积神经网络和反卷积神经网络相结合的图像语义分割模型。2.对基于卷积神经网

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Edit

这篇论文的工程落地价值很高。它证明了在统一自回归/Flow-Matching架构下,不必为了 T2I 和 Editing 维护两套复杂的控制逻辑。只要通过高质量的 Agent 合成数据流,将 Editing 作为 T2I 的 Post-generation Refinement step 融入马尔可夫链中,并通过 LLM/VLM 注入世界知识先验,就能大幅拔高模型在复杂长尾 Case 下的生成逼真

#人工智能
UniWorld-V1: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

UniWorld-V1 是一篇极具启发性的工作。它证明了在统一视觉生成框架中,高分辨率的对比学习语义特征(SigLIP)比基于重建的局部特征(VAE)能提供更好的泛化指导。结合高效的二阶段训练范式和精巧的 Mask-aware Loss Weighting,用极低的数据成本(2.7M)实现了跨感知、理解、生成的 SOTA 级端到端多模态大模型。模型权重、代码和清洗后的数据集已全部开源。

#人工智能#机器学习#计算机视觉
codeformer:towards robust blind face restoration with codebook lookup transformer

刚好上班又到了我分享论文的时候,顺便分享给大家,有啥想法可以留言交流hhh,这个字幕机翻的有点蠢,大家将就看一下,下次不弄字幕了。vqgan和vqvae是一致的,通过编码器得到特征之后,通过最近邻匹配,训练解码器,这个流程训练好之后,丢掉编码器,只要解码器,但是做无监督生成的话,你就需要有一个对应的index表,这样才能从codebook中找出对应的embedding去得到解码器的输入,那么这个i

#transformer#深度学习#人工智能
vs配置ffmpeg,opengl,opencv

2.点击项目右键,在文件资源管理器中打开文件夹,新建Dependencies,把一些依赖的三方库放在里面。1.文件视图,新建src,include文件夹。3.在属性中进行配置。

工业检测 ocr

好,转入正题:]原始需求:系统将使用手机等设备利用光学字符识别技术实现钻具编号自动识别,减少作业人员的工作量隐含分析:对场景本身来说,要进行人工核对(或者修改)是必不可少的,因此工作量未必是减少。角钢字符检测和识别设备主要用于钢印的字符检测和识别,可应用于电网铁塔角钢的检测设备,以及各种钢材生产加工设备需要字符检测和识别的应用场景,有助于设备生产加工过程的信息化处理、MES系统的对接等。1、图像输

whisper:robust speech recognition via large-sacle weak supervision

这个思路和之前的bert是一样的,bert是双向的,用的transformer中的encoder模块,本质上一个预训练的大语言模型,训练时使用的完形填空或者预测下一个句子这种预训练的任务,这个gpt是有不同的,gpt是生成式的,用的transformer中的deocder模块,它本身就是一个解码器,不需要bert那样后续还需要微调一个解码器。作者做了一个弱监督数据集,虽然是监督的,但是数据质量相对

#人工智能
    共 70 条
  • 1
  • 2
  • 3
  • 7
  • 请选择