logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing

利用了AnyWord-3M数据集,多语言数据集,整合了多个数据,包括wukong(中文),Laion(英文),以及一些专门为ocr设计的数据,包括丰富的文本场景,例如城市风景、书籍封面、广告海报和电影画面,该数据集大概有3M图像,其中语言分布约为1.6M张包含中文文本,1.39M中包含英文文本,以及额外的10K张展示其他语言的文本,为了训练fluxtext,我们从AnyWord-3M中提取了一个小

#transformer#深度学习#人工智能
FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing

利用了AnyWord-3M数据集,多语言数据集,整合了多个数据,包括wukong(中文),Laion(英文),以及一些专门为ocr设计的数据,包括丰富的文本场景,例如城市风景、书籍封面、广告海报和电影画面,该数据集大概有3M图像,其中语言分布约为1.6M张包含中文文本,1.39M中包含英文文本,以及额外的10K张展示其他语言的文本,为了训练fluxtext,我们从AnyWord-3M中提取了一个小

#transformer#深度学习#人工智能
AB 测试

【AB测试最全干货】史上最全知识点及常见面试题(上篇) - 知乎00、写在前面AB测试我们在工作当中,尤其是在很多的互联网大厂里面,经常是用来验证一个功能最终是否会被上线的重要手段,也是在数据分析面试当中经常会出现的一个考点,所以AB测试的重要性就不言而喻了。但是很多…https://zhuanlan.zhihu.com/p/375902281Evan's Awesome A/B Tools -

#ab测试
ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

针对 MM-DiT 架构定制的、基于 Vision Token 分离的 Q/K/V 解耦控制算法。它摒弃了以前模糊的 Attention Map 替换,转而通过直接操纵 Self-Attention 的输入矩阵,利用QKQ/KQK锁死几何结构,VVV控制语义渲染,实现了对生成过程的精确 surgical(手术级)干预。这可能是目前 DiT 架构下做 Video-to-Video 或 Image E

#transformer
[数字人]唇形驱动,不生成头部动作算法总结

知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。数字人可分为3D和2D,3D比较出名的是虚幻引擎的meta human,背后的技术涉及blendshape,类似sadtalker,wav2lip属于2d,根据输入的不同,进一步分为视频+音频,wav2lip和geneface,只生成新的口

主流抠图算法trimap-based/free

抠图类任务目前是基础类任务,是我们不需要去训练的,目前开源的抠图类算法很多,包括通用抠图,头部抠图,物体抠图,人像抠图,视频抠图这些目前都是有相当丰富的开源接口可以使用,通常来说,最多需要finetune一次,基本拿来即用,在基础的ai项目上,其实有很多项目都不需要在训练了,比如说目前的行人识别,行人骨骼点识别,人脸识别等很多项目主要是在部署这块,包括后处理逻辑的开发和多平台的移植这块,算法侧的训

#算法
pycharm:Process finished with exit code -1073741819 (0xC0000005)

这个错误发生在保存模型为 h5py 时,一到第一轮保存文件就发生这个错误,一开始以为是pycharm本身的问题,更换了pycharm2018依然没有解决,之前一直使用pycharm2016,后来重新找到原来是 h5py的问题先卸载已有的 h5py,再重新安装这个包问题就解决了...

高光谱图像输入卷积神经网络的维度问题

现在处理高光谱影像大多使用3D-CNN,对于高斯光谱数据而言,输入网络模型的shape是(x,y,z)这种形式,x,y是长宽尺寸,而z是光谱维度,IN数据集一般是200,UP数据集一般是103。keras中Conv2D的输入张量尺寸:(samples, rows, cols, channels)Conv3D的输入张量尺寸:(samples, conv_dim1, conv_dim2, conv_d

基于卷积神经网络的图像语义分割

论文地址基于卷积神经网络的图像语义分割浙江大学硕士论文图像分割:就是把感兴趣的内容从图像上分割出来,但是一般会对这个目标加上一定的语义信息,即语义标签,把加上语义的图像分割称为图像语义分割。 本文主要研究图像语义分割,并且以提升图像语义分割的准确性和他通用性为目标。1.分析了卷积神经网络在图像语义分割的应用前景,实现基于卷积神经网络和反卷积神经网络相结合的图像语义分割模型。2.对基于卷积神经网

UniReason 1.0: A Unified Reasoning Framework for World Knowledge Aligned Image Generation and Edit

这篇论文的工程落地价值很高。它证明了在统一自回归/Flow-Matching架构下,不必为了 T2I 和 Editing 维护两套复杂的控制逻辑。只要通过高质量的 Agent 合成数据流,将 Editing 作为 T2I 的 Post-generation Refinement step 融入马尔可夫链中,并通过 LLM/VLM 注入世界知识先验,就能大幅拔高模型在复杂长尾 Case 下的生成逼真

#人工智能
    共 69 条
  • 1
  • 2
  • 3
  • 7
  • 请选择