
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在计算机视觉领域,卷积神经网络 (CNN) 长期以来一直是处理图像任务的主流架构。然而,随着 Transformer 在自然语言处理领域的巨大成功,研究人员开始探索将这种基于自注意力机制的架构应用于视觉任务。Vision Transformer (ViT) 是这一探索的重要里程碑,它首次证明了纯 Transformer 架构在图像分类任务上可以超越最先进的 CNN 模型。本文将详细介绍 ViT 的

深度学习性能指标是用于评价深度学习模型性能的依据,是设计模型的重要依据。

本文介绍了四种策略梯度方法( REINFORCE、带基线的 REINFORCE、演员-评论家、优势演员-评论家)在连续动作空间环境 MountainCarContinuous-v0 中的统一实现。核心方案是构建共享编码器的策略网络和价值网络:策略网络通过高斯分布预测动作,价值网络评估状态价值。使用统一的损失函数结构封装不同算法的梯度计算差异——性能梯度通过对数概率损失函数整合,价值梯度通过值损失函

Tesseract是一个开源 OCR 引擎,可以直接通过命令行使用,或者通过使用API从图像中提取文本。它为多种语言提供了API,其中显然包括Python。Tesseract支持unicode (UTF-8),可以识别 100 多种语言。Tesseract支持各种输出格式,包括纯文本、HTML、PDF、TSV等。本文介绍了Windows下Tesseract的安装和如何通过Python调用Tesse

Ian Goodfellow 在首次提出GAN,使用了形象的比喻来介绍 GAN 模型:生成网络 G 的功能就是产生逼真的假钞试图欺骗鉴别器 D,鉴别器 D 通过学习真钞和生成器 G 生成的假钞来掌握钞票的鉴别方法。这两个网络在相互博弈中进行训练,直到生成器 G 产生的假钞使鉴别器 D 难以分辨。而DCGAN是使用卷积操作和反卷积操作来替代原始GAN中的全连接操作。
随着人工智能技术的不断发展,尤其是深度学习技术的广泛应用,多模态数据处理和大模型训练已成为当下研究的热点之一,这些技术也为文档图像智能处理和分析领域带来了新的发展机遇。在本节中,回顾来自中科院自动化研究所、北京大学、中科大的学术专家与合合信息等知名企业的研究者在中国图形图像大会 (CCIG 2023) 关于文档图像分析与处理的相关分享,介绍在多模态大模型时代下文档图像智能分析与处理技术的最新进展和

机器学习是令计算机根据可用数据执行相应策略而无需以明确的编程方式执行策略的一门学科。 在过去几十年间,由于可用数据的数量和质量呈指数级增长,同时高性能的计算设备也得到了快速发展。Scikit-Learn 是机器学习的常用库,它包含很多实用工具和算法用于构建机器学习模型,本文通过实例讲解使用 Scikit-learn 构建机器学习模型,包括常见监督学习和无监督学习算法模型。

探索文档解析技术是推动大模型训练与应用的重要一环。在本节中,我们将回顾来自合合信息的智能创新事业部研发总监常扬在中国图象图形大会 (CCIG 2024) 中关于文档解析技术加速大模型训练与应用的分享,介绍大模型训练和应用过程的关键环节面临的挑战,探索当前高性能的文档解析技术。

组装配有RTX2070super显卡的深度学习机器。

近年来,深度学习模型性能取得了飞跃,可以在单个网络中使用大量隐藏层。训练深度学习模型可能会占用大量计算资源,并且通常在图形处理单元(GPU)上进行,同时为了获得最优的模型性能,可能需要网络架构和超参数的反复修改和调整,通常此过程取决于实际问题和网络架构设计人员的经验,而利用遗传算法可以将此过程自动化,同时可以在可接受的时间开销内找到更好的网络架构。本文使用MNIST数据集和Tensorflow构建







