logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

EAST算法超详细源码解析:数据预处理与标签生成

作者简介CW,广东深圳人,毕业于中山大学(SYSU)数据科学与计算机学院,毕业后就业于腾讯计算机系统有限公司技术工程与事业群(TEG)从事Devops工作,期间在AI LAB实习过,实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。目前也有在一些自媒体平台上参与外包项目的研发工作,项目专注于CV领域(传统图像处理与深度学习方向均有)。前言EAST: An Effici

#人工智能
【图像处理】U-Net中的重叠-切片(Overlap-tile)

原创CW深蓝学院作者简介CW,广东深圳人,毕业于中山大学(SYSU)数据科学与计算机学院,毕业后就业于腾讯计算机系统有限公司技术工程与事业群(TEG)从事Devops工作,期间在AI LAB实习过,实操过道路交通元素与医疗病例图像分割、视频实时人脸检测与表情识别、OCR等项目。目前也有在一些自媒体平台上参与外包项目的研发工作,项目专注于CV领域(传统图像处理与深度学习方向均有)。Foreword最

#图像处理
3D Vision公开课精华 | 深度三维感知:数据、学习架构与应用

文稿整理者 | 何常鑫审稿&修改 | 弋力博士本文总结于弋力博士2021年5月19日在深蓝学院关于深度三维感知的公开课——《深度三维感知:数据、学习架构与应用》。本次公开课围绕三维数据集构建,三维深度学习骨干网络的设计,三维感知的应用以及未来的研究方向来对深度三维感知展开介绍与讨论 。...

文章图片
#人工智能#计算机视觉#深度学习 +1
实时目标检测新SOTA-YOLOv9问世

本文提出采用PGI来解决信息瓶颈问题以及深度监督机制不适用于轻量级神经网络的问题。

文章图片
#目标检测#人工智能#计算机视觉
Mamba模型底层技术详解,与Transformer到底有何不同?

Mamba模型在CV等领域的扩展应用,在未来可能会井喷式出现。

文章图片
#transformer#深度学习#人工智能
最新模型VMamba:颠覆视觉Transformer,下一代主流Backbone?

卷积神经网络(CNN)与视觉Transformer(ViT)是目前最流行的两种视觉表征基础模型。CNN在线性复杂度下,具有惊人的可扩展性。ViTs在性能方面超过了CNN,但是其具有平方复杂度。经深入分析,ViT具有更加强大性能的原因在于:它利用了全局的感受野和动态的权重分配方法。因此,一种既具有ViT全局感知优势,又具有高计算效率的框架需要被提出。受到状态空间模型启发,我们提出了视觉状态空间模型(

文章图片
#计算机视觉
TensorRT资料合集:视频课程、书籍与开源项目

TensorRT是NVIDIA推出的高性能的深度学习推理(Inference)优化器,可以为深度学习模型提供低延迟、高吞吐率的部署推理,是目前应用最广泛的推理框架之一,在超大规模数据中心、嵌入式平台、自动驾驶平台等应用十分广泛。该开源项目中除了实现英伟达官方样例库中的模型之外,还实现了人脸识别中的arcface,retinaface等模型,以及YOLO v3-v7,模型库更加全面。B站UP主录制的

文章图片
#开源#深度学习#人工智能
语音识别到底是怎么一回事?学习门槛真的那么高么?

说起语音识别,大家的第一反应就是那些看起来眼熟却总也搞不清楚的概念和公式,比如MFCC、HMM、GMM、Viterbi图、解码对齐等等,再往下深入,哪个是哪个,具体用途是什么,就都说不清楚了,总觉得那得是业内大牛才能搞懂的。对于机器来说,开始并不知道这两句话对应的具体文本是什么,于是我们使用GMM进行聚类,分成ABCD四类(当然我们从上帝视角知道,ABCD依次对应我,爱,恨,你)。参数定下来以后,

文章图片
#语音识别#人工智能
大咖面对面 | 陈果果博士谈智能语音

智能语音在近年一直是个很火的话题,商业应用也在不断增加,在10月10号的深蓝&大咖面对面活动中,我们邀请到了语音界大佬陈果果博士,针对目前语音领域问题进行分享与探讨。目录嘉宾介绍直播精华精选网友提问1.嘉宾介绍陈果果,SEASALT.AI联合创始人,约翰霍普金斯大学博士、清华大学本科师从当前最流行的开源语音识别工具Kaldi之父Daniel Povey,以及美国人类语言技术卓越中心(HLT

文章图片
#语音识别#深度学习#自然语言处理 +1
    共 19 条
  • 1
  • 2
  • 请选择