logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI大语音(十)——N-gram语言模型(深度解析)

上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达的句子。1 语言模型真面目定义:对于语言序列词ω1,ω2,ω3

#机器学习#算法#语音识别
YOLO v8:目标检测的最新王者

本文来自公众号“AI大道理”——————Yolov8是Yolo系列模型的最新王者,各种指标全面超越现有目标检测模型。Yolov8借鉴了Yolov5、Yolov6、YoloX等模型的设计优点,全面改进了Yolov5模型结构,同时保持了Yolov5工程化简洁易用的优势。1、YOLOV8的改进1)Backbone2)Neck3)Head4)Loss计算5)标签匹配策略2、BackboneYOLOv8的b

文章图片
#人工智能#计算机视觉#目标检测
模型剪枝:给模型剪个头发

比如 2016 年早期经典的剪枝论文就曾提到,生理学上发现对于哺乳动物,婴儿期产生许多的突触连接,在后续的成长过程中,不怎么用的那些突触就会退化消失。深度学习网络模型从卷积层到全连接层存在着大量冗余的参数,大量神经元激活值趋近于0,将这些神经元去除后可以表现出同样的模型表达能力,这种情况被称为过参数化,而对应的技术则被称为模型剪枝。在神经网络的计算中,卷积核的个数就是卷积结果的通道数,移除一个卷积

文章图片
#剪枝#深度学习#人工智能
AI大语音(十)——N-gram语言模型(深度解析)

上一专题搭建了一套GMM-HMM系统,来识别连续0123456789的英文语音。但若不是仅针对数字,而是所有普通词汇,可能达到十几万个词,解码过程将非常复杂,识别结果组合太多,识别结果不会理想。因此只有声学模型是完全不够的,需要引入语言模型来约束识别结果。让“今天天气很好”的概率高于“今天天汽很好”的概率,得到声学模型概率高,又符合表达的句子。1 语言模型真面目定义:对于语言序列词ω1,ω2,ω3

#机器学习#算法#语音识别
CLIP:万物分类(视觉语言大模型)

本文来着公众号“AI大道理”​论文地址:https://arxiv.org/abs/2103.00020传统的分类模型需要先验的定义固定的类别,然后经过CNN提取特征,经过softmax进行分类。然而这种模式有个致命的缺点,那就是想加入新的一类就得重新定义这个类别的标签,并重新训练模型,这样非常不方便。CLIP打破了这个桎梏。CLIP能做到在一定标签内进行训练,标签外的也能进行分类。那么CLIP到

文章图片
#人工智能#机器学习#深度学习 +1
论文解读:DeepSort(目标跟踪)

简单在线实时跟踪(SORT)是一种实用的多目标跟踪方法,专注于简单有效的算法。在本文中,我们集成了外观信息来提高SORT的性能。由于这种扩展,我们能够在更长的遮挡时间内跟踪对象,有效地减少了身份切换的数量。本着原始框架的精神,我们将大部分计算复杂性置于离线预训练阶段,在那里我们在大规模的人员重新识别数据集上学习深度关联度量。在线申请过程中,我们使用视觉外观空间中的最近邻居查询。实验评估表明,我们的

文章图片
#目标跟踪#人工智能#计算机视觉
卡尔曼滤波:再也不用瑟瑟发抖了

本文来自公众号“——————目标跟踪中,在数据关联后往往要进行卡尔曼滤波。数据关联算法得到了每个目标的观测数据。卡尔曼滤波使用关联的观测数据来估计目标的状态,并预测目标的未来位置和速度等信息。目标跟踪过程中,测量数据通常会受到各种噪声的影响,例如传感器噪声、环境干扰等。卡尔曼滤波器可以通过对测量数据和系统模型的加权处理来减少噪声的影响,提供更准确的目标状态估计。1、卡尔曼滤波简介卡尔曼滤波用来估计

文章图片
#深度学习#目标跟踪
OpenCV(一) | contourArea()求得的面积是哪里的面积?

由于在计算面积得时候丢失了外围像素,因此contourArea()求出来的面积比真实面积要小。

文章图片
#opencv#人工智能#计算机视觉
CLIP:万物分类(视觉语言大模型)

本文来着公众号“AI大道理”​论文地址:https://arxiv.org/abs/2103.00020传统的分类模型需要先验的定义固定的类别,然后经过CNN提取特征,经过softmax进行分类。然而这种模式有个致命的缺点,那就是想加入新的一类就得重新定义这个类别的标签,并重新训练模型,这样非常不方便。CLIP打破了这个桎梏。CLIP能做到在一定标签内进行训练,标签外的也能进行分类。那么CLIP到

文章图片
#人工智能#机器学习#深度学习 +1
AI大视觉(十七) | PANet(路径聚合网络)

本文来自公众号“AI大道理​目标检测或者实例分割不仅要关心语义信息,还要关注图像的精确到像素点的浅层信息。所以需要对骨干网络中的网络层进行融合,使其同时具有深层的语义信息和浅层的纹理信息。PANet整体结构PANet(Path Aggregation Network)最大的贡献是提出了一个自顶向下和自底向上的双向融合骨干网络,同时在最底层和最高层之间添加了一条“short-cut”,用于缩短层之间

#计算机视觉#人工智能#目标检测 +1
    共 24 条
  • 1
  • 2
  • 3
  • 请选择