logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Vision Transformer (ViT):当Transformer遇见图像,CV的范式革命

Vision Transformer不仅仅是一个新的图像分类模型,它更代表了一种思维范式的转变——用统一的Transformer架构来处理不同模态的数据。它模糊了NLP与CV之间的界限,推动了基础模型和多模态AI的研究热潮。虽然CNN因其高效和成熟,在诸多场景中仍不可替代,但ViT及其家族无疑为我们指明了一个充满潜力的方向:一个更加通用、统一、能够融会贯通地理解世界的AI架构。未来,也许我们不再需

#transformer#深度学习#人工智能
音频数据增强:丰富训练数据多种技术

在音频处理和机器学习领域,音频数据增强是一种常用的技术,旨在通过对原始音频信号进行各种变换和处理,生成更多样化的训练数据。这不仅可以提高模型的鲁棒性,还能改善其在真实世界应用中的表现。本文将介绍几种常用的音频数据增强技术,包括时间拉伸、音高变换、带通滤波、均衡器、冲激响应处理、归一化、填充、延迟处理和非线性模拟。

文章图片
#音视频#语音识别#人工智能
音频信号的预加重:提升语音清晰度

预加重是一种信号处理技术,主要用于增强音频信号中的高频成分。由于人类语音的频谱特性,尤其是在辅音和音调的表达上,高频成分对于语音的清晰度至关重要。然而,在录音和传输过程中,这些高频成分往往会受到衰减。预加重通过在信号处理的早期阶段增强这些成分,帮助改善后续处理的效果。

文章图片
#音视频#语音识别#人工智能
不同音频振幅dBFS计算方法

人耳对声音的感知是非线性的,通常对响度变化的感知与实际的物理振幅变化不成正比。该程序实现了音频分析与音量调整功能,能够计算音频文件的总、最大、最小、平均 RMS 和峰值幅度,并根据用户指定的不同类型目标 dBFS 值自动调整音频的音量。最大 RMS 是通过将音频信号分成多个窗口,计算每个窗口的 RMS 值,并返回这些值中的最大值。最小 RMS 与最大 RMS 类似,但它返回的是每个窗口中计算出的最

文章图片
#语音识别
Deepseek本地部署指南:在linux服务器部署,在mac远程web-ui访问

32B 模型在推理基准测试中表现优异,接近 70B 模型的推理能力,但对硬件资源需求更低。通过上面的步骤,已经可以直接在 Linux服务器通过命令行的形式使用Deepseek了。设置OLLAMA_HOST=0.0.0.0环境变量,这使得Ollama服务能够监听所有网络接口,从而允许远程访问。为了确保您的Linux服务器允许从外部访问Ollama服务,您需要配置防火墙以允许通过端口11434的流量。

文章图片
#服务器#linux#macos
DeepDream:窥视神经网络内部世界的梦幻之窗

在人工智能的发展历程中,2015年是一个重要的转折点。当大多数研究者还在专注于如何让神经网络更好地图像时,Google Research团队却反其道而行之,提出了一项突破性的技术——。这项技术不仅让我们能够"窥视"神经网络的内部世界,更开创了AI生成艺术的先河。这个看似简单的问题,却引领了一场神经网络可视化和AI艺术创作的革命。

文章图片
#神经网络#人工智能#深度学习
深度学习:池化(Pooling)

池化(Pooling)是深度学习中的一种重要操作,主要用于降低特征图的空间维度(高度和宽度),同时保留最重要的特征信息。池化操作通过减少参数数量和计算量来防止过拟合,并提高模型的平移不变性。与卷积层不同,池化层没有可学习的参数,只有超参数如核大小、步长和填充。池化操作通常应用于卷积神经网络(CNN)中,跟在卷积层之后,用于逐步减少空间分辨率,同时增加通道深度。常见的池化类型包括最大池化(Max P

文章图片
#深度学习#人工智能
渐进式GAN (ProGAN):高分辨率图像生成的革命

(Progressive Growing of GANs)由Tero Karras等人于2017年提出,是首个能够稳定生成的生成对抗网络。在它之前,生成高分辨率图像如同攀登珠峰,既危险又困难;在它之后,高分辨率图像生成成为标准配置。

文章图片
#生成对抗网络#机器学习#人工智能
解密GPT的生成魔法:自回归模型 (附:手搓最简单的GPT Demo)

当你和AI聊天时,它回答的每句话,其实都是一个字一个字“猜”出来的。它只做一件事:根据已经说出的所有字,猜出下一个最可能的字。你问:“今天天气?”AI心里在猜:看到“今天天气” → 猜下一个是 “很”。看到“今天天气很” → 猜下一个是 “好”。看到“今天天气很好” → 猜下一个是 “。”于是回答诞生了:“今天天气很好。”这个“每次只猜下一个字”的简单规则,就是自回归模型。它支撑着所有智能对话AI

文章图片
#回归#数据挖掘
深度学习:模型可视化技术 -- 特征图与热力图

在深度学习领域,尤其是计算机视觉任务中,模型的可解释性和透明性变得越来越重要。可视化特征图和热力图是两种有效的技术,能够帮助研究人员和开发者理解模型的内部工作原理。本文将介绍可视化特征图和热力图的目的、实现方法,并提供简单的代码示例。

文章图片
#深度学习
    共 19 条
  • 1
  • 2
  • 请选择