logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一文读懂:什么是CLIP

CLIP是OpenAI推出的革命性人工智能模型,通过对比学习4亿个图像-文本配对数据,实现了图像与语言的深度融合。其核心创新在于双编码器架构(图像编码器和文本编码器),将视觉和文本信息映射到共享嵌入空间。CLIP的最大突破是零样本学习能力,无需特定任务训练即可完成图像分类等任务。该技术已应用于DALL-E图像生成、智能搜索、内容审核等领域,但存在细节识别不足、计数困难等局限性。CLIP代表了AI多

文章图片
#人工智能#python#语音识别
(Note)音频向量化表示

语音特征提取经历了从传统方法到自监督学习的演进。传统MFCC等特征基于听觉模型但表达能力有限。2019年Wav2Vec首次实现音频自监督学习,2020年Wav2Vec2.0引入Transformer和向量量化,通过掩码预测任务显著提升性能,推动了无监督语音表征的发展,在LibriSpeech等基准上取得突破。这些方法突破了对文本标注的依赖,实现了更强大的语音特征学习能力。

文章图片
#音视频#语音识别#人工智能
(Note)深度学习与人工提取的特征

(深度学习模型可能提取到一些人类不易察觉的特征,这些特征可能对结果的判定有着较大的贡献。可以把HOG特征的结果作为额外的一个Channel加入数据中让深度学习模型学习。如果仅仅给网络提供人工提取的特征,反而有可能会造成网络性能的下降。但是这种额外的工作对于模型来说不一定有很大的提高。1.略微提高2.略微降低。

#深度学习#人工智能#计算机视觉
一文读懂:什么是CLIP

CLIP是OpenAI推出的革命性人工智能模型,通过对比学习4亿个图像-文本配对数据,实现了图像与语言的深度融合。其核心创新在于双编码器架构(图像编码器和文本编码器),将视觉和文本信息映射到共享嵌入空间。CLIP的最大突破是零样本学习能力,无需特定任务训练即可完成图像分类等任务。该技术已应用于DALL-E图像生成、智能搜索、内容审核等领域,但存在细节识别不足、计数困难等局限性。CLIP代表了AI多

文章图片
#人工智能#python#语音识别
(数据结构)完全图到树的转换

因为N阶的完全图有N*(N-1)/2条边,有N个顶点的树有N-1条边,相减即可得到结论。

#数据结构#算法
(Python3)水情日报数据爬取

水情日报数据爬取,按时间段自动下载,并保存为excel。GitHub 地址:https://github.com/944568752/Daily-Yellow-River-Information-Download

#python#github#pycharm
Pytorch CPU Tensor与GPU Tensor的运算速度对比测试

分别使用CPU和GPU进行Pytorch中的Tensor(张量)计算,测试Tensor在两种不同运算设备上的计算速度差异。设备:服务器:Dell EMC Power Edge R740CPU:Intel Xeon Gold 5117 * 2Memory:64GGPU:NVIDIA Tesla T4 16G * 1Python Version:3.8CUDA Version:11.4Pytorch

#pytorch#深度学习#机器学习
(Python)Numpy矩阵增加/减少一个维度

Section 1:矩阵增加一个维度方法一:使用np.newaxis将m*n维矩阵转化为m*n*1维矩阵。方法二:使用np.expand_dims来增加一个新的维度。Link:https://numpy.org/doc/stable/reference/generated/numpy.expand_dims.html?highlight=expand%20dim#numpy.expand_dims

#矩阵#python#线性代数
(Note)Elsevier爱思唯尔期刊投稿流程

记录两个比较不错的爱思唯尔Elsevier期刊投稿流程:1.2.

#深度学习#人工智能#python +1
(Note)OISSS & OISST

全球月平均海表温度和海表盐度中国气象局国家气候中心:Link:中国气象局--国家气候中心--气候系统监测·诊断·预测·评估NASAEarth Data:Link:https://podaac.jpl.nasa.gov/datasetlist?search=OISSS_L4_multimission_monthly_v1...

#深度学习
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择