logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LLM2CLIP论文学习笔记:强大的语言模型解锁更丰富的视觉表征

clip这篇paper最大的贡献就是打破了之前固定类别标签的训练推理范式,不需要提前做类别限制了, 处理数据方便,训练模型方便,推理的时候也很方便,可以zero-shot的做各种分类任务。新意度100分,打破固定类别标签做法,放飞视觉模型的训练过程有效性100分, 泛化性能,准确性能问题规模100分,一个模型就能解决大部分的分类任务,而且是zero-shot解决,问题本身很大,利用好这个模型,在其

文章图片
Llama3.0论文学习笔记: The Llama 3 Herd of Models

今天分享Llama3.0的论文,2024.7月来自Meta的Llama团队,2025年1月DeepSeek R1出现之后,其风头显然已经盖住了Llama3,这时候整理Llama3感觉有点赶不上潮流了,但是我还是想整理下Llama3.0,原因是刚好春节的时候读了下原论文(起源是节后在公司做分享),另外一个是Llama3的技术比较成熟,很多大模型的语言部分都是Llama的架构,因此想做为入门大模型的第

文章图片
(单用户/多用户)远程连接GPU服务器上的jupyter notebook解决方案

远程连接GPU服务器上的jupyter notebook近期由于要跑一些cv方向的代码,自己的电脑GPU太垃圾,根本跑不动。正好实验室有GPU服务器,配了2块Nvidia Geforce RTX 2080 Ti。然后就涉及到需要在自己的笔记本上远程连接服务器上的jupyter notebook来使用GPU服务器上的算力。以下分为单用户和多用户的解决方案。单用户就是1个账号上运行1个jupyter

实习经验小记:如何把数据里面自带的embedding通过网络完成交互(预训练)以及一个Keras报错ValueError: Graph disconnected

1. 写在前面今天在搭建模型的时候遇到了一个报错:ValueError: Graph disconnected: cannot obtain value for tensor Tensor(“input_14:0”,shape=(None, 24, 9, 1), dtype=float32) at layer “input_14”.The following previous layers wer

Attention大详解(Attention is all you need)

1. 写在前面今天分享的论文是2017年谷歌团队发表的一篇论文,这是一篇非常经典的自然语言处理领域的文章,基于这篇文章,才有了最近非常火的bert, Albert等模型,接触这篇文章是在一次直播中看到的,因为经典,所以就想着读了读(虽然不是搞nlp的,但总感觉知识这东西都有一定的通性,多学一些肯定没有坏处,万一以后要用到呢?)。但是这篇论文本身我读了一遍之后,感觉不太懂,感觉里面有些东西并不是说.

#深度学习
【Tesla】ICCV 2025技术分享

摘要 本文分享了特斯拉自动驾驶技术的最新进展,重点解析了其端到端(e2e)架构理念及应用。特斯拉AI副总裁Ashok在ICCV 2025的技术分享中指出,FSD V12后全面转向端到端架构,实现“Photon In, Control Out”的自动驾驶模式。该架构通过单一神经网络处理传感器输入至控制输出,减少中间规则环节,提升协同优化能力。 特斯拉采用端到端方案的核心原因包括:难以编码人类复杂价值

#自动驾驶
数据竞赛修炼笔记之工业化工生产预测

这段时间,会有系列真实的竞赛项目陪伴,我会通过修炼笔记的方式记录我这段时间学习数据竞赛的经历,希望每个竞赛都能给我们带来收获和成长! 这个故事会很长,但我会坚持往下走,你看,天上太阳正晴,如果可以,我们一起吧…1. 写在前面终于下定决心涉足这个纠结很久的话题了,作为一个懵懂无知的竞赛小白,其实是非常渴望参加一场数据比赛的,因为数据比赛对于AIer来说真的很重要,不知道你是否遇到过这样的一些疑惑..

深度学习框架之Keras初识:像搭积木般的玩转神经网络

1. 写在前面如果是刚入深度学习的新手小白,可能有着只学习了一点深度学习的理论,也见识到了各种神经网络的强大而不能立马实现的烦恼,想学习TensorFlow,pytorch等出色强大的深度学习框架,又看到那代码晦涩难懂而有些想知难而退,这时候,我觉得有必要掌握一下Keras了,这是个啥? Keras是高级神经网络API,因为Keras短小精悍,非常适合快速原型制作和神经网络的搭建。在很短的时间内.

#神经网络
重温LSTM和GRU

1. 写在前面最近用深度学习做一些时间序列预测的实验, 用到了一些循环神经网络的知识, 而当初学这块的时候,只是停留在了表面,并没有深入的学习和研究,只知道大致的原理, 并不知道具体的细节,所以导致现在复现一些经典的神经网络会有困难, 所以这次借着这个机会又把RNN, GRU, LSTM以及Attention的一些东西复习了一遍,真的是每一遍学习都会有新的收获,之前学习过也没有整理, 所以这次也借

重温循环神经网络(RNN)

1. 写在前面最近用深度学习做一些时间序列预测的实验, 用到了一些循环神经网络的知识, 而当初学这块的时候,只是停留在了表面,并没有深入的学习和研究,只知道大致的原理, 并不知道具体的细节,所以导致现在复现一些经典的神经网络会有困难, 所以这次借着这个机会又把RNN, GRU, LSTM以及Attention的一些东西复习了一遍,真的是每一遍学习都会有新的收获,之前学习过也没有整理, 所以这次也借

    共 73 条
  • 1
  • 2
  • 3
  • 8
  • 请选择