EQUINOX1 个人主页

@EQUINOX1

EQUINOX1

2023-11-05 19:50:05 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【ch04】Implementing-a-GPT-model-from-scratch-to-generate-text

这一章作者带着手搓了一下GPT 2的architecture，架构还是比价清晰易懂的。ch04。

【论文阅读】| ViT精读

这篇论文就是后面经典的Vision Transformer，核心思想很直接：将一张图片切成一系列固定大小的patch，把一个 patch 当作NLP任务中的一个token，然后送入标准 Transformer Encoder 做图像分类。它证明了在足够大规模数据预训练的条件下，纯架构可以在图像识别任多上达到基至超过CNN。打破了 cv 和 nlp 在模型上的壁垒。paper code网站上 Ima

#论文阅读 #人工智能 #深度学习 +1

【论文阅读】| ViT精读

#论文阅读 #人工智能 #深度学习 +1

【ch05】Pretraining-on-unlabeled-data

本章主要讲了下如何评价llm生成文本的质量，如何进行预训练。ch05。

#深度学习 #人工智能 #python

【CH02】Working with text data

很久没读英文文本了，原作第二章读了有俩小时……总体来说还是非常简单的，主要就是为 llm training 做一些文本预处理的工作。ch02。

#python #开发语言 #人工智能 +3

一、计算机网络概述，《计算机网络（自顶向下方法第7版，James F.Kurose，Keith W.Ross）》

本章作为概述，和大部分课程一样，主要目标为了解基本术语和概念，基本原理。主要以Internet为例。Internet 是一个世界范围的计算机网络，互联了遍及全世界的数十亿计算设备，这些设备可以是传统桌面PC，Linux 工作站以及所谓的服务器，也可以是智能手机，家用电器，汽车等。这些设备我们将其看作节点**主机（host）**以及运行在上面的应用程序主机也称为端系统（end system）端系统

#计算机网络

循环神经网络

以前我们做图像分类（比如识别猫和狗），第一张图是猫，第二张图是狗，这两张图之间是没有关系的。这叫“独立同分布”。但在现实中，很多数据是有顺序、有前后依赖的：这种**“时间顺序极其重要”的数据，就叫序列数据**。处理这类数据的模型，就是序列模型。假设 xtx_txt 代表第 ttt 天的股票价格。教材中说，交易员想预测第 ttt 天的价格 xtx_txt，他手上的筹码是过去所有的价格：xt−1,

#rnn #人工智能 #深度学习

倍增+贪心，P10455 Genius Acm

二进制倍增扩展，设当前扩展长度为b，每次尝试往后新加入b个元素，然后求SPD，成功就将b * 2，否则b / 2，并且恢复数组。这样做的复杂度是O(N^2)的，因为我们要维护一个有序数组，每次暴力插入O(N)，求SPD O(N)，扩展N次。固定左端点l，然后不断往右尝试加入新元素，一旦加入新元素无法满足SPD <= k，那么再开一个段。先考虑这样一个问题，2n个数配成n个pair (xi, yi)

#算法

Trick 树上背包合并复杂度分析

不想跑模型，水了下群友扔的题。发现是一个很裸的树上背包，大概分析下复杂度就ac了。忽然想起来去年也写过类似的一道树上背包，当时对于复杂度是非常疑惑的，始终无法理解时间复杂度是O(N^2)。今天反而一下就分析出来了，正好记录一下。

#算法

计算机视觉，图像增广，微调，R-CNN，SSD，YOLO

在深度学习中，模型很容易“死记硬背”训练数据（即过拟合）。比如，如果训练集里所有的猫都在图片的左边，模型可能会认为“左边有一团毛茸茸的东西”才是猫。图像增广就是在把图片喂给神经网络之前，随机地对它进行一些变换（如：翻转、裁剪、改变颜色、加噪等）。它的好处有两点：变相扩大数据集：一张猫的图片经过10种不同的变换，就变成了10张“相似但不同”的训练样本。提高泛化能力（鲁棒性）：打破模型对特定属性（如位

#计算机视觉 #人工智能

共 27 条

请选择