logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

回顾-大模型位置编码

本文系统梳理了Transformer模型中的位置编码方法。首先介绍了绝对位置编码(正弦编码和可学习编码)及其局限性;然后阐述了相对位置编码(T5式)的优势;重点分析了旋转位置编码(RoPE)的数学原理,通过复数旋转操作巧妙实现相对位置编码;最后总结了位置编码外推技术(ALiBi、PI、NTK-aware、YaRN),这些方法通过插值、动态调整等技术使模型能处理超长序列。

目标检测目标的统计

1 对目标数量,占比的统计2 对目标尺寸(长,宽及面积的箱型图)统计时你只需要修改对应目标的字典即可(下载STLITI.TTF字体格式,放到当前位置,替换fname中的位置)# encoding:utf-8""""#20200331 统计目标检测中的数据,需要输入dota格式的标签x1,y1....x4,y4,category"""import numpy as npimport osimport

#深度学习
目标检测的历程与流程

1 目标检测算法的历程二 目标检测算法基本流程传统算法:下面绿色线的流程DL:橙色线的流程,到时one-stage与two-stage到时就在橙色框中进行相应的结构调整。...

#深度学习
回顾-OLMo2[1]-->“ 一句话概括论文核心+技术亮点总结”

我们呈现OLMo 2,这是我们下一代的“完全开放”语言模型。OLMo 2 包含一系列稠密自回归语言模型,规模涵盖7B、13B 和 32B,并完整公开全部研发产物——模型权重、完整训练数据、训练代码与配方、训练日志以及数千个中间检查点。在本工作中,我们描述了经过修改的模型架构与训练方案,重点介绍用于实现更高训练稳定性与更高每 token 训练效率的技术。我们更新后的预训练数据混合方式中引入了一种新的

回顾-DeepSeekMoE[1]-->“ 一句话概括论文核心+技术亮点总结”

在大语言模型时代,Mixture-of-Experts(MoE)是一种在扩展模型参数规模时管理计算成本的有前景的架构。然而,传统的 MoE 架构(如 GShard),采用在 𝑁 个专家中激活 top-𝐾 个的方式,面临难以确保“专家专精”(expert specialization)的问题——即每个专家获得不重叠且聚焦的知识。为此,我们提出了 DeepSeekMoE 架构,旨在实现“终极专家专

回顾-DeepSeek-V2 [1]-->“ 一句话概括论文核心+技术亮点总结”

我们发布了 DeepSeek-V2,这是一款具有经济化训练与高效推理特点的强大 Mixture-of-Experts(MoE)语言模型。其总参数量为 2360 亿,其中每个 token 仅激活 210 亿 参数,并支持 128K tokens 的上下文长度。DeepSeek-V2 采用了包括多头潜在注意力(MLA)和【2】在内的创新架构。MLA 通过将 Key-Value(KV)缓存显著压缩为潜在

回顾-大模型位置编码

本文系统梳理了Transformer模型中的位置编码方法。首先介绍了绝对位置编码(正弦编码和可学习编码)及其局限性;然后阐述了相对位置编码(T5式)的优势;重点分析了旋转位置编码(RoPE)的数学原理,通过复数旋转操作巧妙实现相对位置编码;最后总结了位置编码外推技术(ALiBi、PI、NTK-aware、YaRN),这些方法通过插值、动态调整等技术使模型能处理超长序列。

回顾-llama[1]-->“ 一句话概括论文核心+技术亮点总结”

我们介绍LLaMA,一个由 70 亿到 650 亿参数规模组成的基础语言模型集合。我们使用 数万亿 tokens 进行训练,并展示:仅使用公开可获得的数据集,在不依赖私有或不可访问数据的情况下,也能够训练出最先进水平的模型。特别是,LLaMA-13B 在大多数基准测试上优于 GPT-3(175B),而 LLaMA-65B 的性能可与最先进的模型 Chinchilla-70B 和 PaLM-540B

回顾-Qwen[1]-->“ 一句话概括论文核心+技术亮点总结”

大型语言模型(LLM)已经彻底改变了人工智能领域,能够执行以前认为仅限于人类的自然语言处理任务。在这项工作中,我们介绍了QWEN1,这是我们大型语言模型系列的第一款。QWEN是一个综合性的语言模型系列,包含不同参数数量的模型。它包括QWEN,基础预训练语言模型,以及QWEN-CHAT,这些聊天模型通过人类对齐技术进行了微调。基础语言模型在多个下游任务中表现出色,而聊天模型,特别是那些使用人类反馈强

回顾-LLM基础模块,分类,架构,训练等小汇总

回顾看过的论文与之前总结的内容,对目前这个系列做个小小的汇总。虽然LLM现在更新层出不穷+各种paper漫天飞舞,不过目前回顾看的各种结构改变并不是特别大,掌握基础的不变的才可以能更好的适应变化。欢迎大家留言小结的结构:一 基础知识:attention的细节和归一化,激活函数的函数等。二 LLM分类:不同的LLM结构和原因分析三 架构:不同的架构比较,如使用的编码方式,归一化方法,激活函数等四 训

    共 29 条
  • 1
  • 2
  • 3
  • 请选择