1632401541 个人主页

@qq_29296685

1632401541

2023-04-10 09:32:14 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

回顾-大模型位置编码

本文系统梳理了Transformer模型中的位置编码方法。首先介绍了绝对位置编码（正弦编码和可学习编码）及其局限性；然后阐述了相对位置编码（T5式）的优势；重点分析了旋转位置编码（RoPE）的数学原理，通过复数旋转操作巧妙实现相对位置编码；最后总结了位置编码外推技术（ALiBi、PI、NTK-aware、YaRN），这些方法通过插值、动态调整等技术使模型能处理超长序列。

目标检测目标的统计

1 对目标数量，占比的统计2 对目标尺寸(长，宽及面积的箱型图)统计时你只需要修改对应目标的字典即可(下载STLITI.TTF字体格式，放到当前位置,替换fname中的位置)# encoding:utf-8""""#20200331 统计目标检测中的数据，需要输入dota格式的标签x1,y1....x4,y4,category"""import numpy as npimport osimport

#深度学习

目标检测的历程与流程

1 目标检测算法的历程二目标检测算法基本流程传统算法：下面绿色线的流程DL：橙色线的流程，到时one-stage与two-stage到时就在橙色框中进行相应的结构调整。...

#深度学习

回顾-OLMo2[1]--＞“ 一句话概括论文核心+技术亮点总结”

我们呈现OLMo 2，这是我们下一代的“完全开放”语言模型。OLMo 2 包含一系列稠密自回归语言模型，规模涵盖7B、13B 和 32B，并完整公开全部研发产物——模型权重、完整训练数据、训练代码与配方、训练日志以及数千个中间检查点。在本工作中，我们描述了经过修改的模型架构与训练方案，重点介绍用于实现更高训练稳定性与更高每 token 训练效率的技术。我们更新后的预训练数据混合方式中引入了一种新的

回顾-DeepSeekMoE[1]--＞“ 一句话概括论文核心+技术亮点总结”

在大语言模型时代，Mixture-of-Experts（MoE）是一种在扩展模型参数规模时管理计算成本的有前景的架构。然而，传统的 MoE 架构（如 GShard），采用在 𝑁 个专家中激活 top-𝐾 个的方式，面临难以确保“专家专精”（expert specialization）的问题——即每个专家获得不重叠且聚焦的知识。为此，我们提出了 DeepSeekMoE 架构，旨在实现“终极专家专

回顾-DeepSeek-V2 [1]--＞“ 一句话概括论文核心+技术亮点总结”

我们发布了 DeepSeek-V2，这是一款具有经济化训练与高效推理特点的强大 Mixture-of-Experts（MoE）语言模型。其总参数量为 2360 亿，其中每个 token 仅激活 210 亿参数，并支持 128K tokens 的上下文长度。DeepSeek-V2 采用了包括多头潜在注意力（MLA）和【2】在内的创新架构。MLA 通过将 Key-Value（KV）缓存显著压缩为潜在

回顾-大模型位置编码

回顾-llama[1]--＞“ 一句话概括论文核心+技术亮点总结”

我们介绍LLaMA，一个由 70 亿到 650 亿参数规模组成的基础语言模型集合。我们使用数万亿 tokens 进行训练，并展示：仅使用公开可获得的数据集，在不依赖私有或不可访问数据的情况下，也能够训练出最先进水平的模型。特别是，LLaMA-13B 在大多数基准测试上优于 GPT-3（175B），而 LLaMA-65B 的性能可与最先进的模型 Chinchilla-70B 和 PaLM-540B

回顾-Qwen[1]--＞“ 一句话概括论文核心+技术亮点总结”

大型语言模型（LLM）已经彻底改变了人工智能领域，能够执行以前认为仅限于人类的自然语言处理任务。在这项工作中，我们介绍了QWEN1，这是我们大型语言模型系列的第一款。QWEN是一个综合性的语言模型系列，包含不同参数数量的模型。它包括QWEN，基础预训练语言模型，以及QWEN-CHAT，这些聊天模型通过人类对齐技术进行了微调。基础语言模型在多个下游任务中表现出色，而聊天模型，特别是那些使用人类反馈强

回顾-LLM基础模块，分类，架构，训练等小汇总

回顾看过的论文与之前总结的内容，对目前这个系列做个小小的汇总。虽然LLM现在更新层出不穷+各种paper漫天飞舞，不过目前回顾看的各种结构改变并不是特别大，掌握基础的不变的才可以能更好的适应变化。欢迎大家留言小结的结构：一基础知识：attention的细节和归一化，激活函数的函数等。二 LLM分类：不同的LLM结构和原因分析三架构：不同的架构比较，如使用的编码方式，归一化方法，激活函数等四训

共 29 条

请选择