logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek 细节(3)之 MTP(Multi-Token Prediction)

当前主流的 LLM 主要采用 Decoder-only 为基础的模型结构。这意味着无论是在训练还是推理阶段,序列的生成都是逐个 token 进行的。在生成每个 token 时,模型需要频繁地进行访存操作,加载 KV Cache,往往成为训练或推理过程中的瓶颈。通过优化解码阶段,可以将单个 token 的生成转变为多个 token 的生成,从而提升训练和推理的性能。具体而言,在训练阶段,通过一次生成

文章图片
LLM 中的 Decoder Only

为什么现在的大模型大都是 decoder only 架构?这个问题想来稀松平常,经常能看到各大社区中的众多回答,但对于该问题的了解也非常碎片化,今天就系统的对该问题进行归纳梳理。

文章图片
分层可导航小世界算法(HNSW)

随着大语言模型(LLM)与检索增强生成(RAG)技术的普及与应用,向量数据库的热度持续攀升。当前主流的向量数据库(如 Milvus、Weaviate、Chroma、Elasticsearch 等)均支持 HNSW 这一高效的向量检索算法。本文将对 HNSW 算法的起源进行学习及探讨更好的排版格式~

Elasticsearch 之分页查询

在搜索引擎应用中,分页查询是一种常见需求。Elasticsearch 提供了多种分页方式以应对不同场景。本文将结合实际应用场景,介绍三种常用的分页查询方法。

#elasticsearch
LLM 中的 Causal Decoder、Prefix Decoder 和 Encoder-Decoder

在 Transformer 模型中,mask 机制是一种用于在 self-attention 中的技术,用以控制不同 token 之间的注意力交互。Mask 机制经常被用于NLP任务中,按照作用总体来说可以分成两类。

文章图片
DeepSeek 系列模型中的技术

是杭州深度求索人工智能基础技术研究有限公司的简称,同时DeepSeek也是该公司研发的通用人工智能开源大模型平台。DeepSeek完全基于自研训练框架、自建智算集群和万卡算力等资源,在短时间内取得了显著的研发成果。它通过大幅度缩减以往大模型所需要的庞大算力,直接把大模型的成本降了下来。

关系抽取之——强化学习

Reinforcement Learning for Relation Classification from Noisy Data摘要:目前存在的关系抽取方法大多是依赖于远程监督假设的,即所有包含两个相同实体的句子都只表达一种关系。但是这些方法都是在包级别上做关系抽取,不能明确的映射出单句和关系之间的联系,并且由远程监督产生的错误标签还在影响着模型的精度。该文在含有噪声的数据集上提出了一...

文章图片
DeepSeek 细节(3)之 MTP(Multi-Token Prediction)

当前主流的 LLM 主要采用 Decoder-only 为基础的模型结构。这意味着无论是在训练还是推理阶段,序列的生成都是逐个 token 进行的。在生成每个 token 时,模型需要频繁地进行访存操作,加载 KV Cache,往往成为训练或推理过程中的瓶颈。通过优化解码阶段,可以将单个 token 的生成转变为多个 token 的生成,从而提升训练和推理的性能。具体而言,在训练阶段,通过一次生成

文章图片
NCNN 模型 INT8 量化

INT8 量化是一种模型优化技术,它将模型中的浮点(FP32)权重和激活值转换为 8 位整数(INT8)表示。相比于 FP32,INT8 数据类型占用更少的内存空间,并且显著提升推理速度。

文本图神经网络

论文链接:Graph Convolutional Networks for Text ClassificationIdea:基于一个数据集内的共现词和文档构建一个文本异构图网络。在文本图网络中,单词和文档向量初始化形式为one-hot,在文档已知类标签的监督下,联合学习单词和文档的向量化表示。图网络能够有效的处理关系型(结构化)数据,可以以图的形式保留全局性结构化信息在图...

文章图片
    共 12 条
  • 1
  • 2
  • 请选择