logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型

​代码生成的目标是:给定人类意图的描述(例如:“写一个阶乘函数”),系统自动生成可执行程序。这个任务由来已久,解决的方案也层出不穷。近期,通过将程序看作是语言序列,利用深度学习的transformer架构进行建模,显著的改善了代码生成的质量。特别是当大规模的开源代码数据与大语言模型相结合。​OpenAI的12B模型CodeX证明了在数十亿行公开代码上预训练的大模型的潜力。通过使用生成式预训练的方式

文章图片
#自然语言处理#人工智能
【自然语言处理】【向量表示】PairSupCon:用于句子表示的成对监督对比学习

​学习高质量的句子嵌入是NLP\text{NLP}NLP中的基础任务。目标是在表示空间中将相似句子映射在相近的位置,将不相似的句子映射至较远的位置。近期的研究通过在NLI\text{NLI}NLIentailment、或者neutral。​尽管结果还不错,但先前的工作都有一个缺点:构成对的句子可能并需要属于不同的语义类别。因此,通过优化模型来区分entailment和,对于模型编码高级类别概念是不

#自然语言处理#机器学习
【深度学习】混合精度训练与显存分析

混合精度训练与显存分析​关于参数精度的介绍可以见文章https://zhuanlan.zhihu.com/p/604338403相关博客。

文章图片
#深度学习#机器学习#人工智能
【计算机视觉】【聚类】SwAV:基于对比簇分配的无监督视觉特征学习

基于对比簇分配的无监督视觉特征学习《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》论文地址:https://arxiv.org/pdf/2006.09882.pdf一、简介​无监督(或者自监督)视觉表示的目标是,在不使用人工标注的情况下或者图像的特征。目前,无监督方法在计算机视觉任务中快速的接

#深度学习#计算机视觉#聚类
【自然语言处理】【信息抽取】UIE:用于通用信息抽取的统一结构生成

用于通用信息抽取的统一结构生成《Unified Structure Generation for Universal Information Extraction》论文地址:https://arxiv.org/pdf/2203.12277.pdf一、简介​信息抽取(IE\text{IE}IE)的目标是从无结构化文本中识别和结构化用户指定的信息。IE\text{IE}IE任务由于不同的目标(实体、关

【自然语言处理】【多模态】FLAVA:一个基础语言和视觉对齐模型

FLAVA:一个基础语言和视觉对齐模型《FLAVA:A Foundational Language And Vision Alignment Model》论文地址:https://arxiv.org/pdf/2112.04482.pdf一、简介​大规模预训练视觉语言Transformer\text{Transformer}Transformer已经在各种下游任务上带来了令人印象深刻的性能改善。特别

#自然语言处理#计算机视觉#人工智能
【张量分解(一)】符号与基础知识

本文是对论文Tensor Decompositions and Applications进行了翻译、整理、筛选和适当的补充,如何希望深入理解可以阅读原文。一、介绍物理或工程中的张量,在数学中通常称为张量场。本文所涉及到的张量是指多维数组,或者说是多维向量空间中的元素。一阶张量称为向量,二阶张量称为矩阵,三阶或者更高阶张量则称为高阶张量或者直接称为张量。二、符号张量使用手写风格的大写字母...

【自然语言处理】【大模型】BitNet:用1-bit Transformer训练LLM

​语言模型的规模不断扩大,这对部署带来了巨大的挑战。本文设计了一种可扩展且稳定的1-bit Transformer架构来实现大语言模型,称为BitNet。具体来说,使用BitLinear作为标准nn的替代品。实验结果表明BitNet能够显著减少存储占用和能力消耗,并且与最先进的8-bit量化和FP16 Transformer能力相当。此外,BitNet也表现出了类似于全精度Transformer的

文章图片
#自然语言处理
【张量分解(三)】Tucker分解

本文是对论文Tensor Decompositions and Applications进行了翻译、整理、筛选和适当的补充,如何希望深入理解可以阅读原文。相关文章:【张量分解(一)】符号与基础知识【张量分解(二)】CP分解一、Tucker分解1.1 定义Tucker分解可以看作是主成分分析(PCA)的一种高阶版本,其将张量分解为一个核张量与每一维度上对应矩阵的乘积。具体来说,以三阶张量...

#深度学习
【自然语言处理】【大模型】DeepSeek-V2论文解析

论文地址:https://arxiv.org/pdf/2405.04434​传统Transformer采用MHA(Multi-Head Attention),但是kv cache会成为推理瓶颈。MQA(Multi-Query Attention)和GQA(Grouped-Query Attention)可以一定程度减少kv cache,但效果上不如MHA。DeepSeek-V2设计了一种称为MLA

文章图片
#自然语言处理
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择