简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
代码生成的目标是:给定人类意图的描述(例如:“写一个阶乘函数”),系统自动生成可执行程序。这个任务由来已久,解决的方案也层出不穷。近期,通过将程序看作是语言序列,利用深度学习的transformer架构进行建模,显著的改善了代码生成的质量。特别是当大规模的开源代码数据与大语言模型相结合。OpenAI的12B模型CodeX证明了在数十亿行公开代码上预训练的大模型的潜力。通过使用生成式预训练的方式
学习高质量的句子嵌入是NLP\text{NLP}NLP中的基础任务。目标是在表示空间中将相似句子映射在相近的位置,将不相似的句子映射至较远的位置。近期的研究通过在NLI\text{NLI}NLIentailment、或者neutral。尽管结果还不错,但先前的工作都有一个缺点:构成对的句子可能并需要属于不同的语义类别。因此,通过优化模型来区分entailment和,对于模型编码高级类别概念是不
混合精度训练与显存分析关于参数精度的介绍可以见文章https://zhuanlan.zhihu.com/p/604338403相关博客。
基于对比簇分配的无监督视觉特征学习《Unsupervised Learning of Visual Features by Contrasting Cluster Assignments》论文地址:https://arxiv.org/pdf/2006.09882.pdf一、简介无监督(或者自监督)视觉表示的目标是,在不使用人工标注的情况下或者图像的特征。目前,无监督方法在计算机视觉任务中快速的接
用于通用信息抽取的统一结构生成《Unified Structure Generation for Universal Information Extraction》论文地址:https://arxiv.org/pdf/2203.12277.pdf一、简介信息抽取(IE\text{IE}IE)的目标是从无结构化文本中识别和结构化用户指定的信息。IE\text{IE}IE任务由于不同的目标(实体、关
FLAVA:一个基础语言和视觉对齐模型《FLAVA:A Foundational Language And Vision Alignment Model》论文地址:https://arxiv.org/pdf/2112.04482.pdf一、简介大规模预训练视觉语言Transformer\text{Transformer}Transformer已经在各种下游任务上带来了令人印象深刻的性能改善。特别
本文是对论文Tensor Decompositions and Applications进行了翻译、整理、筛选和适当的补充,如何希望深入理解可以阅读原文。一、介绍物理或工程中的张量,在数学中通常称为张量场。本文所涉及到的张量是指多维数组,或者说是多维向量空间中的元素。一阶张量称为向量,二阶张量称为矩阵,三阶或者更高阶张量则称为高阶张量或者直接称为张量。二、符号张量使用手写风格的大写字母...
语言模型的规模不断扩大,这对部署带来了巨大的挑战。本文设计了一种可扩展且稳定的1-bit Transformer架构来实现大语言模型,称为BitNet。具体来说,使用BitLinear作为标准nn的替代品。实验结果表明BitNet能够显著减少存储占用和能力消耗,并且与最先进的8-bit量化和FP16 Transformer能力相当。此外,BitNet也表现出了类似于全精度Transformer的
本文是对论文Tensor Decompositions and Applications进行了翻译、整理、筛选和适当的补充,如何希望深入理解可以阅读原文。相关文章:【张量分解(一)】符号与基础知识【张量分解(二)】CP分解一、Tucker分解1.1 定义Tucker分解可以看作是主成分分析(PCA)的一种高阶版本,其将张量分解为一个核张量与每一维度上对应矩阵的乘积。具体来说,以三阶张量...
论文地址:https://arxiv.org/pdf/2405.04434传统Transformer采用MHA(Multi-Head Attention),但是kv cache会成为推理瓶颈。MQA(Multi-Query Attention)和GQA(Grouped-Query Attention)可以一定程度减少kv cache,但效果上不如MHA。DeepSeek-V2设计了一种称为MLA