logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【自然语言处理】【大模型】GLM-130B:一个开源双语预训练语言模型

​大语言模型(LLMs),特别是参数超过100B的模型呈现出诱人的scaling laws,其会突然涌现出zero-shot和few-shot能力。具有175B参数的GPT-3率先对100B尺度的LLM进行了研究:在各种基准上,使用32个标注示例可以显著超越全监督的BERT-Large模型。然而,GPT-3本身以及如何训练仍然是无法公开获得的。训练出如此规模的高质量LLM,并对每个人分享模型和训练

文章图片
#自然语言处理#语言模型#人工智能 +1
【自然语言处理】【分布式训练及推理】推理工具DeepSpeed-Inference

推理工具DeepSpeed-Inference​DeepSpeed-Inference是DeepSpeed框架在推理方面的扩展。DeepSpeed-Inference合并了张量、流水线并行以及自定义优化cuda核等并行化技术。DeepSpeed提供了无缝推理模式来兼容DeepSpeed、Megatron和HuggingFace训练的Transformer模型。DeepSpeed-Inference

文章图片
#自然语言处理#人工智能#分布式
【自然语言处理】【大模型】CodeGeeX:用于代码生成的多语言预训练模型

​代码生成的目标是:给定人类意图的描述(例如:“写一个阶乘函数”),系统自动生成可执行程序。这个任务由来已久,解决的方案也层出不穷。近期,通过将程序看作是语言序列,利用深度学习的transformer架构进行建模,显著的改善了代码生成的质量。特别是当大规模的开源代码数据与大语言模型相结合。​OpenAI的12B模型CodeX证明了在数十亿行公开代码上预训练的大模型的潜力。通过使用生成式预训练的方式

文章图片
#自然语言处理#人工智能
Python爬虫之requests库(三):发送表单数据和JSON数据

import requests一、发送表单数据要发送表单数据,只需要将一个字典传递给参数datapayload = {'key1': 'value1', 'key2': 'value2'}r = requests.post("http://httpbin.org/post", data=payload)print(r.text){"args&a

【自然语言处理】文本分类模型_BiLSTM+Attention_TensorFlow实现

一、模型结构1. Embedding层:获得词的分布式表示;2. BiLSTM层:将词向量依次送入到双向LSTM中并得到每个cell的输出outputs;3. Attention层:令hih_ihi​表示由BiLSTM产生的包含单词wiw_iwi​上下文信息的隐藏层向量;通过全连接层将hih_ihi​转换为uiu_iui​:ui=tanh(Whi+b)u_i=tanh(Wh_i+b)ui...

【自然语言处理】文本分类模型_Transformer_TensorFlow实现

一、原始Transformer模型1. Paper:Attention Is All You Need2. 该模型是一个Seq2Seq的模型,其包含一个encoder和一个decoder,其结构如下图:上图中encoder和decoder只包含了一层结构。在原始的模型中,encoder包含6层如上图的结果,decoder也包含6层如上图的结果二、Attention机制Attenti...

#tensorflow#transformer
【自然语言处理】【大模型】ChatGLM-6B模型结构代码解析(单机版)

ChatGLM-6B模型结构代码解析(单机版)​本文介绍ChatGLM-6B的模型结构,代码来自https://huggingface.co/THUDM/chatglm-6b/blob/main/modeling_chatglm.py。

文章图片
#自然语言处理#人工智能
【TensorFlow】使用TensorFlow实现LR

import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltload datafrom tensorflow.examples.tutorials.mnist import input_datamnist = input_data.read_data_sets("/tmp/data/", one

#逻辑回归#tensorflow
【Tensorflow】多分类问题的Precision、Recall和F1计算及Tensorflow实现

一、二分类问题的Precision、Recall、F1网络上关于Precision、Recall和F1的介绍有很多,因此这里只作简单回顾。在二分类问题中,根据真实类别和预测类别的组合可以分为四中情况,分别是TP(True Positive)、FP(False Positive)、TN(True Negative)、FN(False Negative)。如下图:那么Precision表示所有...

#tensorflow
【自然语言处理】【大模型】DeepSpeed+Transformers:简单快捷上手百亿参数模型微调

​本文以百亿大模型FLAN-T5 XXL为例,展示如何使用DeepSpeed+Transformers来快速上手百亿参数模型的微调。​FLAN-T5是经过instruction tuning的T5模型,关于instruction tuning可以看文章【自然语言处理】【ChatGPT系列】FLAN:微调语言模型是Zero-Shot学习器。本文选用FLAN-T5 XXL模型作为示例,该模型参数量约为

文章图片
#自然语言处理#ChatGPT
    共 39 条
  • 1
  • 2
  • 3
  • 4
  • 请选择