logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

[深度学习] AutoDis --- KDD2021 连续特征的Embedding学习框架

论文名:An Embedding Learning Framework for Numerical Features in CTR Prediction开源代码:AutoDis1. 背景介绍在CTR预估模型中,大多数模型都遵守Embedding & Feature Interaction(FI)的范式。以往的大多数研究都聚焦于网络结构的设计,以更好的捕获显式或隐式的特征交互,如Wide&a

#深度学习#pytorch#机器学习
[LLM]大模型训练DeepSpeed(一)-原理介绍

DeepSpeed是由Microsoft提供的分布式训练工具,旨在支持更大规模的模型和提供更多的优化策略和工具。与其他框架相比,DeepSpeed支持更大规模的模型和提供更多的优化策略和工具。其中,主要优势在于支持更大规模的模型、提供了更多的优化策略和工具(例如 ZeRO 和 Offload 等)

文章图片
#深度学习#人工智能
[LLM]Streamlit+LLM(大型语言模型)创建实用且强大的Web聊天机器人

Streamlit 是一个开源框架,使开发人员能够快速构建和共享用于机器学习和数据科学项目的交互式 Web 应用程序。它还提供了一系列小部件,只需要一行 Python 代码即可创建,例如。对于我们创建一个简单的用于私人使用的聊天机器人网站来说,Streamlit 是一个非常合适的库,它还提供了第三方 Streamlit_chat 库,进一步方便我们生成“聊天式” Web 应用程序,因为我们不需要写

文章图片
#语言模型#机器人#人工智能
[机器学习] 模型稳定度指标PSI

群体稳定性指标(population stability index)由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,...

[NLP]Huggingface模型/数据文件下载方法

作为一名自然语言处理算法人员,hugging face开源的transformers包在日常的使用十分频繁。在使用过程中,每次使用新模型的时候都需要进行下载。如果训练用的服务器有网,那么可以通过调用from_pretrained方法直接下载模型。

文章图片
#自然语言处理#人工智能
[LLM] 自然语言处理 --- Self-Attention(二) 动画与代码演示

一 Self AttentionSelf Attention也经常被称为intra Attention(内部Attention),最近一年也获得了比较广泛的使用,比如Google最新的机器翻译模型内部大量采用了Self Attention模型。在一般任务的Encoder-Decoder框架中,输入Source和输出Target内容是不一样的,比如对于英-中机器翻译来说,Source是英文句子,Ta

文章图片
#nlp#自然语言处理
[NLP]使用Alpaca-Lora基于llama模型进行微调教程

Stanford Alpaca 是在 LLaMA 整个模型上微调,即对预训练模型中的所有参数都进行微调(full fine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。因此, Alpaca-Lora 则是利用 Lora 技术,在冻结原模型 LLaMA 参数的情况下,通过往模型中加入额外的网络层,并只训练这些新增的网络层参数。由于这些新增参数数量较少,这样不仅微调的成本显著下降,还能

文章图片
#自然语言处理#深度学习
[深度学习] DeepFM 介绍与Pytorch代码解释

1. DeepFM算法的提出由于DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用。在DeepFM中FM算法负责对一阶特征以及由一阶特征两两组合而成的二阶特征进行特征的提取DNN算法负责对由输入的一阶特征进行全连接等操作形成的高阶特征进行特征的提取具有以下特点:结合了广度和深度模型的优点,联合训练FM模型和DNN模型,同时

#深度学习
[机器学习]理解熵,交叉熵和交叉熵的应用

自信息"你对结果感到惊讶的程度"一个低概率的结果与一个高概率的结果相比,低概率的结果带来的信息量更大。现在,如果yi是第i个结果的概率,那么我们可以把自信息s表示为:熵现在我知道一个事件产生某个结果的自信息,我想知道这个事件平均带来多少自信息。对自信息s进行加权平均是很直观的。现在的问题是选择什么权重?因为我知道每个结果的概率,所以用概率作为权重是有意义的,因为这是每个结果...

[LLM] 自然语言处理---Transformer原理(一)

《Attention Is All You Need》是Google在2017年提出的一篇将Attention思想发挥到极致的论文。该论文提出的Transformer模型,基于encoder-decoder架构,抛弃了传统的RNN、CNN模型,仅由Attention机制实现,并且由于encoder端是并行计算的,训练时间大大缩短。Transformer模型广泛应用于NLP领域,机器翻译、文本摘要、

文章图片
#深度学习#transformer#自然语言处理
    共 170 条
  • 1
  • 2
  • 3
  • 17
  • 请选择