logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ultra-FineWeb:高质量LLM训练数据的过滤与验证

Ultra-FineWeb:高质量LLM训练数据的过滤与验证论文解读

文章图片
#人工智能#深度学习
文本分类任务Qwen3-0.6B与Bert:实验见解

本文通过实验比较了Qwen3-0.6B和Bert在文本分类任务中的表现。实验使用AG News数据集,Bert通过添加线性层进行微调,而Qwen3-0.6B则通过构造Prompt进行SFT训练。结果显示,Bert在测试集上的F1得分为0.945,而Qwen3-0.6B的F1得分为0.944,两者表现接近。实验表明,尽管Qwen3-0.6B参数量较大,但在文本分类任务中并未显著优于Bert。实验还指

文章图片
#bert#人工智能
预训练数据指南:衡量数据年龄、领域覆盖率、质量和毒性的影响

预训练是开发高性能语言模型(LM)的初步和基本步骤。尽管如此,预训练数据的设计却严重缺乏记录,而且往往是以缺乏经验支持的直觉为指导。为了解决这个问题,我们对28个1.5B参数的Decoder only模型进行了预训练,训练数据包括:(1)不同时间;(2)使用不同毒性和质量过滤器;(3) 不同领域组成的数据。首先,我们量化了预训练数据时效性的影响。评估数据和预训练数据之间的时间变化会导致性能下降,而

文章图片
#自然语言处理#深度学习
大语言模型的简易可扩展增量预训练策略

大语言模型(LLMs)通常需要在数十亿个tokens上进行预训练,一旦有了新数据,又要重新开始训练。更有效的解决方案是增量预训练(Continue PreTraining)这些模型,这与重新训练相比可以节省大量的计算资源。然而,新数据带来的分布偏移通常会导致在旧数据上的性能下降或者对新数据的适应性不佳。

文章图片
#语言模型#人工智能#自然语言处理 +1
大语言模型的简易可扩展增量预训练策略

大语言模型(LLMs)通常需要在数十亿个tokens上进行预训练,一旦有了新数据,又要重新开始训练。更有效的解决方案是增量预训练(Continue PreTraining)这些模型,这与重新训练相比可以节省大量的计算资源。然而,新数据带来的分布偏移通常会导致在旧数据上的性能下降或者对新数据的适应性不佳。

文章图片
#语言模型#人工智能#自然语言处理 +1
在Kaggle上使用Stable Diffusion进行AI绘图

在Kaggle上使用Stable Diffusion进行AI绘图

文章图片
#AI绘图
Deep Learning Tuning Playbook(深度学习调参手册中译版)

由五名研究人员和工程师组成的团队发布了《Deep Learning Tuning Playbook》,本文对手册进行了中文翻译

文章图片
#深度学习#人工智能
使用NNI对BERT模型进行粗剪枝、蒸馏与微调

使用NNI框架对BERT模型进行粗剪枝、蒸馏与微调

文章图片
#bert#剪枝
Grad-CAM算法代码详解

Grad-CAM算法代码详解,并使用pytorch进行了实现

文章图片
#迁移学习#深度学习
    共 23 条
  • 1
  • 2
  • 3
  • 请选择