logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

人工智能的新篇章:深入了解大型语言模型(LLM)的应用与前景

LLM(Large Language Model)技术是一种基于深度学习的自然语言处理技术,旨在训练能够处理和生成自然语言文本的大型模型。

文章图片
#人工智能#语言模型#自然语言处理 +2
打造本地大模型地基,PVE 配置显卡直通

本文将详细介绍如何在虚拟化平台 Proxmox Virtual Environment(PVE)配置显卡直通,将宿主机上的物理显卡直接分配给 AI 虚拟机使用。

文章图片
#语言模型#自然语言处理#人工智能 +1
【LLM微调】Llama3.1-8B模型中文版!OpenBuddy发布新一代跨语言模型

Meta发布了新一代开源模型系列:Llama3.1。其中405B参数的版本刷新了开源模型性能的上限,在多种指标上的测试成绩接近GPT-4等闭源模型的水平,甚至在部分基准测试中展现出来了超越头部闭源模型的潜力。

文章图片
#人工智能#自然语言处理#机器学习
【LLM大模型】介绍一个大语言模型的微调框架Swift

微调(Fine-tuning)是指在已经预训练好的大语言模型基础上,使用特定领域或任务的数据集进行进一步的训练,使模型能够更好地适应并完成该领域或任务的具体要求。预训练的大语言模型通常在大规模通用语料库上进行训练,学习了语言的普遍规律和特征,但对于特定领域或任务的专业知识和特定需求,往往需要通过微调来优化。

文章图片
#swift#人工智能#大数据
LLaMA-Factory:大语言模型微调框架(大模型)

LLaMA-Factory 是一个国内北航开源的低代码大模型训练框架,专为大型语言模型(LLMs)的微调而设计

文章图片
#人工智能#产品经理
大模型预训练认知分享

根据scaling law,模型越大,高质量数据越多,效果越好。但还有一个很直观的情况,随着预训练样本的质量不断提升,训练手段的优化。新的模型,往往效果能轻松反超参数量两倍于它的模型。例如,最新出的minicpm,微信内部评测效果也是非常棒的。跟规模相对接近的2b、7b模型比,得分比qwen2b高,和qwen7b比有的高有的低。这个是minicpm的详细技术文档:这说明,现有参数量情况下,哪怕是2

#自然语言处理#人工智能#语言模型
LLM大模型:QWen2-72B-Instruct模型安装部署过程

最近在给我们的客户私有化部署我们的TorchV系统,客户给的资源足够充裕,借此机会记录下部署千问72B模型的过程,分享给大家!

文章图片
#人工智能#深度学习#transformer +1
PyTorch 快速安装 - 基于 JupyterHub 并运行 K8s

运行 PyTorch 可以直接逻辑运行、容器中运行、KubeFlow 中运行以及基于 JupyterHub(独立运行或运行在 K8s 之上)等多种模式。

文章图片
#pytorch#kubernetes#人工智能 +3
【AI大模型】Transformers大模型库(一):Tokenizer

Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨是让最先进的 NLP 技术人人易用。

#人工智能
【AI大模型】Transformers大模型库(二):AutoModelForCausalLM

是Hugging Face的库中的一个类,它是一个自动模型类,用于因果语言建模(Causal Language Modeling)。因果语言建模是指给定之前的词或字符序列,模型预测文本序列中下一个词或字符的任务。这种模型广泛应用于生成式任务,如对话系统、文本续写、摘要生成等。本文对使用transformers的AutoModelForCausalLM进行尝试,主要对CausalLM(因果推理模型)

文章图片
#人工智能#自然语言处理
    共 22 条
  • 1
  • 2
  • 3
  • 请选择