logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

揭秘大语言模型训练加速利器MindSpeed-LLM,让效率飙升

MindSpee-LLM是昇腾AI面向大模型分布式训练提供的语言大模型套件,仓库涵盖了模型、算法以及各类开发工具链,支持开箱即用及灵活组装开发。仓库配备了详细的使用指南和示例代码,欢迎加入和体验:​。

文章图片
#语言模型#人工智能#自然语言处理
如何基于向量数据库+LLM(大语言模型)打造企业专属Chatbot?

流畅的多轮对话、丰富的通用知识问答,对于通用大语言模型在理解和响应人类指令方面表现突出,由于通用大模型的知识来源于公共知识,缺少对垂直领域的训练,因此使用LLM在垂直领域的知识问答表现并不理想。基于向量数据库+大模型的智能知识问题可以打破传统搜索困境,实时、快速、准确提供知识答疑,信息获取更加轻松高效。向量数据库+LLM(大语言模型),打造更懂你的企业专属Chatbot?企业知识管理存在的哪些问题

文章图片
#数据库#人工智能#自然语言处理
搭建FastGPT本地知识库问答系统踩过的坑

如今部署一套基于LLM大语言模型的私有知识库问答系统已经比较普遍,而且在企业内部也有很强的应用需求。网上这方面的开源系统比较多,在经过多方调研和对比后,我选择了FastGPT来搭建本地的知识库问答系统。尽管官方也提供了安装指南,但是在实际部署过程中,就会发现有些细节之处安装指南里并没有说清楚,网上也不容易查找到,还需要自己去摸索求证。今天给大家分享一下利用FastGPT搭建知识库问答系统过程中碰到

文章图片
#人工智能#自然语言处理
分享一本大模型内行人都在学的大模型神书——《从零构建大语言模型》(附PDF)

1、第一部分理解大型语言模型:介绍了 LLM 的基本概念、transformer架构以及训练大型语言模型所需的基础知识。5、第五部分无标签数据的预训练:讨论了如何在没有标签的数据上进行预训练,使模型能够捕捉语言的复杂性和上下文关系。3、第三部分注意力机制编程:深入探讨了注意力机制的原理及其在 LLM 中的应用,并通过代码实现了这些机制。6、第六部分模型微调:解释了如何在特定任务或领域的数据上微调预

文章图片
#人工智能#自然语言处理
NoteLLM: 大语言模型在小红书推荐系统的落地应用

笔记压缩prompt构建生成式对比学习(Generative-Contrastive Learning)协同监督微调(Collaborative Supervised Fine-Tuning)笔记压缩prompt构建用来定义模型在训练时的输入,生成式对比学习和协同监督微调分别对应两个预训练任务,前者引入了推荐中的协同过滤信号作为标签进行对比学习来训练更好的文本表征,后者其实就是根据笔记内容来生成对

文章图片
#语言模型#人工智能#深度学习 +1
又有人将Transformer可视化了,可交互、有源码

为什么说“又”呢?因为前面已经分享过一个可视化工具了,与那个工具相比,今天分享的Transformer Explainer更直观、交互性更强。在线地址:https://poloclub.github.io/transformer-explainer/源码:https://github.com/poloclub/transformer-explainer论文:https://arxiv.org/pd

文章图片
#transformer#深度学习#人工智能
【机器学习】Google开源大模型Gemma2:原理、微调训练及推理部署实战

上下文长度为 8192 个 token使用旋转位置嵌入(RoPE)近似 GeGLU 非线性局部滑动窗口和全局注意力。研究团队在每隔一层中交替使用局部滑动窗口注意力和全局注意力。局部注意力层的滑动窗口大小设置为4096个token,而全局注意力层的跨度设置为8192个token。Logit软封顶。根据Gemini 1.5的方法,研究团队在每个注意力层和最终层限制logit,使得logit的值保持在−

文章图片
#机器学习#人工智能#自然语言处理
如何使用大模型进行文本分类任务?

文本分类是自然语言处理(NLP)中的一项基础任务,应用范围从情感分析到内容分类。传统上,它需要大量的数据预处理、特征工程和模型训练。大型语言模型的出现彻底改变了这一过程,提供了一种强大且高效的替代方案。今天,我们将探讨如何使用大模型进行文本分类任务,并提供几个实际示例来展示如何实现它们。让我们看看如何使用大模型进行文本分类,并通过一些代码示例来说明。我们将通过OpenAI的GPT模型API展示二元

文章图片
#分类#数据挖掘#人工智能 +2
vLLM如何提升大模型的推理效率?

vLLM(Virtualized Language Learning Model)是一种用于自然语言处理(NLP)的模型框架,旨在提高大规模语言模型(如GPT等)推理的性能和效率。论文看这里:代码看这里:本文结合论文详细介绍下为什么需要 vLLM,以及 vLLM 内部的原理是什么,带来了哪些提升。在模型推理时, GPU 的内存分配如下:其中:(1)Parameters 保留权重等参数,是静态的,这

文章图片
#人工智能#自然语言处理#算法
大模型微调实战:基于 LLaMAFactory 通过 LoRA 微调修改模型自我认知

本文主要分享如何使用 LLaMAFactory 实现大模型微调,基于 Qwen1.5-1.8B-Chat 模型进行 LoRA 微调,修改模型自我认知。本文的一个目的:基于模型进行微调,修改模型自我认证。修改前对于模型,用户问你是谁?时模型一般会回答我们希望在微调之后,对于同样的问题,模型能回答。

文章图片
#数据库#人工智能
    共 547 条
  • 1
  • 2
  • 3
  • 55
  • 请选择