logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型微调,使用QLoRA和自定义数据集微调大模型(下)

微调大型语言模型(LLM)已成为寻求优化运营流程的企业必不可少的步骤。虽然LLM的初始训练赋予了广泛的语言理解能力,但微调过程将这些模型细化为能够处理特定主题并提供更准确结果的专用工具。为不同任务、行业或数据集定制LLM扩展了这些模型的能力,确保了它们在不断变化的数字环境中的相关性和价值。展望未来,LLM的持续探索和创新,加上精细的微调方法,有望推进更智能、更高效、更具情境意识的人工智能系统的发展

文章图片
#人工智能#自然语言处理#深度学习 +1
基于LoRA微调多模态大模型

BLIP-2通过利用预训练的视觉模型和语言模型来提升多模态效果和降低训练成本,预训练的视觉模型能够提供高质量的视觉表征,预训练的语言模型则提供了强大的语言生成能力。如下图所示,由一个预训练的,一个预训练的和一个可学习的Q-Former组成。image.png:负责从输入图片中提取视觉特征。:负责文本生成。Q-Former:负责弥合视觉和语言两种模态的差距,由和两个子模块构成,它们共享相同自注意力层

文章图片
#人工智能#语言模型
从头预训练一个 LLaMA 3 超级mini杯

虽然是练习,但既然打着复现工作的名头,还是来简要回顾一下原工作究竟做了什么吧。原工作探索的问题是语言模型(LM)在文本连贯性上的表现。像早期的一些语言模型如 GPT-2,即使在一些 Common Craw 这样的语料库上大量预训练后,也很难生成长的、连贯的文本。比如前几年有一种 AI 玩具类型是做文本续写,例如彩云小梦,可以写写作文、小说什么的,如果大家玩过就知道效果其实一言难尽,和今天的大模型完

文章图片
#语言模型#人工智能#机器学习
GPT微调和嵌入哪个好,大模型微调 和嵌入有什么区别?微调(fine-tuning),嵌入(embedding)的用法!

也就是先在本地文档库中Search,拿到本地的数据结果,再去Ask,把搜索结果和问题一起交给GPT,这样GPT可以根据你提供的内容以及它模型中的数据,一起将结果返还给你。

文章图片
#人工智能
微调大模型-3-微调基座模型

官网:https://www.llamafactory.cn/ git:https://github.com/hiyouga/LLaMA-FactoryMeta的微调工具链~平民老百姓创建自己的LLM就靠它了。

文章图片
#语言模型#人工智能
LLM实战 | LLM+量化投资的具体实践:LLM在股票量化投资中的应用

LLM:Large Language Model(大型语言模型)是一种使用深度学习算法和大量的语言数据来生成人类语言的模型。这些模型可以像人类一样理解和生成语言,并且在许多自然语言处理任务中表现出色,如机器翻译、语言生成、对话系统等。ChatGPT就是一个非常知名的大型语言模型,具有非常强大的自然语言生成能力。大型语言模型(LLM)的原理是基于深度学习的神经网络技术,通过训练模型来学习自然语言的语

文章图片
#深度学习#人工智能#transformer
大模型也像人?看这届网友如何花式PUA各类大模型

近期一位叫Rob Lynch的网友发现,这位网友使用除了月份其他都相同的提示词,要求GPT4完成一个机器学习任务,并统计模型输出的字符分布,并且每个重复477次结果表明:在五月GPT4平均输出4298个字符,而在十二月GPT4平均才输出4086个字符,足足比5月少了200多个!出于统计学的严谨性,这位网友甚至还做了t检验:t-test p < 2.28e-07(

文章图片
#人工智能#学习#语言模型
使用Ollama搭建一个免费的聊天机器人

Ollama是一个能在本机运行大语言模型的软件,它提供命令行和API的交互方式,对于需要考虑数据隐私的情景,可以方便的使用Ollama部署大语言模型,并在此基础上开发RAG等应用,而无需调用OpenAI等开放API。Ollama基本上已经建立了比较完善的生态,除了在系统中使用命令行、API等方式交互,Langchain、Dify等开发框架也都支持Ollama,另外,也有非常多GUI客户端可以使用,

文章图片
#机器人#人工智能#语言模型
快速构建本地RAG聊天机器人:使用LangFlow和Ollama实现无代码开发

在这个项目中,我们将构建一个人工智能聊天机器人,并命名为“Dinnerly——您的健康食谱规划师”。它的目标是借助检索增强生成(RAG)技术,从一个食谱PDF文件中推荐健康的菜肴配方。在深入了解如何实现这一目标之前,让我们快速浏览一下项目中将要使用的关键组件。

文章图片
#机器人#人工智能#语言模型 +2
深度学习 Transformer 的自注意力机制掩码

01深度学习 Transformer 自注意力机制中的掩码(Mask)是一种关键技术,用于控制模型在处理序列数据时哪些位置的信息可以被相互关注。掩码在不同的上下文中有不同的应用,但总体目的是防止在处理序列的当前位置时“泄露”未来位置的信息或者忽略无关的位置。02在自回归任务中,如语言模型或机器翻译,每个输出应该仅依赖于它之前的输出。因此,需要一个掩码来确保在计算当前输出时忽略所有未来的位置。

文章图片
#深度学习#transformer#人工智能 +1
    共 359 条
  • 1
  • 2
  • 3
  • 36
  • 请选择