logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于LoRA微调多模态大模型

BLIP-2通过利用预训练的视觉模型和语言模型来提升多模态效果和降低训练成本,预训练的视觉模型能够提供高质量的视觉表征,预训练的语言模型则提供了强大的语言生成能力。如下图所示,由一个预训练的,一个预训练的和一个可学习的Q-Former组成。image.png:负责从输入图片中提取视觉特征。:负责文本生成。Q-Former:负责弥合视觉和语言两种模态的差距,由和两个子模块构成,它们共享相同自注意力层

文章图片
#人工智能#语言模型
# dify案例分享-魔搭+Dify王炸组合!10分钟搭建你的专属 生活小助理

今天主要带大家了解并实现了基于魔搭社区 MCP 广场和 Dify 平台的 AI Agent 智能体工作流方案。我们介绍了 MCP Server 的相关概念,包括其架构、工作原理、主要功能以及发展现状。MCP Server 作为一种轻量级服务程序,为 AI 模型与外部资源的连接提供了高效、安全的解决方案。这个方案属于比较实用且具有一定创新性的方案,能够帮助用户打造一个集吃饭、学习、看新闻、出门旅行为

文章图片
#人工智能
Agent三大痛点:知识库+工作流+Prompt工程

正文:大语言模型 (LLM)是基础计算能力,日趋标准化;工具 (Tools)是能力扩展接口,通过MCP等协议日趋标准化;知识库 (RAG)决定知识深度与专业性,减少模型“幻觉”,是企业知识的载体;工作流 (Workflow)决定处理效率与逻辑,是复杂任务自动化的骨架;提示词 (Prompt)直接决定输出精度,需要深度结合业务场景进行设计。设计精准的提示词、编排可靠的工作流,以及构建和维护高质量的知

文章图片
#人工智能#前端#transformer
三分钟了解自动驾驶中视觉Transform应用:视觉Transoform自动驾驶综述

Transform架构是一项突破性创新,通过利用注意力机制进行序列处理,标志着从传统循环层的转变。它由两个主要部分组成:编码器和解码器。编码器通过多头注意力和前馈网络处理输入嵌入,两者都通过层规范化和残差连接得到增强。解码器结构与编码器相似,也聚焦于编码器输出,生成最终的输出序列。位置编码在此架构中至关重要,因为它们使模型能够识别序列顺序,这一关键特性是Transform本身无法辨别词序的。此功能

文章图片
#自动驾驶#人工智能#机器学习 +1
更深层的理解视觉Transformer, 对视觉Transformer的剖析

目前基于Transformer结构的算法模型已经在计算机视觉(CV)领域展现出了巨大的影响力。他们在很多基础的计算机视觉任务上都超过了之前的卷积神经网络(CNN)算法模型,下面是笔者找到的最新的在不同基础计算机视觉任务上的LeaderBoard榜单排名,通过LeaderBoard可以看到,基于Transformer算法模型在各类计算机视觉任务上的统治地位。图像分类任务。

文章图片
#自然语言处理#transformer#计算机视觉 +1
一文读懂:从RAG到多模态RAG

Retrieval Augmented Generation,检索增强生成。是一种结合了信息检索技术和大型语言模型提示功能的框架。它通过从数据源检索信息来辅助LLM生成答案,提高了模型在知识密集型任务中的准确性和可信度。

文章图片
#人工智能#语言模型#程序人生 +1
    共 541 条
  • 1
  • 2
  • 3
  • 55
  • 请选择