logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【多模态大模型】GLIP:零样本学习 + 目标检测 + 视觉语言大模型

通过这些数据,GLIP学习到了丰富的视觉概念和语义信息,比如什么是“猫”,它们长什么样,常出现在哪些场景中,以及如何根据不同的描述(例如“黑色的猫”)来识别和定位具体的对象。比如,当GLIP遇到一个它在预训练数据中没有直接见过的新图片,即使这张图片中的对象是新的或者以新的方式出现,GLIP也能利用它从预训练中学到的知识,来识别和定位图片中的对象。: 在现有的视觉识别任务中,模型通常是针对一组固定的

文章图片
#学习#目标检测#人工智能
大模型微调方法:冻结方法 Freeze、P-Tuning 系列、LoRA、QLoRA

在 Prompt Tuning 中,连续提示仅插入到 Transformer 的第一层输入嵌入序列中,而在接下来的Transformer层中,连续提示位置的嵌入是由之前的 Transformer 层计算得到的。在 P-tuning v2 中,作者发现重参数化的改进很小,尤其是对于较小的模型,同时还会影响模型的表现。:传统的预训练模型中,只有最后一层或者少数几个层的参数会被更新,而其他层的参数保持不

文章图片
#深度学习
Swin UNetR:把 UNet 和 Swin Transformer 结合

这个层的作用是将Token的数量减少,实现2倍的下采样,同时将特征维度增加到原始维度的2倍。通过这个操作,特征的分辨率增加了2倍,而特征的维度减少到输入维度的1/4。训练过程中,将输入切割为多个小的体素块,并对每个体素块进行两次不同的数据增强操作,然后将它们分别输入到网络的编码器中进行处理,并计算自监督损失。编码器和解码器之间的连接方式。通过使用Patch expanding layer,解码器能

文章图片
#transformer#深度学习#人工智能
【YOLO v5 v7 v8 v9 小目标改进】SPD-Conv:解决步长卷积和池化层导致的细粒度信息丢失

在添加 SPD-Conv 代码"""这个模块实现了空间到深度的操作,它重新排列空间数据块到深度维度,通过块大小增加通道数并减少空间维度。在卷积神经网络中常用此方法保持下采样图像的高分辨率信息。""""""初始化 SpaceToDepth 模块。参数:block_size (int): 每个块的大小。它定义了空间维度的下采样因子。输出通道的数量将增加 block_size**2 倍。"""self.

文章图片
【大模型 数据增强】零一万物 Yi 数据处理思路

通过分析每个聚类的质量标签,我们可以优化新闻源的选择,比如发现某个聚类中的文章普遍质量不高,则可以针对性地调整或排除这类来源。文章如果包含过高比例的特殊符号或短行,很可能是格式混乱、质量低下的文本,通过设定特定的阈值,可以自动识别并排除这类内容。通过高质量、高多样性的数据处理,以及模型架构的细微调整,来确保模型能够学习到丰富而深入的知识,展现出高级的能力。一般,我们就是采用垂类领域的开源数据集,他

文章图片
#人工智能
大模型并行训练、超大模型分布式训练

一个用于训练大型语言模型的开源项目。提供了对大规模模型进行并行训练的能力,支持模型并行和数据并行,并提供了一系列的优化策略和工具,以提高训练效率和性能。:适合模型大,数据少,需要对模型做切分,将模型参数划分为多个部分,放到不同的GPU上进行独立计算,再做聚合。如模型有 10000 层,10块GPU,GPU0 装载模型的前1000层,以此类推,GPU9 装载模型的最后 1000 层。适合模型大,数据

文章图片
#分布式
AI芯片:神经网络研发加速器、神经网络压缩简化、通用芯片 CPU 加速、专用芯片 GPU 加速

是一个开源的神经网络编译器框架,它可以将各种深度学习模型(如TensorFlow、PyTorch、MXNet等的模型)编译成优化的代码,以在多种硬件上运行,包括CPU、GPU、FPGA等。首先,三个独立的数据向量(A0, A1, A2, A3),(B0, B1, B2, B3),和(C0, C1, C2, C3)被加载到SIMD寄存器中。目标是在保持模型性能的同时,减少模型的计算负担和存储需求,特

文章图片
#人工智能#神经网络#深度学习
【大模型 知识图谱】ChatKBQA:KBQA知识图谱问答 + 大模型

生成阶段说明了ChatKBQA如何使用训练数据(自然语言问题与对应的逻辑形式)通过指令调优来fine-tune开源LLMs。展示了输入的自然语言问题是如何经过fine-tuned的LLM和beam search来生成候选的逻辑形式。检索阶段展示了如何从知识库中检索与候选逻辑形式相匹配的实体和关系。介绍了无监督检索的使用,如SimCSE、Contriever和BM25,来优化逻辑形式,并最终生成可以

文章图片
#知识图谱#人工智能
【全网最强文档智能】大模型 + RAG + PDF问答,居然比 PyPDF + langchain 还好用!

LLM主要依赖于公开的互联网来源作为训练数据,这些数据虽然丰富多样但在专业领域的应用中往往缺乏私有领域知识,限制了LLM在特定领域内的效能。这种全面的方法允许它在处理各种复杂PDF文档时,不仅能够提取文本,还能理解文档的深层结构和逻辑,从而为后续的信息检索和问答系统提供强大支持。:将PDF文档内容解析为结构化的形式,如段落、标题、表格和图像等,并进一步将这些内容分成更小的块(Chunks)。接下来

文章图片
#人工智能
【大模型信息抽取】KnowLM:知识图谱 + 大模型,实现更有效的信息抽取和知识管理

结构化输出格式(s_format)可以为:“{‘head’: ‘头实体’, ‘relation’: ‘关系’, ‘tail’: ‘尾实体’}”。右侧更专注于指令数据集,包括实体识别(NER)、关系抽取(RE)、事件抽取(EE)等NLP任务,以及各种中文和英文的数据集。左侧用于预训练的数据集,包括中文(红色)、英文(绿色)、代码(蓝色),以及这些数据的处理步骤,如分词、清洗等。目前需要从大量文本中,

文章图片
#知识图谱#人工智能
暂无文章信息