logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(Neurocomputing-2024)RoFormer: 增强型 Transformer 与旋转位置编码

位置编码在 Transformer 结构中已被证明是有效的。它能够为序列中不同位置的元素之间的依赖关系建模提供有价值的监督。在本文中,我们首先探讨了将位置信息整合到基于 Transformer 的语言模型学习过程中的各种方法。然后,我们提出了一种新方法,称为旋转位置编码(Rotary Position Embedding, RoPE),以有效利用位置信息。具体而言,所提出的 RoPE 通过旋转矩阵

文章图片
#transformer#深度学习#人工智能
(Arxiv-2025)Qwen2.5-VL 技术报告

Qwen2.5-VL技术报告介绍了Qwen团队开发的最新视觉语言模型,该模型在基础能力和创新功能上实现重大突破。模型具备增强的视觉识别、精准目标定位、强大文档解析和长视频理解能力,支持边界框和点定位,能稳健处理各类文档数据。技术亮点包括:引入窗口注意力机制优化计算效率,提出动态FPS采样支持视频理解,升级MRoPE对齐绝对时间,扩展预训练语料到4.1万亿token。模型提供三种尺寸,旗舰版72B与

文章图片
#人工智能#transformer
(NIPS-2024)PISSA:大型语言模型的主奇异值和奇异向量适配

为了参数高效地微调(PEFT)大规模语言模型(LLMs),低秩适配(LoRA)方法通过两个矩阵的乘积来近似模型的变化ΔW∈Rm×nΔW∈Rm×n:即A∈Rm×rA∈Rm×r和B∈Rr×nB∈Rr×n,其中r≪min⁡mnr≪minmnAAA初始化为高斯噪声,BBB初始化为零。LoRA 冻结原始模型权重WWW,仅更新 “噪声和零” 适配器,这可能导致收敛速度较慢。

文章图片
#语言模型#人工智能#自然语言处理
(NIPS-2024)CogVLM:预训练语言模型的视觉专家

CogVLM:融合视觉专家模块的预训练语言模型 摘要:本文提出CogVLM,一种创新的视觉语言基础模型,通过引入可训练的视觉专家模块实现视觉与语言特征的深度融合。不同于主流浅层对齐方法,CogVLM在注意力层和前馈神经网络中插入视觉专家,同时冻结预训练语言模型参数,既保持NLP能力又增强视觉理解。CogVLM-17B在15个跨模态基准测试中达到SOTA性能,包括图像描述、VQA、LVLM和视觉定位

文章图片
#语言模型#人工智能#计算机视觉
(AAAI-2026_Oral)通过自回归表示对齐释放大型语言模型在文本到图像生成中的潜力

本文提出了一种新颖的自回归表示对齐(ARRA)训练框架,旨在无需架构修改的情况下提升大型语言模型(LLMs)在文本到图像生成任务中的表现。ARRA通过引入混合token <HYBNEXT>,将局部下一token预测与外部视觉基础模型的全局语义对齐相结合,同时保留了原始自回归范式的优势。实验结果表明,ARRA在自然图像和医学图像生成任务中均取得显著改进:在ImageNet上FID降低16

#回归#语言模型#数据挖掘
【机器学习实战】Logistic回归Python代码实现

文章目录理论推导Logistic回归的一般过程基于 Logistic 回归和 Sigmoid 函数的分类训练算法:使用梯度上升找到最佳参数画出决策边界训练算法:随机梯度上升示例:从疝气病症预测病马的死亡率理论推导参考我的博客(吴恩达)3.逻辑回归、正则化Logistic回归的一般过程收集数据: 采用任意方法收集数据。准备数据: 由于需要进行距离计算, 因此要求数据类型为数值型。另外, 结构化数据

文章图片
#机器学习#逻辑回归#python
2021综述:计算机视觉中的注意力机制(续三):时间注意力

3.4 Temporal Attention时间注意力可以看作是一种动态的时间选择机制,决定何时注意,因此通常用于视频处理。以前的工作[171],[172]经常强调如何捕获短期和长期跨帧特征依赖。在这里,我们首先总结了有代表性的时间注意力机制,并指定了表5中描述为等式1的过程g(x)g(x)g(x)和f(g(x),x)f(g(x), x)f(g(x),x)。然后根据图4中的顺序讨论各种这样的机制。

文章图片
#深度学习#神经网络#计算机视觉 +1
机器学习奠基---概率论基础知识

概率论和数理统计随机事件和概率1.事件的关系与运算(1) 子事件:A⊂BA \subset BA⊂B,若AAA发生,则BBB发生。Notes:AAA是BBB的子事件,P(A)≤P(B)P(A) \le P(B)P(A)≤P(B)(2) 相等事件:A=BA = BA=B,即A⊂BA \subset BA⊂B,且B⊂AB \subset AB⊂A 。(3) 和事件:A⋃BA\bigcup BA⋃B(或

文章图片
#概率论
算法:马的Hamilton周游路线问题

在国际象棋中马是走日字的,如果是一般情况马一共有八种走法(如下图):所以我在这边用2个一位数组来表示其8种走法//考虑到马有8种走法int dx[8]={-2,-1,1,2,-2,-1,2,1};int dy[8]={-1,-2,-2,-1,1,2,1,2};之后就让马根据这八种走法来走不过还要考虑下面3种情况第一种情况...

【机器学习实战】k-近邻算法Python实现

文章目录K-近邻算法概述工作原理实施KNN算法示例:手写识别系统数据集下载K-近邻算法概述简单地说, kkk-近邻算法采用测量不同特征值之间的距离方法进行分类。k-近邻算法优点:精度高、对异常值不敏感、无数据输入假定。缺点: 计算复杂度高、空间复杂度高。适用数据范围: 数值型和标称型。工作原理存在一个样本数据集合, 也称作训练样本集, 并且样本集中每个数据都存在标签, 知道样本集中每一数据与所属分

文章图片
#数据挖掘#机器学习#数据分析 +1
    共 145 条
  • 1
  • 2
  • 3
  • 15
  • 请选择