logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MICCAI 2025 IUGC 图像超声关键点检测及超声参数测量挑战赛

摘要: IUGC 2025比赛聚焦产时超声图像中胎儿生物测量自动化,提出多种创新方案解决传统阴道检查的局限性。Top1方案采用MAE辅助知识蒸馏和TransUNet架构,结合跨设备适应和半监督学习;Top2方案提出两阶段半监督集成框架,通过粗定位和局部精修实现高精度AoP测量;Top3方案基于无噪声学生范式,利用MixUp增强和DenseUNet提升关键点检测性能。这些方法通过热图回归、设备域适应

文章图片
#算法#transformer#深度学习 +4
大模型基础 | 第四章Transformer性能优化之SparseAttention

本文系统介绍了Transformer模型中的稀疏注意力机制及其优化方法。针对标准自注意力机制在处理长序列时存在的O(n²)计算复杂度问题,提出了三种优化方案:膨胀自注意力通过周期性采样保持全局感知,局部自注意力聚焦固定窗口实现线性复杂度,混合稀疏注意力结合二者优势形成"局部紧密+远程稀疏"模式。这些方法通过打破全局关联假设,在计算效率与表达能力间取得平衡,有效解决了长序列处理中

文章图片
#transformer#深度学习#人工智能 +3
从DINO到DINOv2模型进化过程

DINO和DINOv2是Facebook AI提出的自监督视觉Transformer模型。DINO采用无监督自蒸馏方法,通过局部/全局图像裁剪构建学生-教师网络,结合动量更新、中心化和锐化技术防止模式崩塌。DINOv2在此基础上优化了数据处理流程,构建了142M高质量图像数据集LVD-142M,并引入多任务损失函数、高分辨率训练和Sinkhorn-Knopp归一化等技术。实验表明,这些模型在多项视

文章图片
#transformer#深度学习#人工智能 +4
大模型基础 | 大模型集成方法

摘要 本文探讨了大模型集成方法,重点介绍了三种主流技术:输出集成、概率集成和混合专家模型(MoE)。输出集成通过跨模型交流提升推理能力;概率集成对模型预测的logits结果进行平均处理;MoE则采用专家细粒度化和共享专家机制,在保持计算效率的同时提升模型性能。特别介绍了DeepSeekMoE的创新架构,包括专家细粒度化和共享专家设计,通过精细化的专家组合和通用/特定特征分离,显著提升了模型的泛化能

文章图片
#transformer#深度学习#人工智能 +4
MICCAI | Semi-supervised medical segmentation(一)

摘要:本文提出Text-SemiSeg框架,通过文本信息增强半监督3D医学图像分割性能。方法包含:1)文本增强多平面表示(TMR),将3D特征分解为三个2D平面与文本交互;2)类别感知语义对齐(CSA)模块,通过MSE正则化约束文本-视觉特征对齐;3)动态认知增强(DCA)模块,混合标注/未标注数据前景区域以缩小分布差异。实验表明,在胰腺和BraTS数据集上Dice系数分别提升1.15%和1.12

文章图片
#计算机视觉#人工智能#深度学习 +4
大模型基础 | 模型参数初始化

模型参数初始化是神经网络训练的重要第一步,直接影响模型性能和收敛速度。固定权重初始化可能导致收敛缓慢,而固定方差初始化需要平衡方差大小以避免梯度消失或信号消失。Xavier初始化根据神经元数量和激活函数类型自动调整方差,保持数据在传播过程中的稳定性。Kaiming初始化则针对ReLU函数的特性进行优化。不同激活函数(如Tanh、Sigmoid)需要不同的方差补偿策略。预训练权重(如BERT)通过大

#机器学习#人工智能#自然语言处理 +4
大模型面试基础 | 归一化算法BatchNorm、LayerNorm、RMSNorm

文深入探讨了神经网络中的归一化技术及其应用机制。首先指出强行归一化可能削弱模型表达能力,导致激活函数进入饱和区,引发梯度消失问题。随后详细对比了三种主流归一化方法:BatchNorm(按特征维度归一化)、LayerNorm(按样本内部归一化)和RMSNorm(仅计算均方根),通过数学公式和表格示例阐明其计算差异。

文章图片
#算法#transformer#深度学习 +4
大模型基础 | Transformer性能优化之LinearAttention

本文探讨了Transformer模型中的线性注意力机制,旨在解决传统自注意力计算复杂度随序列长度呈平方级增长的问题。通过分析矩阵乘法时间复杂度,文章指出传统注意力计算QK^T的复杂度为O(n²d),而K^TV计算复杂度仅为O(nd²)。线性注意力的核心思想是改变计算顺序,利用核函数将注意力重写为ϕ(Q)(ϕ(K)^Tϕ(V)),将总体复杂度降低到O(nd²)。这种线性化方法显著提升了模型处理长序列

文章图片
#transformer#深度学习#人工智能 +3
大模型基础 | 第四章Transformer性能优化之SparseAttention

本文系统介绍了Transformer模型中的稀疏注意力机制及其优化方法。针对标准自注意力机制在处理长序列时存在的O(n²)计算复杂度问题,提出了三种优化方案:膨胀自注意力通过周期性采样保持全局感知,局部自注意力聚焦固定窗口实现线性复杂度,混合稀疏注意力结合二者优势形成"局部紧密+远程稀疏"模式。这些方法通过打破全局关联假设,在计算效率与表达能力间取得平衡,有效解决了长序列处理中

文章图片
#transformer#深度学习#人工智能 +3
大模型基础 | 第三章 Transformer介绍

本章系统性地解析了Transformer模型的核心架构与关键机制,揭示了其作为现代大语言模型基石的深层原理。Transformer由谷歌于2017年在《Attention Is All You Need》论文中提出,凭借其完全基于注意力机制的创新设计,彻底改变了自然语言处理领域的格局,成为BERT、Llama等主流模型的核心组件。

#transformer#深度学习#人工智能 +3
到底了