logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CQE-Conditional Quantile Estimation for Uncertain Watch Time inShort-Video Recommendation

想象一下所有分位数像士兵一样从低到高排成一列。第1个士兵(

文章图片
#人工智能#深度学习#机器学习
transformers中学习率warmup策略具体如何设置

在使用(如 Hugging Face Transformers 库中的学习率调度器)时,参数的合理设置需要结合和来确定。: 学习率预热步数(逐渐增大学习率的阶段): 总训练步数(学习率从峰值线性衰减到 0 的总步数)总训练步数 = 每轮(epoch)的步数 × 训练轮数(epochs)每轮的步数 = ⌈ 数据总量 / batch_size ⌉ (向上取整)(< 10k 样本): 预热步数占总步数的

#学习#人工智能#机器学习 +2
SCASRec: A Self-Correcting and Auto-Stopping Model forGenerative Route List Recommendation

注:其中H为用户在历史相同场景下的用户历史序列,对于当前请求不同候选路线是相同的,用来和当前候选路线提供相关性信息(历史选择高架路线)作为当前路线唯一的特征标准。EOR 的奖励系数 α 是一个控制推荐过程停止倾向的超参数:α 值越高,推荐停止得越早,最终推荐的路径数量越少。的全局目标:(被选择路线排名越靠前越好,生成集合的sim_max均值越大越好,整体路线生成集合越少越好)通常而言,Dfail​

文章图片
#人工智能#深度学习
4种经典位置编码

固定位置 pos随着维度i的增加,正弦和余弦函数的频率会降低,周期会变长(见上图)。所以简单来说 RoPE 的 self-attention 操作的流程是,对于 token 序列中的每个词嵌入向量,首先计算其对应的 query 和 key 向量,然后对每个 token 位置都计算对应的旋转位置编码,接着对每个 token 位置的 query 和 key 向量的元素按照 两两一组 应用旋转变换,最后

文章图片
#人工智能
RLHF的改进算法DPO原理

RLHF需要先利用偏好数据来训练一个RM,然后基于强化学习来最大化奖励,而不能偏离原始模型。DPO通过奖励函数和最优策略之间的映射,受限的奖励最大化问题可以使用单个阶段的策略来实现微调,无需训练RM,数据采样,训练更轻量;IPO提出当偏好数据更优的确定性很大时,控制kl散度强度的参数不起作用,dpo可能会发生过拟合。IPO在DPO的损失函数上添加了一个正则项,从而即使偏好确定性很大时,最优的策略也

文章图片
#算法#人工智能
tensorflow与torch并行读取数据机制

PyTorch 虽然没有与 TensorFlow 的 tf.data API 和 TFRecord 格式完全相同的机制,但它通过 torch.utils.data 模块和分布式训练库实现了类似的功能。其速度与文件大小直接相关:文件总数据量越大,预加载时间越长,但后续训练时的数据访问速度会更快(因为无需频繁的磁盘 I/O), 所以可以将每个文件做的小一点)。并行化支持:支持分片(Sharding),

文章图片
#python#大数据#pytorch +1
Lora模型微调

大量实证研究表明:大模型在微调过程中,权重增量矩阵 ΔW 具有显著的低内在秩(low intrinsic rank)。这意味着,尽管 ΔW 是一个高维矩阵(例如 4096×4096),其有效信息却集中在少数几个主成分上。在 LoRA 中,矩阵 W 是模型的权重矩阵。而在传统的微调中,W 会直接进行调整,但在 LoRA 中,核心思想是将原始的权重矩阵 W 被分解为两个较小的低秩矩阵:A 和 B。这两

文章图片
#算法#人工智能
通俗理解拒绝采样

拒绝采样是一种通过简单分布模拟复杂分布的采样方法。其核心步骤是:先用建议分布q(x)生成候选样本,再根据目标分布p(x)与放大建议分布k×q(x)的比值计算接受概率,通过随机数决定是否保留样本。这种方法能确保保留的样本符合目标分布规律。在大模型中,该技术被用于生成高质量训练数据和优化模型输出,如通过奖励模型筛选响应样本。关键点包括:选择合适的常数k使k×q(x)完全覆盖p(x),建议分布应易于采样

#python#机器学习#人工智能
Scaling Laws for Neural Language Models

调查大模型与模型结构,模型大小,算力,数据之间的关系。这种关系可以被更严格地定义成 Scaling Law,这是一个可以描述 LLM 的测试损失随某个量(如训练计算量)的增长而降低的公式。Scaling Law 可帮助我们预测当投入更多资源进行更大规模训练时的效果,这能给我们提供继续投资 scaling 的必要信心。如何合理的分配资源来达到更好的训练效果。问题:模型的形状(即层的数量和大小)重要吗

文章图片
#语言模型#深度学习#人工智能
    共 35 条
  • 1
  • 2
  • 3
  • 4
  • 请选择