糖葫芦君个人主页

@yinyu19950811

糖葫芦君

2022-12-29 17:51:27 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【Claude code】创建自定义skill

SKILL.md。

CQE-Conditional Quantile Estimation for Uncertain Watch Time inShort-Video Recommendation

想象一下所有分位数像士兵一样从低到高排成一列。第1个士兵（

#人工智能 #深度学习 #机器学习

transformers中学习率warmup策略具体如何设置

在使用（如 Hugging Face Transformers 库中的学习率调度器）时，参数的合理设置需要结合和来确定。: 学习率预热步数（逐渐增大学习率的阶段）: 总训练步数（学习率从峰值线性衰减到 0 的总步数）总训练步数 = 每轮（epoch）的步数 × 训练轮数（epochs）每轮的步数 = ⌈ 数据总量 / batch_size ⌉ （向上取整）（< 10k 样本）: 预热步数占总步数的

#学习 #人工智能 #机器学习 +2

SCASRec: A Self-Correcting and Auto-Stopping Model forGenerative Route List Recommendation

注：其中H为用户在历史相同场景下的用户历史序列，对于当前请求不同候选路线是相同的，用来和当前候选路线提供相关性信息（历史选择高架路线）作为当前路线唯一的特征标准。EOR 的奖励系数 α 是一个控制推荐过程停止倾向的超参数：α 值越高，推荐停止得越早，最终推荐的路径数量越少。的全局目标：(被选择路线排名越靠前越好，生成集合的sim_max均值越大越好，整体路线生成集合越少越好)通常而言，Dfail

#人工智能 #深度学习

4种经典位置编码

固定位置 pos随着维度i的增加，正弦和余弦函数的频率会降低，周期会变长(见上图)。所以简单来说 RoPE 的 self-attention 操作的流程是，对于 token 序列中的每个词嵌入向量，首先计算其对应的 query 和 key 向量，然后对每个 token 位置都计算对应的旋转位置编码，接着对每个 token 位置的 query 和 key 向量的元素按照两两一组应用旋转变换，最后

#人工智能

RLHF的改进算法DPO原理

RLHF需要先利用偏好数据来训练一个RM，然后基于强化学习来最大化奖励，而不能偏离原始模型。DPO通过奖励函数和最优策略之间的映射，受限的奖励最大化问题可以使用单个阶段的策略来实现微调，无需训练RM，数据采样，训练更轻量；IPO提出当偏好数据更优的确定性很大时，控制kl散度强度的参数不起作用，dpo可能会发生过拟合。IPO在DPO的损失函数上添加了一个正则项，从而即使偏好确定性很大时，最优的策略也

#算法 #人工智能

tensorflow与torch并行读取数据机制

PyTorch 虽然没有与 TensorFlow 的 tf.data API 和 TFRecord 格式完全相同的机制，但它通过 torch.utils.data 模块和分布式训练库实现了类似的功能。其速度与文件大小直接相关：文件总数据量越大，预加载时间越长，但后续训练时的数据访问速度会更快（因为无需频繁的磁盘 I/O），所以可以将每个文件做的小一点）。并行化支持：支持分片（Sharding），

#python #大数据 #pytorch +1

Lora模型微调

大量实证研究表明：大模型在微调过程中，权重增量矩阵 ΔW 具有显著的低内在秩（low intrinsic rank）。这意味着，尽管 ΔW 是一个高维矩阵（例如 4096×4096），其有效信息却集中在少数几个主成分上。在 LoRA 中，矩阵 W 是模型的权重矩阵。而在传统的微调中，W 会直接进行调整，但在 LoRA 中，核心思想是将原始的权重矩阵 W 被分解为两个较小的低秩矩阵：A 和 B。这两

#算法 #人工智能

通俗理解拒绝采样

拒绝采样是一种通过简单分布模拟复杂分布的采样方法。其核心步骤是：先用建议分布q(x)生成候选样本，再根据目标分布p(x)与放大建议分布k×q(x)的比值计算接受概率，通过随机数决定是否保留样本。这种方法能确保保留的样本符合目标分布规律。在大模型中，该技术被用于生成高质量训练数据和优化模型输出，如通过奖励模型筛选响应样本。关键点包括：选择合适的常数k使k×q(x)完全覆盖p(x)，建议分布应易于采样

#python #机器学习 #人工智能

Scaling Laws for Neural Language Models

调查大模型与模型结构，模型大小，算力，数据之间的关系。这种关系可以被更严格地定义成 Scaling Law，这是一个可以描述 LLM 的测试损失随某个量（如训练计算量）的增长而降低的公式。Scaling Law 可帮助我们预测当投入更多资源进行更大规模训练时的效果，这能给我们提供继续投资 scaling 的必要信心。如何合理的分配资源来达到更好的训练效果。问题：模型的形状（即层的数量和大小）重要吗

#语言模型 #深度学习 #人工智能

共 35 条

请选择