logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

C++服务端思考:并发控制、配置热更新与命名空间

摘要:本文探讨多线程安全初始化、配置热更新及命名空间规范三大核心主题。1)利用std::once_flag实现线程安全的单例模式,避免双重检查锁定问题;2)通过事件驱动机制实现配置热更新,结合版本校验与原子操作保证数据一致性;3)规范C++命名空间使用,强调头文件声明用extern、源文件定义的原则,并推荐匿名命名空间限制符号可见性。文末通过综合案例展示高可靠配置管理模块的设计,融合一次性初始化、

文章图片
#c++#开发语言
生成式推荐模型学习记录part1

本文摘要了多种推荐系统模型的技术特点: Rank Mixer通过转置融合优化硬件效率; OneTrans采用金字塔结构压缩序列,混合参数化处理异质信息; OneSug通过前缀增强和DPO学习优化生成; EGA/DiffuASR等结合预训练与强化学习,分别解决广告竞价和冷启动问题; GPR/LC-Rec利用分层优化和语义对齐提升生成质量; DMSG通过扩散模型增强多样性。这些方法在序列建模、参数优化

文章图片
#学习
RLVR(可验证奖励的强化学习):大模型后训练的客观评估策略

RLVR(可验证奖励的强化学习)是当前主流的大模型训练方法,通过预定义规则(如数学答案匹配、代码测试)提供二元奖励信号,替代传统RLHF的主观评估。其核心优势在于客观性、易设计性和防作弊能力,广泛应用于数学推理、代码生成等确定性任务。构建RLVR需关注数据准备、奖励函数设计和验证体系,但存在领域依赖性强和可能窄化模型能力的局限。未来将聚焦垂直领域优化和工业级实施方案,推动技术实际落地。

文章图片
Muon:神经网络隐藏层的革命性优化器

Muon优化器通过正交化设计实现神经网络训练加速创新,在CIFAR-10和NanoGPT任务中刷新训练速度记录。其核心技术采用5步牛顿-舒尔茨迭代进行矩阵正交化,相比传统SVD计算效率提升10倍以上,在bfloat16精度下稳定运行。关键设计包括:(1)针对隐藏层参数的定向优化,(2)精心调优的系数组合实现快速收敛,(3)仅增加1%计算开销的轻量化实现。实际测试显示,1.5B参数模型训练时间比Ad

文章图片
#神经网络#人工智能#机器学习
大模型混合推理模式论文1

近年来,研究者提出了多种混合推理方法,在思考(CoT)和非思考模式间实现智能切换。

文章图片
#深度学习#人工智能#机器学习
新商品冷启动:基于语义Embedding与GBRT的消费指标预估技术实践

本文提出了一种基于语义理解和GBRT的新商品冷启动解决方案,用于解决电商平台新商品因缺乏用户行为数据而难以准确推荐的问题。方案通过Qwen3模型提取商品语义特征,构建1280维向量表征商品内容,再采用梯度提升树预测消费指标XTR。实验表明,该方法显著提升了新商品的转化率和GMV,优化后模型误差率降至4.5%。文章还讨论了模型过拟合风险和改进方向,包括增强正则化、引入多模态特征等,为电商平台新商品推

文章图片
#推荐算法
speculative decoding: SpecInfer

传统自回归解码存在串行依赖和内存墙问题,GPU利用率不足30%。SpecInfer提出树状推测式推理方案,通过双引擎驱动实现突破:1)扩展引擎用小模型生成多路径候选树(Top-5成功率97%),2)融合引擎并行验证整棵树。关键技术包括树注意力机制和深度优先缓存共享,单次前向传播即可验证多路径。实验显示,LLaMA-65B在8*A100上实现2.8倍加速,OPT-30B单卡卸载推理达43.1 tok

文章图片
#人工智能#自然语言处理
大模型对齐算法(五)

本文提出了一种新型强化学习算法AEPO(Agentic Entropy-Balanced Policy Optimization),旨在解决大模型在多轮工具调用任务中因过度依赖熵信号导致的两个关键问题:高熵轨迹崩溃和梯度裁剪失效。AEPO通过动态熵平衡机制(包括熵预监控和分支惩罚)和熵感知策略优化(停止梯度裁剪和优势估计),在14个推理任务上实现了SOTA性能,仅需1K训练样本就超越GPT-4o等

文章图片
#算法#人工智能#深度学习
大模型对齐算法(二): TDPO(Token-level Direct Preference Optimization)

TDPO:基于Token级偏好的语言模型优化方法 TDPO(Token-level Direct Preference Optimization)是针对DPO方法在句子级KL散度控制上的局限性提出的改进方案。传统DPO存在KL增长失衡和多样性下降等问题,而TDPO通过将RLHF任务拆分为token级MDP,引入Bellman方程和双向KL约束机制。

文章图片
#算法
MemVid:信息存储的未来?创新还是“视频噱头”?

Memvid 通过将文本数据编码成视频,革新了 AI 记忆管理,实现了在数百万文本块中进行闪电般的语义搜索,并具备小于一秒的检索时间。与传统消耗大量 RAM 和存储空间的向量数据库不同,Memvid 将您的知识库压缩成紧凑的视频文件,同时保持对任何信息的即时访问。它有什么优势呢?

文章图片
#音视频
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择