O-A-A 个人主页

@u012194696

O-A-A

2022-11-25 16:06:08 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LLM：Qwen 系列

后训练数据（post-training data）的构建旨在增强模型在广泛领域的能力，包括编码、数学、逻辑推理、指令遵循和多语言理解，以及确保模型的生成结果符合人类价值观，使其有用、诚实和无害。Qwen 1 发布于 2023 年 8 月，Qwen 是一个全面的大型语言模型系列，涵盖了具有不同参数数量的不同模型，包括 Qwen 基础预训练语言模型和 Qwen-Chat，后者是通过人类对齐技术微调的聊

#算法

LLM：DeepSeek 系列（一）

原文链接DeepSeek LLM 发布于 2023 年 11 月，收集了 2 万亿个词元用于预训练。在模型层面沿用了 LLaMA 的架构，将余弦退火学习率调度器替换为多步学习率调度器，在保持性能的同时便于持续训练。DeepSeek LLM 从多种来源收集了超过 100 万个实例，用于监督微调（SFT）。此外，利用直接偏好优化（DPO）来提升模型的对话性能。数据构建的主要目标是全面提升数据集的丰富性

LLM：巨人的肩膀 -- 经验和教训

我们正站在人工智能新时代的门槛上，这个时代有望实现前所未有的能力水平。新一代智能体将通过主要从经验中学习，获得超越人类的能力。本文探讨了定义这一即将到来的时代的关键特征。

搜索排序：精排

精排的核心目标是从粗排阶段筛选出的候选集内（通常是几百个到几千个候选文档），依据更加细致的相关性、用户行为、时效性等因素，对文档进行细粒度的排序，以确保最相关的文档排在前面，最大化用户满意度和点击转化率。精排模型在设计上应该使用更多的特征、更复杂的模型，并且在排序上更加注重细节和上下文的匹配。精排策略的设计上应该重点关注：特征设计对于模型的效果至关重要。根据特征来源、结构和时效性的不同，特征可以

#人工智能 #机器学习 #深度学习 +3

LLM：DeepSeek 系列（一）

LLM：DeepSeek 系列（二）

DeepSeek-V2 发布于 2024 年 5 月，为多领域专家（MoE）语言模型，包含总共 2360 亿个参数，其中每个词元激活 210 亿个参数，并支持 12.8 万个词元的上下文长度。DeepSeek-V2 采用包括多头潜在注意力（Multi-Head Latent Attention，MLA）和 DeepSeekMoE 在内的创新架构。MLA 通过将键值（KV）缓存显著压缩为一个潜在向量

LLM：DeepSeek 系列（三）

DeepSeek-V3 发布于 2024 年 12 月，采用了 DeepSeek-V2 中的多头潜在注意力（MLA）和 DeepSeekMoE 架构，此外，DeepSeek-V3 开创了一种无辅助损失的负载均衡策略，并设定了多词元预测训练目标以获得更强的性能。DeepSeek-V3 总参数量达 6710 亿个，每个词元激活 370 亿个参数，DeepSeek-V3 在 14.8 万亿个多样化且高质

到底了