
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
python 中的数据分析库, 操作对象可直观理解为二维表格, 像 mysql 这种常见的关系数据表一样.官网及教程见参考 [1].

本文介绍了知识蒸馏技术及其应用。知识蒸馏是一种模型压缩方法,通过让小型学生模型学习大型教师模型的输出,在保持性能的同时显著减少计算资源需求。该方法适用于将云端大模型(如ResNet-152、BERT)压缩为移动端小模型(如MobileNet、TinyBERT)。核心原理包括: 利用教师模型的软标签(概率分布)传递"暗知识"; 设计联合损失函数(任务损失+KL散度蒸馏损失); 特
背景ranking is a prediction task on list of objects. 所以 point-wise, pair-wise 等方法的训练任务与工作场景有差异, list-wise 理应更好.list-wise ranking with S-IE该改论文见参考[1].Session Infomation Embedding (S-IE)算是一个预训练, task...
swagger 是一个可视化RESTful WebService的工具。官网:http://swagger.io效果下图可以看出,swagger清晰地展现了web服务的方法、地址、发送json格式与应答json格式。还可以通过它直接进行服务调用,查看结果。工作原理视图部分: swagger-ui是一系列css\js资源,它通过html页面向用户展示一个应用的RESTfu
RAG(检索增强生成)结合了外部知识检索与大语言模型生成能力,有效解决LLM的幻觉、知识局限性等问题。当用户提问时,系统先检索相关文档片段作为上下文输入LLM,再生成回答,适用于客服、法律咨询等场景。典型流程包括:提问→向量检索→拼接Prompt(指令+上下文+问题)→LLM生成回答。这种方法既保留了LLM的表达能力,又通过外部知识增强了回答的准确性,未来可与Agent结合实现更智能的AI助理。

概念定义在广告和推荐场景中, 用户首先会看到平台给他生成的推荐结果, 称为曝光(impression), 用户会有一定的概率作点击(click), 进入详情页. 若果满意的话会购买产品, 称为转化(conversion).CTRClick Through Rate. 点击率.pCTR=p(click∣impression)pCTR=p(click|impression)pCTR=p(cl...
scatter()方法将一个batch的数据散列成若干份, 同 device 个数相等, 便于数据并行. 在单机多卡环境, pdb debug有印证.构造调用如 net = torch.nn.DataParallel(model, device_ids=[0, 1, 2]).报错显示 A10 型号的gpu较新, 我实际安装的的是 cuda_10.2, 重装 cuda_11.3 应该就好了.验证cu

摘要:强化学习是一种通过与环境交互来优化长期累积收益的机器学习方法。Q-learning是一种经典强化学习算法,通过迭代更新Q值函数来学习最优策略。本文介绍了强化学习的基本概念和四元组模型,详细解释了Q-learning的迭代公式和参数含义,并提供了一个一维走迷宫的任务示例及配套Python代码实现。最后提到深度强化学习在游戏领域的应用,如DeepMind使用像素输入训练AI玩Atari游戏的研究
本文介绍了知识蒸馏技术及其应用。知识蒸馏是一种模型压缩方法,通过让小型学生模型学习大型教师模型的输出,在保持性能的同时显著减少计算资源需求。该方法适用于将云端大模型(如ResNet-152、BERT)压缩为移动端小模型(如MobileNet、TinyBERT)。核心原理包括: 利用教师模型的软标签(概率分布)传递"暗知识"; 设计联合损失函数(任务损失+KL散度蒸馏损失); 特
背景更深的网络理论上会有更强的表达能力, 但实际训练中遇到的问题是层数加深后, 训练集误差不降反升.图: layer-20 与 layer-56 的比较, 后者训练集误差更大residual-connection标准实现图: 维度一样, 可以直接相加, 可以是 a+b, 或 tf.add(a,b), 是 element-wise 的op.维度变化论文给出了3中选择.A: ze...







