qq_57597568 个人主页

@qq_57597568

qq_57597568

2023-01-30 21:18:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

微调BERT模型实现文本分类

模型微调只是针对某种下游任务，针对性的强化模型的能力，但是微调之后的模型在泛化能力上有所下降。

#bert #nlp

Inference-Time Scaling for Generalist Reward Modeling

清华联手deepseek推出新的通用强化学习奖励标准

微调BERT模型实现文本分类

模型微调只是针对某种下游任务，针对性的强化模型的能力，但是微调之后的模型在泛化能力上有所下降。

#bert #nlp

DeepSeek系列论文解读四之DeepSeek Prover V2

创新点贡献描述冷启动推理数据生成方法形式化优先，反向配对非正式语言，构建更严谨的训练样本子目标驱动的递归证明流程支持复杂定理分层解构，大幅提升模型效率与可扩展性非 CoT + CoT 模型协同训练策略兼顾速度与解释性，适应多场景使用结构奖励强化学习框架（GRPO）强化“多步逻辑链”保留，提升复杂任务稳定性ProverBench 数据集首次引入教材与竞赛混合评测集，扩大了评估覆盖范围。

#深度学习

到底了