阿豪Smoking hot 个人主页

@zhihao8013

阿豪Smoking hot

2023-08-10 16:17:01 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

点击此处

一篇综述带你全面了解课程学习(Curriculum Learning)课程强化学习课程学习邂逅多智能体强化学习

#python

combat 仿真系统资料

扩展防空仿真系统（EADSIM）EADSIM培训教材Teledyne Brown Engineering公司书籍：大型仿真系统目前市面上能够使用的作战仿真系统

#windows #ubuntu

深度学习中的标量、向量、矩阵和张量的区别

区别深度学习里面的标量、向量、矩阵、张量

#机器学习 #深度学习

从 PPO、DPO 到 GRPO：万字长文详解大模型训练中的三大关键算法

写的太好了！！

bert-base-chinese-ner微调总结——针对“领域实体微调”及“增量实体微调”任务

如果你未显式提供标签映射，但训练数据中包含完整的 BIO 标签（如 “B-PER”, “I-LOC” 等），训练脚本Hugging Face Transformers 的 Trainer通常会在数据预处理阶段自动收集所有唯一标签，按字典序或出现顺序排序后生成 label2id 和 id2label，并更新到模型配置中。：新的数据集必须包含之前的PER/LOC/ORG/FAC/EVENT的数据，并且

#bert #人工智能 #深度学习

LlamaFactory微调Qwen3-0.6B大模型步骤

（注：localhost:8103 指的是程序启动机器自身的8103端口，云上的用户可能无法通过本地的笔记本电脑直接访问，需要找云厂商获取域名和端口号的一些配置关系进行配置）4、加载自定义数据集，符合alpaca格式，并在dataset_info.json中进行注册。2、下载LLaMA-Factory-man项目。创建qwen3_0.6B.yaml，里面填入。1、下载Qwen3-0.6B大模型。6

从 PPO、DPO 到 GRPO：万字长文详解大模型训练中的三大关键算法

写的太好了！！

使用Minimind从0~1进行大模型预训练、SFT、RLHF

资源：Tesla v100 32GBx8。

共 17 条

请选择