
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、数据抓取工具二、实例解析总结前言网页数据抓取目标:在一个网站里面感兴趣的数据抓取出来数据特点:噪点较多,标签较弱,很多无用信息,但是数据量大。爬网页和网页数据抓取的区别:爬网页:把所有的网页爬下来,然后之后搜索引擎就可以去搜索到它网页数据抓取:对网页中特定的数据感兴趣一、数据抓取工具主题:网页会有一个反扒方法。通常方法
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、半监督学习重要算法:自学习算法二、众包标注需要考虑解决方法主动学习自学习和主动学习结合弱监督学习总结前言数据的标注——思维导图一、半监督学习有一小部分是由标注的,但很多是没有反馈的。例如:一个网页,一小部分游览的用户有明确的标注,但绝大部分用户不知道他们干什么,所以没有反馈没有标注。所以怎么样用小的有标注的数据和很大的
DPO = Direct Preference Optimization(直接偏好优化),场景:对同一个提示 Prompt,之前的模型会生成两段模型回复 A 和 B,标注者选择其中“更好”的那个。这样会形成data(人类标注的偏好数据对)。DPO 不需要训练reward model,也不使用强化学习,而是使用一个loss function,直接让模型提高偏好回复的概率、降低被拒绝回复的概率,同时保
Multi-agent使用的前提是:为了吃下长文本NNN,必须切分给www个 Agent(解决容量问题)。但是分给多个agents之后能不能加速呢?这要取决于任务类型。有的任务(k-hop)天生就是串行的,神仙也难加速。有的任务(recall)由于内部扫描attention看一眼就好了,所以不用agent加速。有的任务(State Tracking)是可以并行的,可以加速。对于可并行的任务,怎么组
Multi-agent使用的前提是:为了吃下长文本NNN,必须切分给www个 Agent(解决容量问题)。但是分给多个agents之后能不能加速呢?这要取决于任务类型。有的任务(k-hop)天生就是串行的,神仙也难加速。有的任务(recall)由于内部扫描attention看一眼就好了,所以不用agent加速。有的任务(State Tracking)是可以并行的,可以加速。对于可并行的任务,怎么组
本文介绍了GRPO(Group Relative Policy Optimization)算法,这是DeepSeek提出的一种用于LLM后训练的高效强化学习方法。GRPO通过放弃PPO中的价值模型(critic),改为使用同组回答的相对评分作为baseline,从而大幅降低训练资源消耗。
DPO = Direct Preference Optimization(直接偏好优化),场景:对同一个提示 Prompt,之前的模型会生成两段模型回复 A 和 B,标注者选择其中“更好”的那个。这样会形成data(人类标注的偏好数据对)。DPO 不需要训练reward model,也不使用强化学习,而是使用一个loss function,直接让模型提高偏好回复的概率、降低被拒绝回复的概率,同时保
SFT 指的是 Supervised Fine-Tuning(监督式微调)。按照监督学习的基本逻辑:给定 input,模型产生 output,再与 target 计算交叉熵损失,通过反向传播调整参数,使模型输出逐步逼近 target。大模型这里也是,在已有的语言模型基础上,使用成对的 (input, target) 进行进一步训练,使得模型输出结果逼近target。时间步输入给模型模型要预测的正确
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、半监督学习重要算法:自学习算法二、众包标注需要考虑解决方法主动学习自学习和主动学习结合弱监督学习总结前言数据的标注——思维导图一、半监督学习有一小部分是由标注的,但很多是没有反馈的。例如:一个网页,一小部分游览的用户有明确的标注,但绝大部分用户不知道他们干什么,所以没有反馈没有标注。所以怎么样用小的有标注的数据和很大的
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、Proprietary ("RFDuino") vs Standard Bluetooth(专有的("RFDuino")与标准蓝牙的比较)二、Serial Setup(串行设置)三、StartupCyton Board8bit Board (deprecated)Initiating Binary Transfer(启







