你向江南处处栽个人主页

@qdabuliuq

你向江南处处栽

2023-12-25 20:54:13 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

[LLM Post-training] 在线强化学习Online RL - Task04

当我们提到 “在线强化学习（Online RL）”时，通常指的是在在线学习场景中应用的强化学习方法。在线强化学习是指模型在生成新响应的过程中实时地接收反馈并更新参数，即模型一边推理一边学习。它与“离线强化学习（Offline RL）”的区别在于：* Online RL：模型在训练过程中不断生成新的响应、计算奖励、更新参数；* Offline RL：模型仅从预收集的 (prompt, respon

#人工智能 #语言模型

让你的AI助手读写飞书云文档：OpenClaw + lark-cli 完整配置教程（含懒人方式）

摘要本教程详细介绍了如何为AI助手配置飞书云文档读写能力。主要内容包括：创建飞书自建应用获取凭证、安装配置lark-cli工具、完成用户授权流程、验证功能以及集成到OpenClaw系统中。教程提供了完整的分步指南，涵盖权限开通、命令行操作和常见问题解答，最终实现AI助手对飞书文档的搜索、创建、读取和写入等操作。特别提供了"懒人方式"，只需提供凭证和扫码授权即可完成全部配置。

#人工智能

让你的AI助手读写飞书云文档：OpenClaw + lark-cli 完整配置教程（含懒人方式）

#人工智能

[LLM Post-training] 在线强化学习Online RL - Task04

#人工智能 #语言模型

Python定向爬虫实例：中国大学排名爬虫

昨天学到北理工开设的《Python网络爬虫与信息提取》的“中国大学排名”实例，总结编写实例过程中遇到的一些问题。url视频中代码给出的网址是：http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html但是编写过程中发现该url已不可用，该网站已改名为软科要用新的url进行编程：【软科排名】2021年最新软科中国大学排名|中国最好大学排名TypeErr

#python #爬虫

[LLM Post-training]直接偏好学习DPO-Task03

DPO（直接偏好优化）是一种通过对比学习优化大语言模型的方法。它使用正负样本对比数据（如优质回答与低质回答），通过最小化对比损失函数，使模型更倾向于生成高质量回答。DPO能有效调整模型行为（如风格、安全性）或提升回答质量，相比监督微调更适合偏好对齐。实践步骤包括数据准备（替换关键词构建正负样本）、配置训练参数（如β值控制更新强度）和模型训练。关键点在于数据质量决定效果，需注意避免过拟合和样本偏差问

#人工智能 #算法 #机器学习

[LLM-RAG] Task01：初识RAG（理论与简单实践）

摘要：RAG（检索增强生成）通过在LLM生成前检索外部知识库来提升输出准确性与时效性。其核心流程包括数据准备、索引构建、查询检索和生成集成四个步骤，使用工具如LangChain和LlamaIndex。RAG能解决静态知识局限、减轻幻觉现象，具有准确性高、实时性强、成本效益好等优势。实践案例展示了不同分块策略对检索效果的影响，最终生成的回答能精准融合检索内容。RAG通过增强上下文信息输入，显著提升了

#人工智能 #深度学习 #机器学习

[LLM Post-training] 在线强化学习Online RL - Task04

#人工智能 #语言模型

[LLM-RAG] Task01：初识RAG（理论与简单实践）

#人工智能 #深度学习 #机器学习

到底了