logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

RLHF与RLVR:强化学习在AI训练中的两大范式对比

RLHF和RLVR作为强化学习在AI训练中的两大范式,各自具有独特的优势和适用场景。RLHF通过捕捉人类的主观偏好来优化模型输出,使模型更加贴近人类期望;而RLVR则通过客观、可验证的奖励信号来激励模型发展出复杂的推理能力,确保模型在专业任务中保持高精度。在实际应用中,我们可以根据具体任务的需求和特点选择合适的训练范式,以充分发挥强化学习的潜力。希望今天的分享能够帮助大家更好地理解RLHF和RLV

#人工智能
Linux安装MySQL提示缺少libaio.so.1包问题

但是该依赖包没有解决问题,发现有人说是需要 107 版本的,于是就卸载重新安装,成功了。Linux无网情况下解决安装MySQL 缺少 libaio.so.1 依赖问题。最后将两个版本的依赖包都上传到了我的资源中,可自行下载。在Linux安装MySQL5.7的过程中,执行最后一步。

#linux#mysql#服务器
Python数据分析之制作全球地震散点图:JSON格式

简介:个人在学习数据分析中的一些小实例分享,数据集在我的资源里,请自行下载import plotly.express as pximport jsonimport pandas as pdfilename = 'data/eq_data_30_day_m1.json'with open(filename) as f:all_eq_data = json.load(f)all_eq_dicts =

#python#数据可视化#数据分析
LangChain和LangGraph 里面的 `create_react_agent`有什么不同

虽然两者都实现了 ReAct 代理模式,但 LangGraph 的版本提供了更强大的工作流控制能力,适合构建复杂的多步骤代理系统。如果你只需要基本的代理功能,LangChain 的版本可能更简单直接。

学习大模型,还有必要学习机器学习,深度学习和数学吗

这是一个非常好的问题,也是很多初学者会有的困惑。可以把你的问题想象成:“现在有了先进的汽车制造厂,还有必要学习发动机原理、机械设计和材料科学吗?大模型(如GPT、LLaMA、Qwen等)是建立在和这些基础之上的最高层应用。它们是这些基础学科的集大成者。

#学习#机器学习#深度学习
LangChain和LangGraph 里面的 `create_react_agent`有什么不同

虽然两者都实现了 ReAct 代理模式,但 LangGraph 的版本提供了更强大的工作流控制能力,适合构建复杂的多步骤代理系统。如果你只需要基本的代理功能,LangChain 的版本可能更简单直接。

企业级大模型落地核心工具深度解析:Ollama、vLLM与LMDeploy技术对比

◦ PagedAttention技术:显存利用率提升3倍,支持10万token超长文本生成。测试环境:单卡A100-80G,Qwen2-7B/72B模型,输入512tokens。◦ 硬件友好:6GB显存GPU即可运行7B模型,M1/M2芯片优化出色。◦ 隐私保障:完全离线运行,内置1700+量化模型(int4为主)◦ 4bit量化:推理速度达FP16的2.4倍,显存占用减少60%◦ 极简部署:支持

英伟达历代GPU产品的核心架构演进史

英伟达(NVIDIA)的GPU发展史是一部从专用图形处理到通用并行计算,再到如今主导人工智能计算的宏伟史诗。自1999年正式提出“GPU”概念以来,英伟达已推出了十余代核心架构,每一次迭代都深刻地影响了计算机图形学、高性能计算和人工智能的发展轨迹。从最初的图形加速器到如今驱动全球AI革命的计算引擎,英伟达GPU的演进史就是一部不断突破边界、重塑行业的创新史。: 打破图形与计算的边界,通过CUDA平

#架构#GPU
从Vibe Coding、Spec Coding,到Harness Engineering

提出者:Andrej Karpathy(2025年2月)核心理念感觉驱动,快速试错。用自然语言描述模糊需求,AI 自由生成代码,人负责验收与迭代。人类角色:提需求、看效果、调方向(不写代码)。AI 角色:猜意图、写代码、快速迭代。产出质量Demo 级,适合原型、MVP、快速验证想法。适用场景:需求模糊、创意探索、快速原型、个人小工具。快速出原型,凭感觉和 AI 对话。先写说明书,AI 按图施工。搭

从Vibe Coding、Spec Coding,到Harness Engineering

提出者:Andrej Karpathy(2025年2月)核心理念感觉驱动,快速试错。用自然语言描述模糊需求,AI 自由生成代码,人负责验收与迭代。人类角色:提需求、看效果、调方向(不写代码)。AI 角色:猜意图、写代码、快速迭代。产出质量Demo 级,适合原型、MVP、快速验证想法。适用场景:需求模糊、创意探索、快速原型、个人小工具。快速出原型,凭感觉和 AI 对话。先写说明书,AI 按图施工。搭

    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择