logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

一文搞懂DeepSeek - 强化学习和蒸馏,收藏一篇就够了!!

DeepSeek-R1在Introduction部分提到,R1通过结合冷启动数据、多阶段训练管道和纯强化学习,显著提升了大型语言模型的推理能力,实现了与OpenAI的o1系列模型相当的性能,并通过蒸馏技术将推理能力传递给更小的模型。

文章图片
#人工智能#语言模型#DeepSeek
强化学习基础篇[3]:DQN、Actor-Critic详细讲解

在之前的内容中,我们讲解了Q-learning和Sarsa算法。在这两个算法中,需要用一个Q表格来记录不同状态动作对应的价值,即一个大小为 $\[状态个数,动作个数\]$ 的二维数组。在一些简单的强化学习环境中,比如迷宫游戏中(图1a),迷宫大小为4\*4,因此该游戏存在16个state;而悬崖问题(图1b)的地图大小为 4\*12,因此在该问题中状态数量为48,这些都属于数量较少的状态,所以可以

文章图片
#人工智能#语言模型#深度学习 +1
强化学习基础篇【1】:基础知识点、马尔科夫决策过程、蒙特卡洛策略梯度定理、REINFORCE 算法

智能体(agent):智能体是强化学习算法的主体,它能够根据经验做出主观判断并执行动作,是整个智能系统的核心。环境(environment):智能体以外的一切统称为环境,环境在与智能体的交互中,能被智能体所采取的动作影响,同时环境也能向智能体反馈状态和奖励。虽说智能体以外的一切都可视为环境,但在设计算法时常常会排除不相关的因素建立一个理想的环境模型来对算法功能进行模拟。

文章图片
#算法#语言模型#人工智能 +1
强化学习常见面试题:近端策略优化(proximal policy optimization,PPO)算法

使用另外一种分布,来逼近所求分布的一种方法,算是一种期望修正的方法,公式如下:我们在已知qqq的分布后,可以使用上式计算出从ppp分布的期望值。也就可以使用qqq来对ppp进行采样了,即重要性采样。因为这个行业不同于其他行业,知识体系实在是过于庞大,知识更新也非常快。作为一个普通人,无法全部学完,所以我们在提升技术的时候,首先需要明确一个目标,然后制定好完整的计划,同时找到好的学习方法,这样才能更

文章图片
#算法#人工智能#语言模型 +1
一文彻底搞懂大模型 - LLM的构建流程

大模型(LLM,Large Language Model)的构建流程,特别是OpenAI所使用的大语言模型GPT构建流程,主要包含四个阶段:预训练、有监督微调、奖励建模和强化学习。这四个阶段各自需要不同规模的数据集、不同类型的算法,并会产出不同类型的模型,同时所需的资源也有显著差异。

文章图片
#人工智能#语言模型
AI大模型对我国劳动力市场潜在影响研究报告(2024)|附19页PDF文件下载

北京大学国家发展研究院与智联招聘日前联合发布《AI大模型对我国劳动力市场潜在影响研究》。该研究显示,2024年上半年,招聘职位数同比增速前五的人工智能职业,包括大语言模型方面的自然语言处理(111%)、深度学习(61%)岗位,机器人方面的机器人算法岗位(76%),自动驾驶方面的智能驾驶系统工程师(49%)、导航算法(47%)。从招聘要求看,大模型相关岗位对求职者的学历和经验要求均较高,且在进一步提

文章图片
#人工智能#语言模型#学习
【AI大模型】通俗地说说RAG及其与大模型的结合

RAG解决了一个大模型无法实时获取外部数据的问题,是一个非常大的进步。但RAG方案真的很好吗?我觉得不够好。打个比方,这个外部查询数据再送给大模型的方法,有点类似于一个教授在写论文,但它依靠的输入是一个小学生查的资料,并且这个资料它还必须用。你说教授能写出好论文?但当前也没有更好的方案来解决这个问题。所以,在没有更好的方案之前,它仍然是最好的。为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份

文章图片
#人工智能#语言模型#RAG
强化学习基础篇[2]:SARSA、Q-learning算法简介、应用举例、优缺点分析

SARSA(State-Action-Reward-State-Action)是一个学习马尔可夫决策过程策略的算法,通常应用于机器学习和强化学习学习领域中。它由Rummery 和 Niranjan在技术论文“Modified Connectionist Q-Learning(MCQL)” 中介绍了这个算法,并且由Rich Sutton在注脚处提到了SARSA这个别名。

文章图片
#算法#人工智能#语言模型 +2
88页PDF | 智算时代的人才战略:智算与大模型人才白皮书(附白皮书下载)

本白皮书深入分析了智算的演进、行业应用、人才发展的重要性,以及如何构建一个健康、可持续的智算人才生态系统。它涵盖了智算技术的内涵、行业应用案例、人才需求分析、高校培养机制、智算与业务的共生关系,以及人才生态发展与体系建设的策略。旨在为政府、教育机构、企业和个人提供智算人才发展的洞见和建议,帮助各方把握智算时代的机遇,共同构建一个更加智能、高效和创新的未来。

文章图片
#人工智能#语言模型
大模型算法方向实习会经常提问哪些问题?全网最全总结!!!

最近,有许多朋友准备去大模型算法方向实习啊?行,这个领域现在火得一塌糊涂,我也不卖关子了,直接给大家搞点干货。咱们话不多说,直接开怼。干货就先到这儿。想搞定大模型算法的实习面试,基础得扎实,算法得会,模型得懂,项目得吹,软实力也不能差。说白了,面试不光是比技术,还得看你能不能让面试官觉得你值得培养。别怕折腾,多准备,多模拟,最后实习拿下,就等着飞黄腾达吧!为了助力朋友们跳槽面试、升职加薪、职业困境

文章图片
#算法#人工智能#语言模型 +1
    共 509 条
  • 1
  • 2
  • 3
  • 51
  • 请选择