
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
最近半年博主工作科研比较繁忙,有段时间没有写博客了,但并不代表博主没有更新相关技术,后续会补上更多科研信息。今天详细解读一下前段时间发布的DeepSeek-Math-V2,DeepSeek-Math早在24年带有GRPO这个广为流传的RLVR技术,那么憋了一年后的V2版有什么看点呢?最近一系列的RL算法都关注ORM,即只要结果正确就认为整个推理过程正确,这种方式在AIME、HMMT等一系列高难度的
强化学习(五):蒙特卡洛采样方法 在强化学习(四)中,我们学习了如何使用动态规划法求解强化学习问题,我们还学习了策略评估和策略改进,以及广义策略迭代(GPI),事实上,动态规划能够很好地收敛到最优值,但是否动态规划就是最好的呢?显然不是。回顾一下动态规划的状态价值函数的贝尔曼方程:vk+1(s)=∑aπ(a∣s)∑s′,rp(s′,r∣s,a)[r+γvk(s′)]v_{k+1}(s)=\...
现如今很多大模型都开始支持超过4096长度的推理,例如GPT-4支持超过30k,ChatGLM2-6B也支持最长为32K的文本,但是由于显存资源的限制,这些大模型在真正在训练过程中不一定要训练这么长的文本,通常在预训练时只会设计到4k左右,因此**如何确保在模型推理阶段可以支持远远超过预训练时的长度**,是目前大模型的核心问题之一,我们将这一问题归为**大模型的外推性**。

主要介绍Anthropic LLM大模型

关联规则常用算法 关联规则(Association Rules)是海量数据挖掘(Mining Massive Datasets,MMDs)非常经典的任务,其主要目标是试图从一系列事务集中挖掘出频繁项以及对应的关联规则。关联规则来自于一个家喻户晓的“啤酒与尿布”的故事,本文通过故事来引出关联规则的方法。啤酒与尿布的故事 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举
发现,大模型可能会在生成代码的时候同时写一些推理思考的文本,为了较好地区分,这里对于非编程代码的部分全部添加一个“#”,作为注释。随着大模型的发展,以Chain-of-Thought的提示学习方法可以有效地提升算术推理的性能。对于一些特殊的推理场景,有必要结合CoT完成多步骤:PoT可以先为一个Question生成一个中间推理和计算的结果,基于中间结果再继续使用CoT完成剩余的推理工作。例如时间计
分布式大数据处理系统概览(二) 本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考大夏学堂,下面主要整理HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph有关的内容。分布式大数据处理系统大纲分布式大数据...
本文提出Self-consistency进一步提升Chain-of-Thought的效果

关联规则常用算法 关联规则(Association Rules)是海量数据挖掘(Mining Massive Datasets,MMDs)非常经典的任务,其主要目标是试图从一系列事务集中挖掘出频繁项以及对应的关联规则。关联规则来自于一个家喻户晓的“啤酒与尿布”的故事,本文通过故事来引出关联规则的方法。啤酒与尿布的故事 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举
Pytorch使用LSTM实现Movie Review数据集情感分析 入门Pytorch一周时间,周六试着手写情感分类代码。学过Tensorflow的都知道,其需先生成计算图,还得通过placeholder喂入数据,十分的麻烦,也不容易调试,而pytorch真心是简单上手,最开心的就是Tensorflow不能随时打印中间结果,而Pytorch完美实现了~~啰嗦两句,很建议大家先学习tensor.







