
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
关于dropout的问题,其实还真有人研究过,让他的不一致行为分布变得一致,也就是alpha dropout,但这玩意,也只是尽力而已,现在很多框架已经把把这个放进去了,但大家用的还是不多,在一致性和效率,稳定性上多多少少还有些问题,或者按下葫芦起了瓢。比如回归等数值和分布敏感的问题上,有两个经典的trick,一个是标签转换(把销量预测的值域转换到0到1,这玩意连lightgbm都有用),一个就是
转载自 https://www.zhihu.com/question/588325646/answer/3357252612?

转载自https://arxiv.org/pdf/2512.02556

系统性解决幻觉需构建“数据-模型-知识-评估”的闭环:通过RAG和CoT增强事实性,动态知识库减少信息滞后,多智能体路由提升专业性,解码控制抑制语义漂移。未来需进一步探索模型自我纠错能力与跨模态证据融合,以实现更高可靠性。要系统性解决大模型的“幻觉”问题(即生成看似合理但实际错误的信息),需从数据优化、模型训练、知识管理、推理控制等多层面构建闭环解决方案。

本文比较了vLLM和HuggingFace在语言模型推理时的输出差异。代码首先使用vLLM生成文本并记录token概率,然后使用HuggingFace Transformers重新计算相同输入的logits。通过对比两者的logprobs和概率值,发现存在一定差异:在概率低于0.9时,相对误差可能超过10%。统计结果显示,vLLM与HuggingFace之间的logprob相对误差均值约为0.00
常用的CoT(Chain-of-Thought,思维链)方法通过引导大语言模型生成中间推理步骤,显著提升了复杂任务的解决能力。
Lexical Retrieval:给定一个文本,获取语言模型最后一层上所有位置的隐状态,每个位置对应原始文本中的一个token,依次将每个位置的隐状态通过一个全连接层+Relu函数得到该token的权重,将所有每个token的隐状态*对应的权重再求和作为文本的稀疏表征(如果文本包含两个以上相同的token,则该token的权重取其中最大的权重值)。很熟悉的感觉吧,很像tfidf,也跟RetroM

PRM的核心创新在于通过逐步骤反馈优化模型推理路径,而ORM更注重最终结果的质量评估。当前研究趋势聚焦于降低PRM的标注成本(如隐式学习、自动标注)和提升ORM的稀疏信号利用效率。未来方向可能包括多模态PRM、动态奖励调整机制,以及面向工业场景的端到端优化框架。如需具体论文链接或进一步解读,可参考上述文献的原始出处。
理论上,大模型可以处理任意长度的问题长度,但受限于GPU显存和算力,过长的文本会使GPU出现OOM内存溢出及耗时过高,用户等待时长过长问题。目前工业界对超长文本的处理,大部分通过RAG的方式处理,也是业界比较流行的,但除RAG外其实也有两大类方法,主要是按是否需要重新对齐大模型的方式分为:不训练LLM大模型和训练LLM大模型参数,其实RAG也算是不需要重新对大模型训练的一种,RAG相关本文就不再赘

摘要: GRPO在大模型训练中易出现奖励骤降问题,因其舍弃了Critic网络(传统AC架构中的“知”),仅依赖在线估计Advantage函数以节省存储。相比PPO等带Critic的算法,GRPO稳定性较差,但DeepSeek通过海量数据降低梯度方差弥补了这一缺陷。对于中小规模训练,数据量不足时GRPO的稳定性问题会凸显,建议采用带Critic的算法(如PPO)。文章还探讨了AC架构中文译名差异,主







