
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大型语言模型(LLMs)由于其惊人的能力已被广泛应用。随着链式思维(CoT)提示与上下文学习(ICL)等技术的发展,输入给 LLM 的提示长度越来越长,甚至超过数万个 token。为了加速模型推理并降低成本,本文提出 LLMLingua,一种粗到细的提示压缩方法,包括:预算控制器(Budget Controller):用于在高压缩率下保持语义完整性;基于 Token 级的迭代压缩算法:更好地建模压

我们介绍我们的第一代推理模型:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,在此过程中未采用监督微调(SFT)作为初步步骤,它展现出了卓越的推理能力。通过强化学习,DeepSeek-R1-Zero 自然涌现出许多强大且有趣的推理行为。然而,它也面临一些挑战,例如可读性较差和语言混杂等问题。为了解决这些问题

本文系统介绍了大语言模型微调技术及其训练方式。主要内容包括:1. 微调技术对比:从Full-tuning(全参数微调)、Freeze-tuning(冻结微调)到LoRA(低秩适配)和QLoRA(量化低秩适配),分析了各类方法的参数规模、显存需求、性能表现及适用场景。2. 训练方式详解:涵盖预训练、监督微调、奖励建模以及PPO、DPO等强化学习优化方法,比较了不同训练阶段的标签需求、人类偏好使用和算

分布式系统应使资源易于访问,隐藏资源分布在网络上的事实,开放的,可伸缩的。重在资源共享与加快计算机速度,强调的是服务化以及服务的分散化。微服务架构倡导将软件应用设计成多个独立开发、可配置、可运行和可维护的子服务。重在于松耦合和高内聚的效果,使每个模块独立,强调服务的专业化和精细分工。

我们提出了 DeepSeek-OCR 并初步验证了通过该模型实现上下文光学压缩的可行性。实验表明,该模型能够有效解码的文本 token 数量超过少量视觉 token 的十倍以上。我们认为,这一发现将有助于未来 视觉-语言模型(VLMs) 和 大语言模型(LLMs) 的发展。此外,DeepSeek-OCR 是一个高度实用的模型,能够生成大规模的预训练数据,是 LLMs 训练过程中不可或缺的助手。

检索增强生成(Retrieval-Augmented Generation, RAG) 是指在使用大语言模型回答问题之前,从外部知识库中检索相关信息的技术。RAG 已被证明能显著提升回答的准确性,减少模型幻觉,尤其是在依赖知识的任务中表现尤为出色。尽管可以通过神经网络微调,但它需要消耗大量计算资源,成本高昂,且需要专业技术知识,因此难以适应不断变化的信息环境。

LangChain 是一个基于大型语言模型(LLM)开发应用程序的框架,简化了LLM应用程序的开发、生产和部署过程。

题目:A Survey of Multi-Agent Reinforcement Learning with Communication出处:arXiv 2022摘要:通信是协调多个智能体行为的有效机制。在多智能体强化学习领域,智能体可以通过通信来提高整体学习性能并实现其目标。此外,智能体可以通过特定渠道向所有智能体或特定智能体组传递各种类型的消息。随着越来越多的通讯研究工作(Comm MARL)
题目:Diversity-Driven Exploration Strategy for Deep Reinforcement Learning出处:NeurIPS 2018,人工智能的顶级会议。摘要:在强化学习中,有效探索仍然是一个具有挑战性的研究问题,特别是当环境包含大的状态空间、欺骗性或稀疏的奖励时。为了解决这个问题,我们提出了一种多样性驱动的探索方法,该方法可以很容易地与非策略和非策略强化
【vLLM】适合大批量 Prompt、对推理速度要求高的场景。核心是 Continuous Batching(iteration 级动态调度)和 PagedAttention(类虚拟内存分页),在高并发下仍保持高吞吐。优点:生成速度快;高吞吐,支持多种解码算法;兼容 OpenAI API。缺点:自定义模型困难;不支持 LoRA / QLoRA 等适配器。








