
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism / EP)。首先 EP 使得 batch size 大大增加,从而提高 GPU 矩阵乘法的效率,提高吞吐。其次 EP 使得专家分散在不同的 GPU 上,每个 GPU 只需要计算很少的专家(因此更少的访存需求),从而降低延迟。但 EP 同时也增加了系统的复杂性。因此,本文的主要内容是。

近期,DeepSeek国产AI助手悄然走红,迅速占领各大社交平台的热搜榜单。这款由中国深度求索公司开发的AI产品,以其强大的自然语言处理能力和多场景应用优势,引发业界广泛关注。更令人瞩目的是,DeepSeek的崛起不仅在国内引发热议,更在大洋彼岸的美国掀起了一场关于AI技术竞争的深度讨论。DeepSeek的核心竞争力在于其独特的技术架构。与传统的单一任务AI模型不同,DeepSeek采用了多模态融

在本地部署DeepSeek-R1模型时,需根据硬件资源、模型版本及使用场景选择合适的方案。

语言模型」是一种「人工智能系统」,旨在处理、理解和生成类似人类的语言。它们从大型数据集中学习模式和结构,使得能够产生连贯且上下文相关的文本,应用于翻译、摘要、聊天机器人和内容生成等领域。

在机器学习和深度学习中,模型蒸馏是一种将大型模型(满血版)压缩为小型模型(蒸馏版)的技术。

在前两篇文章中,我们详细介绍了如何通过 vLLM 高效部署开源模型 GLM-4-9B-Chat 和 Qwen2.5,并分享了验证代码。这两款模型体量较小,使用单张 4090 显卡即可部署,且在企业实际应用场景中表现优异。本章将聚焦当前备受瞩目的开源模型 DeepSeek-V3。作为一款自称超越所有开源模型,甚至在部分能力上超过闭源模型的产品,DeepSeek-V3展现了惊人的潜力。

RAG是AI技术的一次重要升级,通过“先查后写”机制,解决了传统生成模型的诸多痛点。它不仅是技术上的创新,更让 AI 在专业领域和实时场景中真正落地,成为可靠的知识助手。未来随着检索和生成技术的进一步融合,RAG 的应用潜力将更加广泛。我的DeepSeek部署资料已打包好(自取↓)但如果你想知道这个工具为什么能“听懂人话”、写出代码 甚至预测市场趋势——答案就藏在大模型技术里!❗️为什么你必须了解

春节期间,DeepSeek凭借其强大的自然语言理解和生成能力,迅速成为业界的焦点,推动了自然语言处理技术的发展,并在多个领域得到了广泛应用。使得模型能够并行处理输入序列中的每个元素,提高了计算效率。则将模型划分为多个专家子模型,每个子模型负责处理不同的输入任务,提高了模型的泛化能力和鲁棒性。可以说,正是利用MOE架构和Transformer架构两位“大神”,才让DeepSeek在AI领域一鸣惊人。

本文用三张图介绍了 DeepSeek-R1 论文的三个核心内容(纯RL的方案可行性、DeepSeek-R1修炼手册、蒸馏小模型的潜力)。未来会聚焦通用能力提升(函数调用、多轮对话、复杂角色扮演以及 json 输出等任务上的表现不如 DeepSeek-V3)、语言混用问题解决(尤其是针对非中英prompt)、prompt engineering(比如 DeepSeek-R1 对 prompt 较为敏

你是否好奇为什么ChatGPT能够如此准确地回答问题?为什么专业领域内的AI助手显得更加专业?为什么DeepSeek-R1的逻辑推理能力似乎有了质的飞跃?这一切的秘密,都隐藏在"后训练"(Post-training)这个看似简单却极为关键的技术环节中。今天,让我们一起探索LLM后训练的技术全景,看看大模型是如何从"学得广"到"懂得深"的蜕变之路。
