logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型进化史:从Transformer到DeepSeek-R1的AI变革之路

语言模型是人工智能(AI)系统,旨在处理、理解和生成类似人类语言的内容。它们从大型数据集中学习模式和结构,能够生成连贯且与上下文相关的文本,应用领域包括翻译、摘要、聊天机器人和内容生成等。

文章图片
#人工智能#transformer#深度学习 +2
揭秘!如何微调 DeepSeek-R1 推理模型,提升 AI 性能到极致

正在颠覆 AI 领域!通过推出一系列先进的推理模型,它挑战了长期占据的主导地位。最令人兴奋的是,这些革命性的模型完全免费使用,没有任何限制,任何人都可以随时访问并利用它们。是不是听起来像是科幻小说中的情节?但它已然成为现实!在本教程中,我们将带你深入探讨如何在上微调模型。这个经过精心提炼的模型,是通过对生成的数据微调模型创建的,展示了与原始模型相似的卓越推理能力。这不仅是一次技术突破,也是你进一步

文章图片
#人工智能#AI
DeepSeek背后的技术基石:MoE、数据并行与模型并行全解析

MoE架构代表了深度学习模型发展的一个重要方向,它通过稀疏化和专家机制,不仅提升了大模型的训练效率,还为多任务、多模态处理开辟了新的可能性。尽管在实际应用中存在一定的挑战,但随着技术的不断进步,MoE将成为未来大规模模型训练和推理的核心架构之一。

文章图片
#人工智能
一文搞懂DeepSeek - 李飞飞26分钟“蒸馏”S1?

该技术使S1能够通过模仿学习其他模型的答案,提炼出强大的推理能力。为了进一步提升S1的智能水平,团队精心设计了1000个问题及答案,并收集了谷歌Gemini Thinking Experimental在回答问题时的思考过程生成数据集。S1对现成的预训练模型(Qwen2.5)在该小型数据集上(1k)进行了监督微调(SFT),在16个H100 GPU上仅需26分钟的训练时间,成本仅为约20美元。

文章图片
#深度学习#人工智能
支持DeepSeek的于二次开发的大模型应用项目

一个轻量级、支持全链路且易于二次开发的大模型应用项目 支持DeepSeek/Qwen2等大模模型源代码:http://www.gitpp.com/deepseeks/deepseek-web基于DeepSeek,快速开发应用,快速获得用户,收割这一波流量,已经有老外基于DeepSeek获得大量用户,中国程序员应该动起来,持续完善deepseek生态这个项目 是,结合了多种先进技术来构建一个功能强大

文章图片
#语言模型#人工智能#自然语言处理
一文读懂!DeepSeek-R1 大模型本地部署超详细攻略

在快速发展的人工智能领域,2025 年 1 月,DeepSeek正式推出了备受瞩目的推理大模型。这款模型凭借其低廉的成本和卓越的性能,一经发布便迅速在 AI 行业掀起波澜,吸引了众多研究者、开发者以及企业的广泛关注。之所以能够在竞争激烈的 AI 市场中脱颖而出,其性价比优势功不可没。相较于其他同类型的大模型,它在保证出色性能的同时,大大降低了使用成本,这使得更多的个人开发者、科研团队以及预算有限的

文章图片
#人工智能
基于DeepSeek-V3的真Agent智能体,火到国外了

DeepSeek 以更低的成本训练出可以比肩 GPT-4o 的性能,不仅让缺乏算力的国产大模型看到了希望,甚至连国外网友也直呼真香。最近看到一众国外小哥分享了一款名为的智能体,它可以自动使用浏览器帮你完成一些简单任务。他们在中统一使用 DeepSeek 大模型由于智能体会自主规划任务,所以 token 消耗不可控,这就要求大模型既要能打,又要价格便宜,成本可控。这个智能体看上去挺有趣的,并且在 G

文章图片
#人工智能
DeepSeek-V3 技术揭秘 | 从[MASK]到万物:解读全新生成模型框架“Discrete Interpolants”

大模型领域的发展日新月异,每天都有许多有趣的论文值得深入品读。下面是本期的论文:1、突破开源语言模型极限,DeepSeek-V3 技术揭秘2、从[MASK]到万物:解读全新生成模型框架“Discrete Interpolants”

文章图片
#人工智能#语言模型
4篇DeepSeek官方论文梳理: DeepSeekMoE、MLA、MTP、RL、Distillation

这篇按顺序梳理从DeepseekMoE到Deepseek V2,Deepseek V3和Deepseek R1的4篇论文,DeepSeek这几篇论文的含金量堪比OpenAI GPT系列论文了Deepseek的模型都是MoE架构的, 因此开始具体论文分析之前,先了解一下MoE架构(Sparse model稀疏型模型)和传统的Transformer架构(Dense model密集型模型 )区别:MoE

文章图片
#人工智能#AI
完整攻略:如何用好DeepSeek,一文汇总!

本文从DeepSeek的独特优势出发,全面分享了DeepSeek的使用方法,包括:扔掉提示词模板的正确方式、让其 “说人话” 的方法、深度思考技能、强大文风转换器运用,以及使用禁区。

文章图片
#人工智能#开发语言
    共 42 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择