Android老皮个人主页

@m0_59614665

Android老皮

2023-03-17 15:52:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

大模型进化史：从Transformer到DeepSeek-R1的AI变革之路

语言模型是人工智能（AI）系统，旨在处理、理解和生成类似人类语言的内容。它们从大型数据集中学习模式和结构，能够生成连贯且与上下文相关的文本，应用领域包括翻译、摘要、聊天机器人和内容生成等。

#人工智能 #transformer #深度学习 +2

揭秘！如何微调 DeepSeek-R1 推理模型，提升 AI 性能到极致

正在颠覆 AI 领域！通过推出一系列先进的推理模型，它挑战了长期占据的主导地位。最令人兴奋的是，这些革命性的模型完全免费使用，没有任何限制，任何人都可以随时访问并利用它们。是不是听起来像是科幻小说中的情节？但它已然成为现实！在本教程中，我们将带你深入探讨如何在上微调模型。这个经过精心提炼的模型，是通过对生成的数据微调模型创建的，展示了与原始模型相似的卓越推理能力。这不仅是一次技术突破，也是你进一步

#人工智能 #AI

DeepSeek背后的技术基石：MoE、数据并行与模型并行全解析

MoE架构代表了深度学习模型发展的一个重要方向，它通过稀疏化和专家机制，不仅提升了大模型的训练效率，还为多任务、多模态处理开辟了新的可能性。尽管在实际应用中存在一定的挑战，但随着技术的不断进步，MoE将成为未来大规模模型训练和推理的核心架构之一。

#人工智能

一文搞懂DeepSeek - 李飞飞26分钟“蒸馏”S1？

该技术使S1能够通过模仿学习其他模型的答案，提炼出强大的推理能力。为了进一步提升S1的智能水平，团队精心设计了1000个问题及答案，并收集了谷歌Gemini Thinking Experimental在回答问题时的思考过程生成数据集。S1对现成的预训练模型（Qwen2.5）在该小型数据集上（1k）进行了监督微调（SFT），在16个H100 GPU上仅需26分钟的训练时间，成本仅为约20美元。

#深度学习 #人工智能

支持DeepSeek的于二次开发的大模型应用项目

一个轻量级、支持全链路且易于二次开发的大模型应用项目支持DeepSeek/Qwen2等大模模型源代码：http://www.gitpp.com/deepseeks/deepseek-web基于DeepSeek，快速开发应用，快速获得用户，收割这一波流量，已经有老外基于DeepSeek获得大量用户，中国程序员应该动起来，持续完善deepseek生态这个项目是，结合了多种先进技术来构建一个功能强大

#语言模型 #人工智能 #自然语言处理

一文读懂！DeepSeek-R1 大模型本地部署超详细攻略

在快速发展的人工智能领域，2025 年 1 月，DeepSeek正式推出了备受瞩目的推理大模型。这款模型凭借其低廉的成本和卓越的性能，一经发布便迅速在 AI 行业掀起波澜，吸引了众多研究者、开发者以及企业的广泛关注。之所以能够在竞争激烈的 AI 市场中脱颖而出，其性价比优势功不可没。相较于其他同类型的大模型，它在保证出色性能的同时，大大降低了使用成本，这使得更多的个人开发者、科研团队以及预算有限的

#人工智能

基于DeepSeek-V3的真Agent智能体，火到国外了

DeepSeek 以更低的成本训练出可以比肩 GPT-4o 的性能，不仅让缺乏算力的国产大模型看到了希望，甚至连国外网友也直呼真香。最近看到一众国外小哥分享了一款名为的智能体，它可以自动使用浏览器帮你完成一些简单任务。他们在中统一使用 DeepSeek 大模型由于智能体会自主规划任务，所以 token 消耗不可控，这就要求大模型既要能打，又要价格便宜，成本可控。这个智能体看上去挺有趣的，并且在 G

#人工智能

DeepSeek-V3 技术揭秘 | 从[MASK]到万物：解读全新生成模型框架“Discrete Interpolants”

大模型领域的发展日新月异，每天都有许多有趣的论文值得深入品读。下面是本期的论文：1、突破开源语言模型极限，DeepSeek-V3 技术揭秘2、从[MASK]到万物：解读全新生成模型框架“Discrete Interpolants”

#人工智能 #语言模型

4篇DeepSeek官方论文梳理: DeepSeekMoE、MLA、MTP、RL、Distillation

这篇按顺序梳理从DeepseekMoE到Deepseek V2,Deepseek V3和Deepseek R1的4篇论文,DeepSeek这几篇论文的含金量堪比OpenAI GPT系列论文了Deepseek的模型都是MoE架构的, 因此开始具体论文分析之前,先了解一下MoE架构(Sparse model稀疏型模型)和传统的Transformer架构(Dense model密集型模型 )区别:MoE

#人工智能 #AI

完整攻略：如何用好DeepSeek，一文汇总！

本文从DeepSeek的独特优势出发，全面分享了DeepSeek的使用方法，包括：扔掉提示词模板的正确方式、让其 “说人话” 的方法、深度思考技能、强大文风转换器运用，以及使用禁区。

#人工智能 #开发语言

共 42 条

请选择