logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek首登Nature封面:600万美金搞定大模型,揭秘“慢思考“训练秘籍,开源全流程打破行业黑箱

摘要: DeepSeek大模型以“自我帮助”为核心登上《Nature》封面,成为首个经同行评审的大模型研究。团队公开全流程细节,仅用600万美元(行业预期的1/10)实现突破,证明AI技术可民主化。其创新包括:1. 拟人化训练,通过“名师带徒”到“自我突破”四步培养模型推理能力;2. 精准奖励机制,分阶段设计规则避免模型“偏科”;3. “慢思考”能力,模型输出中推理词汇显著增加,复杂任务性能提升4

文章图片
#人工智能#DeepSeek
从0到1微调DeepSeek大模型,LoRA+4位量化让24GB显卡也能玩转

本文介绍了如何利用LoRA技术和4位量化方法在24GB显存的普通GPU上微调DeepSeek大模型。DeepSeek凭借高效的MLA架构和低显存占用优势,成为开发者微调的热门选择。文章系统讲解了从理论原理到实战操作的全流程,包括交叉熵损失函数、数据子集策略等核心概念,重点解析了LoRA技术如何通过低秩矩阵分解将可训练参数压缩至1%以下,以及4位量化如何将内存需求降至1/8。通过IMDB情感分类任务

文章图片
#人工智能#科技#自然语言处理 +1
MoE架构封神!DeepSeek大模型技术全解析:多模态Top3+代码通过率81.5%,开发者落地指南附代码

摘要: DeepSeek基于混合专家(MoE)架构突破大模型性能与效率瓶颈,以2048个专家子网络的动态分工实现“万亿参数能力、百亿级消耗”。其技术亮点包括动态稀疏注意力(128K上下文窗口)、分层量化策略及自适应计算机制,训练成本较稠密模型降低80%。在多模态理解(MMBench Top3)和代码生成(HumanEval 81.5%通过率)领域表现卓越,支持20+编程语言。企业级应用如智能客服(

文章图片
#架构#人工智能#自然语言处理 +3
零代码到商用落地!DeepSeek-V3+Dify实战:30分钟搭企业级AI Agent,成本低至0.03元/千tokens

摘要 本文介绍了基于DeepSeek-V3大模型和Dify框架快速搭建企业级AI Agent的完整方案。文章从技术选型、模型集成、框架部署、商用场景开发到运维监控,提供了全流程指导。该方案具有低代码开发(开发门槛降低60%)、高性价比(成本低至0.03元/千tokens)和商用合规等特点,适用于智能客服、数据分析和内容创作等场景。通过流式响应、上下文管理等高级功能优化,以及缓存策略、异步处理等性能

文章图片
#人工智能#大数据#自然语言处理 +2
0代码搞定ChatBI!Doris+DeepSeek+Dify保姆级搭建教程:从环境到可视化全流程,附可复用DSL(小白也能上手)

本文介绍了如何用Doris+DeepSeek+Dify搭建零代码ChatBI系统,实现企业级对话式数据分析。方案通过Doris作为高性能实时数据仓库,DeepSeek大模型进行自然语言转SQL处理,Dify低代码平台完成流程编排,形成完整闭环。文章详细解析了三个组件的协作逻辑和优势,并提供了从环境部署到可视化输出的6步实操指南,特别强调了Text2SQL节点的关键配置和常见避坑点。该方案以低门槛、

文章图片
#人工智能#github#大数据
从“报表堆里扒数据”到“大模型对话秒出洞察”!大模型重塑BI:ChatBI如何破解中小企业“数据用不动”难题?

文章摘要: 大模型技术正推动商业智能(BI)进入“ChatBI”时代,通过自然语言交互破解中小企业“数据用不动”难题。传统BI依赖技术团队开发静态报表,自助BI仍降低门槛但仍需业务人员掌握数仓逻辑,而基于大模型的智能BI 实现“对话即分析”:用户通过自然语言查询数据(如“华东有不少于5家客户说华东区业绩TOP5员工”),系统自动生成SQL并+优化建议,并结合RAG技术智能匹配可视化模板。东尔科技采

文章图片
#java#开发语言#sql +3
从“报表堆里扒数据”到“大模型对话秒出洞察”!大模型重塑BI:ChatBI如何破解中小企业“数据用不动”难题?

文章摘要: 大模型技术正推动商业智能(BI)进入“ChatBI”时代,通过自然语言交互破解中小企业“数据用不动”难题。传统BI依赖技术团队开发静态报表,自助BI仍降低门槛但仍需业务人员掌握数仓逻辑,而基于大模型的智能BI 实现“对话即分析”:用户通过自然语言查询数据(如“华东有不少于5家客户说华东区业绩TOP5员工”),系统自动生成SQL并+优化建议,并结合RAG技术智能匹配可视化模板。东尔科技采

文章图片
#java#开发语言#sql +3
从单模态到多模态王者!DeepSeek技术演进全路线拆解:MoE架构、MLA黑科技、Janus-Pro破局,每一步都踩中行业痛点

摘要: DeepSeek通过三大技术主线(LLM、VL、Janus系列)实现多模态突破。LLM系列从初代数据优化到V3的671B参数+多令牌预测,以MoE和MLA提升效率;VL系列通过混合编码器和动态瓦片技术解决高分辨率图像处理难题;Janus系列采用双视觉编码器解耦理解与生成任务,实现多模态统一。其技术演进精准解决行业痛点,如训练成本高、推理效率低等,推动国产大模型从跟跑到领跑的跃迁。(150字

文章图片
#架构#科技#人工智能 +2
硬刚制裁、反超范式!DeepSeek的中国式创新:不堆算力不圈钱,凭什么让硅谷紧张?

摘要: DeepSeek以“中国式创新”打破AI大模型的算力内卷,通过强化学习裸训、顿悟现象可视化、模型蒸馏优化及PTX编程语言等“巧劲”,在芯片制裁下实现技术突破。其“大道求简、平衡求熵”的思维,摒弃堆参数与商业变现,专注算法优化与开源生态生态共建,为中小团队提供了“低资源高效益”的创新样本。这一路径不仅挑战硅谷的算力霸权,更重塑了中国AI创新的全球话语权,展现技术韧性下的本土智慧。(149字)

文章图片
#人工智能#自然语言处理#架构 +2
狂降75%!大模型DeepSeek-V3.2 API杀疯了:性能零衰减的秘密,藏在DSA这两大“黑科技”里

摘要: DeepSeek-V3.2-Exp大模型通过自研的DSA稀疏注意力机制(含“闪电索引器”和“稀疏MLA”两大核心技术),将长文本处理的计算复杂度从O(L²)降至O(Lk),实现效率飞跃。其“先筛选后计算”的协同工作流程(投影-评分-选择-计算)在保证性能零衰减的同时,使API调用成本狂降75%,尤其擅长法律、医疗等长文本场景。该技术突破标志着国产大模型在自研创新与商业普惠上的平衡,为行业提

文章图片
#大数据#人工智能#自然语言处理 +1
    共 264 条
  • 1
  • 2
  • 3
  • 27
  • 请选择