logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek Model1代码曝光:V4模型架构、算力适配与稀疏计算全解析

DeepSeek疑似通过代码提交剧透下一代模型"Model1"(或为V4),披露三大技术突破:1)架构回归512维标准,优化GPU计算兼容性;2)适配英伟达Blackwell B200硬件,算力利用率达350 TFlops;3)创新Token级稀疏计算,在长文本推理中动态忽略不重要Token,显著提升显存和速度效率。代码显示Model1与V3.2分属独立分支,技术社区推测其可能

文章图片
#自然语言处理#人工智能#学习 +1
AI Agent本周十大突破:从Claude Cowork到开源OpenWork,一文掌握大模型智能体前沿动态

AI Agent领域本周迎来10项重要进展,包括Claude Cowork、Google Antigravity集成等商业产品更新,以及OpenWork等开源替代方案。趋势显示AI Agent正从技术开发向非技术任务和垂直领域扩展,降低使用门槛。开源社区提供跨平台方案挑战商业策略,而巨头则通过廉价服务和深度集成推动普及。行业领袖呼吁硬件革新,建议未来设备应为AI Agent原生设计。主要争议聚焦商

文章图片
#人工智能#学习#产品经理
为什么DeepSeek能接‘apple pen‘梗?Transformer架构原理深度解析,建议收藏

本文以"apple pen"梗为例,揭示了大语言模型的工作原理。Transformer架构通过编码器将文本转化为向量表示,解码器基于概率预测下一个词。模型并非真正理解语言,而是通过海量数据训练后进行概率采样,这种高度工程化的语言建模能力解释了AI如何"接梗"及文本生成的本质。文章还提供了104G的大模型学习资源包,包含视频教程、学习路线图、电子书籍等,帮助读

文章图片
#transformer#深度学习#学习 +2
DeepSeek-R2要来了?DeepSeek大模型开源之路:R1周年庆MODEL1现身【程序员收藏】

摘要: DeepSeek-R1发布一周年之际,其核心算法库FlashMLA中惊现疑似下一代模型"MODEL1"的代码,包含KV缓存优化和稀疏FP8解码支持,可能为即将发布的R2奠定基础。R1通过降低技术、采用和心理三重壁垒,推动了开源AI社区的发展,其关键突破在于推理优先训练、高密度推理数据和内化推理过程。尽管当前推理能力仍有上限,但R1的方向性创新持续引领大模型演进。新模型的

文章图片
#人工智能#学习
DeepSeek大模型微调实战:从入门到精通的完整指南

文章详解DeepSeek大模型微调技术(LoRA/QLoRA轻量化方法)、部署方案(本地化/云服务)与性能优化、类GPT工具使用范式(提示工程/RAG/工具链集成),以及数据隐私与成本优化策略。通过微调使大模型适配垂直领域,降低资源消耗并保持泛化性;部署阶段关注推理加速与内存管理;使用环节结合提示工程和RAG提升输出质量;最后平衡数据合规与成本效益。

文章图片
#人工智能#产品经理#学习 +1
超越ChatGPT:知识图谱如何让大模型更聪明、更可靠(必藏指南)

摘要: 大语言模型(LLM)与知识图谱(KG)的融合正成为AI发展的关键方向。LLM虽具备强大的通用能力,但存在幻觉、黑箱等问题;而KG以其结构化、可解释性和领域专长,能有效弥补这些缺陷。二者通过“KG增强LLM”和“LLM增强KG”双向赋能,前者提升LLM的可靠性与推理能力,后者优化KG的构建与补全。这一融合催生了智能问答、推荐系统等新一代应用,并为实现可信的通用人工智能(AGI)提供了可能路径

文章图片
#知识图谱#人工智能#学习 +1
小白程序员必看:DeepSeek V4 技术揭秘,算力不够算法来凑!

DeepSeek V4 或将在春节前后发布,其通过 Engram 架构将知识外存至系统内存,大幅提升效率并降低成本;同时 mHC 框架解决超深层模型训练不稳定问题。这些创新算法优化,展现了中国 AI 企业在算力受限情况下通过技术突破实现性能提升的策略,预示更高效的大模型时代到来。

文章图片
#产品经理#学习#语言模型 +2
一文讲透大模型应用开发:大模型入门指南,小白程序员也能轻松玩转AI编程,收藏必备!

大模型技术正深刻影响编程领域,开发者无需担忧高门槛,无需深厚数学基础即可参与应用开发。本文为非AI背景开发者提供入门指南,介绍如何通过Prompt工程与LLM协作,利用Function Calling实现多轮交互任务,并运用RAG技术增强知识问答等场景的应用价值。文章还提出AI Agent概念,通过外部工具扩展大模型能力,并介绍MCP协议串联AI Agent生态,为开发者提供广阔参与空间。核心观点

文章图片
#产品经理#学习#语言模型 +1
DeepSeek_V4能否挑战GPT-5?

DeepSeek V4即将发布,作为中国AI开源生态的重要项目,它将采用稀疏混合专家模型(MoE)架构,并引入动态路由机制,同时在多模态能力上实现突破。V4预计在OCR、医疗影像分析等领域超越GPT-4 Turbo,并继续保持完全开源。商业化方面,推出分层服务方案。DeepSeek V4的发布被视为国产大模型实现“弯道超车”的关键一步,对中国AI产业生态的繁荣具有重要意义。关注其发展,将有助于小白

文章图片
#人工智能#学习#语言模型 +1
国产大模型DeepSeek V4性能逆天,编程封神,成本暴降90%,小白也能玩转AI大模型!

DeepSeek V4在编程、上下文处理、推理成本上实现重大突破,编程能力超越Claude Opus 4.5和GPT-5.2,上下文窗口扩展至100万Token,推理成本降低90%。尽管部分泄露数据存疑,但V4的技术潜力巨大,标志着国产AI进入全球并行阶段,为AI普惠奠定基础。

文章图片
#人工智能#学习#产品经理 +2
    共 2805 条
  • 1
  • 2
  • 3
  • 281
  • 请选择