logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

同样是16B大模型,为什么它只用2.8B算力?DeepSeek MoE揭秘

本文系统梳理了MoE(混合专家模型)的核心原理与结构设计,并对比传统Transformer,解析其“稀疏激活”带来的性能优势。结合DeepSeek-MoE 16B,从模型结构出发,详细推导参数规模的计算过程,并拆解其在推理阶段仅激活约2.8B参数的实现机制。通过原理与源码结合,帮助读者理解MoE如何实现“大参数量、低算力成本”的高效建模方式。

文章图片
#DeepSeek
从工程思维到产品思维:我用 AI 搭建内容生产系统的实战复盘

本文分享我如何利用 AI 搭建一套内容生产 Pipeline,实践于英语学习、健康内容等多个方向,并逐步从工程思维转向产品思维。文章重点拆解了英语单词视频的完整生成流程,包括:选题、数据获取、AI筛选、文本生成、多模态生成(图像/语音)以及视频合成与发布。同时介绍了在实际过程中对模型选择、Prompt设计和自动化流程的思考。适合对 AI 应用、内容生产、自媒体变现感兴趣的开发者参考。

文章图片
#AI
LLM大模型 (chatgpt) 在搜索和推荐上的应用

本博文给出了大模型在搜索和推荐的一些基础应用,主要针对现有搜索和推荐存在的问题,借助大模型强大的推理能力以及通用知识能力进行一些优化。但大模型在搜索和推荐上的应用还有更多更好的方式,👏🏻欢迎有新兴趣的小伙伴能够一起交流和学习。

文章图片
#人工智能
LLM大模型 (chatgpt) 在搜索和推荐上的应用

本博文给出了大模型在搜索和推荐的一些基础应用,主要针对现有搜索和推荐存在的问题,借助大模型强大的推理能力以及通用知识能力进行一些优化。但大模型在搜索和推荐上的应用还有更多更好的方式,👏🏻欢迎有新兴趣的小伙伴能够一起交流和学习。

文章图片
#人工智能
第24章《单源最短路径》:Bellman-Ford和Dijkstra算法,python实现

Bellman-Ford算法Bellman-Ford算法解决的是一般情况下的单源最短路径问题,在这里,边的权重可以为负值。给定带权重的有向图G=(V,E)G=(V,E)G=(V,E)和权重函数w:E−Rw: E-Rw:E−R,Bellman-Ford算法返回一个布尔值,以表明是否存在一个从源节点可以到达的权重为负值的环路,如果存在这样一个环路,算法将告诉我们不存在解决方案,如果没有这种环路存在,算

query与document文本相关性计算总结

目录1 前言2 文本相关性技术2.1 TFIDF2.2 BM252.3 KL2.4 Term Weight2.5 Proximity2.6 Position Language Model2.7 Markow Random Filed3 term紧密度1 前言一个基本的信息检索系统,可以抽象为给定一个查询query,检索出最能满足用户需求的item,也就是求出概率P(Di∣Q)P(D_i| Q)P(

#nlp
    共 16 条
  • 1
  • 2
  • 请选择