BGoodHabit 个人主页

@BGoodHabit

BGoodHabit

2023-04-21 17:46:45 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

同样是16B大模型，为什么它只用2.8B算力？DeepSeek MoE揭秘

本文系统梳理了MoE（混合专家模型）的核心原理与结构设计，并对比传统Transformer，解析其“稀疏激活”带来的性能优势。结合DeepSeek-MoE 16B，从模型结构出发，详细推导参数规模的计算过程，并拆解其在推理阶段仅激活约2.8B参数的实现机制。通过原理与源码结合，帮助读者理解MoE如何实现“大参数量、低算力成本”的高效建模方式。

#DeepSeek

从工程思维到产品思维：我用 AI 搭建内容生产系统的实战复盘

本文分享我如何利用 AI 搭建一套内容生产 Pipeline，实践于英语学习、健康内容等多个方向，并逐步从工程思维转向产品思维。文章重点拆解了英语单词视频的完整生成流程，包括：选题、数据获取、AI筛选、文本生成、多模态生成（图像/语音）以及视频合成与发布。同时介绍了在实际过程中对模型选择、Prompt设计和自动化流程的思考。适合对 AI 应用、内容生产、自媒体变现感兴趣的开发者参考。

#AI

李飞飞团队关于2024年人工智能发展报告总结（Artificial Intelligence Index Report)

2024人工智能AI发展报告

#人工智能

LLM大模型 (chatgpt) 在搜索和推荐上的应用

本博文给出了大模型在搜索和推荐的一些基础应用，主要针对现有搜索和推荐存在的问题，借助大模型强大的推理能力以及通用知识能力进行一些优化。但大模型在搜索和推荐上的应用还有更多更好的方式，👏🏻欢迎有新兴趣的小伙伴能够一起交流和学习。

#人工智能

李飞飞团队关于2024年人工智能发展报告总结（Artificial Intelligence Index Report)

2024人工智能AI发展报告

#人工智能

LLM大模型 (chatgpt) 在搜索和推荐上的应用

#人工智能

第24章《单源最短路径》：Bellman-Ford和Dijkstra算法，python实现

Bellman-Ford算法Bellman-Ford算法解决的是一般情况下的单源最短路径问题，在这里，边的权重可以为负值。给定带权重的有向图G=(V,E)G=(V,E)G=(V,E)和权重函数w:E−Rw: E-Rw:E−R，Bellman-Ford算法返回一个布尔值，以表明是否存在一个从源节点可以到达的权重为负值的环路，如果存在这样一个环路，算法将告诉我们不存在解决方案，如果没有这种环路存在，算

query与document文本相关性计算总结

目录1 前言2 文本相关性技术2.1 TFIDF2.2 BM252.3 KL2.4 Term Weight2.5 Proximity2.6 Position Language Model2.7 Markow Random Filed3 term紧密度1 前言一个基本的信息检索系统，可以抽象为给定一个查询query，检索出最能满足用户需求的item，也就是求出概率P(Di∣Q)P(D_i| Q)P(

#nlp

李飞飞团队关于2024年人工智能发展报告总结（Artificial Intelligence Index Report)

2024人工智能AI发展报告

#人工智能

共 16 条

请选择