logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

DeepSeek MoE 技术解析:模型架构、通信优化与负载均衡

下图是从模型参数切分和数据切分的角度(只考虑 FFN 层)来比较几种并行策略:(

文章图片
#架构#负载均衡
Stable Diffusion 基础模型结构超级详解!

第一个只用来解决序列到序列问题的模型,最早被 Google 用来解决对于中英翻译而言,需要解决三个具体的问题:如何用数字表示中文和英文如何让神经网络理解语义如何让神经网络生成英文。

文章图片
一文看懂 Mooncake

Kimi与清华大学联合参与的项目论文《Mooncake: Trading More Storage for Less Computation-A KVCache-centric Architecture for Serving LLM Chatbot》获得计算机存储领域顶会。

文章图片
#人工智能#语言模型
人工智能的十个重大数理问题

人工智能的十个重大数理问题

#人工智能#算法
GGUF 大模型文件格式

原因在于GGUF采用了多种技术来保存大模型预训练结果,包括采用紧凑的二进制编码格式、优化的数据结构、内存映射等。注意:llama.cpp官方提供了。

文章图片
#语言模型
大模型常用精度

双精度(FP64)、单精度(FP32、TF32)、半精度(FP16、BF16)、8位精度(FP8)、4位精度(FP4、NF4)INT8、INT4 (也有INT3/INT5/INT6的)在正常情况下,大模型的参数多以浮点数的形式存在,不考虑算力的情况下,一般原始的模型的参数是32位的浮点数,也就是FP32。在计算机中一个字节是8位,那么一个。

文章图片
#人工智能
面向深度学习的多模态融合技术研究综述

多模态融合的主要目标是缩小模态间的异质性差异,同时保持各模态特定语义的完整性,并在深度学习模型中取得较优的性能。

文章图片
#人工智能
面向深度学习的多模态融合技术研究综述

多模态融合的主要目标是缩小模态间的异质性差异,同时保持各模态特定语义的完整性,并在深度学习模型中取得较优的性能。

文章图片
#人工智能
简述 LangChain

LangChain Agent 是框架中驱动决策制定的实体。它可以访问一组工具,并可以根据用户的输入决定调用哪个工具。代理帮助构建复杂的应用程序,这些应用程序需要自适应和特定于上下文的响应。当存在取决于用户输入和其他因素的未知交互链时,它们特别有用。LangChain model 是一种抽象,表示框架中使用的不同类型的模型。LLM(大型语言模型):这些模型将文本字符串作为输入并返回文本字符串作为输

文章图片
    共 62 条
  • 1
  • 2
  • 3
  • 7
  • 请选择