
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
大模型相关知识
相比传统稠密模型,MoE 能以更低成本实现万亿参数级模型,是当前大模型轻量化、高性能扩展的主流技术,典型代表有 Mixtral-8x7B、Switch Transformer 等。“MoE(混合专家模型)是一种稀疏激活的大模型架构,核心是将传统单一生成的稠密网络,拆分为多个独立的‘专家子网络’和一个‘门控调度网络’。大模型是一个更广泛的概念,GPT 只是其中最具代表性的一类。的大模型架构,核心是把
BERT——预训练语言模型
BERT 是由 Google 于 2018 年提出的,基于 Transformer 的部分构建,核心创新是采用,彻底改变了自然语言处理(NLP)的范式,成为后续众多大模型的基础框架。简单来说:BERT 像一个 “语言学霸”,先通过海量文本数据进行(学习通用的语言知识,如语义、语法、上下文关联),再通过(在具体任务上适配少量标注数据),就能在各类 NLP 任务(如文本分类、问答、命名实体识别)上达到
BERT——预训练语言模型
BERT 是由 Google 于 2018 年提出的,基于 Transformer 的部分构建,核心创新是采用,彻底改变了自然语言处理(NLP)的范式,成为后续众多大模型的基础框架。简单来说:BERT 像一个 “语言学霸”,先通过海量文本数据进行(学习通用的语言知识,如语义、语法、上下文关联),再通过(在具体任务上适配少量标注数据),就能在各类 NLP 任务(如文本分类、问答、命名实体识别)上达到
到底了







