金属音符个人主页

@COCOxPINEAPPLE

金属音符

2026-01-04 16:54:11 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

BERT——预训练语言模型

BERT 是由 Google 于 2018 年提出的，基于 Transformer 的部分构建，核心创新是采用，彻底改变了自然语言处理（NLP）的范式，成为后续众多大模型的基础框架。简单来说：BERT 像一个 “语言学霸”，先通过海量文本数据进行（学习通用的语言知识，如语义、语法、上下文关联），再通过（在具体任务上适配少量标注数据），就能在各类 NLP 任务（如文本分类、问答、命名实体识别）上达到

#bert #人工智能 #深度学习

大模型相关知识

相比传统稠密模型，MoE 能以更低成本实现万亿参数级模型，是当前大模型轻量化、高性能扩展的主流技术，典型代表有 Mixtral-8x7B、Switch Transformer 等。“MoE（混合专家模型）是一种稀疏激活的大模型架构，核心是将传统单一生成的稠密网络，拆分为多个独立的‘专家子网络’和一个‘门控调度网络’。大模型是一个更广泛的概念，GPT 只是其中最具代表性的一类。的大模型架构，核心是把

自训练 (Self-Training)核心逻辑：用少量真实标注数据先训练一个基础模型 → 用这个模型给大量无标注数据做预测 → 筛选高质量预测结果 → 把高质量的无标注数据 + 预测标签当作「新的标注数据」→ 和原标注数据一起继续训练模型 → 循环迭代优化，模型精度逐步提升。伪标签 (Pseudo-Labeling)核心逻辑：模型对无标注数据预测出来的「预测标签」就叫伪标签，区别于人工标注的「真

#深度学习

到底了