
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
模型选择:理解类任务选BERT系列,生成类任务选GPT/T5系列;中文任务优先。库的使用:快速验证用Pipeline,通用开发用AutoModel,深度定制用。迁移学习本质:所有预训练模型均基于“预训练+微调”范式,通过少量数据即可适配新任务,大幅降低训练成本。对比维度BERTGPT核心架构注意力方向双向 (可同时看前后文)单向 (只能看前文)训练目标掩码语言模型 (MLM),类似“完形填空”自回
文本↓分词器(将文本切分为索引,如 [101, 7592, 2088, 102])↓词嵌入查找(将索引转换为向量EtokenE_{token}Etoken↓位置编码生成(生成位置向量EposE_{pos}Epos↓相加XEtokenEposXEtokenEpos↓输入模型(张量XXX进入第一层编码器或解码器)并行策略核心逻辑优点缺点典型应用场景数据并行 (DP)数据分片,模型复制。
让模型在处理信息时,学会“聚焦”于输入序列中与当前任务最相关的部分,而不是同等地看待所有信息。它模拟了人类视觉的注意力机制——我们看一张图或读一句话时,不会平均分配精力,而是关注重点。在注意力机制出现之前,主流的序列模型(如 RNN、LSTM、GRU)主要依赖编码器-解码器架构来处理序列到序列的任务(如机器翻译)。注意力机制的诞生:它允许解码器在生成每一个输出词时,直接“回头”查看编码器的所有隐藏
人工神经网络( Artificial Neural Network, 简写为ANN)也简称为神经网络(NN),是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络,由众多的神经元(基本单位)连接而成。神经网络的概念最早源于对生物神经系统的研究。在大脑中,神经元通过树突接收信号,在细胞体内处理,若信号强度超过阈值,则通过轴突传递信号。受此启发,人工神经网络将这一过程抽象为数学模
数据处理阶段:放心使用NumPy。它生态成熟,配合 Pandas/Matplotlib 处理 CSV、图像预处理非常方便。模型训练阶段:必须转换为PyTorch。利用其 GPU 加速和自动求导能力。避坑指南:不要试图把 GPU 张量直接转 NumPy。注意的内存共享特性,修改原数组可能会意外改变张量数据。矩阵乘法记得用或,别用。
随着上下文窗口达到百万级 (1M+ Tokens),传统 O(N2)O(N2) 的注意力机制面临瓶颈,新架构层出不穷。注:2026年主流模型通常使用分组查询注意力 (GQA) 或 滑动窗口注意力 来优化推理速度。: 不再是将图像Patch简单映射为Text Token,而是构建统一的语义空间。扩散模型 (Diffusion Models): 通过逐步去噪生成数据。允许模型在不同的子空间同时关注不同
(Naive Bayes Algorithm)是一种基于与的经典分类算法。尽管其假设在现实中往往过于“朴素”(即假设所有特征之间相互独立),但它在许多实际应用场景中(尤其是文本分类)表现优异,且计算效率极高。
所谓函数就是一个被命名的独立的,完成特定功能的代码段,并可能给调用它的程序一个返回值def 函数名称([参数1, 参数2, ...]):函数体...[return 返回值]当检测到一个错误时,解释器就无法继续执行了,反而出现了一些错误的提示,这就是所谓的"异常"。
场景推荐指标类别平衡,关注整体性能正类更重要(如疾病)Recall(高查全)误报代价高(如垃圾邮件)Precision(低误报)需要综合 Precision & RecallF1-score比较不同模型的概率排序能力AUC-ROC多分类问题Macro-F1 或 Weighted-F1黄金法则:没有“最好”的指标,只有“最合适”业务目标的指标。
利用 回归方程(函数) 对 一个或多个自变量(特征值)和因变量(目标值)之间 关系进行建模的一种分析方式。目的建立一个线性模型,用一个或多个自变量(特征)来预测一个连续型因变量(目标值)假设因变量 yyy 与自变量 x1,x2,...,xnx1,x2,...,xnx1,x2,...,xn 之间存在近似线性关系y=β0+β1x+εy=β_0+β_1x+εy=β0+β1x+εy=β0+β1x1+β







