m0_49893661 个人主页

@m0_49893661

m0_49893661

2026-01-18 14:34:59 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

transformers迁移学习

模型选择：理解类任务选BERT系列，生成类任务选GPT/T5系列；中文任务优先。库的使用：快速验证用Pipeline，通用开发用AutoModel，深度定制用。迁移学习本质：所有预训练模型均基于“预训练+微调”范式，通过少量数据即可适配新任务，大幅降低训练成本。对比维度BERTGPT核心架构注意力方向双向 (可同时看前后文)单向 (只能看前文)训练目标掩码语言模型 (MLM)，类似“完形填空”自回

#迁移学习 #人工智能 #机器学习

Transformer

文本↓分词器(将文本切分为索引，如 [101, 7592, 2088, 102])↓词嵌入查找(将索引转换为向量EtokenE_{token}Etoken↓位置编码生成(生成位置向量EposE_{pos}Epos↓相加XEtokenEposXEtokenEpos↓输入模型(张量XXX进入第一层编码器或解码器)并行策略核心逻辑优点缺点典型应用场景数据并行 (DP)数据分片，模型复制。

#transformer #深度学习 #人工智能

注意力机制

让模型在处理信息时，学会“聚焦”于输入序列中与当前任务最相关的部分，而不是同等地看待所有信息。它模拟了人类视觉的注意力机制——我们看一张图或读一句话时，不会平均分配精力，而是关注重点。在注意力机制出现之前，主流的序列模型（如 RNN、LSTM、GRU）主要依赖编码器-解码器架构来处理序列到序列的任务（如机器翻译）。注意力机制的诞生：它允许解码器在生成每一个输出词时，直接“回头”查看编码器的所有隐藏

#深度学习 #人工智能 #python

神经网络基础

人工神经网络（ Artificial Neural Network，简写为ANN）也简称为神经网络（NN），是一种模仿生物神经网络结构和功能的计算模型。人脑可以看做是一个生物神经网络，由众多的神经元（基本单位）连接而成。神经网络的概念最早源于对生物神经系统的研究。在大脑中，神经元通过树突接收信号，在细胞体内处理，若信号强度超过阈值，则通过轴突传递信号。受此启发，人工神经网络将这一过程抽象为数学模

#神经网络 #人工智能 #深度学习 +1

PyTorch 核心使用

数据处理阶段：放心使用NumPy。它生态成熟，配合 Pandas/Matplotlib 处理 CSV、图像预处理非常方便。模型训练阶段：必须转换为PyTorch。利用其 GPU 加速和自动求导能力。避坑指南：不要试图把 GPU 张量直接转 NumPy。注意的内存共享特性，修改原数组可能会意外改变张量数据。矩阵乘法记得用或，别用。

#pytorch #人工智能 #python

深度学习概叙

随着上下文窗口达到百万级 (1M+ Tokens)，传统 O(N2)O(N2) 的注意力机制面临瓶颈，新架构层出不穷。注：2026年主流模型通常使用分组查询注意力 (GQA) 或滑动窗口注意力来优化推理速度。: 不再是将图像Patch简单映射为Text Token，而是构建统一的语义空间。扩散模型 (Diffusion Models): 通过逐步去噪生成数据。允许模型在不同的子空间同时关注不同

#深度学习 #人工智能

朴素贝叶斯算法

（Naive Bayes Algorithm）是一种基于与的经典分类算法。尽管其假设在现实中往往过于“朴素”（即假设所有特征之间相互独立），但它在许多实际应用场景中（尤其是文本分类）表现优异，且计算效率极高。

#算法 #机器学习 #人工智能

python中的函数与异常

所谓函数就是一个被命名的独立的,完成特定功能的代码段,并可能给调用它的程序一个返回值def 函数名称([参数1, 参数2, ...]):函数体...[return 返回值]当检测到一个错误时，解释器就无法继续执行了，反而出现了一些错误的提示，这就是所谓的"异常"。

#python

逻辑回归（Logistic Regression）

场景推荐指标类别平衡，关注整体性能正类更重要（如疾病）Recall（高查全）误报代价高（如垃圾邮件）Precision（低误报）需要综合 Precision & RecallF1-score比较不同模型的概率排序能力AUC-ROC多分类问题Macro-F1 或 Weighted-F1黄金法则：没有“最好”的指标，只有“最合适”业务目标的指标。

#逻辑回归 #算法 #机器学习

线性回归 (Linear Regression)

利用回归方程(函数) 对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。目的建立一个线性模型，用一个或多个自变量（特征）来预测一个连续型因变量（目标值）假设因变量 yyy 与自变量 x1,x2,...,xnx1,x2,...,xnx1,x2,...,xn 之间存在近似线性关系y=β0+β1x+εy=β_0+β_1x+εy=β0+β1x+εy=β0+β1x1+β

#线性回归 #机器学习 #算法

共 12 条

请选择