weifengma-wish 个人主页

@maweifeng1111

weifengma-wish

2024-08-22 16:14:31 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

通过NPM安装claude code

node -vnpm -vNode 正常npm 正常Claude CLI 有版本号出口不是被限制地区（你现在是 HK，理论可用）

#npm #前端 #node.js

Transformer 注意力为什么用内积？而不用余弦相识度和cor等

它是向量的长度：是语义信息在向量空间中的“幅值”。它是一个放大器：与余弦相似度相乘，决定最终的注意力分数。它是一个可学习的权重：代表模型对某个 token“重要性”的量化评估。它解决了“平等问题”：余弦相似度默认所有 token 的“话语权”平等，但现实中“猫”显然比“的”更重要。强度就是打破这种平等，赋予模型“优先级判断”能力的机制。所以，这句话的准确理解是内积 =（方向一致性）×（Token

#transformer #深度学习 #人工智能

肠道宏基因组数据分析流程要关注的参数和指标

**指标**| **阈值**| **说明**|| **指标**| **阈值**| **意义**|

#其他

完全分片数据并行（FSDP, Fully Sharded Data Parallel）

完全分片数据并行（**FSDP, Fully Sharded Data Parallel**）是 PyTorch 提供的一种分布式训练技术，主要用于在多 GPU（甚至多节点）环境中训练**超大模型**时节省显存和提升可扩展性。* 如果模型很大（比如数百亿甚至上百亿参数），单个 GPU **装不下完整的模型参数 + 梯度 + 优化器状态**。* 当某个层需要计算时，FSDP 会\*\*按需广播（Al

#python #深度学习 #人工智能

Parallelism methods about distributed training

理解：模型参数结构在每个GPU上完整copy，数据拆分并行处理，这个样速度快，但是不能解决显存问题，而且整合数据可能也需要增加较大开销。理解：模型层顺序分配到不同的GPU，方便解决单张GPU的显存限制，但是他是流水线的工作方式，GPU利用率就较低。

#人工智能

Accelerater for distributed training

Accelerate is a library designed to simplify distributed training on any type of setup with PyTorch by uniting the most common frameworks (Fully Sharded Data Parallel (FSDP) and DeepSpeed) for it into

#python #人工智能 #深度学习

混合效应模型

在混合效应模型中，固定效应和随机效应被同时考虑，固定效应用于解释整体样本的变化，而随机效应用于解释不同个体或组之间的差异。3. **模型诊断**：对拟合的模型进行诊断，检查模型的拟合度和假设是否满足。4. **解释结果**：解释模型的参数估计，包括固定效应和随机效应的影响，以及它们与研究问题的相关性。2. **拟合模型**：使用统计软件（如 R 中的 lme4 包）拟合混合效应模型，并估计模型参数

#算法 #r语言

tokenizer() 和 tokenizer.encode()

是 Hugging Face Transformers 库中的两种不同的方法，它们用于文本编码的不同情况。方法适用于对单个文本进行简单的编码操作。您可以根据需要选择合适的方法来进行文本编码。方法通常用于对批量文本进行编码，并提供了更多的灵活性和功能，而。

#python

RFECV方法

递归特征消除简称RFE(Recursive Feature Elimination)，RFE是使用一个基模型进行多轮训练，每轮训练后，消除若干低权值(例特征权重系数或者特征重要性)的特征，再基于新的特征集进行下一轮训练[1]。RFE使用时，要提前限定最后选择的特征数(n_features_to_select)，这个超参很难保证一次就设置合理，因为设高了，容易特征冗余，设低了，可能会过滤掉相对重要的

#python #sklearn #机器学习

到底了