logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

已利用key.pem密钥文件在mobaxterm上连接成功了,但现在vscode连接时需要输密码

MobaXterm 连接成功但 VSCode Remote - SSH 要输密码,核心是。VSCode 对密钥格式、权限和 SSH 配置的要求更严格,而 MobaXterm 兼容性更强。将.pem格式密钥转换为 OpenSSH 格式,用 MobaXterm 自带的工具最方便,步骤如下(确保你的.pem。

#vscode#ssh#服务器
Qwen3技术报告学习简记

Qwen3系列包含6个Dense模型:Qwen3-0.6B、Qwen3-1.7B、Qwen3-4B、Qwen3-8B、Qwen3-14B和Qwen3-32B,以及2个MoE模型:Qwen3-30B-A3B和Qwen3-235B-A22B。针对每个问题q,使用旧策略抽取一组输出,通过奖励模型给出一组奖励,对多个奖励进行标准化得到相对优势,最大化目标函数以优化测策略。按照以上四个阶段训练得Qwen3-

#深度学习#人工智能
大模型文本分类任务常用技术路径简述

大模型做文本分类的核心路径可概括为「轻量路径(零 / 少样本)→ 精准路径(SFT)→ 部署路径(蒸馏)」,按 “标注数据量 + 算力 + 部署需求” 逐步升级,具体分类任务建议从少样本分类入手,再过渡到 SFT 微调,最终用蒸馏模型落地。

#分类#人工智能#数据挖掘
一文搞懂LLM高吞吐

高吞吐的本质是最大化硬件资源利用率,在单位时间内处理更多请求,核心依赖连续批处理、高效显存管理等技术。它是大模型商业化服务的核心性能指标,直接决定了服务的用户承载量和运营成本。

#人工智能#大数据
一文搞懂LLM训练推理中的GPU显存与算力

对比维度GPU 显存GPU 算力本质相当于 GPU 的 “专属内存”,用于临时存储数据和模型参数相当于 GPU 的 “计算能力”,用于执行矩阵运算、注意力计算等核心任务作用存放模型权重、KV 缓存、输入输出数据、中间计算结果完成大模型的前向推理(生成 token)、反向传播(训练更新参数)衡量单位容量:GB(如 24GB、40GB、80GB)带宽:GB/s(影响数据读写速度)浮点运算能力:FLOP

#人工智能
LLM入门必看:Andrej Karpathy -Deep Dive into LLMs like ChatGPT 学习笔记

课程地址:khttps://www.youtube.com/watch?v=7xTGNNLPyMIhttps://www.youtube.com/watch?v=7xTGNNLPyMIhttps://www.youtube.com/watch?v=7xTGNNLPyMIHuggingFace FineWeb Datasethttps://huggingface.co/datasets/Huggin

#学习#人工智能#语言模型 +1
一文搞懂LLM高吞吐

高吞吐的本质是最大化硬件资源利用率,在单位时间内处理更多请求,核心依赖连续批处理、高效显存管理等技术。它是大模型商业化服务的核心性能指标,直接决定了服务的用户承载量和运营成本。

#人工智能#大数据
一文搞懂LLM训练推理中的GPU显存与算力

对比维度GPU 显存GPU 算力本质相当于 GPU 的 “专属内存”,用于临时存储数据和模型参数相当于 GPU 的 “计算能力”,用于执行矩阵运算、注意力计算等核心任务作用存放模型权重、KV 缓存、输入输出数据、中间计算结果完成大模型的前向推理(生成 token)、反向传播(训练更新参数)衡量单位容量:GB(如 24GB、40GB、80GB)带宽:GB/s(影响数据读写速度)浮点运算能力:FLOP

#人工智能
大模型文本分类任务常用技术路径简述

大模型做文本分类的核心路径可概括为「轻量路径(零 / 少样本)→ 精准路径(SFT)→ 部署路径(蒸馏)」,按 “标注数据量 + 算力 + 部署需求” 逐步升级,具体分类任务建议从少样本分类入手,再过渡到 SFT 微调,最终用蒸馏模型落地。

#分类#人工智能#数据挖掘
到底了