logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

csdn在markdown笔记中复制代码格式混乱的解决办法

前几天遇到这个问题:在csdn社区写博客,需要复制代码过来,点击粘贴过后发现格式全乱了。后来经过查询、实践,得到的解决办法是:不用IE浏览器,更换其他的浏览器。问题得到解决,可以放心的粘贴代码块了。之前的浏览器:microsoft edge之后使用的浏览器:firefox...

git给代码打tag

实际踩坑记录

#git
现在的claude code 等编程模型,如果输入长度超过上下文长度应该怎么做?

面试官问的其实是考察你对长文本/长代码处理 pipeline 设计能力。

#人工智能
分词(tokenization)算法之Byte Pair Encoding (BPE) 算法详解(代码实现)

BPE 的基本思想可以用一句话概括:从字符级别开始,通过统计频率最高的字符对或子词对,逐步构建一个词汇表,用于表示文本中的单词或子词单元。 这种方法既能保留词的语义信息,又能灵活处理未见过的新词(out-of-vocabulary, OOV),在深度学习模型中表现出色。

#人工智能#transformer#深度学习
揭秘何凯明Masked Autoencoders(MAE):计算机视觉中的可扩展自监督学习新星

本文将深入剖析 MAE 的设计理念、技术细节及其独特之处,带你理解它为何能在 Vision Transformer (ViT) 的基础上掀起新的研究浪潮。

文章图片
#计算机视觉#人工智能#深度学习 +1
如何在模型训练时避免计算 Padding Token 的 Loss

根据 transformers 文档,如果没有显式指定 label_pad_token_id,它通常会默认使用 -100,因为这是 CrossEntropyLoss 的 ignore_index 默认值。

    共 587 条
  • 1
  • 2
  • 3
  • 59
  • 请选择