
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这套模板我也试过其他大学,小改一下应该是可以通用的,编码花费1个多小时,奶奶滴!听课去咯。

2025年3月31日更新

本题的每一轮的决策就是从当前格子向下或向右一步。设当前格子的行列索引为[𝑖, 𝑗],则向下或向右走一步后,索引变为[𝑖 + 1, 𝑗] 或 [𝑖, 𝑗 + 1]。因此,状态应包含行索引和列索引两个变量,记为[𝑖, 𝑗]。状态 [𝑖, 𝑗] 对应的子问题为:从起始点[0, 0]走到[𝑖, 𝑗] 的最小路径和,解记为𝑑𝑝[𝑖, 𝑗]。至此,我们就得到了图 14‑11 所

来自 https://katex.org/docs/autorender可以自动渲染。

使用一系列模型预测概率的平均值即软投票机制能显著改善模型的性能,但是部署起来是比较不方便的:因为要预测很多的模型结果,再求平均;论文中提到可以把所有模型预测结果的平均值部署在一个模型里面,然后利用这一个模型来预测,这样就可以大大减少部署的难度,这种方法被称为,即知识蒸馏;在知识蒸馏中,我们不需要关心参数数量和大小的变化,我们只需要关心经过这一系列的参数得到的结果变化,如果参数变少,一般来说100%

XLNet主要就是两个东西,一个是Permutation Language Modeling,一个是transformer-xl;感觉性能相对于roberta也没提升多少,这个模型的架构应该是不太行;

使用subwords而不是word,可以有效的提高NMT的能力;利用压缩算法BPE来构建词汇表;

这篇论文引入了一种结合语言建模,蒸馏,余弦距离损失的三重损失,利用该损失在预训练阶段使用知识蒸馏,可以减少模型的大小,保持的能力,同时加快的速度;虽然说和类的模型在处理任务时带来了极大的改进;但是NLP领域出现了一种现象,就是在模型越大的时候,模型的效果就越好,我估计这也是大厂疯狂卷算力的原因吧;

这篇论文的框架已经过时,在量化和分词上面有借鉴性
