logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

动手学深度学习第二章课后题

【代码】动手学深度学习第二章课后题。

文章图片
#深度学习#人工智能
动手学深度学习第三章课后习题

这一章的课后题基本都是理论推导,自己会了但没整理,所以当个答案搬运工,记录一下hhh。

文章图片
#深度学习#人工智能
qwen3解读

将长序列划分为多个固定长度的“块”(Chunk),在块内计算局部注意力,块间则通过稀疏或跨块注意力减少计算量。例如,对 32,768 token 的长上下文,模型可能先分块处理局部信息,再通过全局注意力聚合关键信息。在训练阶段,通过 长度外推 (Length Extrapolation)技术,使模型能够适应远超训练数据长度的上下文(例如从 32,768 token 推理时扩展至 128K toke

#人工智能#论文阅读
动手学深度学习第二章课后题

【代码】动手学深度学习第二章课后题。

文章图片
#深度学习#人工智能
到底了