
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
动手学深度学习第二章课后题
【代码】动手学深度学习第二章课后题。

机器学习中的精确度、召回率、F1分数
补充:其他性能评价指标

动手学深度学习第三章课后习题
这一章的课后题基本都是理论推导,自己会了但没整理,所以当个答案搬运工,记录一下hhh。

qwen3解读
将长序列划分为多个固定长度的“块”(Chunk),在块内计算局部注意力,块间则通过稀疏或跨块注意力减少计算量。例如,对 32,768 token 的长上下文,模型可能先分块处理局部信息,再通过全局注意力聚合关键信息。在训练阶段,通过 长度外推 (Length Extrapolation)技术,使模型能够适应远超训练数据长度的上下文(例如从 32,768 token 推理时扩展至 128K toke
动手学深度学习第二章课后题
【代码】动手学深度学习第二章课后题。

到底了







