
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
TileLang 旨在简化高性能 GPU/CPU 内核(Kernels)的开发,例如 MLA(Multi-Head Latent Attention)、GEMM(GEneral Matrix Multiplication)、Dequant GEMM、FlashAttention 和 LinearAttention 等。通过在 TVM 之上构建底层编译器基础设施,并采用 Pythonic 语法,ti

humanize 是 Claude Code 插件,通过 RLCR 双模型循环解决 AI 自我审查盲区:Claude 负责实现,OpenAI Codex 独立审查,利用 Stop Hook 自动反馈并驱动迭代修复。其哲学是“迭代胜过完美”,强制人类通过计划理解测验,确保人类始终是架构师、AI 是执行者。适合对代码质量要求高的复杂任务。

虽然最近的语言模型能够将长上下文作为输入,但对它们使用长上下文的情况知之甚少。这项研究分析了语言模型在两项任务中的表现,这两项任务要求识别输入语境中的相关信息:多文档问题解答和键值检索。实验结果发现,当改变相关信息的位置时,性能会明显下降,这表明当前的语言模型不能稳健地利用长输入语境中的信息。特别是,当相关信息出现在输入上下文的开头或结尾时,性能往往最高,而当模型必须在长上下文中间获取相关信息时,

思维链(CoT)提出者 Jason Wei:关于大语言模型的六个直觉

了解大语言模型的参数高效微调(Parameter-Effcient Fine-Tuning)

微软 & CMU - Tag-LLM:将通用大语言模型改用于专业领域

本文首先明确大语言模型推理系统的关键性能指标,继而剖析预填充(Prefilling)与解码(Decoding)这两个阶段的核心特征。基于上述分析,本文指出:持续批处理(Continuous Batching)采用阶段隔离与抢占机制,虽有助于提高系统吞吐量并降低首令牌延迟(Time To First Token,TTFT),但会显著增加词元间延迟(Token-to-Token Delay,TBT),

为什么说 ChatGPT 大语言模型是一个 “格式控”?

告诉我们事实:用知识图谱增强大语言模型以实现事实感知的语言建模

humanize 是 Claude Code 插件,通过 RLCR 双模型循环解决 AI 自我审查盲区:Claude 负责实现,OpenAI Codex 独立审查,利用 Stop Hook 自动反馈并驱动迭代修复。其哲学是“迭代胜过完美”,强制人类通过计划理解测验,确保人类始终是架构师、AI 是执行者。适合对代码质量要求高的复杂任务。








