logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM】LLaMA

版本发布时间参数规模架构类型上下文长度关键技术LLaMA 12023.027B~65B2KLLaMA 22023.077B~70B4KLLaMA 32024.048B~70B8KGQA全面应用, 15T训练数据LLaMA 3.12024.078B~405B128K超大规模(405B), 多语言LLaMA 3.22024.091B~90BDense + 视觉编码器128K原生多模态,轻量化LLaMA

【LLM】Deepseek

版本参数规模架构类型上下文长度核心创新V17B / 67B密集 Transformer4K基线模型,类 Llama 结构V2236B总/21B激活MoE + MLA128KMLA(KV缓存压缩)+ DeepSeekMoEV3671B总/37B激活MoE + MLA128K无辅助损失负载均衡 + MTP + FP8训练V41.6T总/49B激活1M混合稀疏注意力 + 超连接 + Muon优化器。

#人工智能
【LLM】Qwen

与此同时,Qwen 在这一阶段形成了完整的专用模型矩阵——Qwen2.5-Coder(代码)、Qwen2.5-Math(数学)、Qwen2.5-VL(视觉语言)等,其中 Qwen2.5-Math 使用了万亿规模的数学语料,Qwen2.5-Coder 则利用了 5.5 万亿 token 的代码语料。Qwen3 的关键创新是将思考模式(用于复杂的多步推理)和非思考模式(用于快速的上下文驱动响应)集成到

#人工智能
【LLM】Codex

如果轮次仍在运行,则复制最近已完成的输出。后按 Enter,从弹出的线程选择器中选择目标线程,Codex 会切换到该线程,让你检查或继续那个 agent 的工作。来启动 Goal 模式,Goal 是一个持久目标,Codex 会持续为之努力,直到完成任务、暂停,或需要更多输入为止。,确认路径是已存在的绝对目录后,Codex 会刷新 Windows 沙盒策略,为该目录授予后续命令的读取权限。后从已保存

#人工智能
【AIGC】Wan开源系列模型说明

模型后缀全称核心输入核心用途T2V纯文字纯粹的创意生成I2V图片 + 文字静态图动画化FLF2V起始图 + 结束图精准控制启停的视频补全VACE视频/图片 + 指令视频局部修改与高级编辑。

#AIGC
【DL】MHA MQA GQA MLA

注意力机制Query 头数K/V 头数KV Cache 显存占用模型表现 (效果)推理速度/吞吐量代表模型 / 现状MHA(多头)hhhhhh(完全独立)极高100100\%100%最高(基线)极慢 (受限于显存带宽)GPT-3, LLaMA-1, 早期模型标配MQA(多查询)hhh111(全局共享)极低(降至1h1/h1/h明显下降极快StarCoder, ChatGLM-6B (早期)GQA(

#人工智能
【infra】kv cache, flash attn, zero,量化

KV Cache 让大模型“能够一边记一边聊”,而 FlashAttention 让大模型“能够一眼看完整本财报而 GPU 不爆炸”。这两个技术的结合,才是当下长文本大模型(如 Kimi、Claude 3 200k)得以落地的物理基石。

#人工智能
STEVE

这篇论文主要对比了两个行业内非常有名的基线模型:AutoGPT 和 Voyager 。AutoGPT: 这是一个自然语言处理自动化工具,主要依赖纯文本。它由 GPT-4 驱动,通过处理文本形式的智能体状态、环境反馈和执行错误来管理和执行子目标 。Voyager: 这是一个在《我的世界》中非常经典的智能体,同样使用 GPT-4。它的特点是具有长期的程序化记忆和一个代码技能库 。但是,Voyager

#人工智能
【LLM】LLaMA

版本发布时间参数规模架构类型上下文长度关键技术LLaMA 12023.027B~65B2KLLaMA 22023.077B~70B4KLLaMA 32024.048B~70B8KGQA全面应用, 15T训练数据LLaMA 3.12024.078B~405B128K超大规模(405B), 多语言LLaMA 3.22024.091B~90BDense + 视觉编码器128K原生多模态,轻量化LLaMA

【LLM】CC

Claude Code 是 Anthropic 发布的一款智能体编码工具(Agentic Coding Tool),它有一个"智能体循环"(Agentic Loop)——可以规划并执行动作以完成目标,能调用工具、评估结果并持续运行直到任务完成。[1]它是一个能读取代码库、跨文件修改代码、运行测试并提交代码的自主编码系统。对于没有工程背景的构建者来说,它是一个此前从未有过的软件开发入口。[3]

#人工智能
    共 62 条
  • 1
  • 2
  • 3
  • 7
  • 请选择