
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
官方 Ollama Docker 镜像可以直接在Docker Hub上进行拉取。

当所有人都在卷 RAG 的 Embedding 质量和向量数据库选型时,阿里 ModelScope 团队另辟蹊径——直接在原始文件上做搜索,用蒙特卡洛采样替代文档切片,让知识自己"进化"。本文深度解析 Sirchmunk 的技术架构与设计哲学。

OpenAI 正式发布 GPT-5.4,并将其同步推向 ChatGPT、API 和 Codex。相比把它理解为一次常规模型迭代,我更倾向于把 GPT-5.4 看成一次面向真实工作流的整合升级:它把推理、编码、工具调用、Computer Use 和知识工作能力收拢到同一个主力模型中。本文基于官网信息,重点梳理 GPT-5.4 最值得被 highlight 的部分,以及它对 AI Agent、AI C

在 GPU 服务器上编译 llama.cpp 时遇到 `Could not find nvcc` 报错,才发现 `nvidia-smi` 显示 CUDA 12.2 并不代表装了 CUDA Toolkit。本文用一张图讲清三者关系。

一个看似简单的文件拆分,背后体现的是“只为你用到的功能付费”的设计哲学。在显存寸土寸金的 GPU 推理场景下,这种按需加载的能力让开发者可以在同样的硬件上跑更大的模型、支持更长的上下文。

未来的 AI 系统,将是“足够智能的 Model”与“足够自适应的 Harness”的有机融合体。最顶尖的 AI 产品,必然是一辆法拉利:你需要一颗最强的发动机(Big Model),但也必须拥有一套顶级的空气动力学套件和底盘调校(Big Harness),否则,你的车根本跑不快,或者转个弯就翻了。

对于开发者来说,真正重要的不是盲目追逐“最强模型”,而是先分清任务类型,再选择最匹配的模型能力与系统架构。

本文用 gpt-oss-120b 模型做一个完整示范:如何仅凭 config.json 里的关键字段,推导出 MoE 模型的总参数量、每 token 激活参数量,以及为什么你自己算出来的数字有时会和官方只差一点但不完全一样。

很多人拿到一个新的 MoE 模型,第一反应是去看模型卡,但真正决定你能不能快速判断它的结构规模、激活参数、部署成本和工程风险的,往往是 `config.json`。本文不针对某一个模型,而是给你一套通用阅读框架:以后无论看到 Mixtral、Qwen MoE、DeepSeek MoE,还是别的专家模型,都能在几分钟内看懂它的关键结构信息。

这篇文章讨论一个在 AI 团队里极常见、但又极容易把决策带偏的问题:当别人说“Qwen 是跑分模型”“DeepSeek 更适合真实任务”时,我们究竟该如何判断这类观点是否客观、是否值得采纳?文章提出一套非常实用的判断框架:把任何观点拆成“现象、解释、建议”三层,再结合变量控制、指标翻译、替代解释、证据强度和可证伪性进行分析。它不仅适用于 “Qwen vs DeepSeek”,也适用于几乎所有 AI








