civiljiao 个人主页

@civiljiao

civiljiao

2023-01-13 16:41:50 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

16G显存+32G内存的救赎：MoE架构与Ktransformer技术下的高性价比大模型部署指南

本文探讨了如何在16GB显存+32GB内存的平民硬件上高效部署大型语言模型。通过混合专家（MoE）架构的稀疏激活特性和Ktransformer技术的智能资源调度，成功突破了传统稠密模型的硬件限制。文章提供了经过实测的模型选型清单（包括Qwen3-30B-A3B等），详细解析了安全部署参数配置，并强调必须手动设置显存/内存占用上限（显存≤12GB，内存≤18GB）以确保系统稳定。

#人工智能 #算法

混合专家模型（MoE）：助力大模型实现高效计算

引言近年来，大模型的参数规模不断攀升，如何在保证性能的前提下降低计算成本和显存消耗，成为业界关注的重点问题。混合专家模型（Mixture of Experts, MoE）应运而生，通过“分而治之”的设计理念，利用条件计算实现部分参数激活，从而在大容量模型中实现高效推理。本文将详细介绍MoE的核心原理、技术演进、实现细节，并通过一个通俗易懂的智能翻译系统案例，展示其在实际应用中的优势。

#人工智能 #语言模型

模型的参数和量化

随着深度学习模型规模不断扩大，大型模型（如GPT、BERT等）的参数数量已经达到几十亿甚至上百亿级别。模型参数不仅代表了模型的学习容量，同时也直接决定了模型在训练和推理过程中对计算资源（特别是显存）的需求。本文将详细解析大模型参数量化的原理、方法。

#人工智能 #语言模型

OpenManus技术解析：大模型时代的Agent集成框架

OpenManus 是一个先进的 AI 代理框架，旨在通过模块化设计实现大模型（如 GPT-4o、Claude-3.5）和智能体的深度协作。它的目标是自动化复杂任务，如金融报告生成和软件开发全流程。

#语言模型 #自然语言处理

通用智能体 Suna 技术解析——从浏览器自动化到全栈任务执行

以「完全开源、对标商业标杆 Manus」的定位引爆开发者社区。给他抛出一个更加复杂的问题，直接停在一半。而且几乎不支持中文生成。如下是让他制作一个 Excel 电子表格，写明五天洛杉矶的天气。结果是有，但是最终的表格没有输出。用户通过对话描述需求，即可驱动智能体完成从数据抓取、文档生成到系统运维的完整工作流。注：在GAIA基准测试中，Suna复杂任务完成率达83%，较Manus低9个百分点。"

#开源 #人工智能 #语言模型

One API：LLM API 管理 & 分发系统，github 24.2K Star！

One API 是一个开源的 AI 大模型 API 管理与分发系统，致力于解决多模型接入过程中面临的繁杂协议、密钥管理、流量分配等问题。它通过标准化接口（基于 OpenAI 格式）实现了不同大模型的无缝衔接。无论是 OpenAI、Google Gemini，还是国内的文心一言、讯飞星火等平台，开发者只需简单配置即可实现切换，旧代码无需大幅重构。

#github #人工智能 #语言模型

基于LM Studio的DeepSeek 本地部署

DeepSeek R1 是一款开源的AI模型，支持在本地上硬件离线运行。：在命令行中执行nvidia-smi指令，确认 CUDA 驱动版本是否满足最低要求（≥11.8）。：若版本低于 11.8，需更新 NVIDIA 驱动或安装适配的 CUDA Toolkit。：显存需求 ≈ 模型参数量（B） × 参数精度（bytes） × 1.2（额外开销系数）例如：14B 模型在 4-bit 量化（0.5 by

#人工智能 #自然语言处理

本地部署大模型： LM Studio、Open WebUI 与 Chatbox 全面对比以及选型指南

基于Web的轻量化界面，支持与Ollama、LM Studio等后端工具集成，提供类ChatGPT的交互体验。：专注于本地化大模型实验与推理的桌面工具，支持多模型并行、Hugging Face集成及离线运行。：通过Docker或Python安装，需配置后端服务（如Ollama）。：输入卡顿、交互体验待优化，缺乏高级功能（如RAG、多模型管理）。：开源本地GPT客户端，主打轻量化与易用性，但功能较为

#人工智能 #自然语言处理 #语言模型

RunningHub：AIGC创作平台深度解析

将设计、视频制作、数字内容生成等复杂流程转化为"搭积木式"操作。平台已覆盖全球144个国家用户，日均处理超百万次创作请求，彻底重构了传统内容生产模式。将专业级创作能力赋予普通用户，无需PS/Sketch/AE等软件基础，通过7000+功能节点自由组合即可生成商业级作品。将传统设计中的人力成本（约200-500元/张图）转化为算力成本（0.5-3元/次），降幅达99%。支持开发者上传节点/工作流并获

#人工智能 #语言模型 #自然语言处理

docker: Error response from daemon: could not select device driver with capabilities: [[gpu]]问题记录解决

如果显示的是WARNING：No swap limit support或者什么都没显示，就说明是nvidia驱动程序没有被docker daemon使用，这个时候有点麻烦，可能是因为/etc/docker/daemon.json配置文件没配置对，也可能是docker没安装好。如果显示"nvidia:yes"或者有其他正常显示,就说明docker daemon正在使用nvidia驱动程序，这个时候使

#docker #容器 #运维

共 31 条

请选择