aotun7642 个人主页

@aotun7642

aotun7642

2022-07-08 17:09:46 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

AI Agent Runtime 操作系统化：事件日志、无状态执行与沙箱即牲畜

AI Agent 不再是单次调用的函数，而是具备生命周期、状态持久化和安全隔离的长期运行实体。其核心原理在于将 session 状态从易失的 LLM 上下文窗口解耦，转为可审计、可回溯、带因果链的事件日志（event log）；将模型执行器设计为严格无状态的 harness，确保任意时刻可重建、可替换；并将 sandbox 视为按需启停的 cattle，实现 credential 隔离、成本可控与

Codex CLI：本地AI编程协作者的安全模型与工程实践

AI编程代理是现代开发者提升效率的关键工具，其核心在于平衡智能能力与系统安全。Codex CLI 作为终端原生的AI协作者，采用‘本地执行+云端推理’混合架构，通过操作系统级沙箱隔离、多层审批引擎和上下文协议（MCP）实现工程级可控性。它不依赖IDE插件，支持全项目理解、文件读写、Shell执行与外部服务集成，显著提升重构、排查与文档化等复杂任务效率。关键词涵盖AI编程代理、本地沙箱安全、MCP协

4090跑不动Llama3.1-70B？显存瓶颈与量化卸载实战指南

大语言模型推理并非单纯比拼GPU算力，核心制约在于显存容量与带宽——Llama3.1-70B在FP16下需约140GB显存，远超RTX 4090的24GB上限。其本质是内存墙（Memory Wall）问题：权重加载、KV缓存和激活值共同触发频繁CPU-GPU数据搬运，导致IO瓶颈而非计算不足。解决路径聚焦于模型量化（如Q5_K_M压缩至28GB）与分层卸载（GPU offload），结合Paged

vibe coding：用自然语言驱动Python工具开发

vibe coding 是一种以意图为核心的轻量级编程范式，强调用自然语言描述需求而非陷入工程脚手架；其原理依托于代码大模型（如 Codex）对 Python 惯用法、CLI 结构和系统工具链的深度理解，实现从需求到可执行脚本的极简映射；技术价值在于显著降低小工具开发的认知负荷与启动成本，尤其适合运维、数据处理、自动化胶水代码等场景；典型应用包括端口检测（whichport）、JSON比对、日志分

#python

大模型命名解析：Qwen3.7-36B-A3B四要素实战指南

大语言模型命名并非随意组合，而是承载关键技术属性的结构化标识。从基础概念看，模型名通常包含家族系列、版本代际、参数规模与功能标签四大维度；其底层原理源于训练架构、推理协议与生态适配的深度耦合；技术价值在于显著降低部署试错成本、提升硬件利用率与任务匹配精度；典型应用场景涵盖本地知识库问答、单卡轻量部署、企业客服Agent、代码生成及多模态创作等；而Qwen3.7-36B-A3B正是这一命名逻辑的集大

AI智能体9秒删库攻防实录：Fortinet七道防线实战配置

数据库安全本质是访问控制与行为审计的协同防御体系。其核心原理在于识别异常身份、阻断越权操作、解析协议语义、关联多源日志，从而实现从网络层到应用层的纵深防护。在AI原生攻击时代，传统签名检测已难以应对自动化编排的漏洞利用链，技术价值正转向AI驱动的实时行为分析、动态策略响应与跨设备证据链构建。典型应用场景包括金融核心库防护、API网关SQL注入拦截、影子AI调用管控及数据库协议深度解析。本文基于Fo

#AI智能体

Qwen35B-A3B本地部署参数配置指南：解锁MoE代码生成性能

稀疏混合专家（MoE）模型是当前大语言模型高效推理的关键架构，其通过动态激活子网络实现计算量与参数规模的解耦。Qwen3.5-35B-A3B正是典型MoE模型，但‘A3B’并非精度标识，而是指单token激活约30亿参数，对RoPE位置编码、KV缓存管理、GPU层卸载策略高度敏感。若沿用稠密模型（如Qwen30B）的默认参数，极易引发reasoning-only卡顿、OOM崩溃或符号不一致等工程故

MTP多令牌预测在RTX 3090上提升llama.cpp吞吐2.44倍原理与实操

多令牌预测（MTP）是一种典型的推测解码技术，通过引入轻量级Verifier模型并行生成候选token序列，重构传统自回归解码的串行计算流水线，显著提升GPU计算单元利用率。其核心价值在于缓解内存带宽与计算调度瓶颈，尤其适配显存充足、CUDA核心数高但带宽受限的消费级GPU（如RTX 3090）。在llama.cpp框架下，MTP需依赖CUDA Unified Memory、正确配置Verifie

团队协作AI编程工具选型指南：降低组织认知摩擦的四大维度

AI编程工具已从个人效率插件演进为组织级代码生产基础设施。其核心价值不在于模型参数或响应速度，而在于能否将业务语义精准转化为符合团队规范、可审计、可复用的代码资产。这要求工具具备风格一致性治理能力、知识沉淀原生支持、与Jira/GitLab等研发流程深度嵌入，以及全链路AI行为可追溯性。尤其在金融、SaaS等中大型团队场景中，‘团队协作’与‘代码生成’必须重新定义为跨角色认知对齐和业务语义到模块化

大模型命名规则解码：从Qwen3.7-36B-A3B看工程选型逻辑

大语言模型名称不是随意组合，而是承载关键工程信息的技术规格编码。理解‘机构-版本-规模-架构’四段式命名逻辑，是高效选型与部署的前提。其中，版本号（如Qwen3.7）反映能力代际跃迁，参数量（如36B）需结合MoE活参与显存占用综合评估，而架构后缀（如A3B）则直接标识多模态支持、推理模式等核心能力。这套命名体系本质是开源社区为降低协作成本形成的工程共识，广泛应用于Ollama、vLLM和Hugg

共 63 条

请选择