吴思扬个人主页

@weixin_29053577

吴思扬

2022-09-09 17:08:55 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

GPT-4的1.8万亿参数与2%激活真相：MoE稀疏性原理与工程实践

混合专家（MoE）是大模型突破算力瓶颈的核心架构，其本质是通过动态路由实现参数稀疏激活，而非简单减少参数量。MoE的性能价值不在于‘总参数多少’，而在于‘每次前向传播中如何精准调度最相关专家’，这涉及路由算法、负载均衡、专家内稀疏性及计算图优化等多重技术协同。真实场景中，‘2%激活’并非静态比例，而是语义驱动+统计均值+硬件感知的结果，直接影响推理延迟、显存占用与API成本。理解MoE，就是理解现

RankGPT：RAG重排序实战指南——提升首条命中率至89%的LLM交叉编码器方案

重排序（re-ranking）是RAG系统中决定答案质量的关键环节，其本质是在稠密检索后对候选文档进行语义相关性精排。传统双塔式交叉编码器（如bge-reranker）受限于局部打分与表面匹配，难以处理医学术语缩写、长句逻辑嵌套等高阶语义关系；而基于大语言模型的生成式重排序（LLM-based re-ranking）通过pairwise偏好学习与指令遵循机制，实现更鲁棒的全局排序判断。该技术显著提

GPT5.5不是模型，而是人机协作新协议

大语言模型（LLM）的实战效能不取决于参数规模或版本编号，而在于人类能否建立稳定、可复现的人机协作机制。从GPT-3.5到GPT-4o，技术演进的核心是指令遵循鲁棒性、上下文稳定性与多模态协同能力的持续增强；但真正决定AI‘能不能干活’的关键，在于结构化输入、状态感知式交互和可信度锚定这三大工程实践方法。这些能力共同构成了一种新型生产力协议——业内俗称的‘GPT5.5’，它并非官方模型，而是基于G

DeepSeek-R1提示工程8大结构：绕过默认行为的实战协议

大模型提示工程不是玄学话术，而是基于模型底层token处理机制与行为预设的可编程设计。DeepSeek-R1因任务泛化优先、安全护栏敏感、上下文分配偏移等出厂设定，常导致冗余输出、结论弱化与关键信息遗漏。本文聚焦中文场景下真正可量化的提示词结构范式，揭示如何通过角色锚定、分步验证、动态权重标记等技术手段，精准调控注意力分配与推理路径。这些结构不依赖API调参或微调，仅靠输入组织逻辑即可提升响应确定

GLM-5.1工程化落地指南：从模型调用到可复用AI工作流

大语言模型（LLM）已从通用问答阶段迈入工程化落地新纪元。其核心演进方向是提升推理鲁棒性、上下文锚定能力与多步约束求解精度，而非单纯追求参数规模或榜单分数。以GLM-5.1为代表的新一代模型，通过200K上下文支持、reasoning模式激活机制及空间物理建模能力，在编程生成、工业设计、IoT协议建模等真实场景中展现出高稳定性与强一致性。技术价值体现在将隐含规范（如建筑标准、TypeScript

24G显存本地部署Kimi-K2.5：AWQ+vLLM长上下文推理实战

大语言模型本地部署的核心瓶颈并非参数量本身，而是推理过程中随上下文线性/平方增长的KV缓存显存开销。针对200K长上下文场景，AWQ量化通过通道级权重缩放，在4bit精度下显著保留关键注意力头表达力；vLLM则依托PagedAttention内存分页机制，将KV缓存管理复杂度从O(n)降至O(1)，使单卡24G显存真正支撑高吞吐、低延迟的可控推理。该技术路径兼顾开源可审计性、硬件兼容性与生产可用性

#vLLM

企业级AI Agent生产实践：从环境部署到可观测性的工程化落地指南

在人工智能与自动化技术快速发展的背景下，智能体（Agent）作为实现复杂任务自动化的关键技术，正从实验室走向企业级生产环境。其核心原理在于通过感知、决策与执行循环，结合大语言模型等AI能力，自主完成特定目标。这一技术的工程价值在于将智能化能力无缝集成至现有业务流程，提升效率与可靠性。在实际应用场景中，Agent常被用于自动化客服、智能文档处理、运维分析与报告生成等领域。然而，从原型到稳定服务的跨越

Codex与Claude Code深度对比：AI编程助手的技术原理与实战应用

代码生成与智能补全是现代软件开发中的关键技术，通过自然语言处理和机器学习模型，能够显著提升开发效率。其技术原理基于大规模代码库训练，学习编程语言的语法模式和逻辑结构，从而实现从注释到代码的自动转换。在工程实践中，这类工具的价值在于减少重复性编码工作，辅助开发者快速实现功能模块，并能在代码审查、重构和调试等场景提供智能建议。无论是日常开发中的函数补全，还是复杂系统的架构设计，AI编程助手都能根据上下

基于Python与Dlib的实时视线追踪与注意力检测实践指南

计算机视觉中的人机交互技术，旨在让机器理解用户的视觉焦点与注意力状态。其核心原理通常结合几何模型与深度学习，通过分析面部关键点、眼部特征及头部姿态来估算视线方向。这项技术的价值在于为智能系统提供非接触式的自然交互能力，是实现智能监控、辅助驾驶、在线教育专注度分析等应用的关键。本文聚焦于利用Python、OpenCV和Dlib库，从工程实践角度，构建一个实时、可运行的注意力检测系统，详细拆解了从环境

Gemini 3不是更强GPT-4：多模态证据链推理范式解析

大语言模型正从‘文本概率预测’迈向‘可验证推理’新阶段。Gemini 3代表的并非单纯参数升级，而是以多模态证据链构建为核心的技术范式跃迁——它要求输入具备结构化锚点、跨源证据与显式校准参数，输出则强制遵循Schema协议。这种设计使模型在事实核查、跨文档归因、结构化决策等任务中展现指数级优势，但对模糊提示、单模态输入和自由生成场景容忍度极低。理解其‘意图锚定→证据编织→结构输出’三阶段机制，是解

共 23 条

请选择