logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Kimi K2.5深度实测:长文本、多模态与Agent能力边界解析

大语言模型已从‘能否理解’迈入‘建模多深、执行多稳、响应多准’的工程化阶段。长文本处理不再仅看上下文长度,而取决于跨段落因果链追踪与动态知识图谱构建能力;多模态理解正突破图文对齐,走向视频帧间注意力与指令-区域绑定机制。Kimi K2.5在超长文档分析、结构化任务Agent执行、本地代码深度解析等场景展现出显著技术价值,但其能力断层(如视觉训练数据偏差、内存调度瓶颈)也揭示了当前通用大模型的真实成

DeepSeek-OCR本地部署:8GB显存与CUDA 12.9实战指南

视觉语言模型(VLM)是当前OCR技术演进的核心方向,其端到端图像理解能力依赖ViT编码器与大语言解码器的协同推理。这类模型的显存消耗不再局限于权重加载,更关键的是KV Cache缓存、特征图驻留及适配层开销。因此,‘8GB显存起跑’并非容量门槛,而是vLLM调度策略、CUDA运行时优化与PCIe带宽共同决定的工程下限。配合CUDA 12.9的WGMM指令集升级,可显著降低ViT矩阵计算的显存冗余

#vLLM
AI网页操作实战:browser-use与大模型协同指南

AI网页操作是指让大语言模型(LLM)具备理解指令、感知界面、执行点击/输入等真实交互能力的技术范式。其核心原理在于融合视觉理解(如轻量CNN识别UI元素)与动作规划(自然语言生成可执行操作序列),构建‘执行-观察-反思’闭环,从而突破传统Selenium等工具对DOM结构的强依赖。该技术显著提升自动化鲁棒性,支撑RPA平民化、AI原生应用落地及个人数字助理等场景。browser-use作为专注此

昇腾+DeepSeek超融合一体机:制造业大模型开箱即用实践指南

大模型落地工业场景的核心瓶颈,从来不是算力或模型本身,而是训练-推理-知识增强-应用编排的全链路工程化断层。本文围绕国产AI芯片(昇腾)、强推理开源模型(DeepSeek)与超融合架构三位一体的设计逻辑,解析如何在无AI团队、无GPU运维能力的工厂环境中,实现RAG知识库构建、工业Agent编排、低代码产线智能体开发等关键能力。重点覆盖昇腾910B功耗与生态适配性、DeepSeek-Coder在P

#昇腾#DeepSeek
Hermes Agent工程实践:标准化函数调用与ChatML协议落地指南

函数调用(Function Calling)是大语言模型走向可靠Agent的核心能力,其本质并非简单API调度,而是LLM与外部系统间可验证、可审计、可回滚的工具契约。理解ChatML格式的关键在于突破‘提示词模板’认知,将其视为多角色协同的状态机通信协议——System/User/Assistant/Tool四角色语义隔离、<tool_call>分隔符定义刚性边界、<scratch_pad>强制

Hermes Agent+WSL+通义千问终端智能代理实战指南

终端智能代理是一种将大模型能力深度嵌入命令行环境的技术范式,其核心原理是通过可编程接口打通AI推理与原生系统工具链,实现上下文感知、命令自动生成与结果自动执行。相比传统Copilot类工具,它具备更强的系统级控制力和确定性响应能力,技术价值体现在降低多窗口切换开销、消除文档-命令-日志间的认知断层,并支撑CI/CD、日志分析、代码审查等高确定性工程场景。本文聚焦Hermes Agent在WSL环境

OpenClaw Memoria接入原理:1分钟激活语义记忆中枢

语义记忆是现代AI代理系统的核心能力,其本质是将非结构化文本转化为可检索、可推理的向量知识。Memoria作为OpenClaw内置的记忆引擎,不依赖独立安装,而是通过向量存储就绪性、嵌入模型可用性与心跳驱动链路三重状态验证实现轻量级接入。它基于ChromaDB本地向量库与nomic-embed-text等嵌入模型,支持毫秒级语义搜索与自动记忆固化,广泛应用于个人知识管理、会议纪要索引、技术决策追溯

到底了