weixin_30892037 个人主页

@weixin_30892037

weixin_30892037

2023-08-09 14:30:47 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

Kimi K2.6：面向业务文档的节奏感知型大模型

大语言模型在处理结构化商业文档（如财报、合同）时，长期面临‘答得对但来得晚’的体验断层——本质是模型推理节奏与人类阅读节奏失配。其核心原理在于传统token级建模无法捕捉视觉区块（标题/表格/段落）的语义优先级与跨区块因果关联。K2.6通过视觉区块切分、区块注意力门控和跨区块预测缓冲区，实现毫秒级意图预判与答案草稿生成，显著提升响应时机精准度。该技术大幅降低用户认知负荷，适用于财务分析、法务审查、

昆仑芯XPU+GLM-4+SGLang/vLLM国产AI推理全栈适配实践

大模型推理引擎是AI基础设施的核心组件，其性能与兼容性直接决定应用落地效率。vLLM凭借PagedAttention实现高吞吐，SGLang通过结构化任务调度支持复杂Agent工作流，二者已成为开源推理事实标准。在国产化替代背景下，硬件适配不再仅是驱动层兼容，更需芯片微架构（如昆仑芯XPU的异构内存、INT4张量核心）与框架调度逻辑（如vLLM的页表管理、SGLang的状态一致性）深度协同。本文聚

#vLLM

GLM-5-Turbo驱动的浏览器自动化代理实战

浏览器自动化已从脚本驱动迈向认知驱动——基于大模型理解页面语义、感知动态DOM、规划操作路径，成为新一代Web交互基础设施。其核心在于将自然语言指令转化为可验证的结构化动作，依托多模态上下文（DOM树+截图+运行时日志）实现‘所见即所控’。相比传统Selenium/Playwright方案，该范式显著降低XPath维护成本、规避渲染时机盲区，并在电商比价、内网填报、BI图表导出等真实场景中验证了端

Llama GEO三层穿透架构：训练数据、社区信源与RAG检索实战指南

生成式引擎优化（GEO）是当前开源大模型落地的核心技术范式，本质是让品牌内容在Llama类模型中实现‘被看见、被记住、被调用’的确定性响应。其底层逻辑植根于Llama 4的MoE专家路由机制与冻结式训练数据策略，技术价值在于将内容可信度转化为模型内部权重，从而提升RAG召回准确率与推理一致性。典型应用场景包括制造业知识库私有化部署、出海SaaS产品技术文档曝光、政务AI平台语义索引增强等。本文聚焦

GPT-4架构革命：稀疏激活、多模态与128K上下文的工程落地

大语言模型正从‘参数堆叠’走向‘能力解耦’，其核心演进逻辑是通过稀疏激活（Mixture of Experts）实现高效推理，借助跨模态语义对齐提升视觉理解深度，并依托分层注意力机制支撑超长上下文稳定交互。这类技术突破不仅降低了云服务成本、提升了数学推理与专业文档解析准确率，更使模型具备可追溯性、模块化调用与长程语义锚定等工程级能力。在法律尽调、工业质检、智能投顾等强确定性场景中，GPT-4已展现

Playwright-Skill：AI智能体浏览器自动化技能包与Claude协作实战

浏览器自动化是现代软件测试和流程自动化的核心技术，它通过程序控制浏览器行为，模拟用户操作，实现端到端测试、数据抓取和任务自动化。其核心原理在于通过驱动协议与浏览器内核交互，执行导航、点击、输入等指令。这项技术的价值在于提升测试效率、保障软件质量，并赋能非技术用户实现自动化。在应用场景上，它广泛用于Web应用测试、RPA和监控报警。本文聚焦于Playwright-Skill，这是一个构建在Playw

#AI智能体

MongoDB Atlas向量搜索实战：从零搭建语义搜索应用

向量搜索是一种基于语义相似度的检索技术，其核心原理是将文本映射到高维向量空间，通过余弦相似度等度量方式实现‘理解意图’而非‘匹配关键词’。相比传统全文检索，它天然支持同义替换、隐含需求识别与跨语言对齐，显著提升电商、知识库、客服问答等场景的召回质量与用户体验。关键技术价值在于降低NLP门槛——无需训练模型，仅需选择合适嵌入模型（如all-mpnet-base-v2）并构建规范化的canonical

本地AI智能体开发实战：从语音识别到工具调用的全流程架构设计

智能体技术正成为连接大语言模型与现实应用的关键桥梁。其核心原理在于通过任务规划与工具调用，使AI模型能够执行具体操作，从而突破纯文本对话的限制，实现自动化与智能化。这一技术的核心价值在于将强大的认知能力转化为实际生产力，广泛应用于个人助理、自动化工作流和智能家居等场景。本文聚焦于构建一个完全本地运行的语音控制智能体，深入探讨了其模块化架构设计，并详细介绍了如何集成和优化语音识别、大语言模型及语音合

#语音识别

【E2E】Intel AI DevCloud 的申请和登陆

参考：https://www.cnblogs.com/WaitingForU/p/9091096.html 一、注册https://www.cnblogs.com/WaitingForU/p/9091096.html 经过一个小时到一天不等的等待，邮件确认发过来了。并且能够正确登陆二、登陆windows上需要使用putty或者在linux上ssh登陆或者直接使用juypter注意：可能是由于字符集

#运维

基于SolidJS与Vercel Edge Functions构建私有ChatGPT Web应用全攻略

在现代Web开发中，构建高性能、低延迟的实时应用是核心挑战之一。其原理在于通过前沿的框架与云原生部署方案，优化资源加载与网络请求路径，从而显著提升用户体验。这种技术组合的价值在于，它允许开发者以极低的运维成本，构建具备企业级响应速度和安全性的应用。典型的应用场景包括需要实时交互的AI对话界面、协作工具和实时仪表盘。本文将聚焦于如何利用SolidJS的编译时优化与细粒度响应式，结合Vercel Ed

#ChatGPT

共 53 条

请选择