logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

AI Agent 的安全困境:从古代城门到 Prompt 越狱

摘要: AI Agent的安全隐患日益凸显,恶意Prompt攻击可诱导高权限工具执行危险操作。借鉴古城门防御的启示,文章提出三层防护体系:1)语义防火墙通过情感熵值识别诱导性指令;2)行为沙箱延迟执行并隔离操作;3)量子观测利用隐形字符触发Agent的自我监控。结合代码配置与权威研究,强调AI需具备“怀疑能力”,未来或需硬件级道德约束。技术演进正将科幻变为现实,但防御需随攻击手段同步升级。

#人工智能#安全
FastAPI + litellm 统一代理大模型 API:优雅实现成本监控与 Fallback 策略

本文介绍了如何使用FastAPI和litellm构建统一的大模型API代理服务。该方案通过中间层屏蔽底层差异,提供统一接口、故障转移和成本监控功能。核心实现包括:1) 定义标准请求/响应模型;2) 实现带fallback的模型调用逻辑;3) 记录token用量和成本;4) 提供成本统计接口。文章还提出了依赖注入、动态价格表和异步调用等优化建议,帮助开发者优雅地管理多模型API调用,提高系统可靠性和

#fastapi#java#人工智能
AI Agent 的安全困境:从古代城门到 Prompt 越狱

摘要: AI Agent的安全隐患日益凸显,恶意Prompt攻击可诱导高权限工具执行危险操作。借鉴古城门防御的启示,文章提出三层防护体系:1)语义防火墙通过情感熵值识别诱导性指令;2)行为沙箱延迟执行并隔离操作;3)量子观测利用隐形字符触发Agent的自我监控。结合代码配置与权威研究,强调AI需具备“怀疑能力”,未来或需硬件级道德约束。技术演进正将科幻变为现实,但防御需随攻击手段同步升级。

#人工智能#安全
Spring Boot 3 + Ollama本地大模型推理,接口响应5秒以上,延迟怎么降到500ms以内?

摘要: Spring Boot 3接入Ollama本地大模型时,5秒以上的接口延迟主要源于同步等待完整响应。优化方案包括: 硬件层:启用GPU加速、Flash Attention和模型量化(如q4_0),显著提升计算效率; 通信层:改用流式响应(stream:true),配合WebFlux实现实时token推送,首字延迟可降至200-500ms; 软件层:通过keep_alive保持模型加载、连接

#spring boot
你的爬虫正在被“数字处决”:为什么Cloudflare成了2026年最难缠的狱警?

昨天凌晨三点,我差点把咖啡洒在新买的机械键盘上。一个老朋友打来电话,声音里透着绝望:“我的价格监控程序全挂了。跑了三年的脚本,今天突然全部返回403。我用上了轮换代理、随机UA、甚至加了Selenium模拟点击,结果Cloudflare Turnstile像个守财奴似的,连门缝都不让我瞧一眼。”我登录他的服务器,看了一眼日志。满屏的“403 Forbidden”像墓碑一样整齐排列。更讽刺的是,那些

#爬虫#python
到底了