logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Gemma 4 争议爆发所谓“越狱版”为何刷屏?开发者真正该关注的,是本地可用性与安全边界

Gemma 4发布引发社区争议:开放性与安全边界的博弈 Gemma 4作为Google DeepMind推出的开源模型,因其强大的多模态处理能力和友好的本地部署特性引发广泛关注。然而社区很快出现了"去约束版本"的讨论,将模型安全与使用自由的矛盾推向台前。 核心争议点在于:官方版本的安全限制是否过度拦截了合理的开发需求?开发者寻求更开放的版本是否会影响模型安全性?这场讨论反映了A

#安全
从零构建大语言模型特殊 Token 与 BPE 字节对编码 — 让分词器处理任何未知词(五)

本文介绍了两种处理未知词的方法:特殊Token和BPE字节对编码。特殊Token方案通过<|unk|>标记未知词,简单但丢失信息;BPE则通过子词拆分彻底消除未知词问题,像乐高积木一样将陌生词分解为已知子词。文章还解释了<|endoftext|>标记文档边界的作用,并详细演示了BPE的迭代合并算法构建词汇表的过程,为语言模型处理多样化文本提供了可靠解决方案。

文章图片
#语言模型#人工智能#自然语言处理
Redis Lua 调试器(LDB)完全指南

Redis Lua 调试器 LDB 使用指南 Redis 3.2 引入的 LDB 调试器为 Lua 脚本提供了完整的远程调试功能。主要特性包括: 支持单步执行、断点调试、变量查看等桌面级调试功能 提供 fork 模式(默认)和同步模式两种调试方式 包含静态断点和动态断点(redis.breakpoint())两种断点设置方法 支持 print/redis.debug 等日志输出方式 可通过标准 R

#redis#lua#数据库
在 Nginx Stream 层玩转 JavaScript——全面解读ngx_stream_js_module

摘要 NGINX Stream模块新增JavaScript支持,借助njs/QuickJS嵌入式解释器,可在L4层实现协议解析、ACL鉴权、报文改写等能力。关键特性包括:二进制流处理、统一L4/L7开发栈、轻量级高性能运行。典型应用场景涵盖自定义协议网关、动态ACL、灰度发布和长连接健康检查。通过js_preread/js_access/js_filter等生命周期钩子,结合共享字典和Fetch

#nginx#javascript#运维
嵌入式模型(Embedding Model)

嵌入式模型:从离散数据到连续向量 嵌入式模型将离散或高维信息(如文本、图像)映射到低维稠密向量空间,保持语义相似性。核心优势在于: 数据稀疏到稠密的转换,提高计算效率 捕捉语义和上下文依赖 方便下游任务处理 常见嵌入类型包括: 词级嵌入(Word2Vec、GloVe、FastText) 上下文动态嵌入(ELMo、BERT) 句子嵌入(SBERT、USE) 图像嵌入(CNN+全连接、CLIP) 相似

FastAPI-MCP零配置一键将 FastAPI 接口暴露为 LLM MCP 工具

FastAPI-MCP 是一个零配置工具,用于自动将 FastAPI 端点公开为模型上下文协议(MCP)工具,并内置认证机制,帮助开发者快速将已有的 RESTful API 集成到 LLM 工具链中,无需额外编写转换或桥接代码。app,name="我的 API MCP",describe_all_responses=True, # 包含所有响应模式describe_full_response_sc

文章图片
#fastapi#python#开发语言
Flink Materialized Table Quickstart本地 10 分钟跑通 CONTINUOUS / FULL

本文详细介绍了Flink环境下的物化表操作流程,包含环境准备、组件启动、Catalog创建及两种刷新模式的配置。环境准备阶段需设置目录结构、安装Flink和test-filesystem connector,并配置YAML文件。启动Flink集群和SQL Gateway后,创建test-filesystem Catalog和JSON源表。重点演示了CONTINUOUS模式(流式30秒刷新)和FUL

#flink#大数据
从零构建大语言模型分词器从零实现 — 从原始文本到 Token ID

我们把输入文本拆分为独立的 token——它们要么是词、要么是标点等特殊字符。分词(Tokenization是把输入文本拆分成独立 token 的过程,这是为 LLM 创建嵌入的必要预处理步骤。:从一个新的文本样本开始,我们对它分词,再用词汇表把文本 token 转换为 token ID。在博客 #03 中,我们理解了为什么神经网络需要"把文字变成数字"——离散的文本必须先转为连续的向量。我们的目

文章图片
#语言模型#人工智能#自然语言处理
Flink 2.2 从本地 Standalone 到 Docker/Kubernetes,把 Hive 批流打通,并在 SQL 里接入 OpenAI 推理

Flink集群部署模式与优化实践 Flink集群包含Client、JobManager和TaskManager等核心角色,支持Session和Application两种部署模式。Session模式适合资源共享,而Application模式提供更好的隔离性。在Java版本选择上,Flink 2.0+推荐Java 17,但需注意模块化带来的反射问题。 部署方式包括: Standalone:快速启动但资

#flink#docker#kubernetes
Flink Delegation Tokens(DT)彻底讲透为什么需要、生命周期、续期机制与生产踩坑清单

Flink的Delegation Token(DT)机制是一种短/中期认证令牌,解决了三大问题:避免分发长期凭证、减轻KDC压力、明确权限边界。其架构由JobManager负责生成和更新Token,TaskManager使用Token连接外部服务。DT具有可续期周期和最长生命周期,Flink采用定期重建而非续期策略,兼容不支持续期的服务并摆脱对YARN的依赖。生产环境中需注意配置管理、插件冲突等问

#flink#大数据
    共 285 条
  • 1
  • 2
  • 3
  • 29
  • 请选择