logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Google开源端侧大模型推理框架,速度比llama.cpp快7倍

Google推出LiteRT-LM端侧大语言模型推理框架(v0.10.1),支持跨平台部署(Android/iOS/嵌入式等),提供模型压缩(INT4/INT8量化)和硬件加速(GPU/NPU)。框架基于LiteRT运行时,优化了大模型特有的KV缓存、多轮对话等特性,已应用于Chrome、Pixel Watch等Google产品。相比云端方案,端侧AI具有隐私保护、低延迟、离线可用等优势。支持Ge

文章图片
#开源
到底了