logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

端侧AI 模型部署实战七(手机本地RAG)

大模型知识是 “固定死的”,模型训练完,知识就定格在那一天,新数据、新文档、新规则大模型完全不知,这种情况下大模型产生环境,输出错误答案。举例来说,大模型2025年训练完成,我需要问最近的相关信息,大模型是无法输出正确答案的。Sentence Embedding:Embedding 模型中,导入的文档和查询的问题都转成句向量/文本向量,这个转换过程就是Sentence Embedding。Qwen

#人工智能
端侧AI 模型部署实战二(云端、PC 本地、手机端侧主流大模型及部署工具 )

Miniconda/PyTorch/Jupyter/LM Studio/llama.cpp + Android完成从原始hugging face 原始模式--> pytorch自定义量化微调 --> LM Studio预览 + Android端侧部署。LM Studio 预览 / Android 端侧部署运行。原始模型(safetensors)↓(PyTorch + 脚本)↓(llama.cpp

#人工智能
端侧AI 模型部署实战四(llama.cpp Android移植)

之前文章有说到几种模型加载的方式:方式1: 本地PC上 ollama可以直接跑未量化的.bin大模型比如:ollama run qwen:3.5-4b-instruct-q4_K_M直接加载模型方式2:本地本地PC上llama.cpp 跑量化的大模型。

#人工智能#android
端侧AI 模型部署实战五(Android大模型加载)

上一篇文章完成了llama.cpp Android的编译和相关so的加载,这一篇文章基于so加载的基础上,实现大模型的加载,目的是将量化后的模型在手机上运行起来。

#android
端侧AI 模型部署(Windows/TFLite/Android Studio )实战一

os.environ['CUDA_VISIBLE_DEVICES'] = '-1' # 强制禁用GPU,100%解决你最后这个报错。注意1:在这一步编译运行出现了很多错误,大部分都是一直库导入依赖解决,但其中最坑的一个是namespace报错问题,test.jpg预置的是CSDN的头像,结果识别成island,流程没有问题,但置信度很低,后面会进一步优化更新。预置图片到app\src\main\r

#android#人工智能#neo4j
Android NPU 端侧 AI 模型部署实战(含量化 + 完整代码)

专注 Android 端侧 AI、NPU 硬件加速、模型量化、推理部署与底层优化。全程干货实战 + 可运行代码,不讲空理论,只分享能落地、能上线、能接单的工程经验。从模型转换、INT8 量化、算子适配到 APP 集成性能调优,一步步打通端侧 AI 全流程。

#android#人工智能
端侧AI 模型部署实战六(Android多模态大模型)

全流程移植完全可行文本对话正常,图片+文字多模态处理场景下手机硬件吃不消,后期考虑升级硬件,使用异构计算优化。

#人工智能#android
端侧AI 模型部署实战四(llama.cpp Android移植)

之前文章有说到几种模型加载的方式:方式1: 本地PC上 ollama可以直接跑未量化的.bin大模型比如:ollama run qwen:3.5-4b-instruct-q4_K_M直接加载模型方式2:本地本地PC上llama.cpp 跑量化的大模型。

#人工智能#android
    共 13 条
  • 1
  • 2
  • 请选择