xiechaochaohb 个人主页

@xiechaochaohb

xiechaochaohb

2026-03-30 12:03:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

端侧AI 模型部署实战七(手机本地RAG)

大模型知识是 “固定死的”，模型训练完，知识就定格在那一天，新数据、新文档、新规则大模型完全不知，这种情况下大模型产生环境，输出错误答案。举例来说，大模型2025年训练完成，我需要问最近的相关信息，大模型是无法输出正确答案的。Sentence Embedding：Embedding 模型中，导入的文档和查询的问题都转成句向量/文本向量，这个转换过程就是Sentence Embedding。Qwen

#人工智能

端侧AI 模型部署实战二(云端、PC 本地、手机端侧主流大模型及部署工具 )

Miniconda/PyTorch/Jupyter/LM Studio/llama.cpp + Android完成从原始hugging face 原始模式--> pytorch自定义量化微调 --> LM Studio预览 + Android端侧部署。LM Studio 预览 / Android 端侧部署运行。原始模型（safetensors）↓（PyTorch + 脚本）↓（llama.cpp

#人工智能

端侧AI 模型部署实战四(llama.cpp Android移植)

之前文章有说到几种模型加载的方式：方式1：本地PC上 ollama可以直接跑未量化的.bin大模型比如：ollama run qwen:3.5-4b-instruct-q4_K_M直接加载模型方式2：本地本地PC上llama.cpp 跑量化的大模型。

#人工智能 #android

端侧AI 模型部署实战五(Android大模型加载)

上一篇文章完成了llama.cpp Android的编译和相关so的加载，这一篇文章基于so加载的基础上，实现大模型的加载，目的是将量化后的模型在手机上运行起来。

#android

端侧AI 模型部署(Windows/TFLite/Android Studio )实战一

os.environ['CUDA_VISIBLE_DEVICES'] = '-1' # 强制禁用GPU，100%解决你最后这个报错。注意1：在这一步编译运行出现了很多错误，大部分都是一直库导入依赖解决，但其中最坑的一个是namespace报错问题，test.jpg预置的是CSDN的头像,结果识别成island，流程没有问题，但置信度很低，后面会进一步优化更新。预置图片到app\src\main\r

#android #人工智能 #neo4j

Android NPU 端侧 AI 模型部署实战（含量化 + 完整代码）

专注 Android 端侧 AI、NPU 硬件加速、模型量化、推理部署与底层优化。全程干货实战 + 可运行代码，不讲空理论，只分享能落地、能上线、能接单的工程经验。从模型转换、INT8 量化、算子适配到 APP 集成性能调优，一步步打通端侧 AI 全流程。

#android #人工智能

端侧AI 模型部署实战三(模型转换)

bin而。

#人工智能

端侧AI 模型部署实战六(Android多模态大模型)

全流程移植完全可行文本对话正常，图片+文字多模态处理场景下手机硬件吃不消，后期考虑升级硬件，使用异构计算优化。

#人工智能 #android

端侧AI 模型部署实战四(llama.cpp Android移植)

#人工智能 #android

端侧AI 模型部署实战三(模型转换)

bin而。

#人工智能

共 13 条

请选择