
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大模型知识是 “固定死的”,模型训练完,知识就定格在那一天,新数据、新文档、新规则大模型完全不知,这种情况下大模型产生环境,输出错误答案。举例来说,大模型2025年训练完成,我需要问最近的相关信息,大模型是无法输出正确答案的。Sentence Embedding:Embedding 模型中,导入的文档和查询的问题都转成句向量/文本向量,这个转换过程就是Sentence Embedding。Qwen
Miniconda/PyTorch/Jupyter/LM Studio/llama.cpp + Android完成从原始hugging face 原始模式--> pytorch自定义量化微调 --> LM Studio预览 + Android端侧部署。LM Studio 预览 / Android 端侧部署运行。原始模型(safetensors)↓(PyTorch + 脚本)↓(llama.cpp
之前文章有说到几种模型加载的方式:方式1: 本地PC上 ollama可以直接跑未量化的.bin大模型比如:ollama run qwen:3.5-4b-instruct-q4_K_M直接加载模型方式2:本地本地PC上llama.cpp 跑量化的大模型。
上一篇文章完成了llama.cpp Android的编译和相关so的加载,这一篇文章基于so加载的基础上,实现大模型的加载,目的是将量化后的模型在手机上运行起来。
os.environ['CUDA_VISIBLE_DEVICES'] = '-1' # 强制禁用GPU,100%解决你最后这个报错。注意1:在这一步编译运行出现了很多错误,大部分都是一直库导入依赖解决,但其中最坑的一个是namespace报错问题,test.jpg预置的是CSDN的头像,结果识别成island,流程没有问题,但置信度很低,后面会进一步优化更新。预置图片到app\src\main\r
专注 Android 端侧 AI、NPU 硬件加速、模型量化、推理部署与底层优化。全程干货实战 + 可运行代码,不讲空理论,只分享能落地、能上线、能接单的工程经验。从模型转换、INT8 量化、算子适配到 APP 集成性能调优,一步步打通端侧 AI 全流程。
bin而。
全流程移植完全可行文本对话正常,图片+文字多模态处理场景下手机硬件吃不消,后期考虑升级硬件,使用异构计算优化。
之前文章有说到几种模型加载的方式:方式1: 本地PC上 ollama可以直接跑未量化的.bin大模型比如:ollama run qwen:3.5-4b-instruct-q4_K_M直接加载模型方式2:本地本地PC上llama.cpp 跑量化的大模型。
bin而。







