logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

RAGFlow 1

特性OllamaXinferenceIPEX-LLMTriton核心定位个人/开发者工具全栈模型部署框架Intel 硬件加速库工业级推理服务器上手难度⭐ (极简)⭐⭐ (简单)⭐⭐⭐ (需改代码/配置)⭐⭐⭐⭐⭐ (困难)模型支持主打 LLM (GGUF)LLM + 图片 + 音频 + 向量PyTorch 模型所有主流 AI 框架硬件倾向Apple Silicon, NV卡, CPUNV卡 (推荐

#人工智能
MIRIX 2

每次用户发消息,这个 Agent 都会自动根据关键词从上面 6 种记忆中检索相关内容,拼进 system prompt 里,让 LLM “记得过去”。用户发图片、PDF、Google Docs 链接都能处理。Mirix 的架构极其模块化,它允许你拥有几十种不同的 Agent。这些 Agent 行为千差万别,但它们必须满足一个共同点:收到消息 → 思考 → 可能调用工具 → 可能修改记忆 → 最终返

#java#数据库#分布式
熟练版本控制 (Git)、CI/CD 流程。

如果面试官问:“你如何保证大模型部署的稳定性?” 你可以这样回答:“在之前的项目中,我负责 Llama-3 70B 的部署。为了解决大模型迭代中常见的性能退化和版本混乱版本控制方面:我实施了‘模型配置化’(Model-as-Code),将模型权重路径、Prompt 模版和推理参数统一在 Git 中管理,确保了环境的严格可复现。CI 环节:我引入了GPU 自动化回归测试。在代码合并前,流水线会自动拉

#git#ci/cd#elasticsearch
熟练版本控制 (Git)、CI/CD 流程。

如果面试官问:“你如何保证大模型部署的稳定性?” 你可以这样回答:“在之前的项目中,我负责 Llama-3 70B 的部署。为了解决大模型迭代中常见的性能退化和版本混乱版本控制方面:我实施了‘模型配置化’(Model-as-Code),将模型权重路径、Prompt 模版和推理参数统一在 Git 中管理,确保了环境的严格可复现。CI 环节:我引入了GPU 自动化回归测试。在代码合并前,流水线会自动拉

#git#ci/cd#elasticsearch
理解训练 vs 推理时对计算图、内存、精度的不同要求

太棒了,这不仅是理论,更是顶级部署工程师和普通算法工程师的分水岭。在面试或实战中,很多人以为“部署不就是把改成吗?”大错特错。训练(Training)和推理(Inference/Serving)在底层逻辑上是两种完全不同的生物。下面我从计算图、内存、精度三个维度,结合真实项目场景来剖析。核心差异:动态图 vs 静态图 (Dynamic vs Static)训练时 (PyTorch 默认模式):推理

#人工智能
缓存策略、批推理(batching)、异步 /并发机制

缓存是为了省显存和跳过重复计算。Batching是为了在单位时间内处理更多请求。异步是为了让 CPU 在等待 GPU 时不闲着,同时支持流式体验。这就是一名大模型部署工程师如何将理论转化为高性能服务的过程。希望这个视角的解答对你有所启发!

#缓存#android
缓存策略、批推理(batching)、异步 /并发机制

缓存是为了省显存和跳过重复计算。Batching是为了在单位时间内处理更多请求。异步是为了让 CPU 在等待 GPU 时不闲着,同时支持流式体验。这就是一名大模型部署工程师如何将理论转化为高性能服务的过程。希望这个视角的解答对你有所启发!

#缓存#android
model deployment 11-27

metadata:spec:template:spec:# 1. 确保调度到高性能节点# 2. 启动命令参数化# 3. 资源限制resources:limits:nvidia.com/gpu: 4 # 申请4张卡做TP# 4. 共享内存挂载(解决多卡通信)name: dshmvolumes:emptyDir:claimName: pvc-llama3-weights # 5. 挂载高性能网络存储。

#人工智能
Common Problems

ImportError: cannot import name ‘_validate_lengths’ 解决方法

k8s等运维(三)

1、K8s执行定时任务1) 服务docker话—找到基础镜像—在里面搞定服务运行环境—Dockerfile 构建镜像docker pull xxxdocker tag xxxdocker push 到Harbor #写dockerfile时要用到这个,因为快速docker 制作好后,也要docker push上去2) 并入k8s–确定服务发现的策略—编写k8s配置文件定时任务关键字段spec:sc

#docker#运维
    共 40 条
  • 1
  • 2
  • 3
  • 4
  • 请选择