字节 AI agent 一面面试题
(1)视觉编码器( Vision Encoder ):以 CLIP ViT / SigLIP / EVA - CLIP 为主,图像分为 patch 序列提取视觉特征,通常使用预训练权重(冻结或部分微调)。现代方案(如Qwen2.5- VL )用2D- RoPE 替代绝对位置编码,支持原生动态分辨率和任意宽高比。
Q
多模态大模型的具体结构是什么?
(1)视觉编码器( Vision Encoder ):以 CLIP ViT / SigLIP / EVA - CLIP 为主,图像分为 patch 序列提取视觉特征,通常使用预训练权重(冻结或部分微调)。现代方案(如Qwen2.5- VL )用2D- RoPE 替代绝对位置编码,支持原生动态分辨率和任意宽高比。
(2)适配器( Adapter / Connector ):连接视觉特征与 LLM 输入空间,三种主流方案:( a )线性 MLP ( LLaVA 、Qwen2- VL )-﹣简单高效训练稳定,2025年主流;( b ) Q - Former ( BLIP -2)–32个可学习 query 压缩视觉 token ,降低 LLM 计算量,但训练难度高;( c ) Perceiver Resampler ( Flamingo )-长度表示。
(3)语言模型( LLM ):接受拼接后的「视觉 token +文本 token 」自回归生成。训练分阶段: Stage 1冻结 LLM 只训 Adapter (建立视觉﹣语言语义对齐), Stage 2 LoRA 或全参微调 LLM (提升指令遵循和对话能力)。
A
Q
多模态的用户信息怎么存储和使用?
根据个人项目经历作答。涉及用户画像( KV 存储)、历史对话(向量库)、多模态内容(图像 Embedding +元数据)的组合存储与检索策略。
A
Q
RAG系统流程
(1)离线建库:文档清洗→切分(512 token / chunk , overlap 50-100 token )→ Embedding 模型编码( BGE /E5)→存入向量库( FAISS / Milvus ),附带文档来源、时间戳等元数据。
(2)在线检索: Query Embedding → ANN 检索 Top - K →可选混合检索(向量+BM25, RRF 融合)→ Cross - Encoder Reranker 精排取 Top - N 。
(3)增强生成:将检索文档拼接到 Prompt → LLM 生成答案,可选引用来源标注。
A
Q
LoRA的原理和 QLoRA 的原理, QLoRA 怎么优化显存?
(1) LoRA 原理:对预训练权重 W ,添加旁路△ W = BA ( BER ( dxr ), AER ( rxk ), r << min ( d , k )),冻结 W 只训练 B 和 A 。可训练参数从 dk 降至 r ( d + k )。 A 用高斯初始化, B 用零初始化(保证训练初始△ W =0)。推理时 W '= W + BA 合并,无额外延迟。 r 通常取8-64。
(2) QLoRA 三招组合:①基础模型用4- bit NormalFloat (NF4)量化存储,显存减少约75%; LoRA 旁路参数和梯度保持BF16高精度,保证训练稳定性(不能量化梯度计算路径);③分页优化器( Paged Optimizer ):优化器状态溢出时自动页换到 CPU 内存,消除 GPU 显存峰值尖刺,使单卡可训练65B模型。
(3)三者对比: LoRA ≈节省3x显存(主要省优化器状态); QLoRA ≈节省10x显存(激进量化基础模型); QLoRA 训练速度略慢于 LoRA (量化/反量化开销)。
A
Q
AI辅助开发的实践经验
主观类问题,根据个人实践经历作答。
A
Q
觉得当前的 agent 达到预期了吗?对 agent 的预期是什么?
主观类问题,根据个人观点和项目经验作答。
A
Q
怎么进行多模态知识检索?
(1)跨模态 Embedding 检索:用 CLIP 、 SigLIP 等图文共享编码器将图像和文本映射到同一向量空间;图像库预先编码为 image embedding 存入向量库( Milvus / Qdrant ),检索时用文本 query 的 embedding 做相似度搜索,实现「以文搜图」或「以图搜图」。
(2)混合增强:对图像生成结构化文本描述( Caption + OCR )也建文本索引,支持关键词+向量混合检索( RRF 融合);多模态 Reranker 对结果重排提升精度。
(3)注意事项:纯文本语义检索不应用 CLIP (改用 BGE /E5,精度高得多);多模态 RAG 才需要 CLIP 类跨模态模型; Milvus / Qdrant 支持向量+元数据联合索引,实现时间/类别过滤。
A
Q
A2A与 MCP 区别?
(1) MCP ( Model Context Protocol ):定位为" Al 的 USB - C 接口",规范 LLM 与外部工具/数据源(文件系统、数据库、 API )的调用协议;三层能力暴露: Resources (数据访问)、 Tools (可执行操作)、 Prompts (模板);基于 JSON - RPC ,支持stdio / HTTP / WebSocket 传输;核心价值:一个 MCP Server 可被所有支持 MCP 的模型复用,消除碎片化集成。
(2)A2A( Agent - to - Agent Protocol ): Google 于2025年4月发布,2025年6月贡献 Linux Foundation 管理,已获150+组织支持;基于 HTTP + JSON - RPC 2.0+ SSE ,通过. well - known / agent . json 的 Agent Cards 发布智能体能力;支持自然语言任务委派、多模态流式传输、 OAuth 2.0/OIDC认证;解决跨厂商 Agent 互操作问题﹣﹣一个 Agent 可以把子任务委托给另一个 Agent 完成。
(3)核心区别: MCP = Agent 调用工具(纵向,模型→工具,工具是被动服务方);A2A= Agent 委托 Agent (横向,智能体→智能体,双方都是主动决策者)。同一系统可同时使用:用 MCP 连接工具,用A2A协调多 Agent 分工。
A
Q
较长较多的上下文怎么解决?
(1)位置编码扩展(训练侧): YaRN 通过非均匀 RoPE 插值,在少量长文本数据上 continual pretraining 即可从4K扩展到128K+(Qwen2.5、 LLaMA -3.1标配);核心技巧是调大 RoPE basefrequency (10000→500000+)再加长文本训练; LongRoPE ( Microsoft ,2024)进一步将 Phi -3扩展到2M token ,仅需1K步 fine - tune 。
(2)稀疏注意力(架构侧):滑动窗口 Attention ( Mistral )只做局部计算, O ( n )复杂度; Dual Chunk Attention (Qwen2)分块做局部+跨块全局 Attention ; StreamingLLM 保留初始 token +滑窗,实现理论无限长度推理。
(3) KV Cache 压缩(推理侧): GQA / MQA 减少 KV 头数直接降低 KV Cache 大小; MLA ( DeepSeek -V2/V3)低维投影压缩 KV 至1/8尺寸;H2O驱逐不重要 KV 只保留20%关键 token ; PagedAttention ( vLLM )消除碎片化提升内存利用率。
(4) RAG 替代超长上下文:知识密集型任务中,检索相关片段比"塞满上下文"通常更精准且成本低;研究表明超长上下文存在" lost in the middle "﹣中间位置内容注意力弱于头尾。
A
Q
Agent项目开发的框架
(1) LangChain :生态最广(数百个工具集成),提供 Tool / Chain / Memory / Agent 模块,适合快速原型和单 Agent 流程;缺点是抽象层多、调试复杂,不适合复杂状态管理。
(2) LangGraph : LangChain 团队出品,用有向图表达 Agent 状态机(节点=动作,边=条件转移),天然支持循环/条件分支/人机交互节点;是2025年构建 production - ready Agent 的主流选择,适合复杂的 Agentic 工作流。
(3) Llamalndex :以 RAG 数据 pipeline 为核心(加载/切分/索引/检索), Agent 能力相对弱;知识密集型 Agent (文档问答、知识库搜索)首选。
(4) AutoGen ( Microsoft )/ CrewAl :多 Agent 协作框架。 AutoGen 基于对话式 Agent 互动(内置代码执行沙箱+人类代理),适合代码生成/研究助手; CrewAI 用角色化分工( Role / Goal / Backstory ),适合流程化多角色协作任务。
(5)低代码平台( Dify 等):可视化编排+内置 RAG + MCP 集成,适合业务快速交付,不适合深度定制。
学AI大模型的正确顺序,千万不要搞错了
🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!
有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!
就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇
学习路线:
✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经
以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!
我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐




所有评论(0)