
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
与一个或多个。

OCRBench在10个文本相关任务上测评多模态大模型(LMM)的OCR能力,包含1000个问题-答案对,每个问题-答案对包含以下五个类别:index(索引),image(图片),question(问题),answer(回答),category(问题类别)。需要注意的是,在tsv文件中,图片使用Base64编码保存。Base64 编码可将二进制图像文件(PNG、JPEG、GIF)转换为紧凑的纯文本

RAG 是一项强大的技术,通过将大型语言模型的强大生成能力与外部知识检索相结合,有效地弥补了大模型在知识时效性、事实准确性和特定领域知识方面的不足。它提供了一种相对低成本、高效率的方式来构建能够利用最新、特定信息的知识型应用。尽管存在检索质量、上下文整合等挑战,但随着嵌入模型、向量数据库和提示工程技术的发展,RAG 已成为构建实用、可靠、可解释的 AI 应用(尤其是问答和知识密集型任务)的主流架构
初始化方法描述优点缺点适用场景零初始化(B=0)LoRA原始方法,保证训练起点不变。简单,稳定。存在“启动延迟”,收敛慢。现已不常用,作为理解的基础。Kaiming/He初始化A用Kaiming初始化,B初始为0。理论扎实,收敛快且稳定,广泛适用。通用推荐,默认选择。非零初始化A和B都用高斯分布初始化。解决了启动问题。起点引入噪声,可能不稳定。可以尝试,但需要调参。SVD初始化利用全微调增量的SV
MCP(Model Context Protocol)是一个革命性的开放协议,它通过标准化 LLM 与外部工具和数据源的交互方式,安全、高效地打破了AI模型的“信息茧房”和“无能之困”。它不仅是技术上的进步,更是生态和理念上的开放,为构建真正强大、实用且可控的AI应用奠定了坚实的基础。
GPT和BERT基于Transformer。因此不是所有模型都基于Transformer。ELMo是双向的(使用双向LSTM),BERT是双向的,但GPT是单向的(仅从左到右生成),因此不是所有模型都是双向的。ELMo、GPT和BERT都能生成上下文相关的词嵌入,因此都能解决一词多义问题。ELMo、GPT和BERT都依赖于大规模文本语料进行预训练,这是它们的共同特点。1.(多选)以下选项中属于el
简单来说,模态对齐是指让模型理解不同模态(如文本、图像、音频)的数据所指代的其实是同一个概念或语义,并在其内部表示空间中,将这些不同来源但含义相同的信息映射到相近的向量表示。一张“猫坐在毯子上”的图片,和一段文字描述“猫坐在毯子上”,以及一段语音在说“猫坐在毯子上”。尽管它们的原始数据形式(像素、字符、声波)天差地别,但经过对齐的模型应该能在其内部表示中,认识到这三者共享一个非常相似的核心语义。对
用大模型做搜索推荐,其发展脉络是从“工具”到“大脑”初期:作为特征生成器和语义编码器,赋能现有系统。中期:作为意图理解和重排的核心模块,深刻影响搜索链路的头尾。远期:作为端到端的生成式系统,直接创造个性化、对话式的搜索推荐体验。当前业界大部分公司处于从初期向中期过渡的阶段,积极将LLM应用于查询改写、内容理解和列表重排等场景,以显著提升系统的语义理解能力和用户体验。而完全的端到端生成式系统,仍是探
下面深入剖析一下DeepSeek训练过程中所使用的损失函数。与标准的GPT类似,但其最新的MoE架构(以DeepSeek-V2为例)引入了关键的创新,这使得其损失函数变得更加复杂和精巧。DeepSeek的训练同样分为预训练和微调/对齐两个主要阶段,不同阶段的损失函数有不同的侧重点。特性DeepSeek (以V2为例)说明与优势核心架构混合专家(MoE)以少量激活参数(21B)实现巨大模型容量(23
LoRA 是一种基于低秩分解思想的、参数高效的大模型微调技术。它通过冻结预训练模型权重,并仅训练注入的低秩适配器矩阵 (A和B来适应下游任务。极大降低显存需求:在消费级 GPU 上微调超大模型成为可能。显著提升训练速度:减少计算和通信开销。减小存储部署负担:LoRA 权重文件小,可共享基础模型。保持原始模型结构/性能:合并后零推理开销,无模型膨胀。模块化与可组合性:灵活组合不同任务适配器。







