
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
MCP(Model Context Protocol,模型上下文协议) ,2024年11月底,由 Anthropic 推出的一种开放标准,旨在统一大型语言模型(LLM)与外部数据源和工具之间的通信协议。MCP 的主要目的在于解决当前 AI 模型因数据孤岛限制而无法充分发挥潜力的难题,MCP 使得 AI 应用能够安全地访问和操作本地及远程数据,为 AI 应用提供了连接万物的接口。
从上面的公式,很容易发现,似然值的变化就是两个子词之间的互信息。简而言之,WordPiece每次选择合并的两个子词,他们具有最大的互信息值,也就是两子词在语言模型上具有较强的关联性,它们经常在语料中以相邻方式同时出现。在训练任务中,如果能对不同的 Subword 进行训练的话,将增加模型的健壮性,能够容忍更多的噪声,而 BPE 的贪心算法无法对随机分布进行学习。我们将一个个的 token(可以理解
模型微调所需的 GPU 显存取决于多个因素,包括模型大小、微调方法和优化策略。全量微调需要较大显存,而高效微调方法如 LoRA 和 QLoRA 可以显著减少显存需求。在实际项目中,还需考虑硬件配置和训练策略等因素来更精确地估算 GPU 显存需求。
旋转位置编码(Rotary Position Embedding,RoPE)是论文 Roformer: Enhanced Transformer With Rotray Position Embedding 提出的一种能够将相对位置信息依赖集成到 self-attention 中并提升 transformer 架构性能的位置编码方式。而目前很火的 LLaMA、GLM 模型也是采用该位置编码方式。备
【代码】【大模型】Qwen, DeepSeek, GLM的API接口调用(官方示例+LangChain示例)
泛化能力更强(1)Next Token Prediction的预训练目标任务难度更高:Decoder-only模型通过自回归(AR)逐词预测下一个token,每个位置仅能依赖历史信息(无法“偷看”未来),迫使模型学习更强的上下文建模能力。Zero-shot/Few-shot表现更好:论文通过实验证明,在相同参数量和数据规模下,Decoder-only架构在零样本(zero-shot)任务上的泛化性
在日益增多的开源大模型中,由清华大学研发的开源大模型 GLM 由于效果出众而受到大众关注。
浮点数是一种用二进制表示的实数,它由三个部分组成:sign(符号位)、exponent(指数位)和fraction(小数位)。不同的浮点数格式有不同的位数分配给这三个部分,从而影响了它们能表示的数值范围和精度。

一般来说,LoRA微调会集中在以下层:Attention层的查询、键、值和输出投影(q_proj, k_proj, v_proj, o_proj)
(1)基于重叠的度量BLEU:BLEU评分是一种基于精度的衡量标准,范围从0到1。值越接近1,预测越好。ROUGE:ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一套用于评估自然语言处理中自动摘要和机器翻译软件的度量标准和附带的软件包。ROUGE-N:测量候选文本和参考文本之间的n-gram(n个单词的连续序列)的重叠。它根据n-







