upcase 个人主页

@qq_59084968

upcase

2023-02-16 12:06:34 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

【LLM大语言模型-开篇】LLM入门实践指南

"LLM入门实践指南"是一个通过代码实践，为大模型入门读者提供全面且较为深入的大模型技术视角的教程。

#人工智能 #机器学习 #深度学习 +2

为什么使用大模型API时，output token 的价格比 input token 更贵？

存在一个理想的操作与数据比率（ops:bytes ratio），这决定了每读取一份数据（例如FP16/BF16格式）应该执行的FLOPs数量。：输入token和输出token在内存中的占用，例如QKV（Query, Key, Value）矩阵的大小，基本上是相似的。但是，输出token可能采用KV Cache的形式，这是一种优化技术，用于存储和重用之前计算的键值对，以减少重复计算。：对于输入和输出

#人工智能 #算法 #机器学习 +2

数据旋律与算法和谐：LLMs的微调交响

大型语言模型（LLMs）通过海量预训练token和参数展现出多样化的能力，如数学推理、代码生成和指令跟随等。这些能力可以通过监督式微调（SFT）进一步增强。研究者提出了四个研究问题，探讨模型性能与数据量、组成比例、模型大小和SFT策略等因素之间的关联。实验表明不同能力随数据量增加的扩展性不同，大型模型在相同数据量下通常表现更好（数学推理和代码生成随着数据量的增加而不断提高，而一般能力在大约一千个样

#算法

【LLM论文日更】 | 你的专家组合LLM是秘密的免费嵌入模型

具体来说，RW和HS嵌入的聚类结果显示出中等的重叠（AMI和NMI在0.29左右），但它们的Jaccard相似度和精确匹配率较低（分别为0.06和45.54%）。通过分析发现，MoE的路由权重（RW）补充了广泛使用的隐藏状态（HS）嵌入，提供了对输入语义的更深入理解。最近的研究表明，LLMs可以生成高质量的句子嵌入，但这些方法通常依赖于复杂的预训练和大规模的对比目标。总体而言，PromptEOL的

#深度学习 #人工智能 #语言模型 +2

为什么使用大模型API时，output token 的价格比 input token 更贵？

#人工智能 #算法 #机器学习 +2

为什么使用大模型API时，output token 的价格比 input token 更贵？

#人工智能 #算法 #机器学习 +2

到底了