字节AI大模型教程个人主页

@2401_86329026

字节AI大模型教程

2025-02-25 20:46:41 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

2025年字节ai大模型破解transformer八股，快问快答

也有不少公众号转了我知乎之前的回答（其实是有毛病的，倒是知乎养了一大波自媒体号），那就从这个问题出发，探讨下Bert起作用的机制吧。去年3月份，我在知乎上想当然地回答了这个问题，后来国霖(LightGBM作者)也亲自回答了这个问题，并纠正了我想法的一些错误，大佬在做的论文通过实验，把我想当然的想法一顿打脸。算attention里相似度参数的这个式子有四项，w是token embedding，p是位

#人工智能 #transformer #深度学习

2025程序员转行做大模型职业发展前景好吗？可以选择哪些岗位，如何选择？

2025年，随着DeepSeek的出现和大模型技术的发展，AI行业迎来了前所未有的热潮。对于许多程序员来说，这是一个不容错过的转行良机。

#人工智能

2025年最牛最全面的AI大模型面试题全套！

目前的Large LM的训练范式还是在大规模语料上做自监督学习，很显然zero-shot性能更好的 decoder-only架构才能更好的利用这些无标注的数据。大模型使用decoder-only架构除了训练效率和工程实现上的优势外，在理论上因为Encoder的双向注意力会存在低秩的问题（指的是，双向注意力在捕捉输入序列的前后文信息时，由于冗余信息和高维度表示的影响，可能导致信息表达不充分或者矩阵过

#人工智能

转行AI大模型赛道：看完这篇，少走三年弯路！

在垂直领域，像金融、电商、法律、车企这些，数据构建更难了。这个岗位对工程、系统和硬件方面的能力都有要求，虽然现在有各种推理框架降低了点难度，但还是挺有挑战性的，不太建议新人直接做，可以先从平台方向入手，再慢慢转到部署方向。就拿数据来说，通用大模型训练的数据来源、采集、质量把控、有毒信息过滤、语言筛选与比例、去重和规范化处理，还有评测集构建，这些都是技术活，也是体力活。这个方向其实就是为大模型业务服

#人工智能

2025年字节ai大模型破解transformer八股，快问快答

#人工智能 #transformer #深度学习

2025程序员转行做大模型职业发展前景好吗？可以选择哪些岗位，如何选择？

2025年，随着DeepSeek的出现和大模型技术的发展，AI行业迎来了前所未有的热潮。对于许多程序员来说，这是一个不容错过的转行良机。

#人工智能

到底了