logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

2025年字节ai大模型破解transformer八股,快问快答

也有不少公众号转了我知乎之前的回答(其实是有毛病的,倒是知乎养了一大波自媒体号),那就从这个问题出发,探讨下Bert起作用的机制吧。去年3月份,我在知乎上想当然地回答了这个问题,后来国霖(LightGBM作者)也亲自回答了这个问题,并纠正了我想法的一些错误,大佬在做的论文通过实验,把我想当然的想法一顿打脸。算attention里相似度参数的这个式子有四项,w是token embedding,p是位

文章图片
#人工智能#transformer#深度学习
2025年字节ai大模型破解transformer八股,快问快答

也有不少公众号转了我知乎之前的回答(其实是有毛病的,倒是知乎养了一大波自媒体号),那就从这个问题出发,探讨下Bert起作用的机制吧。去年3月份,我在知乎上想当然地回答了这个问题,后来国霖(LightGBM作者)也亲自回答了这个问题,并纠正了我想法的一些错误,大佬在做的论文通过实验,把我想当然的想法一顿打脸。算attention里相似度参数的这个式子有四项,w是token embedding,p是位

文章图片
#人工智能#transformer#深度学习
2025程序员转行做大模型职业发展前景好吗?可以选择哪些岗位,如何选择?

2025年,随着DeepSeek的出现和大模型技术的发展,AI行业迎来了前所未有的热潮。对于许多程序员来说,这是一个不容错过的转行良机。

文章图片
#人工智能
2025年最牛最全面的AI大模型面试题全套!

目前的Large LM的训练范式还是在大规模语料上做自监督学习,很显然zero-shot性能更好的 decoder-only架构才能更好的利用这些无标注的数据。大模型使用decoder-only架构除了训练效率和工程实现上的优势外,在理论上因为Encoder的双向注意力会存在低秩的问题(指的是,双向注意力在捕捉输入序列的前后文信息时,由于冗余信息和高维度表示的影响,可能导致信息表达不充分或者矩阵过

文章图片
#人工智能
转行AI大模型赛道:看完这篇,少走三年弯路!

在垂直领域,像金融、电商、法律、车企这些,数据构建更难了。这个岗位对工程、系统和硬件方面的能力都有要求,虽然现在有各种推理框架降低了点难度,但还是挺有挑战性的,不太建议新人直接做,可以先从平台方向入手,再慢慢转到部署方向。就拿数据来说,通用大模型训练的数据来源、采集、质量把控、有毒信息过滤、语言筛选与比例、去重和规范化处理,还有评测集构建,这些都是技术活,也是体力活。这个方向其实就是为大模型业务服

文章图片
#人工智能
2025年字节ai大模型破解transformer八股,快问快答

也有不少公众号转了我知乎之前的回答(其实是有毛病的,倒是知乎养了一大波自媒体号),那就从这个问题出发,探讨下Bert起作用的机制吧。去年3月份,我在知乎上想当然地回答了这个问题,后来国霖(LightGBM作者)也亲自回答了这个问题,并纠正了我想法的一些错误,大佬在做的论文通过实验,把我想当然的想法一顿打脸。算attention里相似度参数的这个式子有四项,w是token embedding,p是位

文章图片
#人工智能#transformer#深度学习
2025程序员转行做大模型职业发展前景好吗?可以选择哪些岗位,如何选择?

2025年,随着DeepSeek的出现和大模型技术的发展,AI行业迎来了前所未有的热潮。对于许多程序员来说,这是一个不容错过的转行良机。

文章图片
#人工智能
到底了