logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型算法岗面试准备经验分享

本文分享了大模型算法岗面试的实用准备经验。针对有无实习经历两种背景,给出了具体建议:无实习者应优先争取中厂实习积累实战经验;有实习者需系统复习八股文、研读技术报告和练习手撕代码。重点推荐了必读技术报告(如DeepSeekV3、LLama3.1等)和7个核心模块代码实现(MHA、LayerNorm等)。最后强调面试前应快速复盘笔记要点和关键代码,以展示真实能力和学习潜力。

文章图片
#算法#面试#经验分享
从零开始学大模型之Transformer 架构

本文介绍了Transformer架构中的核心组件——注意力机制。文章首先回顾了神经网络的发展历程,指出RNN在处理序列数据时的局限性,进而引出注意力机制的优势。详细解释了注意力机制中Query、Key、Value三个核心概念的计算原理,并通过字典查找的类比帮助理解。最后给出了注意力机制的数学公式和PyTorch实现代码,展示了如何通过矩阵运算实现注意力计算。文章为理解Transformer架构奠定

文章图片
#transformer#深度学习#人工智能
RAG、In-Context Learning、微调:如何选择最适合你的AI技术方案?

AI技术选型指南:RAG、In-Context Learning与Fine-tuning的对比与应用 本文深入分析了三种主流AI技术方案的差异与适用场景: RAG(检索增强生成):适用于模型能力足够但缺乏背景知识的场景,适合处理动态更新的外部数据,但需注意检索质量和知识库更新问题 In-Context Learning:通过Prompt示例激发模型能力,适合快速验证和小规模应用,但Prompt过长

文章图片
#人工智能#分布式#transformer +1
序列到序列(Seq2Seq)模型概述

本文介绍了序列到序列(Seq2Seq)模型及其核心技术Encoder-Decoder架构。Seq2Seq是一种端到端模型,能够处理可变长度输入输出序列,广泛应用于机器翻译等任务。文章详细阐述了Seq2Seq的优势(端到端学习、处理变长序列)和缺陷(信息压缩损失、长序列处理困难)。同时解释了其核心组件Encoder-Decoder的工作原理,并比较了RNN、LSTM和GRU等实现方式的特点。文章还讨

文章图片
#人工智能
大模型“炼金术”:强化学习RL

摘要: 强化学习(RL)作为大模型的“幕后军师”,通过试错与奖励机制显著提升模型能力。RL帮助大模型优化推理链(如数学解题)、对话策略(生成自然回复)及复杂决策(自动驾驶)。典型案例包括OpenAI的GPT-4o(多模态推理)、DeepSeek-R1(纯RL训练)等。然而,RL面临训练缓慢、奖励设计偏差及高算力需求等挑战,需通过算法优化(如PPO)和硬件升级(如分布式计算)突破瓶颈。未来,RL将继

文章图片
#人工智能
2025 AI编年史:那些改变世界的365天

2025 AI技术革命全景回顾 2025年见证了AI领域的革命性突破,中国DeepSeek R1模型以开源方式撼动硅谷,终结了"算力决定论";开源与闭源大战重塑行业格局,大模型进入"白菜价时代";视频生成技术实现质变,从无声"哑剧"升级为完整影视作品;硬件领域则上演了算力竞赛与生态博弈。这一年AI从实验室走向日常生活,但也面临技术主权、开

#人工智能#性能优化#语言模型
DeepSeek又搞了个大动作,这次是真的狠

DeepSeek发布重磅论文提出Engram组件,为Transformer架构引入第三个核心模块。Engram作为条件记忆机制,能快速识别和检索多词元模式,避免传统架构中重复构建特征的计算冗余。研究团队通过精细实验设计证明,Engram与MOE分别代表条件记忆和条件计算两个不同的稀疏性维度,最佳配置是将20-25%稀疏容量分配给Engram。机制分析显示,Engram能显著提升模型早期层的表现,在

文章图片
#人工智能#深度学习#架构
OWASP公布LLM十大漏洞,黑客早就盯上你的AI了

摘要:OWASP更新大语言模型(LLM)十大安全威胁,提示注入攻击位居榜首,黑客可通过直接或间接方式劫持AI系统。敏感信息泄露风险大幅上升,攻击者可提取模型中的机密数据。供应链漏洞、数据投毒等威胁同样严重,可能引发错误决策或植入恶意代码。防御措施包括AI防火墙、访问控制、数据清洗和渗透测试等组合方案。随着AI能力提升,安全风险同步增加,企业需立即采取行动防范潜在攻击。

文章图片
#transformer#人工智能#网络 +2
GPT 5.4发布,我测了一整天,发现它真是个怪物

OpenAI最新发布的GPT 5.4展现出惊人的能力跃迁,测试显示其能轻松完成3D建模、音乐创作、医学影像分析等复杂任务。该模型在70%的专业任务上超越人类专家,数学物理能力尤为突出,但存在较高幻觉率问题。支持100万token的超大上下文窗口,编程能力业界领先。目前该模型已向付费用户开放,标志着AI能力的边界正在快速扩展,可能彻底改变专业工作方式。

文章图片
#深度学习#人工智能#语言模型
AI编程圈都在疯传的Skill到底是什么?

AI编程圈热议的Skill技术正引发行业变革。Skill是AI Agent的一种功能,通过一个包含SKILL.md文件的文件夹,让AI记住用户的工作习惯和流程。它解决了AI"情景性失忆"问题,将经验打包成标准化知识包。创建Skill有三种方式:直接导入他人分享的、对话式创建或手动编写。使用时可通过显式或隐式调用触发特定技能。这项技术不仅适用于编程,还能提升各类重复性工作效率,如

文章图片
#深度学习#人工智能#语言模型
    共 253 条
  • 1
  • 2
  • 3
  • 26
  • 请选择