
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
举个例子,看这张图。看这张图,向前传播时,由于 s 是多个 z 共同决定的,所以需要求出 s 对所有 z 的导数,以 s1 为例,前向传播求梯度的时候,需要求出 s1 对 z1,z2,z3…这是阿里的一份大模型算法面经,可以看到,面试官避开了 rag,agent 这些热门考点,转而对大模型训练中的损失函数进行了深挖,很好的考察到了候选人的基本功。所以我们最后求偏导的时候,需要计算 i=j 和 i≠

是不是每次找资料都像在“垃圾场”淘宝,翻得手忙脚乱还一无所获?别担心,今天我教你用DeepSeek和Cherry Studio打造专属知识库,小白也能秒变资料管理大师!

在大模型时代,量化技术已经成为AI工程师的必备技能,就像摄影师必须掌握光线调节一样重要。量化技术全景图技术适用场景优势代价训练后量化(PTQ)快速原型开发 临时部署即时生效 零训练成本精度损失较大量化感知训练(QAT)高精度需求 医疗/金融场景保持95%+原模型精度需要重新训练4位量化微调边缘设备 移动端应用75%内存节省 QLoRA恢复性能微调数据依赖混合精度异构计算平台 实时系统智能资源分配

是时候准备春招和实习了。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。面试公司:腾讯岗位:大模型算法。

考虑到 LMDeploy 并不是每个模型都是支持的,我们在官方的列表中找到支持的模型 https://lmdeploy.readthedocs.io/en/latest/supported_models/supported_models.html。好在启智平台提供了昇腾NPU 运行环境,不过这里我们需要注意:虽然启智平台提供了昇腾 NPU 运行环境,但是 不是每个镜像都能很顺利地跑完,我花了些时间

针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。是时候准备春招和实习了。

在这种方法中,基本提示指令通过添加医学术语定义得以增强,基于这样一种假设,即添加这些定义将帮助LLM在回答查询时获得更多上下文。但结果显示,这些术语定义并没有真正起作用,可能是因为它们的知识范围狭窄,可能与LLM的更大知识库相冲突。

上篇文章的微调结果并不好,因为设置了max_steps=60 限制了只执行60步以便快速完成实验。之前文章同样的方法,也可以在 24G 显存的单卡 4090 上微调训练 deepseek-ai/DeepSeek-R1-Distill-Qwen-32B;即使该模型的权重文件大小已经达到 62G,这是因为 unsloth 和 lora 的量化微调和部分参数微调优化可以大幅节约显存占用。最近,我们又陆续

当前职场竞争激烈,求职者增多而岗位减少,要求也更高。为帮助求职者应对技术面试,我们整理了大厂面试题并发布《大模型面试宝典》(2025版)。上海人工智能实验室实习岗位竞争尤为激烈,HR反馈投递人数众多。无论是实习还是正式工作,提前准备至关重要。面试内容涵盖自我介绍、项目经验、技术问题及算法题,涉及大模型训练、微调、推理加速等。建议求职者尽早准备,以提升获得心仪offer的机会。

最近春招和实习已开启了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。。今天分享一些京东算法岗一面面经。








