
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
大部分人可能想不到,2025年春节假期,大模型圈子竟然会这么热闹。DeepSeek 正式开源了 DeepSeek-R1,在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。这位来自「神秘东方力量」DeepSeek 算是彻底破圈,火遍大江南北,火到人尽皆知。经历了过去两年的狂飙,国内大模型已经在多个垂直赛道中强势崛起,跨过了护城河,已发布的模型超过200个,相关应用产品不计其数。

对于目前很火的Deepseek,最近有准备LLM面试的学员问需要重点掌握哪些东西,给大家的建议是这块最重要的是deepseek v3和r1的技术报告,建议大家去精读一下,其中MLA注意力,MTP,GRPO,冷启动数据,这些是重点。作为大模型对齐人类价值观的核心技术,RLHF 不仅决定了模型的"情商",更是面试中高频出现的必考点——如何设计奖励函数?针对新手如何入门算法岗、该如何准备面试攻略、面试常

最近已有不少大厂都在秋招宣讲了,也有一些在 Offer 发放阶段。节前,我们邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对新手如何入门算法岗、该如何准备面试攻略、面试常考点、大模型技术趋势、算法项目落地经验分享等热门话题进行了深入的讨论。今天分享我们一位星球成员面试淘天集团算法岗面经:最近面了阿里淘天集团算法岗,面试官很 Nice,技术细节问的很细,上来就是手撕代码,对我来说还是第一

异构 GPU 支持:支持异构 GPU 资源,当前支持 Nvidia、Apple Metal、华为昇腾和摩尔线程等各种类型的 GPU/NPU多推理后端支持:支持vLLM和推理后端,兼顾生产性能需求与多平台兼容性需求多平台支持:支持 Linux、Windows 和 macOS 平台,覆盖 amd64 和 arm64 架构多模型类型支持:支持 LLM 文本模型、VLM 多模态模型、Embedding 文

适配linux,且由于作者水平有限,中间件只支持apache,确保linux用户权限为root,且安装有iptables防火墙命令(不需要告警可忽略iptables)数据库密码默认设置为root/123456789,后台默认初始密码为:admin/123456,apache日志为默认路径。如果不需要告警可忽略,需要告警请自行配置config.py里的邮箱和密码(ps: 这里的密码是邮箱授权码)如需

为了解决这个问题,我们需要引入位置编码,也就是 t 时刻的输入,除了 Embedding 之外(这是与位置无关的),我们还引入一个向量,这个向量是与 t 有关的,我们把 Embedding 和位置编码向量加起来作为模型的输入。显然加入位置编码之后,两个北京的向量是不同的了,两个上海的向量也是不同的了,但是我们期望 Query(北京1)Key(上海1)却是等于Query(北京2)Key(上海2)的。

这个项目目前仅在macOS和Ubuntu系统上测试过,Windows系统会出问题。本人使用的是Ubuntu20.04系统,基本没什么问题。大致就是通过一下几个流程进行实现的。通过物体检测识别人形使用角色mask从场景中提升人形通过「装配」为动画做准备三维运动捕捉制作2D人物动画接下来小F就来教大家如何去部署。以上操作,就能通过AI实现儿童绘画跳舞。感兴趣的小伙伴们,可以自行去尝试,给小朋友提供快乐

最近这一两周不少公司已开启春招和实习招聘。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。最近星球一成员面试时被问到:训练100B模型要多少显存?这道题看似问的很奇葩,但面试官在考察面试者如何根据模型参数来预估所需要的资源。AI 算法在服务器中运行时,一个

简单起见,我们在下面只加载 base 模型,但也有一个经过指令微调的版本,你可以将「meta-llama/Llama-3.1-8B」替换为「meta-llama/Llama-3.1-8B-Instruct」。当然,正如我们在上面看到的,这段文字是毫无意义的,因为我们还没有训练过 Llama 3 模型。简单起见,我们只在下面加载基本模型,但也有一个经过指令微调的版本,可以用 「meta-llama/

最近这一两周不少大厂都已经开始秋招面试了。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。经过漫长的等待,OpenAI终于在9月12日发布了新模型O1,用户可以直接访问预览版o1-preview,或者小尺寸版o1-mini。其酝酿了快一年的大招,一会儿Q*
