
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
知乎:真中合欢地址:https://zhuanlan.zhihu.com/p/10091011992编辑:「深度学习自然语言处理 公众号」,转载授权请联系原作者为什么会有这篇文章:虽然工作内容不是infra,但是我比较喜欢研究训练方法,魔改训练框架造轮子。正好最近看到OpenRLHF用ray管理VLLM的方案,感觉很有意思,遂研究了一下,发现VLLM的TP切分和Megatron是一套逻辑,用tor
我们是来自上海算法创新研究院大模型中心的算法团队,团队成员来自普林斯顿、北京大学、上海交大等著名学府,主要从从事大模型预训练、增强相关的算法工作。团队拥有足够多的算力和研究氛围,围绕模型架构、训练、数据合成等方向进行深入的探讨。欢迎对大模型训练、数据感兴趣的同学投递实习。有较强的代码能力,对常规的大模型训练框架、微调框架 或 强化学习框架有一定的熟悉程度。有顶会的发表经验,在大模型的数据合成(增强
作者:李博杰链接:https://zhuanlan.zhihu.com/p/655402388进NLP群—>加入NLP交流群这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能跟 H100 打个平手。事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。H100A1004
我们是来自上海算法创新研究院大模型中心的算法团队,团队成员来自普林斯顿、北京大学、上海交大等著名学府,主要从从事大模型预训练、增强相关的算法工作。团队拥有足够多的算力和研究分为,围绕模型架构、训练、数据合成等方向进行深入的探讨。近期在Cell子刊、NeurIPS、ACL等发表论文多篇,多个开源项目获得广泛关注。欢迎对大模型训练、数据感兴趣的同学投递实习。实习要求:有顶会的发表经验,在大模型的数据合
深耕金融科技前沿,聚焦金融场景需求,致力于大模型算法的研究、研发、设计、训练与评估,建设行业领先的语言与多模态金融大模型。我们坚持自主创新,围绕“全栈自主可控、全面技术领先、全域场景赋能、全链安全防护”目标,打造集基建、算力、算法、数据、工具、安全、应用与生态于一体的“工银智涌”AI大模型品牌。为了验证多轮翻译机制的有效性,论文在Qwen2.5-14B和32B两款模型上做了多语言对比实验,如图3所
穆尧博士长期从事多模态具身智能和机器人学习领域的研究,担任了ICLR等国际机器学习顶级会议的领域主席,中国计算机学会智能机器人专委会执委,在国际顶会 CVPR2025、IROS2025、SIGGRAPH ASIA 2025 等会议主办了多场研讨会和挑战赛。同时,我也在探索 AI 在物理、力学和材料学领域的应用,特别致力于将机器人技术与基础模型应用于 AI4Science。目前,NICE已构建起覆盖
来自:赛尔实验室LLM所有细分方向群+ACL25/ICML25/NAACL25投稿群->LLM所有细分领域群、投稿群从这里进入!随着人工智能尤其是大模型技术的发展,具身智能成为了当前研究的焦点之一。日前,我中心发布了题为《大模型时代的具身智能》的具身大模型关键技术与应用报告,共计212页PPT,对具身智能的核心技术、前沿研究动态、行业应用、未来研究趋势等作了详细的梳理、分析和展望。报告摘要及
深圳理工大学人工智能研究院大模型研究中心副研究员,主要研究方向为以人为中心的对话智能,重点关注大规模语言模型、对话系统与用户建模。目前,NICE 已构建起覆盖中、美、欧的国际化团队,正加速在硅谷、纽约、香港等地落地,致力于打造连接学术、产业与未来的全球化 AI 前沿社区。其中,Skills 将作为理解 OpenClaw 的重要切入点,同时也将关注 OpenClaw 作为一种新型 Agent 运行体
它其实也是模型,甚至说是算法的一个分支,但是它的出现,其实已经有“工业革命”的味道在,因为大模型是可以进行推理的,而数字世界的推理过程,和物理世界的能量运用是一样的,实际上和执行算法的效果是一样的,它是一个动态的过程,既不是物质,也不是规律,而是运行起来的程序。从 LLM → Tool Calling → Agent 的演进,本质是在把“控制流”从人类手工(写提示、点按钮)转移到运行时(agent
作者:haha alalala论文:Locating and Editing Factual Associations in GPT链接:https://arxiv.org/abs/2202.05262背景以Transformer为架构的生成大模型,成为了NLP领域的主流,具有媲美人类的对话能力,显示出了卓越的事实生成效果。随之而来的问题是,大模型的工作原理是什么?大模型将这些事实存储在哪里?它是







