AIBigModel 个人主页

@AIBigModel

AIBigModel

2024-10-07 19:03:40 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

7B扩散LLM，居然能跟671B的DeepSeek V3掰手腕，扩散vs自回归，谁才是未来？

结果清晰显示，Dream 在同等规模模型中表现卓越。在 1B 参数规模上，作者深入研究了各种设计选项，确立了多个关键组件，特别是来自 AR 模型（如 Qwen2.5 和 LLaMA3）的初始化权重以及上下文自适应的 token 级噪声重排机制，这些创新为 Dream 7B 的高效训练铺平了道路。在通用能力、数学推理和编程任务上，这个模型展现出了与同等规模顶尖自回归模型（Qwen2.5 7B、LLa

#回归 #数据挖掘 #人工智能

大模型的基本功

集百家之长，先去收集 modeling_llama.py、 modeling_qwen.py、 modeling_baichuan.py、 modeling_yi.py、 modeling_deepseek.py、modeling_glm.py 等所有的开源文件，再把各家公司实现的比较好用的 def 加入到自己的 modeling_XX.py 中。量化和推理加速技术？所以，我会给出一些我个人认为工

#自然语言处理 #智能电视 #深度学习

谷歌2024博士奖学金公布，KAN作者刘子鸣等数十位年轻华人学者入选

根据 2024 年谷歌博士生奖学金项目名单显示，今年共有 85 人获奖，分为 13 个方向：算法与理论 8 人、分布式系统与并行计算 1 人、健康与生物科学 11 人、人机交互与可视化 7 人、机器智能 22 人、机器感知 6 人、自然语言处理 12 人、网络 2 人、量子计算 3 人、安全隐私和防止滥用 6 人、硅芯片研究 1 人、软件系统 1 人、语音处理 5 人。他的目标是为医疗保健开发更可

#人工智能 #深度学习 #语言模型

不懂RAG？看这一篇万字长文就够了，中科院出品

然后，生成模型利用检索到的信息生成最终的输出。然而，将KGs整合到RAG系统中也面临挑战，包括从大规模KGs中导航和提取相关子图的复杂性、KGs扩展时的可扩展性问题，以及将结构化数据与语言模型的无序数据处理对齐的困难。：一种创新方法，与传统做法不同，它在分块之前对整个文档进行嵌入，从而使模型保留完整的上下文，特别是在处理复杂或上下文密集的文本时，显著改善了检索结果。这些先进的分块策略使RAG能够更

#人工智能

突发！OpenAI发布最强模型o1：博士物理92.8分，IOI金牌水平

来了来了！刚刚，OpenAI新模型无预警上新：o1系列，可以进行通用复杂推理，每次回答要花费更长时间思考。在解决博士水平的物理问题时，GPT-4o还是“不及格”59.5分，o1一跃来到“优秀档”，直接干到92.8分！没错，传说中的「草莓」，终于来与大家见面了！CEO奥特曼称它是一种新范式的开始：可以进行通用复杂推理的人工智能。具体来说，o1系列是OpenAI首个经过强化学习训练的模型，在输出回答之

#人工智能 #重构 #知识图谱

绝对零监督Absolute Zero：类AlphaZero自博弈赋能大模型推理，全新零数据训练范式问世

整个过程在与环境的互动中完成，环境负责验证任务的合理性和解答的正确性，并为模型提供奖励反馈。在这一范式下，研究团队训练了新的模型 Absolute Zero Reasoner（AZR），以代码执行器作为真实环境，自动生成并解决三类代码推理任务，涵盖归纳、演绎与溯因推理，依赖环境可验证的反馈实现稳定训练。在最核心的比较中，AZR-Coder-7B 在多个代码与数学推理基准上取得了当前同规模模型中的最

#人工智能

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

相较于 fp8 这个可以被看做是相对独立的工程问题，我更喜欢的是他们通过扩大 batch size，提升工程效率的这种算法和工程的联调。deepseek 团队有这个勇气和能力直接抛开英伟达提出的 fp8 实践，给出了例如正反向都使用 e4m3，attention 后的 linear 输入的精度需要提升这样的细节，以及独立实现 per-group scaling 的训练（这部分也可以解读为受 B 系

#人工智能 #机器学习

一篇85页的面向推理型大模型的Long-CoT技术最新综述

Short CoT 是一种较为浅层的推理方式，通常涉及较少的逻辑节点（logical nodes），推理过程较为直接，逻辑链条较短。

#人工智能

扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

具体来说，它们生成的logits仅关注单个样本的质量，而没有考虑总体多样性，这导致样本方差显著减少，并最终表现为随着计算量增加而出现的模式崩溃。每次搜索迭代的计算量。他们发现，推理时scaling对扩散模型是有效的——增加推理时间计算可以显著提高扩散模型生成的样本的质量，并且由于图像的复杂性，可以针对不同的应用场景，对框架中的组件进行不同形式的组合。这里，主要的scaling轴是步骤2中添加的噪声

#人工智能

机器人界「Sora」来了！清华、星动纪元开源首个AIGC机器人大模型，入选ICML2025 Spotlight

星动纪元研究团队发现，不需要精确地预测未来的每个像素，通过有效提取视频模型中间层的表征，单步去噪的预测就可以蕴含大量未来信息。相信在行业不断开源优质模型与技术的有力推动下，机器人技术将会迈向一个崭新的阶段，而具身 AGI 也将沿着这条创新之路大步走来，与我们的距离越来越近，一个充满无限可能的智能未来正在朝我们招手。VPP 的预测视觉表示在一定程度上是可解释的，开发者在不通过 real-world

#机器人 #AIGC

共 214 条

请选择