LLM精进之路个人主页

@LLM_jingjinzhilu

LLM精进之路

2025-07-03 17:14:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

港科大谭平团队新作SAIL-Recon：一种Transformer，数分钟搞定万帧图像3D重建

《SAIL-Recon：基于视觉定位增强的大规模场景回归方法》提出了一种高效处理大规模图像集的前馈式SfM方案。传统基于学习的SfM方法面临输入图像增多时计算量剧增的瓶颈，SAIL-Recon创新地通过整合视觉定位能力，先利用少量锚点图像构建紧凑的神经场景表示，再以此为基础快速回归所有图像的相机位姿和三维结构。实验表明，该方法在Tanks&Temples等数据集上仅需数分钟即可处理数千张图

#transformer #3d #深度学习 +4

0901-0905 | 大模型方向周报：可解释性与伦理、推理与记忆机制、信息检索与推荐、效率提升与资源优化等方向

本文精选20篇大模型领域最新研究，涵盖12个核心方向。研究发现：AI偏见显著影响人类决策（90%受试者被影响）；概念级记忆机制提升推理能力7.5%；LLM在电商推荐中实现36%加购率提升；中文虚假信息核查存在局限；阿拉伯文化理解准确率仅72.15%。同时，研究揭示了LLM在自动驾驶迁移性、隐私政策解析、人格行为一致性等方面的突破与挑战，为技术发展提供了重要参考。

#人工智能 #机器学习 #语言模型 +2

美团发布 | LongCat-Flash最全解读，硬刚GPT-4.1、Kimi！

美团LongCat团队推出5600亿参数混合专家模型LongCat-Flash，通过创新架构实现高效计算与智能体能力协同。模型采用零计算专家机制动态分配18.6B-31.3B参数，结合ScMoE架构提升训练推理效率，30天内完成20万亿token训练，推理速度超100TPS。评测显示其在智能体任务上表现优异，超越GPT-4.1等主流模型，验证了其架构在复杂任务处理上的优势。该研究为大规模语言模型的

#人工智能 #语言模型 #机器学习 +2

0825-0829 | 大模型方向周报：多模态模型研究、训练与优化策略、安全与对齐等方向

大模型领域最新研究动态：本周精选20篇前沿论文，涵盖多模态融合、训练优化、安全对齐、行业应用等方向。MMG-Vid提出无训练视觉令牌剪枝框架提升视频LLM效率；AVAM实现多图像问答自适应锚定；CALR创新低秩分解方法优化模型压缩；Token Buncher首创防御有害RL微调机制；ChatThero开发成瘾治疗对话系统；Graph-R1通过NP难图问题增强LLM推理能力；QAgent实现量子程序

#人工智能 #深度学习 #机器学习

ICML 2025 | 告别人工调参！MetaAgent自动构建MAS，机器学习任务得分0.83

本文提出MetaAgent——一种基于有限状态机(FSM)的自动化多智能体系统构建框架，旨在解决传统人工设计方法成本高、通用性差等问题。MetaAgent通过任务结构化分解，自动生成支持工具调用、状态回溯与优化的多智能体系统。实验表明，在机器学习与软件开发任务中，MetaAgent性能优于现有自动化方法，部分任务接近人工设计系统水平。其核心优势在于灵活的状态转移机制、条件验证器和状态优化算法，为多

#人工智能 #机器学习 #语言模型 +2

ICML 2025 | MMMC：揭示多模态大模型幻觉来源之一——模态冲突！

布朗大学与AWS团队在ICLR2025发表的研究提出新理论框架，从流形几何角度分析连续强化学习中的策略学习动态。研究发现，神经网络策略生成的状态分布存在于低维流形中，其维度与动作空间同阶。基于此，团队提出局部流形学习层，在MuJoCo等复杂控制任务中验证了性能提升。该研究首次系统揭示了连续RL训练的几何本质，为高维控制任务提供了新的优化思路和理论基础。

#深度学习 #人工智能 #机器学习 +2

上海AI实验室突破扩散模型！GetMesh融合点云与三平面，重塑3D内容创作

《GetMesh：高质量可控网格生成与编辑新方法》摘要上海人工智能实验室、复旦大学和上海交通大学联合团队提出GetMesh模型，通过创新性地结合可变数量点云与三平面表示，实现高质量3D网格生成与编辑。该模型采用双重扩散机制分别学习点位置与特征分布，在ShapeNet55类数据集中展现出卓越性能。实验表明，GetMesh不仅能生成细节丰富的网格，还支持拓扑结构修改、部件增删及跨类别融合等复杂操作，

#机器学习 #人工智能 #语言模型 +2

上海AI实验室突破扩散模型！GetMesh融合点云与三平面，重塑3D内容创作

#机器学习 #人工智能 #语言模型 +2

2025 | 上海交大首个「类人脑」大模型诞生，重塑机器学习范式！

上海交通大学团队提出BriLLM（Brain-inspired Large Language Model），采用"SiFu（Signal Fully-connected flowing）学习"范式，通过"静态语义节点+动态电生理式信号传播"机制重构语言生成过程。该模型具有结构内生可解释性、推理复杂度与上下文长度解耦等优势，并采用稀疏共享策略降低参数规模。小规

#机器学习 #人工智能 #语言模型 +2

2025 | 腾讯混元RLVMR颠覆强化学习：可验证推理奖励引爆AI智能体新范式！

RLVMR 提出了一类全新的奖励设计方式，不再依赖稀疏或延迟的环境反馈，而是将智能体的推理过程转化为“可验证”的奖励信号。这样一来，模型的学习过程不仅更稳定，而且具备明确的解释性，避免了传统 RL 中“只看结果”的局限。本文提出了 RLVMR（Reinforcement Learning with Verifiable Meta-Reasoning Rewards）框架，通过将可验证的元推理信号

#人工智能 #深度学习 #机器学习 +1

共 15 条

请选择