
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
2025年AI领域迎来重大范式转变,从"暴力堆参数"转向精细化智能提升。基于100+篇顶会论文分析,四大技术突破尤为突出:流体推理通过Test-Time Compute让AI学会思考推演;长期记忆技术治愈模型"健忘症";空间智能补足视觉处理短板;元学习实现持续自我进化。其中,MoE架构、强化学习革新(如GRPO算法)和记忆系统升级成为关键驱动力。研究显示,AI在推理、长期记忆和视觉处理等原"零分项

北大联合腾讯AI Lab提出DocDancer,首个端到端训练的文档问答Agent。通过"搜索+阅读"双工具设计,将文档问答形式化为信息寻求过程,实现高效定位与深度理解。创新性提出"探索-综合"数据合成框架,自动生成高质量训练数据。在MMLongBench-Doc和DocBench两大基准测试中表现优异,超越现有方法并接近人类水平。案例分析显示,DocDan

小米开源MoE模型MiMo-V2-Flash技术突破:仅15B激活参数实现高性能推理 小米最新发布的MiMo-V2-Flash模型采用创新的混合专家架构(MoE),总参数309B但仅激活15B参数,在性能上媲美更大规模模型。核心技术包括: 混合滑动窗口注意力:结合Sink Bias机制,在128Token小窗口下保持长文本处理能力 多Token并行预测(MTP):最高提升2.6倍推理速度,生成速度

MIT团队提出递归语言模型(RLM),突破大语言模型处理长文本的瓶颈。RLM创新性地将长文本作为外部环境变量,让模型通过编写代码递归调用子模型处理信息,实现10M+ token级别的超长文本处理能力。相比传统方法,RLM采用"分而治之"策略,避免了上下文窗口限制和二次方计算成本增长,性能提升可达100倍。该技术借鉴外存算法思想,使模型能像程序员一样按需查阅信息,而非硬记全部内容

注意力机制:大语言模型的"思考"核心 摘要:注意力机制是Transformer架构的核心技术,它通过Query-Key-Value三元组让AI学会关注文本中的关键信息。当处理"I love you"时,模型将词语转换为向量,计算"you"的Query与上下文词的Key的匹配度,发现"love"相关性最高。通过Softm

AI模型展现稳定个性特征,Claude与GPT风格迥异 最新研究表明,大语言模型确实具有可区分的"个性"特征。Lindr团队通过系统化实验发现,GPT-5.2和Claude Opus 4.5展现出稳定的行为差异:Claude更具开放性(+4.5分)和好奇心(+3.7分),适合创意任务;而GPT更严谨尽责(+5.3分)且有进取心(+1.6分),适合结构化工作。研究创新性地采用行为

**摘要增强检索技术EXPLAIN通过自动提取文档实体并生成结构化摘要,有效解决了RAG系统中的信息碎片化问题。该方法在保持低推理成本的同时,显著提升了问答准确率(HotpotQA F1从56.70提升至60.33)。核心创新在于:1)基于名词短语的通用实体提取;2)生成独立摘要项而非聚合摘要;3)用高相关性实体摘要替换低分文档片段。实验表明,该方法在多个基准数据集上优于传统RAG方案,且推理成本

MedPlan提出了一种基于两阶段RAG的个性化医疗治疗方案生成系统,通过模拟临床医生的SOAP诊断流程,显著提升了治疗方案的准确性和个性化水平。该系统首先基于患者主观症状和客观检查数据生成临床评估,再结合历史记录和相似病例生成治疗方案。实验表明,MedPlan在BLEU等指标上较基线方法提升约6倍,临床医生评估显示其方案质量提升66%。该系统已部署实际临床环境,采用React前端和FastAPI

UAE(Unified Auto-Encoder)框架首次证明:AI的"看图说话"能力和"文字作画"能力不仅可以共存,更能相互促进——理解越强,生成越好;生成越好,理解越强!看图说话(理解能力):看一张照片,告诉你"这是一只橘猫正在阳台上晒太阳"文字作画(生成能力):听你说"画一只橘猫在阳台上晒太阳",然后画出来这种同时具备"理解"和"生成"能力的AI,就叫做统一多模态模型(Unified Mul

腾讯优图发布Youtu-LLM轻量级大语言模型,仅20亿参数却超越80亿参数模型的性能表现。该研究通过创新架构设计释放了轻量级模型的潜力,在保持高效推理的同时实现了更强的任务处理能力。论文已在arXiv发布,相关代码和模型权重已在GitHub和Hugging Face开源。这一突破为边缘计算场景下的高效AI部署提供了新思路。







