
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
小米开源MoE模型MiMo-V2-Flash技术突破:仅15B激活参数实现高性能推理 小米最新发布的MiMo-V2-Flash模型采用创新的混合专家架构(MoE),总参数309B但仅激活15B参数,在性能上媲美更大规模模型。核心技术包括: 混合滑动窗口注意力:结合Sink Bias机制,在128Token小窗口下保持长文本处理能力 多Token并行预测(MTP):最高提升2.6倍推理速度,生成速度

MIT团队提出递归语言模型(RLM),突破大语言模型处理长文本的瓶颈。RLM创新性地将长文本作为外部环境变量,让模型通过编写代码递归调用子模型处理信息,实现10M+ token级别的超长文本处理能力。相比传统方法,RLM采用"分而治之"策略,避免了上下文窗口限制和二次方计算成本增长,性能提升可达100倍。该技术借鉴外存算法思想,使模型能像程序员一样按需查阅信息,而非硬记全部内容

摘要:SimpleMem提出了一种高效的三阶段记忆系统,解决LLM智能体的"健忘症"问题。通过语义结构化压缩、递归整合和自适应检索,该系统在LoCoMo基准测试中实现43.24的平均F1分数,比现有方法提升26.4%,同时将Token消耗降低30倍至530-580。其创新点包括:1)非线性门控过滤低信息量内容;2)多视图索引支持精确检索;3)动态调整检索深度。实验表明Simpl

注意力机制:大语言模型的"思考"核心 摘要:注意力机制是Transformer架构的核心技术,它通过Query-Key-Value三元组让AI学会关注文本中的关键信息。当处理"I love you"时,模型将词语转换为向量,计算"you"的Query与上下文词的Key的匹配度,发现"love"相关性最高。通过Softm

AI模型展现稳定个性特征,Claude与GPT风格迥异 最新研究表明,大语言模型确实具有可区分的"个性"特征。Lindr团队通过系统化实验发现,GPT-5.2和Claude Opus 4.5展现出稳定的行为差异:Claude更具开放性(+4.5分)和好奇心(+3.7分),适合创意任务;而GPT更严谨尽责(+5.3分)且有进取心(+1.6分),适合结构化工作。研究创新性地采用行为

**摘要增强检索技术EXPLAIN通过自动提取文档实体并生成结构化摘要,有效解决了RAG系统中的信息碎片化问题。该方法在保持低推理成本的同时,显著提升了问答准确率(HotpotQA F1从56.70提升至60.33)。核心创新在于:1)基于名词短语的通用实体提取;2)生成独立摘要项而非聚合摘要;3)用高相关性实体摘要替换低分文档片段。实验表明,该方法在多个基准数据集上优于传统RAG方案,且推理成本

MedPlan提出了一种基于两阶段RAG的个性化医疗治疗方案生成系统,通过模拟临床医生的SOAP诊断流程,显著提升了治疗方案的准确性和个性化水平。该系统首先基于患者主观症状和客观检查数据生成临床评估,再结合历史记录和相似病例生成治疗方案。实验表明,MedPlan在BLEU等指标上较基线方法提升约6倍,临床医生评估显示其方案质量提升66%。该系统已部署实际临床环境,采用React前端和FastAPI

UAE(Unified Auto-Encoder)框架首次证明:AI的"看图说话"能力和"文字作画"能力不仅可以共存,更能相互促进——理解越强,生成越好;生成越好,理解越强!看图说话(理解能力):看一张照片,告诉你"这是一只橘猫正在阳台上晒太阳"文字作画(生成能力):听你说"画一只橘猫在阳台上晒太阳",然后画出来这种同时具备"理解"和"生成"能力的AI,就叫做统一多模态模型(Unified Mul

腾讯优图发布Youtu-LLM轻量级大语言模型,仅20亿参数却超越80亿参数模型的性能表现。该研究通过创新架构设计释放了轻量级模型的潜力,在保持高效推理的同时实现了更强的任务处理能力。论文已在arXiv发布,相关代码和模型权重已在GitHub和Hugging Face开源。这一突破为边缘计算场景下的高效AI部署提供了新思路。
GGUF 格式的全名为(GPT-Generated Unified Format),提到 GGUF 就不得不提到它的前身 GGML(GPT-Generated Model Language)。GGML 是专门为了机器学习设计的张量库,最早可以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发中,遇到了灵活性不足、相容性及








