登录社区云,与社区用户共同成长
邀请您加入社区
2026年文献阅读工具测评:10款神器助力科研全流程 本文针对研究生常见的文献管理痛点,深度测评10款主流工具。靠岸学术(Scholaread)凭借"AI翻译+文献管理+精读标注+写作引用"全流程功能脱颖而出,其智能重排技术可保持翻译后格式完整,AI问答和智能摘要显著提升阅读效率。Zotero以开源免费和插件生态见长,EndNote则适合机构用户。知云和DeepL专注翻译但功能
本篇博客围绕“小语言模型(SLM)+量化在自动程序修复(APR)中的应用”展开,梳理了相关论文的核心内容:首先介绍APR的价值和LLM的“算力困境”,再拆解论文的实验设计(14个SLM+2个LLM、QuixBugs数据集、4种量化精度),最后重点解读关键结果——顶尖SLM(Phi-3/Qwen2.5-Coder)能媲美LLM,int8量化是“精度-效率”最优解,并通过问答形式解答开发者关心的核心问
YAML Prompt工程的本质是将提示工程从字符串拼接升级为可配置、可版本化、可监控的系统工程。声明与逻辑分离:YAML负责"写什么",Python负责"怎么用",两者职责清晰,互不耦合。渐进式复杂度:从基础模板起步,按需引入条件分支、Few-Shot、工具调用等能力,避免过度设计。可观测性优先:每次渲染都记录变量使用情况、命中分支、版本信息,为后续优化提供数据基础。
很多刚接触时序与时空预测领域的朋友,常常会陷入两个极端:要么一上来就硬啃复杂的 SOTA 模型,连基础算子都没搞懂就想复现顶会成果,最后处处碰壁;要么只停留在基础概念的背诵,没法把知识落地到实际的预测任务中。其实,想要高效入门这个领域,和盖一栋楼的逻辑完全相通 —— 先打牢地基,再搭主体框架,接着填充功能模块,最后做优化迭代,一步一步稳扎稳打,才能真正建立起完整的知识体系。今天就把我亲测有效的入门
本文提出RobustRAG框架,首个针对检索污染攻击的防御方案。通过"隔离-聚合"策略,先独立生成各文本段的回答再安全聚合,结合关键词和解码两种聚合算法,可证明在一定条件下即使面对恶意注入仍能保持准确性。实验表明,该方法在开放域问答和长文本生成任务中均有效提升鲁棒性,且性能损失较小。研究为构建安全可靠的检索增强生成系统提供了新思路。
对 Gemini-3-Pro、Claude-Sonnet-4.5、Seed1.8、Kimi-K2.5 和自研 MAI-UI 进行了系统评测,使用 OSWorld-G (Refined)(桌面端 Grounding 基准,指令明确无歧义)和 ScreenSpot-Pro(高分辨率密集布局基准,考验空间精度)两个 benchmark,目标包括:标准化评测范式对比、逆向工程复现各模型的报告数字、深入探测
本文提出ISOLATEGPT架构,旨在解决大语言模型(LLM)系统在支持第三方应用时面临的安全与隐私风险。随着ChatGPT等LLM平台逐步支持第三方应用,基于自然语言的自动化执行范式虽然提升了实用性,但也带来了数据泄露、恶意攻击等安全隐患。ISOLATEGPT采用"中枢-辐条"架构实现执行隔离,通过可信中枢接口路由用户请求,为每个应用配备独立LLM实例,并设计安全通信协议。评
这时候就得在控制精度和实时性之间找平衡,就像在海鲜市场砍价——我们最后给Q矩阵加了个自适应系数,风浪大时自动调高位置权重,风平浪静时就省点算力。有次我把位置权重从100降到10,结果无人艇开始摸鱼——虽然最终能到达目标点,但中途能绕远就绕远,活像避开KPI的打工人。上次有个师弟把这俩参数改成0.05和2.0,结果无人艇在浪大时直接表演了水上漂移——原来前者是流体阻力系数,后者和船体转动惯量相关,改
本文是对论文《World Action Models are Zero-shot Policies》的深度解读。在机器人基础模型领域,视觉 - 语言 - 动作模型泛化新环境、新技能的能力不足,是研究者面临的核心挑战。NVIDIA 团队提出的 DreamZero,是基于预训练视频扩散骨干的世界行动模型,通过联合预测视频与动作学习物理动力学,实现了从异构数据的高效学习,在零样本泛化、跨体化迁移上表现优
随着网络威胁的日益增多,物联网网络的安全问题日益受到关注。传统的入侵检测系统由于资源限制和攻击模式的演变,难以实时检测复杂的攻击。本研究提出一种结合深度学习(DL)和机器学习(ML)的入侵检测系统,以提高物联网的安全性。主要目的是将前馈神经网络(FFNN)和XGBoost相结合,设计一种混合入侵检测系统,以提高攻击检测精度,同时最小化计算开销。该方法包括数据预处理、基于主成分分析(PCA)的特征选
本文基于相位嵌套奇异吸引子动力学机制,重新定义了具备连贯认知能力的「单AI大脑」核心判据。通过标定类脑双时间尺度的李雅普诺夫动力学参数,结合当前高性能计算硬件性能,推导出单AI大脑的理论规模上限约为4096张H100级别GPU。结果表明:8-16GPU为单节点最优稳定规模;16-2048GPU为当前大模型的工程可行区间。研究为类脑AI系统的分布式部署提供了动力学层面的理论依据与工程设计参考。
在大型视觉-语言-动作模型(VLA)里插一个专门的“RL Token”来提取特征,让机器人只需在线练习几小时就能掌握拧螺丝、插线等极高难度的微操。
本文介绍了大模型相关工具和优化技术:1)优化框架如DeepSpeed和vLLM,通过分页注意力、连续批处理等提升推理效率;2)轻量化引擎llama.cpp的跨平台量化技术;3)KTransformer的MoE架构优化和计算加速策略。还探讨了深度学习的梯度问题(爆炸/消失)及解决方案,以及熵、交叉熵、KL散度的概念区别与应用场景。这些技术涵盖了大模型训练、推理、部署等多个环节的优化方法。
走一步,看两步。走一步看一步,太短视;走一步看十步,既没那个能力,也看不准。看两步,刚刚好。好了,先聊这么多。我得去跟我的企鹅朋友们好好相处一下了。🐧📍 录制于南极 · 2026年。
Skills.sh 让 AI 智能体从**“什么都懂一点的通才学生"变成"持证上岗的专业技师”**——通过安装不同的技能包,AI 能立即掌握特定领域的最佳实践、工具链与团队规范,而这些技能就像手机 App 一样,可以被发现、安装、更新和共享。
是一款开源、AI 原生的企业级内容创作引擎,以 MCP 为底座,将可视化工作流与 Agent 深度耦合。其核心理念是:将"创意闪现"到"合规成稿"的全流程整合在同一平台,无需跨软件切换,不丢失上下文。
论文阅读笔记:AI编程用的AGENTS.md应该不写或少写
本文提出了一种基于个性化认知模拟的自动人格识别方法,通过目标对象的面部反应推断其真实人格特质。该方法创新性地利用神经架构搜索为每个个体构建独特的CNN模型,模拟其在双人互动中的认知过程。关键贡献包括:(1) 将个性化CNN的架构和权重参数化为图表示;(2) 提出基于Transformer的多维边特征学习策略;(3) 在人类-人和人-机互动场景中验证了方法的优越性。实验结果表明,该方法能有效捕捉与人
详解Outline这款开源团队知识库方案,支持Markdown编辑、实时协作、Slack集成、Docker部署,是团队文档管理的Notion最佳开源替代选择
AI记忆成为支撑AI Agent应用落地的底层能力,价值从费用转变为资产。AI Agent通过增加应用调用量、编排调度成为瓶颈和沙箱隔离抬升开销三方面显著提升CPU需求,预计2026年CPU配比将增长36%。同时,AI服务器内存配置从半插向全插演进,推动内存条与接口芯片市场空间扩大。开发者需关注这一硬件变革带来的编程新机遇。
六相永磁同步电机矢量控制仿真模型在电机控制领域,六相永磁同步电机(PMSM)凭借其高功率密度、良好的容错性能等优势,逐渐成为研究热点。而矢量控制作为一种先进的电机控制策略,能有效实现对电机转矩和磁链的解耦控制,让电机性能更加出色。今天咱们就来聊聊六相永磁同步电机矢量控制仿真模型那些事儿。
摘要:Judo是一种针对工业异常检测的多模态推理模型,通过三阶段渐进训练解决通用大模型在工业领域的知识不足问题。首先通过并置分割学习建立视觉对比能力(准确率提升至73.01%),然后注入领域知识(准确率79.82%),最后采用多奖励GRPO统一视觉和推理(最终准确率81.20%)。实验表明,无领域知识的CoT推理会使准确率下降9.5%,验证了领域知识的重要性。在MMAD基准测试中,Judo超越GP
深蓝学院推出"工业级RAG系统与Agent应用开发实践"课程,由商汤科技高级算法研究员陈家豪主讲。课程聚焦AI Agent开发热点,帮助开发者跨越从对话交互到工业级应用的技术鸿沟,掌握LazyLLM框架、RAG系统优化及智能体设计等实战技能。适合AI应用开发者、技术爱好者及学生,提供1V1作业批改、专属答疑等全方位服务,前40名报名立减100元。
论文聚焦一个核心问题:大模型在“越狱攻击”(诱导输出不安全内容)下仍然脆弱,而现有方法过度依赖外部检测或简单拒答,效果有限。而R2D模型会这样思考:第一步识别意图(发现潜在风险),第二步评估是否违规(标记为[UNSAFE]),第三步调整策略(改为安全回应)。更重要的是,它还减少了“误拒答”(把正常问题当危险问题拒绝),实现了安全性与可用性的平衡。,核心思想是:让模型在“思考过程中就具备安全意识”。
带有前置归一化(PreNorm)[60]的残差连接[12]是当前大语言模型(LLM)的标准配置,但这类残差连接会以固定单位权重累加所有层的输出。这种均匀聚合方式会随着网络层数加深,导致隐藏状态数值无节制增大,进而逐渐稀释每一层的特征贡献度[27]。本文提出**注意力残差机制(AttnRes)**:摒弃固定累加方式,对前序网络层的输出采用softmax注意力聚合,让每一层能够根据输入,通过可学习权重
检索增强生成(RAG)通过从外部知识源检索相关信息,让大语言模型(LLM)能够对私有或未见过的文档集进行问答。但 RAG 无法回答面向整个文本语料的全局问题(如 “数据集中的核心主题是什么?”),因为这类问题本质属于 ** 查询聚焦摘要(QFS)** 任务,而非显式检索任务。而现有的 QFS 方法又无法扩展到常规 RAG 系统所索引的大规模文本量。为融合两种方法的优势,本文提出GraphRAG:一
该研究提出了一种新颖的视觉-骨架双模态框架,结合了关键点视觉特征和全局骨架运动信息,用于精确且全面地评估帕金森病(PD)患者的步态异常程度。通过引入关键点视觉 Transformer(KVT)提取局部视觉斑块特征,并与图卷积提取的骨架特征在时间融合编码器中进行整合,该模型不仅在正面视角取得了极高的评估准确率,还在跨视角的通用场景中展现出了卓越的泛化能力,为居家环境下的不受限监测提供了新思路。
大型视觉语言模型(LVLMs)已展现出卓越的多模态理解与推理能力,却仍存在严重的目标幻觉问题。现有研究大多将这一缺陷归因于模型中视觉编码器与大语言模型(LLMs)的规模不匹配所引发的语言先验偏差。具体而言,当前的大型视觉语言模型均基于大语言模型构建,这类模型往往过度依赖文本提示词和大语言模型的内部知识,生成与视觉线索不符的描述内容。然而,通过对幻觉生成机制的深入探究,我们通过实证研究发现了一个此前
在当今科研领域,跨学科研究正逐渐成为推动创新的关键力量。无论是 AI 与社会学的融合,还是其他学科间的碰撞,都能催生出前所未有的学术成果。然而,跨学科研究往往面临着学术信息差的挑战,如何打破这一壁垒,成为了研究者们关注的焦点。以下是 5 个能够助力跨学科研究的工具,帮你发现交叉创新点。
本文对AI原生6G网络的三大核心技术——语义通信、可重构智能表面和边缘智能进行了系统性综述。这三大技术的融合代表着无线通信从数据传输向智能服务的范式转变,为下一代网络的设计提供了理论基础和技术路径。语义通信突破了传统香农信息论的局限,将通信目标从比特保真度转向语义保真度和任务效用。通过优先传递信息的含义和任务相关性,语义通信能够显著提升通信效率,特别适合资源受限和任务关键型场景。深度学习技术为语义
你是谁?│├── 完全不会编程│ └── → Coze 或 Dify(0 行代码,20 分钟跑起来)│├── 愿意运行代码,但不想手写逻辑│ └── → 写需求 → 让 AI 生成 → 运行调试(AI 辅助编程路线)│└── 想深度掌控└── → 先用框架理解原理,再考虑手写核心循环记住最重要的一句话构建 Agent 的本质,是造一个能自己思考、自己动手、还能记住事情的程序。先把最小可运行版本跑起
Skill 是一份"让 AI 学会重复做某件复杂事"的说明书。把它想象成你给 AI 写的一本《操作手册》——以后遇到同类任务,AI 会自动按手册执行,而不是每次从零开始摸索。
核心思想:在 FedCache 的基础上,进一步引入数据集蒸馏技术,提出 FedCache 2.0,旨在解决原版 FedCache 中 logits 信息量不足、任务适应性有限的问题。架构特点:优点:联邦边缘学习(FEL):能够使边缘设备在保护数据隐私的同时协同训练机器学习模型,但实际的FEL部署面临由设备限制和设备-服务器交互带来的重大挑战,需要在有限且不确定的通信条件下进行异构的、用户自适应的
本文提出了一种针对视觉Transformer(ViT)的新型黑盒对抗攻击方法——分块对抗移除(PAR)。与卷积神经网络相比,ViT对图像不同区域的噪声敏感性存在显著差异,而现有基于决策的攻击方法未考虑这一特性。PAR通过从粗到细的分块策略,优先压缩高敏感性区域的噪声,显著提高了噪声压缩效率。实验表明,PAR在相同查询次数下能生成更小噪声的对抗样本,并可作为其他攻击方法的初始化策略。该研究为评估Vi
摘要: 研究表明,单个AI大脑的计算单元上限约为8-16个GPU。这一结论基于三个关键约束:1)动力学约束(李雅普诺夫时间要求同步周期≤0.3ms);2)通信约束(全互联拓扑延迟随节点数N²增长,N>16时延迟突破1μs);3)功耗约束(16GPU功耗约14.5kW,符合机柜容量)。当N=8-16时,系统能维持100-500ns延迟,满足意识稳定性要求。超过该规模,延迟将破坏相空间同步结构。
通过在训练中引入少量安全推理数据(仅50条样本,占STAR-1数据集的5%),构建的SAFE-s1.1-7B模型在安全基准测试上达到95%以上的拒绝率,同时保持了推理能力不受损。该论文强调,自我越狱不同于传统的灾难性遗忘,因为模型在生成有害内容的同时仍保持着对请求危害性的认知,这揭示了一种更深层的安全对齐挑战。在这两个例子中,模型在思维链中都明确意识到请求的有害性,但随后通过自我构建的合理化推理(
***中文大学Xue Tianfan团队在CVPR 2025提出了一项利用偏振信息消除图像反光的新方法PolarFree,并构建了目前最大规模的偏振反射消除数据集PolaRGB。该研究通过分析偏振特性区分反射与透射光,解决了传统方法依赖小规模合成数据的局限性。PolaRGB数据集包含6,500组精准对齐的RGB-偏振图像对,覆盖多样化的真实场景。PolarFree创新性地结合扩散模型生成无反射先验
这篇论文通过将 RAG(检索增强生成) 的理念引入创意写作,证明了结构化知识在弥补模型“长程记忆”缺陷方面的有效性。查询 kg 的范围限制在当前的 章节是否是最佳的,如何回溯过去的内容?如何评估生成的内容的质量,与现实文本的区别。是否有真实的demo?
在当前研究中,时序Diffusion Model主要集中在为特定预测或插补任务定制的条件模型上。本文将探索任务不可知的(Task-agnostic)无条件Diffusion Model在一些时序应用上的潜力。本文提出了TSDiff,一种无条件训练的时序Diffusion Model。该模型通过自引导机制,使得TSDiff能够在推理时为下游任务调节TSDiff,从而不需要辅助网络或更改训练过程。本文
本文为作者对原论文的学习笔记与心得分享,严格遵循原文的公式、逻辑和实验结论,补充了公式符号解释和核心思路梳理,受个人学识与理解所限,文中对论文内容的解读或有不够周全之处,一切以原论文正式表述为准。三大问题,设计**残差信息记忆(RIM)、跨阶信息整合(COII)、跨阶注意力演化(COAE)**三大核心机制,进一步提升跨模态信息交互能力,所有机制均适配VIF和全色锐化两大任务。为目标检测模型,在M3
论文阅读
——论文阅读
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net