登录社区云,与社区用户共同成长
邀请您加入社区
空间多组学数据可在保留细胞空间结构的同时,整合多种分子谱信息,是解析组织分子特征的强大工具。但不同模态间固有的数据质量与噪声水平差异,严重制约了数据的精准整合与分析。本文提出CANDIES框架,结合条件扩散模型与对比学习,实现空间多组学数据的高效去噪与整合。该框架凭借创新的模型与算法设计,既能提升空间多组学数据质量,又可生成统一、全面的联合表征,支撑多种下游生物学分析。
虽然深度神经网络中神经元的激活值通常无法被人类简单直观地解释,但。我们在不同规模、激活函数与损失函数的 SAE 上进行了测试,这些 SAE 分别在两个开源权重的大语言模型上训练。我们提出来衡量解释质量,其运行成本低于现有最优方法。其中一种技术 ——,用于评估对特征进行干预所产生效果的可解释性,我们发现它能够解释现有方法无法覆盖的特征。我们给出了生成更优质解释的指导原则,使其在更广泛的激活上下文下依
本文解读ACL 2025最佳论文《Language Models Resist Alignment》,揭示大语言模型存在"逆对齐"现象:即使经过微调对齐,模型仍倾向回归预训练分布。论文创新性地提出"模型弹性"概念,通过数据压缩率量化对齐效果,发现小数据集微调易被大模型弹性抵消。实验验证了Llama系列模型的行为回弹现象,表明大模型+大数据组合弹性更强。研究为
OpenCode-Observability是一款开源可观测性插件,用于实时监控OpenCode AI智能体的运行状态。该工具通过全链路数据采集,记录会话生命周期、消息交互等事件,并通过可视化面板展示。安装过程包括克隆仓库、执行安装脚本、配置环境变量和启动服务。使用时需将插件链接到OpenCode配置文件,通过Web界面查看交互事件。但该工具仅记录事件骨架,无法查看完整对话内容,如需详细对话建议使
高层概念、技能或行为,在模型的内部表征空间中被编码为特定方向。基于这一视角,沿着某个特定方向对隐状态进行干预,能够将模型内部计算推向对应概念,从而在不更新模型参数的情况下影响最终输出。SAE 特别适合这一任务,因为它将模型激活分解为稀疏、更易解释的特征,使得单个方向可以与更具体的行为或语义属性对应。一旦找到目标特征,就可以在残差流中增强或抑制对应特征方向,从而操控模型。h:模型原始隐状态d:SAE
Wx + b → 全连接层(Linear)exp / sum → Softmax(多分类概率)1/(1+e^-x) → Sigmoid(二分类)Conv2d → 图像卷积LayerNorm → Transformer 大模型必备Multi-Head Attention → 大模型核心Embedding → 词向量。
企业证照管理智能化升级:文档抽取技术的应用 摘要:传统企业证照管理依赖人工操作,存在效率低、易出错等问题。文档抽取技术结合OCR识别与大模型数据抽取能力,实现证照关键字段的自动提取与结构化转化。该技术通过少量样本训练即可适应不同版式证照,完成"识别+理解"的处理流程:OCR获取文本与版面信息,大模型理解语义并定位字段,最终输出结构化数据。这种方案显著提升了证照管理的自动化水平,
本文档详细说明了 pynative.yaml 配置文件中的各项参数设置,涵盖检查点、训练、优化器、学习率调度器、并行策略和重计算等模块配置。重点对比了 Pynative 模式与 Graph 模式(graph.yaml)的对应关系,指出可复用配置项(如模型参数)及特有配置项(如 Pynative 的异步检查点保存)。文档还标注了两种模式在批次控制、预热策略、并行实现等方面的差异,为开发者提供清晰的配
AI培训选型指南:五大核心维度对比
昇思大模型评估框架是MindSpore生态的核心组件,专为语言模型和多模态模型提供标准化评估方案。该框架采用四层架构设计,支持60余种学术数据集和Llama、Qwen等主流模型,涵盖知识理解、逻辑推理等评估维度。通过深度适配昇腾NPU,评估效率较CPU提升5倍以上。框架提供精度、生成质量和效率三类核心指标,支持自定义评估任务与指标扩展。配套代码示例展示了从环境配置到结果分析的全流程评估实现,包括精
很多刚踏入研一、直博阶段的同学,大概率都有这样的焦虑:本科学的知识仿佛“过期”一般,完全用不上。一接触大模型相关内容,就被Transformer、Lora、多模态大模型、Agent这些专业术语唬得手足无措,面对繁杂的深度学习框架,更是无从下手、一脸茫然。这种迷茫期最磨人,若是实验室里没有同伴交流探讨、没人带路,更是雪上加霜,很容易陷入“越学越慌、越慌越学不进去”的恶性循环。
本文提出正交基动态分解映射(OBDM),一种通过低维正交基压缩全局特征交互的新型机制。该方法将序列特征投影到可学习的正交基上,在基空间完成特征变换后反投影回原空间,将复杂度从O(n²d)降至O(nkd)。实验表明,OBDM减少75%参数量,在保持95%以上性能的同时实现3-5倍推理加速,适用于端侧问答、设备端翻译等任务。核心创新包括:1)首个基于正交基的序列特征交互方法;2)理论证明正交约束下的特
在当代人工智能研究领域,前沿大语言模型(LLM)的参数量已成为各顶级实验室核心商业机密。随着 OpenAI、Anthropic、Google DeepMind 以及 Meta 等巨头在闭源路径上的竞争日益白热化,公开披露模型架构细节的时代已悄然终结。然而,理解这些黑盒系统的规模对于竞争对手分析、安全审计、计算资源规划以及学术界追踪技术演进具有不可替代的价值。
随着网络信息内容生态的日益复杂,“按键伤企”现象已成为企业数字化生存的重大威胁。本文从技术架构角度,系统介绍Infoseek数字公关AI中台的设计理念与核心实现。该平台基于Deepseek大语言模型与NLP自然语言处理技术,严格遵循中央网信办《网络信息内容生态治理规定》《网络暴力信息治理规定》等法规要求,构建了集全域数据采集、多模态信息处理、AI智能申诉、融媒体发布于一体的闭环式PaaS系统。
本文提出WritingBench,是面向大语言模型生成式写作的综合评测基准,覆盖6 大核心领域、100 个子领域共1000 条查询(中445/英555),创新采用查询依赖式评估框架,搭配微调的评判模型实现84% 人类对齐率,并通过该框架筛选高质量写作数据训练小模型(Qwen2.5-7B),使其写作能力超越GPT-4o,同时开源基准、评估工具与框架组件以推动 LLM 写作能力研究。
本文提出序列流形扩散聚合(SMDA),一种基于热扩散方程的线性复杂度序列建模方法。SMDA将离散token序列视为高维流形上的点云,通过梯度算子和拉普拉斯算子模拟特征扩散过程,实现全局信息交互。与标准自注意力相比,SMDA将复杂度从O(n²d)降至O(nd),在4K-32K序列长度上实现11.5倍加速。实验表明,SMDA在长上下文任务上显著优于现有线性复杂度方法,同时保持竞争性的建模能力。该方法为
【Python数据分析实践】2026年05月09日,使用Python爬虫采集20+公开新闻源数据,通过jieba分词、SnowNLP情感分析、TF-IDF关键词提取、LDA主题模型等NLP技术进行文本挖掘,并使用Matplotlib/Plotly进行数据可视化。本文为自动化脚本输出的技术学习笔记。
卷三 · 知识体系篇 · 第二部分 数据标注与处理:★★★★☆(法规+技术双考查,近年出题频次上升):约22分钟。
一旦我们有了示例数据集,就需要考虑提示中应该有多少个示例。关键的权衡是,更多的示例通常会提高性能,但更大的提示会增加成本和延迟。超过某个阈值,太多示例可能会开始混淆模型。找到正确数量的示例在很大程度上取决于模型、任务、示例的质量以及成本和延迟限制。有趣的是,模型越好,它需要精准的示例就越少。但其实,最佳的方法是使用不同数量的示例进行一些实验。若此时我们有【大量】的示例数据集。对于大模型来说,就没必
RAG,即 Retrieval-Augmented Generation,通常会先从外部知识库中检索相关文本,再把这些文本交给大语言模型生成回答。它的优势很明显:模型不完全依赖自身参数记忆,而是可以借助外部资料,从而减少幻觉,提高事实性。
办公Agent意图识别的核心痛点在于处理用户表达的模糊性、多轮省略和复合任务需求。系统需结合上下文、状态管理和风险控制,采用分层意图体系(如邮件、日程等一级分类)和槽位抽取技术。解决方案包括:1)上下文感知识别;2)Session状态维护;3)主动澄清缺失信息;4)高风险操作二次确认;5)规则+小模型+LLM混合架构。典型场景如"发请假邮件"需识别初始意图后,逐步补全时间、收件
摘要: 本文探讨了大模型面试中关于实时性和多轮对话一致性的优化策略。实时性方面,建议采用流式输出、模型分层部署、Prompt精简、缓存优化及RAG检索加速,并设置超时降级策略。多轮一致性则需维护会话状态(如意图、关键实体、历史摘要),结合QueryRewrite避免信息丢失,并防止上下文污染。两者需平衡处理,简单问题走轻量链路,复杂问题启用RAG和校验。案例演示了企业知识库场景下如何动态管理会话状
它不再局限于简单的图像扫描,而是深度融合了人工智能(AI)、计算机视觉(CV)与自然语言处理(NLP)三大前沿技术,实现了对驾驶证图像中所有登记信息的精准检测、高精度识别与结构化输出。驾驶证识别技术以人工智能为核心,计算机视觉与自然语言处理为双引擎,突破传统证件识别的技术瓶颈,实现驾驶证信息从 “图像” 到 “结构化数据” 的高效、精准转化。其技术原理兼具创新性与实用性,应用场景覆盖交通、金融、政
案例一:
本文研究了长上下文大模型在RAG(检索增强生成)中的性能扩展问题,发现单纯增加检索文档数量并不能持续提升效果。作者提出DRAG和IterDRAG两种方法,通过合理分配推理计算资源(文档数量、示例数量、迭代轮数)来优化RAG性能。实验表明,当计算资源被合理分配时,RAG性能可随有效上下文长度近似线性提升。研究为长上下文RAG系统提供了重要启示:应动态调整资源配置而非简单增加文档数量,特别是在处理复杂
告别模糊的“算力配置表”,本教程带你从底层的字节(Byte)出发,精确推演大模型全参数微调的真实显存消耗。不打比方,不走捷径,直接用严谨的数学公式为你彻底算清每一兆(MB)显卡的去向。
本文深入解析了LoRA和QLoRA在大模型微调中的显存优化原理。LoRA通过冻结基础模型参数,仅训练低秩增量矩阵(BA),显著减少了可训练参数、梯度及优化器状态,但基础模型仍需加载至显存。QLoRA进一步引入4-bit量化压缩基础模型权重,降低模型本体的显存占用。两者省显存的侧重点不同:LoRA优化训练开销,QLoRA优化模型加载。实际应用中需权衡显存、数据质量、任务复杂度,避免盲目调参(如ran
本篇文章系统讲解了从“让AI听懂话”到“让AI学会思考”的进阶方法论,核心是教你通过思维链、多角色协作、链式任务拆解和结构化输出来设计AI的认知流程,最终成为一名AI思维流程的设计师。
自然语言处理
——自然语言处理
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net