登录社区云,与社区用户共同成长
邀请您加入社区
GRPO(组内相对策略优化)是一种改进的强化学习算法,通过组内对比优化策略更新。相比PPO,GRPO的核心创新在于:1)采用组内标准化计算相对优势(A_i^G=(r_i-μ_G)/(σ_G+ε)),激励样本超越组内平均水平;2)完全省去Value模型,大幅节省显存资源;3)通过KL散度约束策略更新幅度。实验表明,GRPO在保持生成质量的同时显著提升训练效率,尤其适合大模型对齐任务。其损失函数结合了
这种数据格式的核心作用是让 DPO 的损失函数(通过对比 chosen 和 rejected 的概率差异)有效优化模型,使其更倾向于生成 chosen 级别的回答。相比之下,PPO 的损失函数考虑了结果整体的分值(霸总逻辑:除非你能拿到高分,否则必须给我守规矩保持结果合理分布),因此在对齐的稳健性上 PPO 通常更胜一筹。DPO 需要的数据与 RLHF 一致,都是经过人工排序后的 QA 语料对。不
PPO(近端策略优化)是一种强化学习方法,旨在优化语言模型生成高质量且分布合理的回答。其核心目标包括:1)保持回答分布与监督微调(SFT)模型相近,防止幻觉;2)提高回答得分。PPO涉及四个模型:Actor(目标模型)、Critic(预期收益计算)、Reward(实际收益计算)和Reference(约束模型)。训练步骤包括:Actor生成回答后,通过多模型评估计算优势(实际收益与预期收益之差),并
本文介绍了大语言模型生成文本时的两种主要推理策略:贪心解码和集束搜索。贪心解码在每一步选择概率最高的token,虽然简单高效但容易导致文本单调重复。集束搜索则保留多个候选序列(beam size=k),通过综合考虑历史分数和当前概率来优化生成质量。文章详细阐述了集束搜索的算法实现,包括候选序列维护、分数计算和终止条件处理,并提供了完整的Python实现代码。这两种策略在平衡生成质量和计算效率方面各
昇腾NPU算子开发入门指南:通过cann-samples快速上手 摘要:本文介绍了如何利用昇腾官方提供的cann-samples资源库快速掌握NPU算子开发。cann-samples包含从基础算子到优化实现的完整示例,是连接理论知识与实践的重要工具。文章详细说明了环境准备、示例编译和运行验证的关键步骤,特别强调了版本匹配和常见错误的解决方法。通过对比基础实现与优化版本(如融合算子)的性能差异,开发
本文通过班级考试的生动故事,通俗讲解了强化学习(RL)在大模型训练中的核心概念。故事中,学生(Actor)通过考试分数获得星星奖励(Reward),班主任(Critic)设置动态基准线评估进步,并引入截断(Clip)防止冒险行为,参考模型(Reference)则记录历史表现保持稳定。这些角色对应了RLHF训练中的四个关键模型:演员模型生成回答,评论家模型评估预期收益,奖励模型计算实际收益,参考模型
摘要:昇腾NPU性能优化关键在于算子库优化而非硬件适配。CANN的ops-nn算子库提供高性能神经网络基础算子(如Conv2D、MatMul、LayerNorm等),通过算子融合技术显著减少显存读写次数。典型场景下,融合算子(如Conv2D+BN+ReLU)可降低55%延迟,提升121%吞吐。ops-nn作为CANN架构第二层,连接上层框架与底层硬件,其优化实现比手动AscendC开发效率高20-
综合7款工具的核心能力、场景适配、本土化体验及性价比,Trae(字节跳动)凭借顶级中文适配、全链路自主开发、完全免费三大核心优势,成为中文开发者首选的AI编程工具,无论是新手入门、中小型项目开发,还是中文业务密集型场景,都能高效适配。作为海外顶级命令行AI编程智能体,超大上下文理解与全流程任务执行能力突出,更适合海外开发者、专业工程师及大型团队的复杂项目开发与大型代码库维护。Cursor适合极客开
**摘要:**QLoRA技术通过4位NF4量化、双重量化和高秩LoRA适配器,显著降低大模型微调显存需求,使13B模型仅需7GB显存。知识蒸馏则通过教师模型输出Soft Label指导学生模型训练,提升小模型泛化能力。DeepSeek案例显示,词表不一致时可能仅采用SFT微调,凸显高质量数据的重要性。两项技术共同推动大模型在资源受限场景下的应用落地。(149字)
本文介绍了Transformer模型的核心组件及其工作原理。Transformer由Encoder和Decoder两部分组成,其中Encoder包含词嵌入层、多头注意力机制、残差连接和层归一化、前馈神经网络等模块。重点解析了位置编码的必要性、多头注意力机制的计算流程及其设计原理,以及层归一化与批归一化的区别。Decoder部分则采用掩码机制实现自回归生成,GPT等大语言模型采用精简的Decoder
摘要:词向量Embedding是将自然语言转换为计算机可处理的数学表示方法。最初采用One-Hot编码存在维度灾难和无法计算词语相似度的问题。现代方法使用连续向量表示,通过多维特征评分解决这些问题。Word2Vec是典型训练方法,包括CBOW和Skip-gram两种模型。为提高效率,引入负采样技术,将多分类转为二分类任务。这些技术使计算机能有效理解语言语义关系,为自然语言处理奠定基础。(149字)
摘要: Token是文本拆分的最小单元,分词(Tokenizer)将文本拆分为词元(token),便于后续处理。分词有四种粒度: 词粒度:保留完整语义,但词表庞大且易遇OOV问题; 字符粒度:解决OOV但语义稀疏且序列过长; 子词粒度(如BPE):平衡词表与语义,通过合并高频字符对构建词表; 字节粒度(如BBPE):跨语言通用但语义缺失。 BPE通过迭代合并高频字符对优化分词,BBPE进一步扩展至
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,以快速获得一个具备深度“思考”能力的代码生成助手。该镜像特别擅长生成健壮的正则表达式,并能主动分析边界用例,为开发者提供详尽的解释与实用建议,有效提升代码质量和开发效率。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,实现PCRE到JavaScript的正则表达式转换。该模型特别适用于解决开发中常见的语法兼容性问题,如处理命名捕获组、条件表达式等高级特性转换,显著提升代码迁移效率。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,实现高效的正则表达式转换功能。该镜像特别擅长处理编程语言间的正则转换任务,如将PCRE转换为JavaScript语法,可显著提升开发者在数据处理、文本匹配等场景中的工作效率。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,快速搭建代码生成环境。该镜像特别擅长处理正则表达式转换等编程任务,例如将PCRE格式的正则表达式自动转换为JavaScript版本,显著提升开发效率。通过简单的配置步骤,用户可轻松实现代码迁移与生成功能。
本文介绍了如何在星图GPU平台上自动化部署Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF镜像,实现高效的正则表达式语法树构建与逻辑推演。该轻量级AI模型特别擅长代码解释和算法分析,可应用于开发环境中的正则表达式调试、自动化测试等场景,显著提升开发效率。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,该模型专精于将自然语言描述转化为准确的正则表达式。通过该平台,开发者可快速搭建环境,高效应用于日常开发中的数据验证、日志文本匹配等场景,显著提升工作效率。
本文介绍了如何在星图GPU平台上自动化部署Qwen3.5-4B-Claude-4.6-Opus-Reasoning-Distilled-GGUF镜像,该镜像专精于代码生成与逻辑分析,特别擅长正则表达式编写与复杂逻辑拆解。通过实际案例展示了其在自动化处理电子邮件提取、密码强度验证等文本匹配任务中的高效应用,显著提升开发效率。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,实现高效的正则表达式转换功能。该模型特别适用于开发者将PCRE正则表达式快速转换为JavaScript兼容版本,显著提升跨平台代码迁移效率。通过简洁的部署流程,用户可立即应用于实际开发场景。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,实现高效的正则表达式转换功能。该模型特别适用于将PCRE正则表达式转换为JavaScript兼容格式,帮助开发者快速解决跨语言开发中的语法差异问题,提升代码迁移和兼容性检查的效率。
Python正则表达式使用指南摘要: 忽略大小写匹配: 使用re.IGNORECASE/re.I标志参数 或在正则式中使用(?i)内联修饰符 两种方式效果相同。 连字符处理规则: 字符类外部:直接使用无需转义 字符类内部: 作为范围符时无需处理 匹配字面连字符时应转义(-)或置于首尾位置 注意:字符类中的连字符位置决定其是否被解释为范围符,建议转义以确保清晰性。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-4B-Thinking-2507-GPT-5-Codex-Distill-GGUF镜像,快速搭建代码模型开发环境。该镜像集成了Chainlit前端,可高效实现正则表达式转换等编程任务,特别适用于跨语言正则语法转换、代码兼容性处理等开发场景,显著提升开发效率。
本文介绍了两种参数高效的轻量级微调方法:Adapter Tuning和LoRA。Adapter Tuning通过在预训练模型各层插入小型适配器模块(仅占全量微调0.5%-5%参数量),冻结主干参数仅训练适配器,实现任务适配。其模块化设计支持多任务共享模型,且不影响推理效率。LoRA则采用低秩矩阵分解技术,为原始权重矩阵添加可训练的低秩补丁(如秩r=4时参数量降至1.2%),通过B·A乘积形式更新参
摘要:Prompt Tuning是一种通过修改输入提示来引导大模型输出的高效微调方法,无需调整模型参数,仅需微调少量提示嵌入(约20K参数)即可适配不同任务。相比传统全量微调(需保存多个11B参数模型),它支持混合任务批处理,显著降低部署成本。类似地,Prefix Tuning通过添加可学习前缀(贯穿模型各层)实现更深层次的适配,在复杂任务中表现更优。这两种方法以极小参数调整激发大模型潜力,为多任
本文介绍了使用逆概率加权(IPW)因果模型分析戒烟对体重变化的影响。通过逻辑回归估计倾向得分,构建平衡的合成人群,结果显示戒烟导致平均体重增加3.52公斤。未调整混杂因素时,效应被低估1公斤。Love图显示IPW有效平衡了协变量分布(平衡后标准化均值差显著降低),验证了模型的有效性。研究表明控制混杂因素对准确估计因果效应至关重要。
有些坑,踩过才知道疼。这一节汇总最常见的正则陷阱,以及用DeepSeek预防和修复的方法。说实话,我写这篇文章的时候,也在回忆自己当年被正则折磨的日子。那时候没有DeepSeek,没有这些AI工具,只能靠硬啃《精通正则表达式》那本砖头书,在Regex101网站上反复调试,在Stack Overflow上翻遍答案。现在的你们,真的很幸运。工具再强,也不能替代你对需求的理解、对边界的思考、对质量的把控
本文展示了在因果分析中使用自定义后端进行样本匹配的方法。主要内容包括: 使用Faiss后端替代scikit-learn的NearestNeighbors,在Lalonde数据集上实现了5倍以上的速度提升(从约2分钟缩短至20秒)。 介绍了如何通过knn_backend参数指定自定义后端,支持直接传入类名或实例化对象两种方式。 提出了倾向得分对数比距离函数,通过log(x/(1-x))转换解决原始差
本文全面梳理了大语言模型(LLM)的主流评估方法。基础评估包括文本相似度指标(BLEU、ROUGE、编辑距离)和语言模型内在性能指标(困惑度)。针对长文本处理能力,介绍了"大海捞针"测试方法。此外,重点分析了综合评测基准体系,涵盖中文/通用模型评测(SuperCLUE、C-Eval)、国际权威榜单(Open LLM Leaderboard、Chatbot Arena)以及专项能力评测(MMLU、G
在软件授权和设备识别领域,设备指纹技术是核心机制之一。其原理是通过收集硬件标识、系统信息等数据生成唯一ID,用于绑定授权状态。这项技术的价值在于保护软件版权和实现精准的用户管理,广泛应用于各类桌面软件和在线服务的许可验证场景。本文聚焦于一个具体案例:通过PowerShell脚本修改Cursor AI代码编辑器的本地设备标识,深入剖析其实现逻辑。该脚本利用正则表达式精准定位并替换JSON配置文件中的
在软件开发领域,日志解析与数据分析是理解系统行为、优化工作流程的基础技术。通过正则表达式和结构化数据处理,可以从原始日志中提取关键事件,转化为可量化的指标。这种技术对于开发者效率洞察具有重要价值,能够将散乱的日志数据转化为可视化的统计报告,帮助量化编码产出、识别工作模式。在实际应用场景中,本地化、隐私优先的设计理念尤为重要,它确保敏感数据不出本地,同时通过配置文件和可扩展架构满足个性化需求。本文聚
模式核心函数作用寻找返回所有非重叠匹配的列表匹配判断整个字符串是否匹配模式替换re.sub()将匹配部分替换为指定字符串删除将匹配部分替换为空字符串实现删除这些案例覆盖了日常处理文本时最常用的正则表达式操作。
match。
事件触发控制代码,每个代码有对应参考文献1.多智能体中基于事件触发的协议2.多智能体分布式系统的事件触发控制3.基于观测器的非理想线性多智能体事件触发的跟踪一致性4.非线性不确定扰动多智能体系统固定时间事件触发一致性控制5.固定拓扑和切换多智能体分布式动态事件触发控制6.线性多智能体全分布式事件触发协议算法7.有限时间约束下的分布式事件触发控制方法在多智能体系统的研究领域,事件触发控制是一个相当热
文本处理是编程和数据处理中的基础且高频的操作,涉及字符串清洗、信息提取、格式转换等核心概念。其原理在于通过正则表达式、字符串算法等对文本模式进行识别与操作,旨在将非结构化或杂乱的文本数据转化为规整、可用的信息。这项技术的价值在于能极大提升开发、数据分析及内容处理等场景下的工作效率与代码复用性。无论是日志分析、数据清洗、内容格式化还是配置文件处理,高效的文本处理工具都是关键支撑。本文聚焦于 txts
文本处理是软件开发中的基础且高频任务,涉及数据清洗、信息提取、格式转换等核心环节。其原理在于通过正则表达式、字符串操作和编码转换等技术,将非结构化或杂乱的文本数据转化为结构化、可用的信息。这项技术的价值在于显著提升开发效率,减少重复劳动,并确保数据处理的一致性与准确性。在实际应用中,文本处理技能广泛服务于日志分析、数据清洗、文档自动化以及API数据序列化等场景。本文以 txtskills 项目为例
在自然语言处理与自动化工作流中,大语言模型(LLM)常默认输出Markdown格式文本,以增强结构化表达。其原理在于利用星号、反引号等轻量级标记语法来标识加粗、代码等元素。然而,这一技术价值在iMessage、短信等纯文本通信场景中却可能适得其反,未经渲染的Markdown符号会严重破坏消息的可读性与专业性。因此,针对消息发送前的格式净化处理,成为提升跨平台通信体验的关键。OpenClaw平台的插
正则表达式作为文本处理的基石技术,通过定义特定模式实现字符串的匹配、查找与替换。其核心原理在于利用元字符和量词构建模式,由正则引擎执行高效的状态机匹配。在数据清洗、日志解析、表单验证等场景中,正则表达式能显著提升处理结构化文本的自动化程度与准确性。OpenClaw Regex Helper技能将这一专业能力无缝集成至AI Agent工作流,通过提供交互式测试、语法验证和性能提示等工具,使Agent
摘要: Deep Research(深度研究)是AI领域的新范式,通过结合检索探索、结构化分析与报告生成,将零散信息转化为连贯的长篇分析报告。其核心架构分为规划、执行和合成三步骤,利用不同模型优化算力分配。开源框架如ByteDance的DeerFlow(多智能体协同)、LangChainAI的OpenDeep_Research(规划-搜索-反思-撰写)和SkyworkAI的Deep_Researc
在现代的推荐系统或 RAG(检索增强生成)业务中,我们不可避免地需要用到检索。最简单直接的方法是将用户的 Query 向量与数据库中的每一个向量进行遍历对比,这被称为“暴力计算”。这种方法精度最高,但效率极低,且面临着非常严峻的。让我们算一笔账:假设一个向量用 1024 维的float32(4字节)表示,那么单个向量的内存占用就是4Byte×1024。1000w×4Byte×102438GB暴力计
文章摘要: AI Agent(智能体)是大模型时代的关键技术,其本质是通过大模型代理人类行为,结合规划、记忆和工具使用来完成复杂任务。OpenAI将其定义为"LLM+规划+记忆+工具",复旦大学则提出"大脑-感知-行动"三模块框架。Agent常见工作模式包括反思模式、工具使用模式、ReAct推理行动模式、规划模式和多智能体协同模式。核心功能Function
UltraEdit实现“删除包含某个关键字的所有行” 1.Ctrl+R调出“替换对话框”2.在左下角的“正则表达式”和“从文件顶部全部替换”都打勾(正则表达式引擎用UltraEdit)3.在“查找内容”后面输入:*select*^p4.在“替换为”后面置空5.点击右侧的“全部替换”但是注意这里的^p只是在unix编码格式中,dos编码格式时要用^
正则表达式
——正则表达式
联系我们(工作时间:8:30-22:00)
400-660-0108 kefu@csdn.net