闵浮龙个人主页

@qq1137623160

闵浮龙

2023-12-07 13:28:25 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

保姆级教程：从零开始安装Python和PyCharm，搭建你的Python开发环境

IDE（集成开发环境）就像程序员的“瑞士军刀”，它集成了代码编辑器、调试器、终端、版本控制等工具，让你在一个界面里完成所有开发工作。PyCharm由JetBrains公司开发，功能强大，智能提示、代码补全、重构、调试都非常好用，是Python开发的标杆工具。Professional（专业版）：支持Web开发（Django、Flask）、数据库工具等，收费但提供30天试用。Community（社区版

#python #pycharm #开发语言

大模型训练显存爆炸？一文详解显存计算与优化技巧

模型状态是基础：16Φ（FP32/混合精度）是单卡训练的理论下限，必须通过分布式切分才能降低。激活值与序列长度强相关：长序列时激活可能超过模型状态，梯度检查点是必备手段。ZeRO是数据并行的革命：通过分片状态，将显存占用与卡数成反比，是大规模训练的核心技术。模型并行与ZeRO相辅相成：张量并行和流水线并行能进一步切分模型，与ZeRO组合实现极致显存节省。通信开销是代价：任何显存优化都会增加通信量，

#人工智能 #深度学习 #机器学习

大模型的“大脑”是如何构造的？深度拆解语义建模的三种典型架构

这是一个很有意思的问题。既然BERT在理解上那么强，为什么最后大家都跑去搞GPT了？生成能力是通向通用人工智能的关键一步，而纯解码器架构在“大”模型时代表现出了更强的扩展性和涌现能力。任务统一：纯解码器架构将所有任务（翻译、问答、写作）都统一成了“文本续写”。这种简洁性使得训练过程无比高效。扩展性极佳：其单向因果掩码的结构非常稳定，更容易训练超大规模的模型。而编码器-解码器架构在扩展到千亿参数时，

#人工智能

大模型如何分清“我爱你”和“你爱我”？——深度拆解位置编码的奥秘

位置编码是Transformer架构的必要组件，它弥补了自注意力机制无法处理序列顺序的先天缺陷。绝对位置编码（如BERT的训练式、Transformer的Sinusoidal）给每个位置分配唯一标识，简单直观，但存在长度外推的问题。Sinusoidal编码通过三角函数的性质，还能隐式地表示相对位置。相对位置编码（如XLNet、T5、DeBERTa、RoPE、ALiBi）关注词与词之间的相对距离，通

#人工智能

BERT句子向量效果差？别急，用对比学习把它“掰正”！

原始BERT的句子向量不行，是因为预训练任务没要求句子级别的区分度，导致向量空间狭窄、各向异性。好句子向量的标准是对齐性和均匀性：相似的靠拢，不同的分散。对比学习是解决问题的核心手段：通过拉近正例、推开负例，让模型学会语义区分。SBERT用标注数据做有监督对比学习，效果好但依赖数据。SimCSE用Dropout造正例，实现无监督对比学习，让训练不再依赖标注。池化方式很重要，平均池化往往比[CLS]

#bert #学习 #人工智能

炸裂！Tokenizer决定AI智商？深度剖析词、子词、字符分词对词向量的致命影响

BPE：看次数，谁俩天天腻在一起，我就把它们撮合成一家人。WordPiece：看收益，你俩结婚，能不能让整个家族（句子）的价值（概率）变得更高？能，就结。粒度优点缺点适用场景对词向量影响词 (Word)直观，符合人类认知，语义清晰OOV严重，数据稀疏，形态鸿沟受限的、规范的专业领域向量独立，低频词质量极差子词 (Subword)平衡之王：解决OOV，捕捉构词法，数据充足需要复杂算法训练（BPE/W

#人工智能

从“火星文”到语义理解：破解NLP中的OOV未登录词难题

溢出词表词问题，本质上是“有限词表”与“无限语言”之间的矛盾。瀑布式查找法：通过大小写变换、词干提取、拼写纠错等手段，从预训练词表中“借”一个向量。它像是一个“救火队员”，在词级别做补救。子词与字符向量法：通过将词拆解成更细粒度的子词或字符，从根本上解决了“没见过”的问题。它像是一个“建筑师”，从地基开始构建表示。从 FastText 到 BERT，再到今天的大模型，子词方案已经深深嵌入现代 NL

#自然语言处理 #人工智能

从独热编码到BERT：一文看懂NLP语义表达的进化之路

第一阶段：独热编码——解决了“怎么表示词”的问题，但词与词之间没有语义关系。第二阶段：word2vec等稠密词向量——基于分布式语义假设，让语义相近的词在向量空间里也靠得近，实现了语义的可计算。第三阶段：BERT等预训练语言模型——引入自注意力机制，实现了上下文相关的动态词向量，彻底攻克了一词多义难题。每一步的演进，都是对前一步局限性的突破：独热编码太稀疏 → 稠密向量来压缩静态向量无法表达多义

#自然语言处理 #bert #人工智能

揭秘AI Agent质量优化：让大模型告别“幻觉”，建立用户反馈闭环

Self-Check（自我检查）是一种让AI Agent自己检查生成内容是否被检索资料支撑的技术。简单来说，就是让AI扮演“双重角色”——先是内容生成者，再是内容审查官。第一层：可靠性提升Self-Check机制确保每一句话都有据可依，从根本上杜绝“一本正经地胡说八道”。这不仅是技术优化，更是对用户的基本尊重。第二层：持续进化能力用户反馈不再是躺在数据库里的冷数据，而是驱动系统不断优化的燃料。第三

#人工智能 #大数据

4个核心指标，让你的Agent在生产环境中稳如泰山

回到开篇的那个场景，如果你已经按照本文的方法搭建了监控体系，当系统出问题时，你会在第一时间收到告警，打开Grafana就能看到是哪个指标异常，顺着异常指标能快速定位到具体问题——可能是某个工具接口变慢了，可能是某个模型的API密钥过期了，可能是流量突然暴涨需要扩容。变被动救火为主动发现，变黑盒猜测为白盒定位。监控不是事后补救，而是事前预警。设计指标时要想着“这个指标出问题了我该怎么办”，否则这个指

#人工智能 #运维

共 80 条

请选择