logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

保姆级教程:从零开始安装Python和PyCharm,搭建你的Python开发环境

IDE(集成开发环境)就像程序员的“瑞士军刀”,它集成了代码编辑器、调试器、终端、版本控制等工具,让你在一个界面里完成所有开发工作。PyCharm由JetBrains公司开发,功能强大,智能提示、代码补全、重构、调试都非常好用,是Python开发的标杆工具。Professional(专业版):支持Web开发(Django、Flask)、数据库工具等,收费但提供30天试用。Community(社区版

文章图片
#python#pycharm#开发语言
大模型训练显存爆炸?一文详解显存计算与优化技巧

模型状态是基础:16Φ(FP32/混合精度)是单卡训练的理论下限,必须通过分布式切分才能降低。激活值与序列长度强相关:长序列时激活可能超过模型状态,梯度检查点是必备手段。ZeRO是数据并行的革命:通过分片状态,将显存占用与卡数成反比,是大规模训练的核心技术。模型并行与ZeRO相辅相成:张量并行和流水线并行能进一步切分模型,与ZeRO组合实现极致显存节省。通信开销是代价:任何显存优化都会增加通信量,

#人工智能#深度学习#机器学习
大模型的“大脑”是如何构造的?深度拆解语义建模的三种典型架构

这是一个很有意思的问题。既然BERT在理解上那么强,为什么最后大家都跑去搞GPT了?生成能力是通向通用人工智能的关键一步,而纯解码器架构在“大”模型时代表现出了更强的扩展性和涌现能力。任务统一:纯解码器架构将所有任务(翻译、问答、写作)都统一成了“文本续写”。这种简洁性使得训练过程无比高效。扩展性极佳:其单向因果掩码的结构非常稳定,更容易训练超大规模的模型。而编码器-解码器架构在扩展到千亿参数时,

文章图片
#人工智能
大模型如何分清“我爱你”和“你爱我”?——深度拆解位置编码的奥秘

位置编码是Transformer架构的必要组件,它弥补了自注意力机制无法处理序列顺序的先天缺陷。绝对位置编码(如BERT的训练式、Transformer的Sinusoidal)给每个位置分配唯一标识,简单直观,但存在长度外推的问题。Sinusoidal编码通过三角函数的性质,还能隐式地表示相对位置。相对位置编码(如XLNet、T5、DeBERTa、RoPE、ALiBi)关注词与词之间的相对距离,通

#人工智能
BERT句子向量效果差?别急,用对比学习把它“掰正”!

原始BERT的句子向量不行,是因为预训练任务没要求句子级别的区分度,导致向量空间狭窄、各向异性。好句子向量的标准是对齐性和均匀性:相似的靠拢,不同的分散。对比学习是解决问题的核心手段:通过拉近正例、推开负例,让模型学会语义区分。SBERT用标注数据做有监督对比学习,效果好但依赖数据。SimCSE用Dropout造正例,实现无监督对比学习,让训练不再依赖标注。池化方式很重要,平均池化往往比[CLS]

文章图片
#bert#学习#人工智能
炸裂!Tokenizer决定AI智商?深度剖析词、子词、字符分词对词向量的致命影响

BPE:看次数,谁俩天天腻在一起,我就把它们撮合成一家人。WordPiece:看收益,你俩结婚,能不能让整个家族(句子)的价值(概率)变得更高?能,就结。粒度优点缺点适用场景对词向量影响词 (Word)直观,符合人类认知,语义清晰OOV严重,数据稀疏,形态鸿沟受限的、规范的专业领域向量独立,低频词质量极差子词 (Subword)平衡之王:解决OOV,捕捉构词法,数据充足需要复杂算法训练(BPE/W

#人工智能
从“火星文”到语义理解:破解NLP中的OOV未登录词难题

溢出词表词问题,本质上是“有限词表”与“无限语言”之间的矛盾。瀑布式查找法:通过大小写变换、词干提取、拼写纠错等手段,从预训练词表中“借”一个向量。它像是一个“救火队员”,在词级别做补救。子词与字符向量法:通过将词拆解成更细粒度的子词或字符,从根本上解决了“没见过”的问题。它像是一个“建筑师”,从地基开始构建表示。从 FastText 到 BERT,再到今天的大模型,子词方案已经深深嵌入现代 NL

文章图片
#自然语言处理#人工智能
从独热编码到BERT:一文看懂NLP语义表达的进化之路

第一阶段:独热编码——解决了“怎么表示词”的问题,但词与词之间没有语义关系。第二阶段:word2vec等稠密词向量——基于分布式语义假设,让语义相近的词在向量空间里也靠得近,实现了语义的可计算。第三阶段:BERT等预训练语言模型——引入自注意力机制,实现了上下文相关的动态词向量,彻底攻克了一词多义难题。每一步的演进,都是对前一步局限性的突破:独热编码太稀疏 → 稠密向量来压缩静态向量无法表达多义

#自然语言处理#bert#人工智能
揭秘AI Agent质量优化:让大模型告别“幻觉”,建立用户反馈闭环

Self-Check(自我检查)是一种让AI Agent自己检查生成内容是否被检索资料支撑的技术。简单来说,就是让AI扮演“双重角色”——先是内容生成者,再是内容审查官。第一层:可靠性提升Self-Check机制确保每一句话都有据可依,从根本上杜绝“一本正经地胡说八道”。这不仅是技术优化,更是对用户的基本尊重。第二层:持续进化能力用户反馈不再是躺在数据库里的冷数据,而是驱动系统不断优化的燃料。第三

#人工智能#大数据
4个核心指标,让你的Agent在生产环境中稳如泰山

回到开篇的那个场景,如果你已经按照本文的方法搭建了监控体系,当系统出问题时,你会在第一时间收到告警,打开Grafana就能看到是哪个指标异常,顺着异常指标能快速定位到具体问题——可能是某个工具接口变慢了,可能是某个模型的API密钥过期了,可能是流量突然暴涨需要扩容。变被动救火为主动发现,变黑盒猜测为白盒定位。监控不是事后补救,而是事前预警。设计指标时要想着“这个指标出问题了我该怎么办”,否则这个指

#人工智能#运维
    共 80 条
  • 1
  • 2
  • 3
  • 8
  • 请选择