logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

8. 模型如何读写数据(Tokenizer 与 Token)

大模型通过Tokenizer将文本转换为数字TokenID进行处理。Tokenizer将文本切分为单词、子词或字符,映射为唯一ID,形成词表。模型通过Embedding层将TokenID转为向量输入Transformer,预测下一个Token的概率分布。不同分词器规则各异,影响模型理解。温度参数控制输出随机性,BeamSearch优化解码。训练时使用Padding统一批次长度。Tokenizer决

#人工智能#机器学习#深度学习
5. 后训练中的推理(Reasoning)

文章摘要:推理能力是大模型的核心功能,表现为逐步分析问题并得出正确结果。传统监督学习可能仅记忆答案而缺乏真正理解。思维链(CoT)方法通过训练模型输出推理过程(如<think>标签内容)显著提升推理能力。监督微调(SFT)让模型模仿人类思考,而强化学习(RL)则通过奖励机制让模型自主探索推理路径,可能突破能力上限但训练成本较高。DeepSeek等研究发现,RL可使模型自发形成推理能力。

#人工智能#算法
14. 误差分析(Error Analysis)与灾难性遗忘

例如:会数学会代码会写作会翻译代码能力 ↑翻译能力 ↓数学能力 ↓模型忘记了原来的知识。这就是:灾难性遗忘。fill:#333;important;important;fill:none;color:#333;color:#333;important;fill:none;fill:#333;height:1em;Evaluate训练决定模型参数,评估决定模型方向,而误差分析决定下一步应该修复什么。

#机器学习#人工智能#支持向量机
13. 强化学习中的评估、奖励设计与 Reward Hacking

获得能力提升需要多少次训练回合。例如:1000次回合提升10%100次回合提升10%B更高效强化学习最大的挑战不是训练模型,而是设计正确的奖励和评估系统。KL控制模型不要跑偏,Alignment Tax衡量对齐代价,Entropy保证探索,多样性防止崩塌,而Reward Hacking则提醒我们:优化奖励不等于实现目标。

#人工智能
12. 为什么评估(Evals)比训练更重要

测试集:模型从未见过的数据。作用:衡量模型真实泛化能力。模型说:90%概率正确真的90%正确模型说90%实际只有50%则:过度自信(Overconfidence)训练决定模型会什么,评估决定模型应该学什么。在后训练时代,最优秀的团队往往不是训练能力最强,而是评估体系最完善。

#人工智能#机器学习#深度学习
3. 微调(Fine-tuning)与强化学习(RL)的核心思想

大模型后训练阶段的核心方法包括微调(Fine-tuning)和强化学习(RL)。微调通过让模型模仿人类提供的标准答案来优化行为,强调过程的正确性和稳定性,适合指令性任务,但依赖高质量数据且创造力有限。强化学习则通过奖励机制让模型自主探索最优策略,关注结果而非固定流程,能激发更强推理能力和创新性,但训练难度高且稳定性较差。两者在数据需求上也有差异:微调需要标准答案数据,而RL依赖有效的评分机制。简言

#python#深度学习#算法
2. 大模型训练的三个阶段

大模型训练分为三个阶段:预训练通过海量数据学习语言规律和世界知识,形成基础智能;中训练使用高质量专业数据强化特定领域能力,如多模态支持或长文本处理;后训练通过监督微调和强化学习优化模型交互能力,使其更符合人类偏好。三个阶段分别解决"有知识"、"更专业"和"更会交流"的问题,共同塑造出实用的AI助手。预训练成本最高但通用性强,后训练对最终用

#人工智能#深度学习#机器学习
以太坊的P2P网络协议:世界计算机的“神经网络”

中心化的脆弱:如果AWS宕机,以太坊上的所有 DeFi、NFT 和智能合约瞬间瘫痪。权力的集中:拥有服务器的人可以随意回滚交易,甚至没收你的资产。但以太坊的目标是成为不可阻挡无主之地:没有公司拥有它,没有 CEO 管理它。永不停歇:只要地球上还有一个节点在运行,网络就活着。这个“永不宕机”的奇迹,依赖于以太坊底层的 P2P 网络层(DevP2P 和 LibP2P)。💡思考一下相比于比特币只是单纯

#p2p#区块链#web3
web3.py 在以太坊上编写自己的加密货币(如何构建 ERC-20 代币)

在线平台信誉积分:例如在特定社区中,用户通过完成任务或参与互动积累的积分。游戏角色技能:游戏内角色所具备的独特技能,以代币形式体现其价值。金融资产:类似公司股份的资产,在区块链上实现数字化流转。法定货币:如与美元等法定货币等值的代币。实物资产:像一盎司黄金这样的实物,通过代币化实现便捷交易。更多可能:代币的潜力无限,还可代表其他各种价值。以太坊的这一强大特性,需要强有力的标准来规范,而 ERC-2

#web3.py#区块链
到底了