logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

transfomer学习|大白话讲解transformer 简述

今天开始学习DataWhale组队学习fun-transformer,今天学习task2 transformer 简述!【教程地址】【开源地址】你有个朋友,他特别厉害,能听懂你说的话,还能用另一种语言把意思准确地翻译出来。Transformer模型就像是这样一个超级聪明的“翻译官”,它能够理解语言,并且把一种语言转换成另一种语言,或者完成其他和语言相关的任务,比如总结文章、回答问题等等。词嵌入:给

文章图片
#transformer
第三章深度解析:智能体“大脑”的底层逻辑——大语言模型技术基石全拆解

第三章的核心是“揭秘LLM的底层逻辑”——从统计语言模型的概率计算,到Transformer的注意力机制,再到实际应用中的提示工程、分词、模型选型,每一个知识点都是构建智能体“大脑”的关键。理解这些原理,能帮助我们更好地设计提示词、选择合适的模型、规避幻觉等局限,为后续智能体的构建和优化打下坚实基础。LLM的本质是“通过海量数据学习语言规律和世界知识,再通过自回归生成文本”,而Transforme

文章图片
#语言模型#人工智能#自然语言处理
Hello-Agents第一章深度解析:智能体的本质、构建与实践

能够通过传感器感知环境、自主通过执行器采取行动,以达成特定目标的实体。环境(Environment):智能体所处的外部场景,比如自动驾驶的“道路交通”、交易算法的“金融市场”、智能旅行助手的“航旅服务网络”。传感器(Sensors):感知环境的“触角”,可以是物理设备(摄像头、雷达),也可以是虚拟工具(API返回数据、用户输入)。例如旅行助手通过解析航旅API获取机票信息,就是传感器在工作。

文章图片
#人工智能
第四章深度解析:智能体经典范式实战指南——从ReAct到Reflection的全流程拆解

第四章通过三个经典范式,构建了智能体“从决策到落地”的完整技术链条:ReAct 解决“动态环境中的步进决策”,Plan-and-Solve 解决“结构化任务的高效执行”,Reflection 解决“高质量输出的迭代优化”。三者并非互斥,而是可根据场景灵活组合,形成更强大的混合架构。代码实现的核心是“模块化封装”——LLM客户端提供通用调用能力,工具层提供与外部世界交互的接口,范式层实现核心决策逻辑

文章图片
#人工智能
Computing Machinery and Intelligence

过度乐观?图灵低估了“常识与世界知识”的体量。现代LLM参数量已超10¹¹,仍难言通过严格图灵测试。可证伪性?图灵测试本质是黑箱行为主义,忽视内部机制;Searle“中文屋”思想实验正是针对此。性别与伦理早期游戏用“男女角色扮演”如今看存在刻板印象,可改用更中性设定。ESP插曲虽显幽默,却提示:测试环境必须排除信息泄露与人类超能力。工程启示图灵70年前已提出“预训练+微调”范式(儿童机→教育),与

文章图片
#人工智能
学透DPO:从理论到实践,手把手改模型身份

定位:不用复杂奖励模型,靠正负样本就能调模型行为的“轻量优化方法”;优势:改行为(如换身份)高效,还能提升模型能力,比SFT更懂“偏好”;落地关键:数据要高质量(正负样本对比明确),超参数(尤其是β)要调好,避免过拟合;实践价值:小到改模型身份,大到优化安全响应,都能用,而且计算成本不高(小模型CPU也能跑流程)。一句话:想让模型“按你的偏好做事”,又不想搞太复杂,DPO就是首选——这也是它在LL

文章图片
#人工智能
第三章深度解析:智能体“大脑”的底层逻辑——大语言模型技术基石全拆解

第三章的核心是“揭秘LLM的底层逻辑”——从统计语言模型的概率计算,到Transformer的注意力机制,再到实际应用中的提示工程、分词、模型选型,每一个知识点都是构建智能体“大脑”的关键。理解这些原理,能帮助我们更好地设计提示词、选择合适的模型、规避幻觉等局限,为后续智能体的构建和优化打下坚实基础。LLM的本质是“通过海量数据学习语言规律和世界知识,再通过自回归生成文本”,而Transforme

文章图片
#语言模型#人工智能#自然语言处理
深度学习实践方法论:一张“排错地图”搞清模型偏差/优化问题/过拟合/交叉验证/数据不匹配

训练集上的损失就降不下去。不是因为你训练不够久,而是模型的“表达能力”不足,装不下真实规律。大海捞针。如果针真的在海里,你努力(更大模型/更久训练)还有机会捞到;但如果针根本不在海里(模型假设空间里就没有正确答案),你捞到天荒地老也没用。不匹配和过拟合不同:它指的是训练集和测试集分布不同。这时就算你再收集训练数据也可能没用。原文例子:用2020年数据做训练、2021年数据做测试,就可能严重不匹配,

文章图片
#深度学习#人工智能
InnoCore AI:基于多智能体协作的智能科研助手实践

InnoCore AI 是我们在智能科研助手领域的一次探索和实践。通过多智能体协作、PDF 深度解析、智能引用校验等技术,我们实现了科研全流程的自动化。

文章图片
#人工智能
THE PERCEPTRON: A PROBABILISTIC MODEL FOR INFORMATION STORAGE AND ORGANIZATION IN THE BRAIN

感知机是一个模拟神经系统信息处理的“假设性机器”,其设计目标不是复刻生物细节,而是提炼智能系统的通用特性,因此与生物系统的类比是直观的。

文章图片
#人工智能#深度学习#神经网络
    共 25 条
  • 1
  • 2
  • 3
  • 请选择