logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

谁都能听懂的Transformer架构-大模型学习知识的过程和原理~像教小孩识字一样简单

自动驾驶汽车为什么能认出红绿灯?这些神奇功能的背后,其实藏着一个会"学习"的数学模型——神经网络。大模型的前馈网络、注意力计算网络都是基于神经网络进行计算,那神经网络是怎么学习到知识的?

文章图片
#transformer#学习#深度学习
秒懂大模型:如何深度定制一个大模型?

深度定制大模型是一个系统性工程,涉及从需求定义、数据构建、架构调整到训练优化、对齐适配的全流程改造,核心目标是让模型在特定领域、任务或场景下达到远超通用模型的性能。以下是深度定制的关键步骤与技术路径。

文章图片
#深度学习#人工智能#机器学习
AI研究必看:AIGC在做短视频时的算力要求?

AIGC(生成式人工智能)在短视频创作中的算力要求并非固定值,而是受技术路径(模型类型)、短视频内容复杂度(分辨率 / 时长 / 特效)、生产效率(实时性 / 批量生成) 三大核心因素影响,不同场景下的算力需求可相差数个数量级。以下从技术分类、关键影响因素、典型场景算力参考三个维度,系统解析其算力要求。

文章图片
#人工智能#AIGC#音视频
AI研究必看:AIGC在做短视频时的算力要求?

AIGC(生成式人工智能)在短视频创作中的算力要求并非固定值,而是受技术路径(模型类型)、短视频内容复杂度(分辨率 / 时长 / 特效)、生产效率(实时性 / 批量生成) 三大核心因素影响,不同场景下的算力需求可相差数个数量级。以下从技术分类、关键影响因素、典型场景算力参考三个维度,系统解析其算力要求。

文章图片
#人工智能#AIGC#音视频
谁都看得懂的大模型:如何评估大模型微调&训练所需硬件成本

大模型相关的技术岗位竞争也到了白热化阶段。为满足大家碎片化时间复习补充面试知识点的需求持续更新工作学习中遇到大模型技术与工程方面的面试题及其讲解。每个讲解都有一个必考题和相关热点问题组成。

文章图片
#算法#数据结构
一篇详解大模型:强化学习与有监督学习的区别

有监督学习:像按旅行指南走,一切明确,但缺乏灵活性。强化学习:像自由探索陌生城市,虽然起初困难,但能学到更灵活、更长远的策略。少设计规则,多给模型自由,它自己会找到更优解。

文章图片
#学习#人工智能
AIGC中的图像生成Stable Diffusion,MidJourney需要的算力配置要求是什么?

在 AIGC 图像生成领域,Stable Diffusion和MidJourney的算力配置需求差异显著,前者依赖本地硬件或云服务器,后者则完全依托云端集群。以下从本地 / 云端硬件要求、生成速度与成本、优化策略三个维度展开分析。

文章图片
#算法#人工智能#AI作画
大语言模型与多模态融合架构介绍

随着 Transformer 架构 的成功,人工智能不仅在语言处理上突飞猛进,在视觉、语音等领域也迎来了突破。如今,研究者们已经能够把“看”和“听”的能力与“语言”结合起来,形成了功能强大的 视觉-语言模型 和 音频-语言模型。

文章图片
#语言模型#人工智能#自然语言处理
谁都能听懂的Transformer架构-大模型学习知识的过程和原理

你有没有想过,手机里的语音助手是怎么听懂你说的话?或者自动驾驶汽车为什么能认出红绿灯?这些神奇功能的背后,其实藏着一个会"学习"的数学模型——神经网络。大模型的前馈网络、注意力计算网络都是基于神经网络进行计算,那神经网络是怎么学习到知识的?

文章图片
#transformer#学习#深度学习
谁都能听懂的Transformer架构-大模型学习知识的过程和原理

你有没有想过,手机里的语音助手是怎么听懂你说的话?或者自动驾驶汽车为什么能认出红绿灯?这些神奇功能的背后,其实藏着一个会"学习"的数学模型——神经网络。大模型的前馈网络、注意力计算网络都是基于神经网络进行计算,那神经网络是怎么学习到知识的?

文章图片
#transformer#学习#深度学习
    共 38 条
  • 1
  • 2
  • 3
  • 4
  • 请选择