logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Android架构及四大组件

Android架构及四大组件

#android
【人工智能99问】开篇!

人工智能(Artificial Intelligence,简称AI)是一门跨学科的前沿技术领域,旨在通过计算机系统模拟、延伸和扩展人类智能的能力。其核心目标是使机器能够像人类一样感知环境、理解信息、学习规律,并自主做出决策或执行任务。AI的概念最早可追溯至20世纪50年代,1956年达特茅斯会议正式确立了这一学科,而英国数学家艾伦·图灵在1950年提出的"图灵测试"则为评估机器智能奠定了理论基础。

#人工智能
【人工智能99问】Transformer实例代码全流程解析(30/99)

10层编码器和10层解码器每个层包含残差连接()和层归一化(多头注意力、位置编码、前馈网络等关键组件通过逐行解析可以看到,Transformer的设计核心是并行化处理(替代RNN的序列依赖)和注意力机制(捕捉长距离依赖),而残差连接和层归一化则是实现深层网络稳定训练的关键。

#人工智能#transformer#pytorch
【人工智能99问】层归一化是什么?(29/99)

层归一化是一种用于深度学习模型的归一化技术,通过对神经网络某一层的所有神经元输出进行标准化处理(沿特征维度),使数据分布保持稳定,从而加速训练并提升模型性能。与批量归一化(BatchNorm)不同,LayerNorm不依赖于批量大小,适用于RNN、Transformer等动态或小批量场景。层归一化通过特征维度的标准化和可学习的仿射变换,在保持模型表达能力的同时,显著提升了训练的稳定性和效率。其不依

#人工智能
【人工智能99问】残差链接是什么,是如何起作用的?(28/99)

在传统的深层神经网络中(如VGG),当网络层数增加到一定程度后,模型的性能会出现明显下降——不仅测试误差上升,连训练误差也会上升(并非过拟合,过拟合是训练误差低但测试误差高)。它的核心思想是在网络的某一层与后面的层之间建立直接的“短路”连接,允许输入数据(或特征)绕过中间的部分网络层,直接传递到后续层中。传统网络中,梯度从后层向前层传播时,需要经过多层参数的链式求导,容易导致梯度值变得极小(梯度消

#人工智能
【人工智能99问】注意力机制有哪些?(25/99)

类型核心特点输入来源典型场景复杂度Bahdanau注意力加性得分,参数多编码器+解码器早期机器翻译OnmO(nm)Onm缩放点积注意力乘性得分,无额外参数编码器+解码器机器翻译OnmO(nm)Onm自注意力序列内部依赖单一序列(Q=K=V)On2O(n^2)On2多头注意力多子空间特征单一序列(分多头)Transformer核心Ohn2O(hn^2)Ohn2交叉注意力跨序列依赖两个序列(Q≠K/V

#人工智能
【人工智能99问】神经网络的工作原理是什么?(4/99)

神经网络的基本单元是神经元,也称为节点。每个神经元接收多个输入信号,对这些信号进行加权求和,然后通过一个非线性激活函数(如 Sigmoid、ReLU 等)进行处理,输出一个信号。每一层的神经元都会对前一层的输出进行加权求和和激活处理,最终得到输出层的结果。通过这个简单的例子,我们可以看到神经网络是如何通过前向传播计算输出,通过反向传播更新权重,从而不断优化模型的。我们构建一个简单的神经网络,包含一

#神经网络#人工智能#深度学习
【人工智能99问】LLaMA是什么?(21/99)

LLaMA(Large Language Model Meta AI)是由Meta(原Facebook)于2023年发布的开源大语言模型系列,旨在推动大语言模型的研究普及。其核心定位是高效、高性能的基础语言模型,支持从学术研究到商业应用的多样化场景。LLaMA包含多个参数规模版本(LLaMA 1:7B、13B、33B、65B;LLaMA 2:7B、13B、70B),并通过后续迭代(如LLaMA 2

#人工智能
【人工智能99问】NLP(自然语言处理)大模型有哪些?(20/99)

通过以上分类和对比,企业可根据技术需求、预算和场景灵活选择最适配的NLP大模型,平衡性能、成本与可扩展性。:GPT系列(GPT-3、GPT-4)、LLaMA、Falcon、Claude。:BERT(及其变种RoBERTa、ALBERT)、XLM-R、ERNIE。:百度文心一言(金融/法律)、华为盘古大模型(工业):GPT-4、Gemini 2.5、豆包大模型。

#人工智能#自然语言处理
【人工智能99问】什么是Post-Training,包含哪些内容?(19/99)

Post-Training指在预训练模型(如BERT、GPT、LLaMA等)完成基础训练后,针对特定任务、领域或用户需求进行的进一步优化过程。它通过调整模型参数、优化推理策略或整合领域知识,使模型在保持通用能力的同时,精准适配垂直场景需求。Post-Training作为连接预训练模型与实际应用的关键桥梁,其技术体系已从早期的简单微调发展为涵盖参数调整、推理优化、知识整合、模型压缩的综合框架。它不仅

#人工智能
    共 14 条
  • 1
  • 2
  • 请选择