阿里云ACP人工智能工程师认证复习汇总

本文档覆盖ACP人工智能工程师认证的高频考点有助于需要考试的考生复习。

jckl

456人浏览 · 2026-05-21 14:10:11

jckl · 2026-05-21 14:10:11 发布

考试内容及分值分布

章节	分值占比
人工智能建模流程与基础知识	20%
阿里云机器学习平台PAI	15%
视觉智能基础知识	11%
智能语音处理基础知识	10%
自然语言处理基础知识	10%
阿里云视觉智能	8%
阿里云智能语音交互	8%
阿里云自然语言处理	8%
人工智能与人工智能技术概述	4%
阿里云人工智能产品体系概述	6%

第一章：人工智能建模流程与基础知识（20%）

这是考试占比最高的部分，也是所有AI项目的通用方法论。

1.1 标准建模流程（必须熟记顺序）

业务理解

(明确目标)

→

数据准备

(采集/清洗)

→

特征工程

(特征构建)

↓

模型部署

(上线服务)

←

模型评估

(效果验证)

←

模型训练

(算法选择)

考点陷阱：题目常考"特征工程在数据准备之前还是之后"——一定是数据准备之后。

1.2 数据准备阶段重点

环节	核心考点
数据采集	数据来源类型（结构化/非结构化/半结构化）
数据清洗	处理缺失值、异常值、重复值的方法
数据标注	分类标注、边界框标注、语义分割标注、关键点标注
数据增强	图像：旋转、翻转、裁剪、亮度调整；文本：同义词替换、回译

易混淆点：

数据标注 vs 数据增强：标注是人工/半人工打标签；增强是自动生成新样本

结构化数据：表格形式（Excel、数据库）；非结构化：图片、语音、文本

1.3 特征工程重点

技术	适用场景	阿里云工具
特征缩放（归一化/标准化）	不同量纲的特征	PAI-Designer内置
特征选择（过滤法/包裹法/嵌入法）	高维数据降维	PAI-FeatureStore
特征编码（One-Hot/Label Encoding）	类别型变量	PAI-Designer内置
特征交叉	推荐系统、广告	PAI-FeatureStore

考试常考：标准化（Z-score）vs 归一化（Min-Max）的区别

标准化：均值为0，方差为1，适用于未知边界、存在异常值

归一化：缩放到[0,1]，适用于已知边界、无异常值

1.4 模型训练核心算法（必须掌握原理和适用场景）

算法类型	代表算法	适用场景	关键参数
线性回归	简单线性回归	连续值预测	学习率、迭代次数
逻辑回归	二分类/多分类	广告点击预测	正则化强度
决策树	CART、ID3	可解释性强的分类	树深度、叶子节点数
随机森林	Bagging集成	高维数据分类	树的数量、特征采样比
XGBoost/LightGBM	Boosting集成	竞赛/工业界首选	学习率、树深度、子采样
SVM	支持向量机	高维小样本	核函数类型、C值
K-Means	聚类	无标签数据分组	K值、距离度量
KNN	近邻算法	小样本分类	K值、距离度量
神经网络	MLP、CNN、RNN	复杂模式识别	层数、神经元数、激活函数

高频考点：

过拟合 vs 欠拟合：

过拟合：训练集好，测试集差 → 增加数据、正则化、Dropout、早停

欠拟合：训练集和测试集都差 → 增加模型复杂度、减少正则化

偏差-方差权衡：高偏差=欠拟合，高方差=过拟合

交叉验证：K折交叉验证（K=5或10最常见）

1.5 模型评估指标（重点！不同任务指标不同）

任务类型	核心指标	公式/含义
二分类	准确率(Accuracy)	(TP+TN)/(TP+TN+FP+FN)
	精确率(Precision)	TP/(TP+FP) —— 预测为正的中多少是真的
	召回率(Recall)	TP/(TP+FN) —— 真的是正的中多少被找出来
	F1-Score	2×Precision×Recall/(Precision+Recall)
	AUC-ROC	ROC曲线下面积，衡量排序能力
	KS值	好坏样本累计分布差异最大值
多分类	宏平均/微平均F1	按类别平均或按样本平均
回归	MSE（均方误差）	预测值与真实值差的平方平均
	MAE（平均绝对误差）	绝对差平均，对异常值更鲁棒
	RMSE	MSE开根号，与原始量纲一致
	R²	模型解释数据变异的比例
聚类	轮廓系数	[-1,1]，越接近1越好
	CH指数	越大越好

考试陷阱题：

"在欺诈检测中，应该更关注精确率还是召回率？" → 召回率（宁可错杀不可放过）

"在垃圾邮件过滤中，应该更关注精确率还是召回率？" → 精确率（宁可放过不可错杀）

1.6 模型部署与监控

环节	考点
模型导出	PMML、ONNX、SavedModel格式
服务部署	REST API、批量推理、流式推理
A/B测试	流量切分、指标对比
模型监控	数据漂移(Data Drift)、概念漂移(Concept Drift)
模型迭代	在线学习、定期全量重训练

第二章：阿里云机器学习平台PAI（15%）

这是阿里云特有的产品知识，非阿里云用户最容易丢分，必须重点攻克。

2.1 PAI产品体系全景图

阿里云机器学习平台 PAI
PAI-iTag (智能标注)	PAI-Designer (可视化建模)	PAI-DSW (Notebook)	PAI-DLC (深度学习训练)
PAI-FeatureStore (特征平台)
PAI-AutoML (自动机器学习)
PAI-EAS (模型在线服务)

2.2 各组件详细考点

PAI-iTag（数据标注）

考点	内容
功能	图像分类、物体检测、图像分割、OCR、文本分类、语音标注
标注模式	人工标注、智能标注（预标注+人工复核）、众包标注
输出格式	支持导出为PAI标准格式、COCO、VOC等
考试重点	智能标注如何减少人工成本、标注质量如何保证

PAI-Designer（可视化建模，原名PAI-Studio）

考点	内容
定位	零代码/低代码机器学习平台
核心功能	拖拽式组件、内置数百种算法组件、自动生成实验流程
适用人群	算法工程师、业务人员（无需写代码）
与DSW区别	Designer是可视化拖拽，DSW是写代码
考试重点	组件连接逻辑、数据流走向、常见算法组件位置

高频考题："业务人员想做客户流失预测，推荐使用PAI的哪个组件？" → PAI-Designer

PAI-DSW（Data Science Workshop）

考点	内容
定位	交互式开发环境（Notebook）
支持语言	Python、R
预装环境	TensorFlow、PyTorch、XGBoost、Scikit-learn
资源类型	CPU、GPU（V100、A100等）
适用场景	自定义算法开发、复杂数据探索、深度学习
与Designer区别	DSW需要写代码，更灵活；Designer拖拽即可

PAI-DLC（Deep Learning Container）

考点	内容
定位	深度学习训练平台
功能	分布式训练、超大规模模型训练
支持框架	TensorFlow、PyTorch、MXNet、Horovod
资源调度	支持抢占式实例、Spot实例降成本
与DSW区别	DLC是提交训练任务，DSW是交互式开发

考试重点："需要训练一个10亿参数的NLP模型，应该用PAI-DLC还是DSW？" → PAI-DLC（DLC支持分布式大规模训练）

PAI-FeatureStore（特征平台）

考点	内容
功能	特征统一管理、在线/离线特征一致性
核心概念	特征实体、特征表、特征版本、特征血缘
在线/离线一致性	解决训练-推理特征不一致问题（Training-Serving Skew）
适用场景	推荐系统、风控模型（特征复用频繁）

高频考点：FeatureStore解决的核心痛点是 "在线特征和离线特征不一致"

PAI-AutoML（自动机器学习）

考点	内容
功能	自动特征工程、自动算法选择、自动超参调优
超参搜索方法	网格搜索、随机搜索、贝叶斯优化、进化算法
适用场景	快速原型验证、非专家用户
与手动建模对比	效率更高，但可能不是最优解

PAI-EAS（Elastic Algorithm Service）

考点	内容
定位	模型在线推理服务
部署方式	镜像部署、Processor部署（PAI内置）
弹性伸缩	自动扩缩容、按QPS/CPU/内存触发
灰度发布	支持A/B测试、金丝雀发布
监控指标	QPS、Latency、Error Rate、资源使用率

考试重点：

EAS支持 GPU/CPU混合部署

模型更新支持 热更新（不停机）

与函数计算FC的区别：EAS专为模型推理优化，FC是通用Serverless

2.3 PAI各组件选型场景（必考！）

业务场景	推荐组件	原因
业务人员做销售预测，不会写代码	PAI-Designer	可视化拖拽
算法工程师开发新推荐算法	PAI-DSW	需要自定义代码
训练百亿参数大模型	PAI-DLC	分布式训练能力
特征在不同模型间复用	PAI-FeatureStore	特征统一管理
快速验证哪个算法效果最好	PAI-AutoML	自动算法选择
模型上线提供API服务	PAI-EAS	在线推理服务
大量图片需要标注	PAI-iTag	智能标注降成本

2.4 PAI与阿里云其他产品集成

集成产品	用途
OSS	存储训练数据、模型文件
MaxCompute	大数据计算，作为PAI数据源
DataWorks	数据集成、ETL调度
RDS/PolarDB	结构化数据存储
日志服务SLS	采集日志数据用于训练
API网关	为EAS服务提供统一入口

第三章：视觉智能基础知识（11%）

3.1 计算机视觉核心任务

任务	定义	典型应用
图像分类	判断整张图属于哪个类别	商品分类、医学影像诊断
目标检测	找出图中物体位置+类别	人脸检测、车辆检测
图像分割	像素级分类	医学影像分割、自动驾驶
	语义分割：只分类不区分实例
	实例分割：分类+区分不同个体
OCR	光学字符识别	身份证识别、发票识别
图像生成	生成新图像	AI绘画、数据增强
视频分析	时序+空间分析	行为识别、视频摘要

3.2 经典网络架构（考点）

网络	特点	适用任务
CNN/卷积神经网络	局部连接、权值共享	图像基础特征提取
ResNet	残差连接，解决梯度消失	深层网络训练
VGG	小卷积核(3×3)堆叠	图像分类
YOLO	单阶段检测，速度快	实时目标检测
Faster R-CNN	双阶段检测，精度高	高精度目标检测
Mask R-CNN	在Faster R-CNN上加分割分支	实例分割
U-Net	编码器-解码器结构	医学图像分割
Transformer/ViT	注意力机制	大规模图像理解

3.3 阿里云视觉智能产品

产品	功能	考试重点
视觉智能开放平台	提供API调用	通用视觉能力
图像搜索	以图搜图	商品搜索、版权保护
人脸识别	人脸检测、比对、属性	1:1/1:N比对、活体检测
OCR	通用文字、卡证、票据、表格	各场景精度差异
内容安全	图片/视频违规检测	鉴黄、暴恐、 politically sensitive

第四章：智能语音处理基础知识（10%）

4.1 语音技术核心链路

音频采集 → 预处理(降噪/去混响) → 特征提取(MFCC/FBank) → 声学模型 → 语言模型 → 后处理 → 文本输出

4.2 三大语音任务

任务	定义	关键指标
语音识别(ASR)	语音转文字	WER（词错误率）、CER（字错误率）
语音合成(TTS)	文字转语音	MOS（主观评分）、相似度
语音唤醒	检测特定唤醒词	唤醒率、误唤醒率

4.3 阿里云智能语音交互产品

产品	功能	考试重点
语音识别	一句话识别、实时识别、录音文件识别	适用场景差异
语音合成	标准音色、定制音色	情感合成、多语言
语音唤醒	设备唤醒	低功耗、远场识别
说话人识别	声纹识别	1:1/1:N

第五章：自然语言处理基础知识（10%）

5.1 NLP核心任务

任务层级	具体任务	说明
词法分析	分词、词性标注、命名实体识别	基础处理
句法分析	依存句法分析、成分句法分析	句子结构
语义分析	词向量、语义相似度、文本分类	理解含义
语用分析	情感分析、意图识别、对话管理	实际应用

5.2 预训练模型（重点）

模型	特点	阿里云对应
BERT	双向编码，理解能力强	通义千问基础
GPT	单向生成，生成能力强	通义千问对话
Transformer	注意力机制，并行计算	大模型底座
通义千问	阿里云自研大模型	产品化应用

5.3 阿里云NLP产品

产品	功能	考试重点
自然语言处理平台	基础NLP能力API	分词、NER、情感分析
文档智能	文档解析、抽取、比对	合同、财报处理
机器翻译	多语言翻译	通用/专业领域
通义千问	大模型对话、推理	应用场景

一、计算机视觉概述

1.1 计算机视觉定义

使机器能够"看"并理解图像和视频内容的技术

目标：从视觉数据中提取有用信息，做出决策或理解场景

1.2 视觉任务层次

低层视觉	→	中层视觉	→	高层视觉
图像滤波		目标检测		场景理解
边缘检测		图像分割		行为分析
特征提取		姿态估计		视觉问答

1.3 图像基础概念

概念	说明
像素（Pixel）	图像最小单位，每个像素有颜色值
分辨率	图像的宽×高像素数
通道（Channel）	颜色分量，灰度图1通道，RGB图3通道，RGBA图4通道
位深	每个通道的比特数，常见8bit（0-255）
色彩空间	RGB（显示）、HSV（处理）、CMYK（印刷）、LAB（感知均匀）

二、图像分类

2.1 任务定义

输入：一张图像

输出：该图像所属的类别标签

特点：整张图只有一个类别

2.2 经典网络架构演进

网络	年份	核心创新	特点
LeNet	1998	卷积+池化+全连接	手写数字识别，5层
AlexNet	2012	ReLU、Dropout、GPU训练	8层，ImageNet冠军，深度学习爆发
VGGNet	2014	小卷积核(3×3)堆叠	16-19层，结构规整
ResNet	2015	残差连接（Skip Connection）	152+层，解决梯度消失
Inception	2014	多尺度卷积并行	1×1、3×3、5×5并行
MobileNet	2017	深度可分离卷积	轻量级，移动端适用
EfficientNet	2019	复合缩放（深度/宽度/分辨率）	效率最优
Vision Transformer (ViT)	2020	将图像切分为Patch，用Transformer	大数据量下超越CNN

2.3 卷积神经网络（CNN）核心组件

组件	作用	参数
卷积层（Conv）	提取局部特征	卷积核大小、步长、填充、输出通道数
激活函数	引入非线性	ReLU、LeakyReLU、ELU、GELU
池化层（Pooling）	降维、平移不变性	Max Pooling、Average Pooling
批归一化（BN）	加速训练、稳定分布	在卷积后、激活前
全连接层（FC）	分类决策	输出类别数
Dropout	防止过拟合	丢弃比例

2.4 图像分类评估指标

指标	说明
Top-1准确率	预测第一名正确的比例
Top-5准确率	预测前五名包含正确答案的比例
混淆矩阵	各类别预测情况
宏平均F1	各类别F1的平均
加权平均F1	按样本数加权的F1平均

三、目标检测

3.1 任务定义

输入：一张图像

输出：多个目标的位置（Bounding Box）和类别

与分类区别：分类只输出类别，检测还要输出位置

3.2 核心概念

概念	说明
Bounding Box	矩形框，用(x,y,w,h)或(x1,y1,x2,y2)表示
IoU（交并比）	预测框与真实框的交集/并集，>0.5通常认为正确
NMS（非极大值抑制）	去除重叠过多的冗余检测框
Anchor	预设的参考框，网络预测偏移量
mAP（平均精度均值）	主要评估指标，IoU阈值通常0.5

3.3 检测算法分类

类型	代表算法	特点
两阶段检测	R-CNN、Fast R-CNN、Faster R-CNN	先提候选框再分类，精度高速度慢
单阶段检测	YOLO、SSD、RetinaNet	直接预测，速度快精度略低
Anchor-free	CenterNet、FCOS	无需预设Anchor，简化流程

3.4 YOLO系列演进

版本	年份	核心改进
YOLOv1	2016	首次单阶段实时检测
YOLOv2	2017	Anchor机制、Batch Normalization
YOLOv3	2018	多尺度预测（3个尺度）
YOLOv4	2020	Mosaic增强、CSPDarknet骨干
YOLOv5	2020	PyTorch实现，工程优化
YOLOv8	2023	解耦头、Anchor-free

3.5 两阶段 vs 单阶段

对比项	两阶段（Faster R-CNN）	单阶段（YOLO）
速度	慢（10-20 FPS）	快（45-140 FPS）
精度	高（mAP高）	略低（但不断提升）
适用场景	精度要求高的离线分析	实时视频、移动端
小目标检测	较好	较弱（YOLOv5+改善）

四、图像分割

4.1 任务定义

像素级分类，每个像素分配一个类别标签

比检测更精细，精确到轮廓

4.2 分割类型对比

类型	定义	示例
语义分割	像素级分类，不区分个体	所有"人"像素标为同一类
实例分割	像素级分类+区分不同个体	"人A"、"人B"分别标注
全景分割	语义分割+实例分割结合	同时处理"物"和"人"

4.3 经典分割网络

网络	特点	适用
FCN	首个端到端全卷积分割	语义分割基础
U-Net	编码器-解码器+跳跃连接	医学图像（小样本）
DeepLab系列	空洞卷积扩大感受野	语义分割
Mask R-CNN	在Faster R-CNN上加分割分支	实例分割
SAM	提示分割，零样本泛化	通用分割

4.4 分割评估指标

指标	说明
Pixel Accuracy	正确像素/总像素
mIoU（平均交并比）	各类别IoU的平均，最常用
Dice系数	2×交集/(预测+真实)，医学常用
Boundary F1	边界精度

五、OCR（光学字符识别）

5.1 OCR流程

输入图像 → 文本检测 → 文本识别 → 后处理 → 输出文本

5.2 文本检测方法

方法	特点
CTPN	基于Anchor，检测水平文本
EAST	全卷积网络，任意方向文本
DBNet	可微分二值化，速度快
PSENet	渐进尺度扩展，弯曲文本

5.3 文本识别方法

方法	特点
CRNN	CNN+BiLSTM+CTC，经典端到端
Attention-based	注意力机制解码
Transformer-based	如TrOCR，精度更高

5.4 OCR应用场景

身份证识别、银行卡识别、发票识别、车牌识别、文档数字化

六、图像生成

6.1 生成模型类型

模型	原理	特点
VAE（变分自编码器）	学习潜在分布，采样生成	生成模糊，可编辑性强
GAN（生成对抗网络）	生成器+判别器对抗	生成清晰，训练不稳定
Diffusion Model	逐步去噪生成	当前主流，质量最高
Flow-based	可逆变换	精确似然计算

6.2 GAN核心概念

概念	说明
生成器（Generator）	从噪声生成假样本
判别器（Discriminator）	区分真假样本
损失函数	最小最大博弈
模式崩溃（Mode Collapse）	生成器只生成少数样本
条件GAN（cGAN）	给定条件生成特定内容

6.3 Diffusion Model

概念	说明
前向过程	逐步加噪声，直到纯噪声
反向过程	学习去噪，逐步恢复图像
Stable Diffusion	在潜在空间扩散，效率高
文生图	文本条件控制生成内容

七、视频分析

7.1 视频任务类型

任务	说明
视频分类	整个视频的分类
动作识别	识别视频中人的行为
时序动作检测	检测动作发生的时间段
视频目标跟踪	跟踪特定目标在视频中的轨迹
视频摘要	提取关键帧或片段

7.2 视频处理特点

时序信息：需要考虑帧间关系

计算量大：相比图像增加时间维度

常用方法：3D CNN、LSTM+CNN、Transformer（如TimeSformer）

八、阿里云视觉智能产品

8.1 视觉智能开放平台

能力	功能
图像识别	通用物体、场景、Logo、菜品等识别
图像搜索	以图搜图、商品搜索、版权保护
人脸识别	人脸检测、人脸比对、人脸属性、活体检测
人体分析	人体检测、姿态估计、属性识别
OCR	通用文字、卡证、票据、表格、车牌
内容安全	图片/视频违规内容识别

8.2 人脸识别核心能力

能力	说明
人脸检测	定位人脸位置
人脸比对（1:1）	判断两张脸是否为同一人
人脸搜索（1:N）	从库中找出最相似的人
人脸属性	年龄、性别、表情、眼镜等
活体检测	判断是否为真人（防照片/视频攻击）

8.3 OCR产品矩阵

产品	适用场景
通用文字识别	印刷体、手写体
卡证识别	身份证、银行卡、驾驶证、营业执照
票据识别	增值税发票、火车票、出租车票
表格识别	结构化表格提取
自定义模板	固定版式文档

8.4 内容安全

检测类型	说明
鉴黄	色情内容识别
暴恐	暴力恐怖内容
politically sensitive	敏感人物、旗帜等
广告	违规广告识别
图文违规	文字+图像联合审核

第四部分：智能语音处理基础知识（10%）

一、语音信号基础

1.1 声音基本概念

概念	说明
频率	音调高低，单位Hz
振幅	音量大小
采样率	每秒采样次数，常见16kHz、44.1kHz
量化位数	每个采样点的精度，常见16bit
声道数	单声道、立体声
波形	时域表示，振幅随时间变化

1.2 语音信号处理流程

模拟语音 → 采样 → 量化 → 编码 → 数字语音信号

1.3 语音特征提取

特征	说明	用途
时域特征	短时能量、过零率	端点检测、清浊音判断
频域特征	频谱、功率谱	音素识别
MFCC（梅尔频率倒谱系数）	模拟人耳听觉特性	最常用特征，13-40维
FBank（滤波器组特征）	梅尔滤波器组输出	深度学习输入
Spectrogram（语谱图）	时频联合表示	可直接输入CNN

二、语音识别（ASR）

2.1 ASR任务定义

输入：语音信号

输出：对应的文本

核心挑战：口音、噪声、同音字、上下文歧义

2.2 ASR系统架构演进

阶段	技术	特点
传统方法	GMM-HMM	高斯混合模型+隐马尔可夫模型
深度学习早期	DNN-HMM	深度神经网络替代GMM
端到端	CTC、Attention	直接语音到文本
当前主流	Transformer、Conformer	自注意力+卷积，精度最高

2.3 核心组件

组件	功能
声学模型	语音特征→音素概率
语言模型	文本序列概率，纠正声学错误
发音词典	词到音素的映射
解码器	结合声学+语言模型，输出最优文本

2.4 端到端模型

模型	特点
CTC（Connectionist Temporal Classification）	帧级独立假设，需对齐
Attention	自动学习对齐，效果好
LAS（Listen, Attend and Spell）	编码器-注意力-解码器
Conformer	CNN+Transformer结合，当前SOTA

2.5 ASR评估指标

指标	说明
WER（词错误率）	(插入+删除+替换词数)/总词数，越低越好
CER（字错误率）	中文常用，字级别错误
SER（句错误率）	整句正确率
RTF（实时率）	处理时长/音频时长，<1才能实时

2.6 阿里云ASR产品

产品	适用场景
一句话识别	短语音实时识别，如语音搜索
实时语音识别	流式输入，实时返回，如会议转写
录音文件识别	批量处理录音文件，如客服质检
语音自学习	自定义词汇、领域优化

三、语音合成（TTS）

3.1 TTS任务定义

输入：文本

输出：自然语音

核心挑战：自然度、韵律、情感、多语言

3.2 TTS技术演进

阶段	技术	特点
拼接合成	从语音库拼接片段	自然但生硬，库存大
参数合成	统计参数模型	小库存，但机器感强
神经网络	WaveNet、Tacotron	自然度大幅提升
端到端	Tacotron2、FastSpeech、VITS	当前主流，快速高质量

3.3 核心模型

模型	特点
Tacotron2	序列到序列+注意力，生成Mel谱
WaveNet	自回归生成波形，自然但慢
WaveGlow	流模型，并行生成，速度快
HiFi-GAN	对抗网络声码器，质量速度兼顾
VITS	端到端，直接文本到波形，效果优秀

3.4 TTS评估指标

指标	说明
MOS（平均意见分）	人工听感评分，1-5分
相似度	与目标音色的相似程度
实时率（RTF）	合成速度
Mel Cepstral Distortion	客观指标，与MOS相关

3.5 阿里云TTS产品

能力	说明
标准音色	预置多种男女音色
定制音色	少量录音克隆特定音色
情感合成	开心、悲伤、愤怒等情感
多语言	中文、英文、方言、多语种混合

四、语音唤醒与声纹识别

4.1 语音唤醒

概念	说明
唤醒词	特定触发词，如"天猫精灵"
误唤醒率	非唤醒词触发唤醒的概率
唤醒率	正确唤醒词被识别的概率
低功耗	设备端持续监听，需极低功耗

4.2 声纹识别

任务	说明
声纹确认（1:1）	判断两段语音是否为同一人
声纹辨认（1:N）	从库中找出说话人身份
抗噪能力	噪声环境下识别稳定性
防录音攻击	区分真人语音和录音回放

五、智能语音交互产品架构

5.1 完整交互流程

用户语音 → 语音唤醒 → ASR识别 → NLP理解 → 业务逻辑 → TTS合成 → 语音播放

5.2 阿里云智能语音交互产品

产品	功能
语音识别	一句话、实时、录音文件识别
语音合成	标准音色、定制音色、情感合成
语音唤醒	自定义唤醒词、低功耗方案
说话人识别	声纹确认、声纹辨认
语音自学习平台	自定义模型、领域优化

第五部分：自然语言处理基础知识（10%）

一、NLP基础概念

1.1 NLP层次

词法分析	→	句法分析	→	语义分析	→	语用分析
分词		依存句法		词向量		情感分析
词性标注		成分句法		语义相似度		意图识别
命名实体		短语结构		文本分类		对话管理

1.2 中文NLP特殊挑战

挑战	说明
分词	中文无空格，需自动分词
歧义	"研究生命"→研究/生命或研究生/命
新词	网络用语、专业术语不断出现
多音字	行(xíng/háng)、长(cháng/zhǎng)

二、词法分析

2.1 分词（Word Segmentation）

方法	原理	代表
基于词典	最大匹配、最短路径	MMSEG
基于统计	HMM、CRF	jieba（HMM+词典）
基于深度学习	BiLSTM-CRF、BERT	LTP、HanLP

2.2 词性标注（POS Tagging）

词性	示例
n	名词：学生、学校
v	动词：学习、跑步
a	形容词：美丽、高大
d	副词：非常、已经
m	数词：一、百
q	量词：个、只
r	代词：我、这
p	介词：在、从

2.3 命名实体识别（NER）

实体类型	示例
PER	人名：张三、马云
ORG	机构名：阿里巴巴、北京大学
LOC	地名：北京、西湖
TIME	时间：2024年5月
MONEY	金额：100万元

NER方法演进：规则 → CRF → BiLSTM-CRF → BERT-CRF

三、句法分析

3.1 依存句法分析

分析词与词之间的依存关系

核心：找出中心词（Head）和依存词（Dependent）

3.2 常见依存关系

关系	说明	示例
SBV	主谓关系	我[SBV]吃饭
VOB	动宾关系	吃[VOB]饭
ATT	定中关系	美丽[ATT]花朵
ADV	状中关系	非常[ADV]好
COO	并列关系	北京[COO]上海

3.3 成分句法分析

分析句子的短语结构

树形结构：S → NP VP → ...

四、语义分析

4.1 词向量（Word Embedding）

模型	特点
Word2Vec	CBOW（上下文预测中心词）/Skip-gram（中心词预测上下文）
GloVe	全局词频统计+局部上下文
FastText	考虑子词（n-gram），解决OOV
ELMo	上下文相关词向量，一词多义

4.2 词向量特性

特性	说明
语义相似	相似词的向量距离近
类比推理	国王-男人+女人≈女王
维度	通常50-300维

4.3 文本表示方法

方法	说明	优缺点
词袋模型（BOW）	词频统计，忽略顺序	简单，丢失语义
TF-IDF	词频×逆文档频率	考虑重要性，仍无顺序
N-gram	连续N个词组合	捕捉局部顺序，维度高
Word2Vec平均	词向量平均	简单有效
预训练模型	BERT、GPT等	上下文相关，效果最好

五、预训练语言模型

5.1 Transformer架构

组件	说明
自注意力（Self-Attention）	计算序列中每个位置与其他位置的关系
多头注意力	多组注意力并行，捕捉不同子空间信息
位置编码	注入位置信息（正弦/可学习）
前馈网络	逐位置独立的全连接层
层归一化	稳定训练

5.2 预训练模型对比

模型	架构	预训练任务	特点
BERT	Encoder-only	MLM（掩码语言模型）+NSP	双向理解，适合分类/NER
GPT系列	Decoder-only	自回归语言模型	单向生成，适合文本生成
T5	Encoder-Decoder	Span Corruption	统一框架，翻译/摘要
RoBERTa	Encoder-only	优化版BERT	去掉NSP，更大数据
ALBERT	Encoder-only	参数共享+因式分解	轻量级BERT
ERNIE（百度）	Encoder-only	实体/知识掩码	知识增强
通义千问	Decoder-only	大规模预训练+指令微调	阿里云自研

5.3 BERT核心预训练任务

任务	说明
MLM（Masked Language Model）	随机掩码15%的词，预测被掩码词
NSP（Next Sentence Prediction）	判断两句是否连续（RoBERTa已去掉）

5.4 预训练模型微调（Fine-tuning）

任务	微调方式
文本分类	[CLS]向量接分类层
NER	每个token输出接分类层
问答	预测答案起始和结束位置
文本相似度	两句拼接，[CLS]接分类层

六、NLP核心任务

6.1 文本分类

应用	示例
情感分析	正面/负面/中性
主题分类	体育/财经/娱乐
意图识别	查询/预订/投诉
垃圾检测	垃圾邮件/评论

6.2 文本匹配/相似度

方法	说明
表示型（双塔）	分别编码，向量相似度计算
交互型（单塔）	拼接后交互编码
Cross-Encoder	精度高但慢
Bi-Encoder	可预计算，适合召回

6.3 序列标注

任务	标注体系
NER	BIO/BIOES（B-开始，I-中间，O-非实体）
分词	B/M/E/S（开始/中间/结束/单字）
词性标注	每个词一个词性标签

6.4 文本生成

任务	说明
机器翻译	源语言→目标语言
文本摘要	长文本→短摘要
对话生成	生成回复
代码生成	自然语言→代码

6.5 问答系统

类型	说明
检索式问答	从文档中找答案片段
知识图谱问答	基于结构化知识
生成式问答	直接生成答案
多轮对话	考虑上下文历史

七、阿里云NLP产品

7.1 自然语言处理平台

能力	功能
分词	中文分词、词性标注
命名实体识别	人名、地名、机构名等
情感分析	文本情感倾向
文本分类	自定义分类
关键词提取	TF-IDF、TextRank
摘要生成	自动摘要
文本相似度	语义相似度计算

7.2 文档智能

能力	功能
文档解析	PDF/Word/图片转结构化
信息抽取	从文档提取关键字段
文档比对	合同/标书差异比对
表格识别	复杂表格结构化
票据识别	发票、合同等

7.3 机器翻译

能力	说明
通用翻译	多语种互译
领域翻译	电商、医疗、金融等专业领域
文档翻译	整篇文档翻译
实时翻译	API实时调用

7.4 通义千问大模型

能力	说明
对话能力	多轮对话、上下文理解
推理能力	逻辑推理、数学计算
代码能力	代码生成、代码解释
多模态	图文理解（Qwen-VL）
长文本	支持超长上下文