阿里云ACP人工智能工程师认证复习汇总
本文档覆盖ACP人工智能工程师认证的高频考点有助于需要考试的考生复习。
考试内容及分值分布
| 章节 | 分值占比 |
| 人工智能建模流程与基础知识 | 20% |
| 阿里云机器学习平台PAI | 15% |
| 视觉智能基础知识 | 11% |
| 智能语音处理基础知识 | 10% |
| 自然语言处理基础知识 | 10% |
| 阿里云视觉智能 | 8% |
| 阿里云智能语音交互 | 8% |
| 阿里云自然语言处理 | 8% |
| 人工智能与人工智能技术概述 | 4% |
| 阿里云人工智能产品体系概述 | 6% |
第一章:人工智能建模流程与基础知识(20%)
这是考试占比最高的部分,也是所有AI项目的通用方法论。
1.1 标准建模流程(必须熟记顺序)
|
业务理解 (明确目标) |
→ |
数据准备 (采集/清洗) |
→ |
特征工程 (特征构建) |
|
↓ |
||||
|
模型部署 (上线服务) |
← |
模型评估 (效果验证) |
← |
模型训练 (算法选择) |
考点陷阱:题目常考"特征工程在数据准备之前还是之后"——一定是数据准备之后。
1.2 数据准备阶段重点
|
环节 |
核心考点 |
|
数据采集 |
数据来源类型(结构化/非结构化/半结构化) |
|
数据清洗 |
处理缺失值、异常值、重复值的方法 |
|
数据标注 |
分类标注、边界框标注、语义分割标注、关键点标注 |
|
数据增强 |
图像:旋转、翻转、裁剪、亮度调整;文本:同义词替换、回译 |
易混淆点:
数据标注 vs 数据增强:标注是人工/半人工打标签;增强是自动生成新样本
结构化数据:表格形式(Excel、数据库);非结构化:图片、语音、文本
1.3 特征工程重点
|
技术 |
适用场景 |
阿里云工具 |
|
特征缩放(归一化/标准化) |
不同量纲的特征 |
PAI-Designer内置 |
|
特征选择(过滤法/包裹法/嵌入法) |
高维数据降维 |
PAI-FeatureStore |
|
特征编码(One-Hot/Label Encoding) |
类别型变量 |
PAI-Designer内置 |
|
特征交叉 |
推荐系统、广告 |
PAI-FeatureStore |
考试常考:标准化(Z-score)vs 归一化(Min-Max)的区别
标准化:均值为0,方差为1,适用于未知边界、存在异常值
归一化:缩放到[0,1],适用于已知边界、无异常值
1.4 模型训练核心算法(必须掌握原理和适用场景)
|
算法类型 |
代表算法 |
适用场景 |
关键参数 |
|
线性回归 |
简单线性回归 |
连续值预测 |
学习率、迭代次数 |
|
逻辑回归 |
二分类/多分类 |
广告点击预测 |
正则化强度 |
|
决策树 |
CART、ID3 |
可解释性强的分类 |
树深度、叶子节点数 |
|
随机森林 |
Bagging集成 |
高维数据分类 |
树的数量、特征采样比 |
|
XGBoost/LightGBM |
Boosting集成 |
竞赛/工业界首选 |
学习率、树深度、子采样 |
|
SVM |
支持向量机 |
高维小样本 |
核函数类型、C值 |
|
K-Means |
聚类 |
无标签数据分组 |
K值、距离度量 |
|
KNN |
近邻算法 |
小样本分类 |
K值、距离度量 |
|
神经网络 |
MLP、CNN、RNN |
复杂模式识别 |
层数、神经元数、激活函数 |
高频考点:
过拟合 vs 欠拟合:
过拟合:训练集好,测试集差 → 增加数据、正则化、Dropout、早停
欠拟合:训练集和测试集都差 → 增加模型复杂度、减少正则化
偏差-方差权衡:高偏差=欠拟合,高方差=过拟合
交叉验证:K折交叉验证(K=5或10最常见)
1.5 模型评估指标(重点!不同任务指标不同)
|
任务类型 |
核心指标 |
公式/含义 |
|
二分类 |
准确率(Accuracy) |
(TP+TN)/(TP+TN+FP+FN) |
|
精确率(Precision) |
TP/(TP+FP) —— 预测为正的中多少是真的 |
|
|
召回率(Recall) |
TP/(TP+FN) —— 真的是正的中多少被找出来 |
|
|
F1-Score |
2×Precision×Recall/(Precision+Recall) |
|
|
AUC-ROC |
ROC曲线下面积,衡量排序能力 |
|
|
KS值 |
好坏样本累计分布差异最大值 |
|
|
多分类 |
宏平均/微平均F1 |
按类别平均或按样本平均 |
|
回归 |
MSE(均方误差) |
预测值与真实值差的平方平均 |
|
MAE(平均绝对误差) |
绝对差平均,对异常值更鲁棒 |
|
|
RMSE |
MSE开根号,与原始量纲一致 |
|
|
R² |
模型解释数据变异的比例 |
|
|
聚类 |
轮廓系数 |
[-1,1],越接近1越好 |
|
CH指数 |
越大越好 |
考试陷阱题:
"在欺诈检测中,应该更关注精确率还是召回率?" → 召回率(宁可错杀不可放过)
"在垃圾邮件过滤中,应该更关注精确率还是召回率?" → 精确率(宁可放过不可错杀)
1.6 模型部署与监控
|
环节 |
考点 |
|
模型导出 |
PMML、ONNX、SavedModel格式 |
|
服务部署 |
REST API、批量推理、流式推理 |
|
A/B测试 |
流量切分、指标对比 |
|
模型监控 |
数据漂移(Data Drift)、概念漂移(Concept Drift) |
|
模型迭代 |
在线学习、定期全量重训练 |
第二章:阿里云机器学习平台PAI(15%)
这是阿里云特有的产品知识,非阿里云用户最容易丢分,必须重点攻克。
2.1 PAI产品体系全景图
| 阿里云机器学习平台 PAI | |||
| PAI-iTag (智能标注) | PAI-Designer (可视化建模) | PAI-DSW (Notebook) | PAI-DLC (深度学习训练) |
| PAI-FeatureStore (特征平台) | |||
| PAI-AutoML (自动机器学习) | |||
| PAI-EAS (模型在线服务) | |||
2.2 各组件详细考点
PAI-iTag(数据标注)
|
考点 |
内容 |
|
功能 |
图像分类、物体检测、图像分割、OCR、文本分类、语音标注 |
|
标注模式 |
人工标注、智能标注(预标注+人工复核)、众包标注 |
|
输出格式 |
支持导出为PAI标准格式、COCO、VOC等 |
|
考试重点 |
智能标注如何减少人工成本、标注质量如何保证 |
PAI-Designer(可视化建模,原名PAI-Studio)
|
考点 |
内容 |
|
定位 |
零代码/低代码机器学习平台 |
|
核心功能 |
拖拽式组件、内置数百种算法组件、自动生成实验流程 |
|
适用人群 |
算法工程师、业务人员(无需写代码) |
|
与DSW区别 |
Designer是可视化拖拽,DSW是写代码 |
|
考试重点 |
组件连接逻辑、数据流走向、常见算法组件位置 |
高频考题:"业务人员想做客户流失预测,推荐使用PAI的哪个组件?" → PAI-Designer
PAI-DSW(Data Science Workshop)
|
考点 |
内容 |
|
定位 |
交互式开发环境(Notebook) |
|
支持语言 |
Python、R |
|
预装环境 |
TensorFlow、PyTorch、XGBoost、Scikit-learn |
|
资源类型 |
CPU、GPU(V100、A100等) |
|
适用场景 |
自定义算法开发、复杂数据探索、深度学习 |
|
与Designer区别 |
DSW需要写代码,更灵活;Designer拖拽即可 |
PAI-DLC(Deep Learning Container)
|
考点 |
内容 |
|
定位 |
深度学习训练平台 |
|
功能 |
分布式训练、超大规模模型训练 |
|
支持框架 |
TensorFlow、PyTorch、MXNet、Horovod |
|
资源调度 |
支持抢占式实例、Spot实例降成本 |
|
与DSW区别 |
DLC是提交训练任务,DSW是交互式开发 |
考试重点:"需要训练一个10亿参数的NLP模型,应该用PAI-DLC还是DSW?" → PAI-DLC(DLC支持分布式大规模训练)
PAI-FeatureStore(特征平台)
|
考点 |
内容 |
|
功能 |
特征统一管理、在线/离线特征一致性 |
|
核心概念 |
特征实体、特征表、特征版本、特征血缘 |
|
在线/离线一致性 |
解决训练-推理特征不一致问题(Training-Serving Skew) |
|
适用场景 |
推荐系统、风控模型(特征复用频繁) |
高频考点:FeatureStore解决的核心痛点是 "在线特征和离线特征不一致"
PAI-AutoML(自动机器学习)
|
考点 |
内容 |
|
功能 |
自动特征工程、自动算法选择、自动超参调优 |
|
超参搜索方法 |
网格搜索、随机搜索、贝叶斯优化、进化算法 |
|
适用场景 |
快速原型验证、非专家用户 |
|
与手动建模对比 |
效率更高,但可能不是最优解 |
PAI-EAS(Elastic Algorithm Service)
|
考点 |
内容 |
|
定位 |
模型在线推理服务 |
|
部署方式 |
镜像部署、Processor部署(PAI内置) |
|
弹性伸缩 |
自动扩缩容、按QPS/CPU/内存触发 |
|
灰度发布 |
支持A/B测试、金丝雀发布 |
|
监控指标 |
QPS、Latency、Error Rate、资源使用率 |
考试重点:
EAS支持 GPU/CPU混合部署
模型更新支持 热更新(不停机)
与函数计算FC的区别:EAS专为模型推理优化,FC是通用Serverless
2.3 PAI各组件选型场景(必考!)
|
业务场景 |
推荐组件 |
原因 |
|
业务人员做销售预测,不会写代码 |
PAI-Designer |
可视化拖拽 |
|
算法工程师开发新推荐算法 |
PAI-DSW |
需要自定义代码 |
|
训练百亿参数大模型 |
PAI-DLC |
分布式训练能力 |
|
特征在不同模型间复用 |
PAI-FeatureStore |
特征统一管理 |
|
快速验证哪个算法效果最好 |
PAI-AutoML |
自动算法选择 |
|
模型上线提供API服务 |
PAI-EAS |
在线推理服务 |
|
大量图片需要标注 |
PAI-iTag |
智能标注降成本 |
2.4 PAI与阿里云其他产品集成
|
集成产品 |
用途 |
|
OSS |
存储训练数据、模型文件 |
|
MaxCompute |
大数据计算,作为PAI数据源 |
|
DataWorks |
数据集成、ETL调度 |
|
RDS/PolarDB |
结构化数据存储 |
|
日志服务SLS |
采集日志数据用于训练 |
|
API网关 |
为EAS服务提供统一入口 |
第三章:视觉智能基础知识(11%)
3.1 计算机视觉核心任务
|
任务 |
定义 |
典型应用 |
|
图像分类 |
判断整张图属于哪个类别 |
商品分类、医学影像诊断 |
|
目标检测 |
找出图中物体位置+类别 |
人脸检测、车辆检测 |
|
图像分割 |
像素级分类 |
医学影像分割、自动驾驶 |
|
语义分割:只分类不区分实例 |
||
|
实例分割:分类+区分不同个体 |
||
|
OCR |
光学字符识别 |
身份证识别、发票识别 |
|
图像生成 |
生成新图像 |
AI绘画、数据增强 |
|
视频分析 |
时序+空间分析 |
行为识别、视频摘要 |
3.2 经典网络架构(考点)
|
网络 |
特点 |
适用任务 |
|
CNN/卷积神经网络 |
局部连接、权值共享 |
图像基础特征提取 |
|
ResNet |
残差连接,解决梯度消失 |
深层网络训练 |
|
VGG |
小卷积核(3×3)堆叠 |
图像分类 |
|
YOLO |
单阶段检测,速度快 |
实时目标检测 |
|
Faster R-CNN |
双阶段检测,精度高 |
高精度目标检测 |
|
Mask R-CNN |
在Faster R-CNN上加分割分支 |
实例分割 |
|
U-Net |
编码器-解码器结构 |
医学图像分割 |
|
Transformer/ViT |
注意力机制 |
大规模图像理解 |
3.3 阿里云视觉智能产品
|
产品 |
功能 |
考试重点 |
|
视觉智能开放平台 |
提供API调用 |
通用视觉能力 |
|
图像搜索 |
以图搜图 |
商品搜索、版权保护 |
|
人脸识别 |
人脸检测、比对、属性 |
1:1/1:N比对、活体检测 |
|
OCR |
通用文字、卡证、票据、表格 |
各场景精度差异 |
|
内容安全 |
图片/视频违规检测 |
鉴黄、暴恐、 politically sensitive |
第四章:智能语音处理基础知识(10%)
4.1 语音技术核心链路
音频采集 → 预处理(降噪/去混响) → 特征提取(MFCC/FBank) → 声学模型 → 语言模型 → 后处理 → 文本输出
4.2 三大语音任务
|
任务 |
定义 |
关键指标 |
|
语音识别(ASR) |
语音转文字 |
WER(词错误率)、CER(字错误率) |
|
语音合成(TTS) |
文字转语音 |
MOS(主观评分)、相似度 |
|
语音唤醒 |
检测特定唤醒词 |
唤醒率、误唤醒率 |
4.3 阿里云智能语音交互产品
|
产品 |
功能 |
考试重点 |
|
语音识别 |
一句话识别、实时识别、录音文件识别 |
适用场景差异 |
|
语音合成 |
标准音色、定制音色 |
情感合成、多语言 |
|
语音唤醒 |
设备唤醒 |
低功耗、远场识别 |
|
说话人识别 |
声纹识别 |
1:1/1:N |
第五章:自然语言处理基础知识(10%)
5.1 NLP核心任务
|
任务层级 |
具体任务 |
说明 |
|
词法分析 |
分词、词性标注、命名实体识别 |
基础处理 |
|
句法分析 |
依存句法分析、成分句法分析 |
句子结构 |
|
语义分析 |
词向量、语义相似度、文本分类 |
理解含义 |
|
语用分析 |
情感分析、意图识别、对话管理 |
实际应用 |
5.2 预训练模型(重点)
|
模型 |
特点 |
阿里云对应 |
|
BERT |
双向编码,理解能力强 |
通义千问基础 |
|
GPT |
单向生成,生成能力强 |
通义千问对话 |
|
Transformer |
注意力机制,并行计算 |
大模型底座 |
|
通义千问 |
阿里云自研大模型 |
产品化应用 |
5.3 阿里云NLP产品
|
产品 |
功能 |
考试重点 |
|
自然语言处理平台 |
基础NLP能力API |
分词、NER、情感分析 |
|
文档智能 |
文档解析、抽取、比对 |
合同、财报处理 |
|
机器翻译 |
多语言翻译 |
通用/专业领域 |
|
通义千问 |
大模型对话、推理 |
应用场景 |
一、计算机视觉概述
1.1 计算机视觉定义
使机器能够"看"并理解图像和视频内容的技术
目标:从视觉数据中提取有用信息,做出决策或理解场景
1.2 视觉任务层次
| 低层视觉 | → | 中层视觉 | → | 高层视觉 |
| 图像滤波 | 目标检测 | 场景理解 | ||
| 边缘检测 | 图像分割 | 行为分析 | ||
| 特征提取 | 姿态估计 | 视觉问答 |
1.3 图像基础概念
|
概念 |
说明 |
|
像素(Pixel) |
图像最小单位,每个像素有颜色值 |
|
分辨率 |
图像的宽×高像素数 |
|
通道(Channel) |
颜色分量,灰度图1通道,RGB图3通道,RGBA图4通道 |
|
位深 |
每个通道的比特数,常见8bit(0-255) |
|
色彩空间 |
RGB(显示)、HSV(处理)、CMYK(印刷)、LAB(感知均匀) |
二、图像分类
2.1 任务定义
输入:一张图像
输出:该图像所属的类别标签
特点:整张图只有一个类别
2.2 经典网络架构演进
|
网络 |
年份 |
核心创新 |
特点 |
|
LeNet |
1998 |
卷积+池化+全连接 |
手写数字识别,5层 |
|
AlexNet |
2012 |
ReLU、Dropout、GPU训练 |
8层,ImageNet冠军,深度学习爆发 |
|
VGGNet |
2014 |
小卷积核(3×3)堆叠 |
16-19层,结构规整 |
|
ResNet |
2015 |
残差连接(Skip Connection) |
152+层,解决梯度消失 |
|
Inception |
2014 |
多尺度卷积并行 |
1×1、3×3、5×5并行 |
|
MobileNet |
2017 |
深度可分离卷积 |
轻量级,移动端适用 |
|
EfficientNet |
2019 |
复合缩放(深度/宽度/分辨率) |
效率最优 |
|
Vision Transformer (ViT) |
2020 |
将图像切分为Patch,用Transformer |
大数据量下超越CNN |
2.3 卷积神经网络(CNN)核心组件
|
组件 |
作用 |
参数 |
|
卷积层(Conv) |
提取局部特征 |
卷积核大小、步长、填充、输出通道数 |
|
激活函数 |
引入非线性 |
ReLU、LeakyReLU、ELU、GELU |
|
池化层(Pooling) |
降维、平移不变性 |
Max Pooling、Average Pooling |
|
批归一化(BN) |
加速训练、稳定分布 |
在卷积后、激活前 |
|
全连接层(FC) |
分类决策 |
输出类别数 |
|
Dropout |
防止过拟合 |
丢弃比例 |
2.4 图像分类评估指标
|
指标 |
说明 |
|
Top-1准确率 |
预测第一名正确的比例 |
|
Top-5准确率 |
预测前五名包含正确答案的比例 |
|
混淆矩阵 |
各类别预测情况 |
|
宏平均F1 |
各类别F1的平均 |
|
加权平均F1 |
按样本数加权的F1平均 |
三、目标检测
3.1 任务定义
输入:一张图像
输出:多个目标的位置(Bounding Box)和类别
与分类区别:分类只输出类别,检测还要输出位置
3.2 核心概念
|
概念 |
说明 |
|
Bounding Box |
矩形框,用(x,y,w,h)或(x1,y1,x2,y2)表示 |
|
IoU(交并比) |
预测框与真实框的交集/并集,>0.5通常认为正确 |
|
NMS(非极大值抑制) |
去除重叠过多的冗余检测框 |
|
Anchor |
预设的参考框,网络预测偏移量 |
|
mAP(平均精度均值) |
主要评估指标,IoU阈值通常0.5 |
3.3 检测算法分类
|
类型 |
代表算法 |
特点 |
|
两阶段检测 |
R-CNN、Fast R-CNN、Faster R-CNN |
先提候选框再分类,精度高速度慢 |
|
单阶段检测 |
YOLO、SSD、RetinaNet |
直接预测,速度快精度略低 |
|
Anchor-free |
CenterNet、FCOS |
无需预设Anchor,简化流程 |
3.4 YOLO系列演进
|
版本 |
年份 |
核心改进 |
|
YOLOv1 |
2016 |
首次单阶段实时检测 |
|
YOLOv2 |
2017 |
Anchor机制、Batch Normalization |
|
YOLOv3 |
2018 |
多尺度预测(3个尺度) |
|
YOLOv4 |
2020 |
Mosaic增强、CSPDarknet骨干 |
|
YOLOv5 |
2020 |
PyTorch实现,工程优化 |
|
YOLOv8 |
2023 |
解耦头、Anchor-free |
3.5 两阶段 vs 单阶段
|
对比项 |
两阶段(Faster R-CNN) |
单阶段(YOLO) |
|
速度 |
慢(10-20 FPS) |
快(45-140 FPS) |
|
精度 |
高(mAP高) |
略低(但不断提升) |
|
适用场景 |
精度要求高的离线分析 |
实时视频、移动端 |
|
小目标检测 |
较好 |
较弱(YOLOv5+改善) |
四、图像分割
4.1 任务定义
像素级分类,每个像素分配一个类别标签
比检测更精细,精确到轮廓
4.2 分割类型对比
|
类型 |
定义 |
示例 |
|
语义分割 |
像素级分类,不区分个体 |
所有"人"像素标为同一类 |
|
实例分割 |
像素级分类+区分不同个体 |
"人A"、"人B"分别标注 |
|
全景分割 |
语义分割+实例分割结合 |
同时处理"物"和"人" |
4.3 经典分割网络
|
网络 |
特点 |
适用 |
|
FCN |
首个端到端全卷积分割 |
语义分割基础 |
|
U-Net |
编码器-解码器+跳跃连接 |
医学图像(小样本) |
|
DeepLab系列 |
空洞卷积扩大感受野 |
语义分割 |
|
Mask R-CNN |
在Faster R-CNN上加分割分支 |
实例分割 |
|
SAM |
提示分割,零样本泛化 |
通用分割 |
4.4 分割评估指标
|
指标 |
说明 |
|
Pixel Accuracy |
正确像素/总像素 |
|
mIoU(平均交并比) |
各类别IoU的平均,最常用 |
|
Dice系数 |
2×交集/(预测+真实),医学常用 |
|
Boundary F1 |
边界精度 |
五、OCR(光学字符识别)
5.1 OCR流程
输入图像 → 文本检测 → 文本识别 → 后处理 → 输出文本
5.2 文本检测方法
|
方法 |
特点 |
|
CTPN |
基于Anchor,检测水平文本 |
|
EAST |
全卷积网络,任意方向文本 |
|
DBNet |
可微分二值化,速度快 |
|
PSENet |
渐进尺度扩展,弯曲文本 |
5.3 文本识别方法
|
方法 |
特点 |
|
CRNN |
CNN+BiLSTM+CTC,经典端到端 |
|
Attention-based |
注意力机制解码 |
|
Transformer-based |
如TrOCR,精度更高 |
5.4 OCR应用场景
身份证识别、银行卡识别、发票识别、车牌识别、文档数字化
六、图像生成
6.1 生成模型类型
|
模型 |
原理 |
特点 |
|
VAE(变分自编码器) |
学习潜在分布,采样生成 |
生成模糊,可编辑性强 |
|
GAN(生成对抗网络) |
生成器+判别器对抗 |
生成清晰,训练不稳定 |
|
Diffusion Model |
逐步去噪生成 |
当前主流,质量最高 |
|
Flow-based |
可逆变换 |
精确似然计算 |
6.2 GAN核心概念
|
概念 |
说明 |
|
生成器(Generator) |
从噪声生成假样本 |
|
判别器(Discriminator) |
区分真假样本 |
|
损失函数 |
最小最大博弈 |
|
模式崩溃(Mode Collapse) |
生成器只生成少数样本 |
|
条件GAN(cGAN) |
给定条件生成特定内容 |
6.3 Diffusion Model
|
概念 |
说明 |
|
前向过程 |
逐步加噪声,直到纯噪声 |
|
反向过程 |
学习去噪,逐步恢复图像 |
|
Stable Diffusion |
在潜在空间扩散,效率高 |
|
文生图 |
文本条件控制生成内容 |
七、视频分析
7.1 视频任务类型
|
任务 |
说明 |
|
视频分类 |
整个视频的分类 |
|
动作识别 |
识别视频中人的行为 |
|
时序动作检测 |
检测动作发生的时间段 |
|
视频目标跟踪 |
跟踪特定目标在视频中的轨迹 |
|
视频摘要 |
提取关键帧或片段 |
7.2 视频处理特点
时序信息:需要考虑帧间关系
计算量大:相比图像增加时间维度
常用方法:3D CNN、LSTM+CNN、Transformer(如TimeSformer)
八、阿里云视觉智能产品
8.1 视觉智能开放平台
|
能力 |
功能 |
|
图像识别 |
通用物体、场景、Logo、菜品等识别 |
|
图像搜索 |
以图搜图、商品搜索、版权保护 |
|
人脸识别 |
人脸检测、人脸比对、人脸属性、活体检测 |
|
人体分析 |
人体检测、姿态估计、属性识别 |
|
OCR |
通用文字、卡证、票据、表格、车牌 |
|
内容安全 |
图片/视频违规内容识别 |
8.2 人脸识别核心能力
|
能力 |
说明 |
|
人脸检测 |
定位人脸位置 |
|
人脸比对(1:1) |
判断两张脸是否为同一人 |
|
人脸搜索(1:N) |
从库中找出最相似的人 |
|
人脸属性 |
年龄、性别、表情、眼镜等 |
|
活体检测 |
判断是否为真人(防照片/视频攻击) |
8.3 OCR产品矩阵
|
产品 |
适用场景 |
|
通用文字识别 |
印刷体、手写体 |
|
卡证识别 |
身份证、银行卡、驾驶证、营业执照 |
|
票据识别 |
增值税发票、火车票、出租车票 |
|
表格识别 |
结构化表格提取 |
|
自定义模板 |
固定版式文档 |
8.4 内容安全
|
检测类型 |
说明 |
|
鉴黄 |
色情内容识别 |
|
暴恐 |
暴力恐怖内容 |
|
** politically sensitive** |
敏感人物、旗帜等 |
|
广告 |
违规广告识别 |
|
图文违规 |
文字+图像联合审核 |
第四部分:智能语音处理基础知识(10%)
一、语音信号基础
1.1 声音基本概念
|
概念 |
说明 |
|
频率 |
音调高低,单位Hz |
|
振幅 |
音量大小 |
|
采样率 |
每秒采样次数,常见16kHz、44.1kHz |
|
量化位数 |
每个采样点的精度,常见16bit |
|
声道数 |
单声道、立体声 |
|
波形 |
时域表示,振幅随时间变化 |
1.2 语音信号处理流程
模拟语音 → 采样 → 量化 → 编码 → 数字语音信号
1.3 语音特征提取
|
特征 |
说明 |
用途 |
|
时域特征 |
短时能量、过零率 |
端点检测、清浊音判断 |
|
频域特征 |
频谱、功率谱 |
音素识别 |
|
MFCC(梅尔频率倒谱系数) |
模拟人耳听觉特性 |
最常用特征,13-40维 |
|
FBank(滤波器组特征) |
梅尔滤波器组输出 |
深度学习输入 |
|
Spectrogram(语谱图) |
时频联合表示 |
可直接输入CNN |
二、语音识别(ASR)
2.1 ASR任务定义
输入:语音信号
输出:对应的文本
核心挑战:口音、噪声、同音字、上下文歧义
2.2 ASR系统架构演进
|
阶段 |
技术 |
特点 |
|
传统方法 |
GMM-HMM |
高斯混合模型+隐马尔可夫模型 |
|
深度学习早期 |
DNN-HMM |
深度神经网络替代GMM |
|
端到端 |
CTC、Attention |
直接语音到文本 |
|
当前主流 |
Transformer、Conformer |
自注意力+卷积,精度最高 |
2.3 核心组件
|
组件 |
功能 |
|
声学模型 |
语音特征→音素概率 |
|
语言模型 |
文本序列概率,纠正声学错误 |
|
发音词典 |
词到音素的映射 |
|
解码器 |
结合声学+语言模型,输出最优文本 |
2.4 端到端模型
|
模型 |
特点 |
|
CTC(Connectionist Temporal Classification) |
帧级独立假设,需对齐 |
|
Attention |
自动学习对齐,效果好 |
|
LAS(Listen, Attend and Spell) |
编码器-注意力-解码器 |
|
Conformer |
CNN+Transformer结合,当前SOTA |
2.5 ASR评估指标
|
指标 |
说明 |
|
WER(词错误率) |
(插入+删除+替换词数)/总词数,越低越好 |
|
CER(字错误率) |
中文常用,字级别错误 |
|
SER(句错误率) |
整句正确率 |
|
RTF(实时率) |
处理时长/音频时长,<1才能实时 |
2.6 阿里云ASR产品
|
产品 |
适用场景 |
|
一句话识别 |
短语音实时识别,如语音搜索 |
|
实时语音识别 |
流式输入,实时返回,如会议转写 |
|
录音文件识别 |
批量处理录音文件,如客服质检 |
|
语音自学习 |
自定义词汇、领域优化 |
三、语音合成(TTS)
3.1 TTS任务定义
输入:文本
输出:自然语音
核心挑战:自然度、韵律、情感、多语言
3.2 TTS技术演进
|
阶段 |
技术 |
特点 |
|
拼接合成 |
从语音库拼接片段 |
自然但生硬,库存大 |
|
参数合成 |
统计参数模型 |
小库存,但机器感强 |
|
神经网络 |
WaveNet、Tacotron |
自然度大幅提升 |
|
端到端 |
Tacotron2、FastSpeech、VITS |
当前主流,快速高质量 |
3.3 核心模型
|
模型 |
特点 |
|
Tacotron2 |
序列到序列+注意力,生成Mel谱 |
|
WaveNet |
自回归生成波形,自然但慢 |
|
WaveGlow |
流模型,并行生成,速度快 |
|
HiFi-GAN |
对抗网络声码器,质量速度兼顾 |
|
VITS |
端到端,直接文本到波形,效果优秀 |
3.4 TTS评估指标
|
指标 |
说明 |
|
MOS(平均意见分) |
人工听感评分,1-5分 |
|
相似度 |
与目标音色的相似程度 |
|
实时率(RTF) |
合成速度 |
|
Mel Cepstral Distortion |
客观指标,与MOS相关 |
3.5 阿里云TTS产品
|
能力 |
说明 |
|
标准音色 |
预置多种男女音色 |
|
定制音色 |
少量录音克隆特定音色 |
|
情感合成 |
开心、悲伤、愤怒等情感 |
|
多语言 |
中文、英文、方言、多语种混合 |
四、语音唤醒与声纹识别
4.1 语音唤醒
|
概念 |
说明 |
|
唤醒词 |
特定触发词,如"天猫精灵" |
|
误唤醒率 |
非唤醒词触发唤醒的概率 |
|
唤醒率 |
正确唤醒词被识别的概率 |
|
低功耗 |
设备端持续监听,需极低功耗 |
4.2 声纹识别
|
任务 |
说明 |
|
声纹确认(1:1) |
判断两段语音是否为同一人 |
|
声纹辨认(1:N) |
从库中找出说话人身份 |
|
抗噪能力 |
噪声环境下识别稳定性 |
|
防录音攻击 |
区分真人语音和录音回放 |
五、智能语音交互产品架构
5.1 完整交互流程
用户语音 → 语音唤醒 → ASR识别 → NLP理解 → 业务逻辑 → TTS合成 → 语音播放
5.2 阿里云智能语音交互产品
|
产品 |
功能 |
|
语音识别 |
一句话、实时、录音文件识别 |
|
语音合成 |
标准音色、定制音色、情感合成 |
|
语音唤醒 |
自定义唤醒词、低功耗方案 |
|
说话人识别 |
声纹确认、声纹辨认 |
|
语音自学习平台 |
自定义模型、领域优化 |
第五部分:自然语言处理基础知识(10%)
一、NLP基础概念
1.1 NLP层次
| 词法分析 | → | 句法分析 | → | 语义分析 | → | 语用分析 |
| 分词 | 依存句法 | 词向量 | 情感分析 | |||
| 词性标注 | 成分句法 | 语义相似度 | 意图识别 | |||
| 命名实体 | 短语结构 | 文本分类 | 对话管理 |
1.2 中文NLP特殊挑战
|
挑战 |
说明 |
|
分词 |
中文无空格,需自动分词 |
|
歧义 |
"研究生命"→研究/生命 或 研究生/命 |
|
新词 |
网络用语、专业术语不断出现 |
|
多音字 |
行(xíng/háng)、长(cháng/zhǎng) |
二、词法分析
2.1 分词(Word Segmentation)
|
方法 |
原理 |
代表 |
|
基于词典 |
最大匹配、最短路径 |
MMSEG |
|
基于统计 |
HMM、CRF |
jieba(HMM+词典) |
|
基于深度学习 |
BiLSTM-CRF、BERT |
LTP、HanLP |
2.2 词性标注(POS Tagging)
|
词性 |
示例 |
|
n |
名词:学生、学校 |
|
v |
动词:学习、跑步 |
|
a |
形容词:美丽、高大 |
|
d |
副词:非常、已经 |
|
m |
数词:一、百 |
|
q |
量词:个、只 |
|
r |
代词:我、这 |
|
p |
介词:在、从 |
2.3 命名实体识别(NER)
|
实体类型 |
示例 |
|
PER |
人名:张三、马云 |
|
ORG |
机构名:阿里巴巴、北京大学 |
|
LOC |
地名:北京、西湖 |
|
TIME |
时间:2024年5月 |
|
MONEY |
金额:100万元 |
NER方法演进:规则 → CRF → BiLSTM-CRF → BERT-CRF
三、句法分析
3.1 依存句法分析
分析词与词之间的依存关系
核心:找出中心词(Head)和依存词(Dependent)
3.2 常见依存关系
|
关系 |
说明 |
示例 |
|
SBV |
主谓关系 |
我[SBV]吃饭 |
|
VOB |
动宾关系 |
吃[VOB]饭 |
|
ATT |
定中关系 |
美丽[ATT]花朵 |
|
ADV |
状中关系 |
非常[ADV]好 |
|
COO |
并列关系 |
北京[COO]上海 |
3.3 成分句法分析
分析句子的短语结构
树形结构:S → NP VP → ...
四、语义分析
4.1 词向量(Word Embedding)
|
模型 |
特点 |
|
Word2Vec |
CBOW(上下文预测中心词)/Skip-gram(中心词预测上下文) |
|
GloVe |
全局词频统计+局部上下文 |
|
FastText |
考虑子词(n-gram),解决OOV |
|
ELMo |
上下文相关词向量,一词多义 |
4.2 词向量特性
|
特性 |
说明 |
|
语义相似 |
相似词的向量距离近 |
|
类比推理 |
国王-男人+女人≈女王 |
|
维度 |
通常50-300维 |
4.3 文本表示方法
|
方法 |
说明 |
优缺点 |
|
词袋模型(BOW) |
词频统计,忽略顺序 |
简单,丢失语义 |
|
TF-IDF |
词频×逆文档频率 |
考虑重要性,仍无顺序 |
|
N-gram |
连续N个词组合 |
捕捉局部顺序,维度高 |
|
Word2Vec平均 |
词向量平均 |
简单有效 |
|
预训练模型 |
BERT、GPT等 |
上下文相关,效果最好 |
五、预训练语言模型
5.1 Transformer架构
|
组件 |
说明 |
|
自注意力(Self-Attention) |
计算序列中每个位置与其他位置的关系 |
|
多头注意力 |
多组注意力并行,捕捉不同子空间信息 |
|
位置编码 |
注入位置信息(正弦/可学习) |
|
前馈网络 |
逐位置独立的全连接层 |
|
层归一化 |
稳定训练 |
5.2 预训练模型对比
|
模型 |
架构 |
预训练任务 |
特点 |
|
BERT |
Encoder-only |
MLM(掩码语言模型)+NSP |
双向理解,适合分类/NER |
|
GPT系列 |
Decoder-only |
自回归语言模型 |
单向生成,适合文本生成 |
|
T5 |
Encoder-Decoder |
Span Corruption |
统一框架,翻译/摘要 |
|
RoBERTa |
Encoder-only |
优化版BERT |
去掉NSP,更大数据 |
|
ALBERT |
Encoder-only |
参数共享+因式分解 |
轻量级BERT |
|
ERNIE(百度) |
Encoder-only |
实体/知识掩码 |
知识增强 |
|
通义千问 |
Decoder-only |
大规模预训练+指令微调 |
阿里云自研 |
5.3 BERT核心预训练任务
|
任务 |
说明 |
|
MLM(Masked Language Model) |
随机掩码15%的词,预测被掩码词 |
|
NSP(Next Sentence Prediction) |
判断两句是否连续(RoBERTa已去掉) |
5.4 预训练模型微调(Fine-tuning)
|
任务 |
微调方式 |
|
文本分类 |
[CLS]向量接分类层 |
|
NER |
每个token输出接分类层 |
|
问答 |
预测答案起始和结束位置 |
|
文本相似度 |
两句拼接,[CLS]接分类层 |
六、NLP核心任务
6.1 文本分类
|
应用 |
示例 |
|
情感分析 |
正面/负面/中性 |
|
主题分类 |
体育/财经/娱乐 |
|
意图识别 |
查询/预订/投诉 |
|
垃圾检测 |
垃圾邮件/评论 |
6.2 文本匹配/相似度
|
方法 |
说明 |
|
表示型(双塔) |
分别编码,向量相似度计算 |
|
交互型(单塔) |
拼接后交互编码 |
|
Cross-Encoder |
精度高但慢 |
|
Bi-Encoder |
可预计算,适合召回 |
6.3 序列标注
|
任务 |
标注体系 |
|
NER |
BIO/BIOES(B-开始,I-中间,O-非实体) |
|
分词 |
B/M/E/S(开始/中间/结束/单字) |
|
词性标注 |
每个词一个词性标签 |
6.4 文本生成
|
任务 |
说明 |
|
机器翻译 |
源语言→目标语言 |
|
文本摘要 |
长文本→短摘要 |
|
对话生成 |
生成回复 |
|
代码生成 |
自然语言→代码 |
6.5 问答系统
|
类型 |
说明 |
|
检索式问答 |
从文档中找答案片段 |
|
知识图谱问答 |
基于结构化知识 |
|
生成式问答 |
直接生成答案 |
|
多轮对话 |
考虑上下文历史 |
七、阿里云NLP产品
7.1 自然语言处理平台
|
能力 |
功能 |
|
分词 |
中文分词、词性标注 |
|
命名实体识别 |
人名、地名、机构名等 |
|
情感分析 |
文本情感倾向 |
|
文本分类 |
自定义分类 |
|
关键词提取 |
TF-IDF、TextRank |
|
摘要生成 |
自动摘要 |
|
文本相似度 |
语义相似度计算 |
7.2 文档智能
|
能力 |
功能 |
|
文档解析 |
PDF/Word/图片转结构化 |
|
信息抽取 |
从文档提取关键字段 |
|
文档比对 |
合同/标书差异比对 |
|
表格识别 |
复杂表格结构化 |
|
票据识别 |
发票、合同等 |
7.3 机器翻译
|
能力 |
说明 |
|
通用翻译 |
多语种互译 |
|
领域翻译 |
电商、医疗、金融等专业领域 |
|
文档翻译 |
整篇文档翻译 |
|
实时翻译 |
API实时调用 |
7.4 通义千问大模型
|
能力 |
说明 |
|
对话能力 |
多轮对话、上下文理解 |
|
推理能力 |
逻辑推理、数学计算 |
|
代码能力 |
代码生成、代码解释 |
|
多模态 |
图文理解(Qwen-VL) |
|
长文本 |
支持超长上下文 |
更多推荐



所有评论(0)