考试内容及分值分布

章节 分值占比
人工智能建模流程与基础知识 20%
阿里云机器学习平台PAI 15%
视觉智能基础知识 11%
智能语音处理基础知识 10%
自然语言处理基础知识 10%
阿里云视觉智能 8%
阿里云智能语音交互 8%
阿里云自然语言处理 8%
人工智能与人工智能技术概述 4%
阿里云人工智能产品体系概述 6%

第一章:人工智能建模流程与基础知识(20%)

这是考试占比最高的部分,也是所有AI项目的通用方法论。

1.1 标准建模流程(必须熟记顺序)

业务理解

(明确目标)

数据准备

(采集/清洗)

特征工程

(特征构建)

模型部署

(上线服务)

模型评估

(效果验证)

模型训练

(算法选择)

考点陷阱:题目常考"特征工程在数据准备之前还是之后"——一定是数据准备之后

1.2 数据准备阶段重点

环节

核心考点

数据采集

数据来源类型(结构化/非结构化/半结构化)

数据清洗

处理缺失值、异常值、重复值的方法

数据标注

分类标注、边界框标注、语义分割标注、关键点标注

数据增强

图像:旋转、翻转、裁剪、亮度调整;文本:同义词替换、回译

易混淆点

数据标注 vs 数据增强:标注是人工/半人工打标签;增强是自动生成新样本

结构化数据:表格形式(Excel、数据库);非结构化:图片、语音、文本

1.3 特征工程重点

技术

适用场景

阿里云工具

特征缩放(归一化/标准化)

不同量纲的特征

PAI-Designer内置

特征选择(过滤法/包裹法/嵌入法)

高维数据降维

PAI-FeatureStore

特征编码(One-Hot/Label Encoding)

类别型变量

PAI-Designer内置

特征交叉

推荐系统、广告

PAI-FeatureStore

考试常考:标准化(Z-score)vs 归一化(Min-Max)的区别

标准化:均值为0,方差为1,适用于未知边界、存在异常值

归一化:缩放到[0,1],适用于已知边界、无异常值

1.4 模型训练核心算法(必须掌握原理和适用场景)

算法类型

代表算法

适用场景

关键参数

线性回归

简单线性回归

连续值预测

学习率、迭代次数

逻辑回归

二分类/多分类

广告点击预测

正则化强度

决策树

CART、ID3

可解释性强的分类

树深度、叶子节点数

随机森林

Bagging集成

高维数据分类

树的数量、特征采样比

XGBoost/LightGBM

Boosting集成

竞赛/工业界首选

学习率、树深度、子采样

SVM

支持向量机

高维小样本

核函数类型、C值

K-Means

聚类

无标签数据分组

K值、距离度量

KNN

近邻算法

小样本分类

K值、距离度量

神经网络

MLP、CNN、RNN

复杂模式识别

层数、神经元数、激活函数

高频考点

过拟合 vs 欠拟合

  过拟合:训练集好,测试集差 → 增加数据、正则化、Dropout、早停

  欠拟合:训练集和测试集都差 → 增加模型复杂度、减少正则化

偏差-方差权衡:高偏差=欠拟合,高方差=过拟合

交叉验证:K折交叉验证(K=5或10最常见)

1.5 模型评估指标(重点!不同任务指标不同)

任务类型

核心指标

公式/含义

二分类

准确率(Accuracy)

(TP+TN)/(TP+TN+FP+FN)

精确率(Precision)

TP/(TP+FP) —— 预测为正的中多少是真的

召回率(Recall)

TP/(TP+FN) —— 真的是正的中多少被找出来

F1-Score

2×Precision×Recall/(Precision+Recall)

AUC-ROC

ROC曲线下面积,衡量排序能力

KS值

好坏样本累计分布差异最大值

多分类

宏平均/微平均F1

按类别平均或按样本平均

回归

MSE(均方误差)

预测值与真实值差的平方平均

MAE(平均绝对误差)

绝对差平均,对异常值更鲁棒

RMSE

MSE开根号,与原始量纲一致

模型解释数据变异的比例

聚类

轮廓系数

[-1,1],越接近1越好

CH指数

越大越好

考试陷阱题

"在欺诈检测中,应该更关注精确率还是召回率?" → 召回率(宁可错杀不可放过)

"在垃圾邮件过滤中,应该更关注精确率还是召回率?" → 精确率(宁可放过不可错杀)

1.6 模型部署与监控

环节

考点

模型导出

PMML、ONNX、SavedModel格式

服务部署

REST API、批量推理、流式推理

A/B测试

流量切分、指标对比

模型监控

数据漂移(Data Drift)、概念漂移(Concept Drift)

模型迭代

在线学习、定期全量重训练


第二章:阿里云机器学习平台PAI(15%)

这是阿里云特有的产品知识,非阿里云用户最容易丢分,必须重点攻克。

2.1 PAI产品体系全景图

阿里云机器学习平台 PAI
PAI-iTag (智能标注) PAI-Designer (可视化建模) PAI-DSW (Notebook) PAI-DLC (深度学习训练)
PAI-FeatureStore (特征平台)
PAI-AutoML (自动机器学习)
PAI-EAS (模型在线服务)

2.2 各组件详细考点

PAI-iTag(数据标注)

考点

内容

功能

图像分类、物体检测、图像分割、OCR、文本分类、语音标注

标注模式

人工标注、智能标注(预标注+人工复核)、众包标注

输出格式

支持导出为PAI标准格式、COCO、VOC等

考试重点

智能标注如何减少人工成本、标注质量如何保证

PAI-Designer(可视化建模,原名PAI-Studio)

考点

内容

定位

零代码/低代码机器学习平台

核心功能

拖拽式组件、内置数百种算法组件、自动生成实验流程

适用人群

算法工程师、业务人员(无需写代码)

与DSW区别

Designer是可视化拖拽,DSW是写代码

考试重点

组件连接逻辑、数据流走向、常见算法组件位置

高频考题:"业务人员想做客户流失预测,推荐使用PAI的哪个组件?" → PAI-Designer

PAI-DSW(Data Science Workshop)

考点

内容

定位

交互式开发环境(Notebook)

支持语言

Python、R

预装环境

TensorFlow、PyTorch、XGBoost、Scikit-learn

资源类型

CPU、GPU(V100、A100等)

适用场景

自定义算法开发、复杂数据探索、深度学习

与Designer区别

DSW需要写代码,更灵活;Designer拖拽即可

PAI-DLC(Deep Learning Container)

考点

内容

定位

深度学习训练平台

功能

分布式训练、超大规模模型训练

支持框架

TensorFlow、PyTorch、MXNet、Horovod

资源调度

支持抢占式实例、Spot实例降成本

与DSW区别

DLC是提交训练任务,DSW是交互式开发

考试重点:"需要训练一个10亿参数的NLP模型,应该用PAI-DLC还是DSW?" → PAI-DLC(DLC支持分布式大规模训练)

PAI-FeatureStore(特征平台)

考点

内容

功能

特征统一管理、在线/离线特征一致性

核心概念

特征实体、特征表、特征版本、特征血缘

在线/离线一致性

解决训练-推理特征不一致问题(Training-Serving Skew)

适用场景

推荐系统、风控模型(特征复用频繁)

高频考点:FeatureStore解决的核心痛点是 "在线特征和离线特征不一致"

PAI-AutoML(自动机器学习)

考点

内容

功能

自动特征工程、自动算法选择、自动超参调优

超参搜索方法

网格搜索、随机搜索、贝叶斯优化、进化算法

适用场景

快速原型验证、非专家用户

与手动建模对比

效率更高,但可能不是最优解

PAI-EAS(Elastic Algorithm Service)

考点

内容

定位

模型在线推理服务

部署方式

镜像部署、Processor部署(PAI内置)

弹性伸缩

自动扩缩容、按QPS/CPU/内存触发

灰度发布

支持A/B测试、金丝雀发布

监控指标

QPS、Latency、Error Rate、资源使用率

考试重点

EAS支持 GPU/CPU混合部署

模型更新支持 热更新(不停机)

与函数计算FC的区别:EAS专为模型推理优化,FC是通用Serverless

2.3 PAI各组件选型场景(必考!)

业务场景

推荐组件

原因

业务人员做销售预测,不会写代码

PAI-Designer

可视化拖拽

算法工程师开发新推荐算法

PAI-DSW

需要自定义代码

训练百亿参数大模型

PAI-DLC

分布式训练能力

特征在不同模型间复用

PAI-FeatureStore

特征统一管理

快速验证哪个算法效果最好

PAI-AutoML

自动算法选择

模型上线提供API服务

PAI-EAS

在线推理服务

大量图片需要标注

PAI-iTag

智能标注降成本

2.4 PAI与阿里云其他产品集成

集成产品

用途

OSS

存储训练数据、模型文件

MaxCompute

大数据计算,作为PAI数据源

DataWorks

数据集成、ETL调度

RDS/PolarDB

结构化数据存储

日志服务SLS

采集日志数据用于训练

API网关

为EAS服务提供统一入口


第三章:视觉智能基础知识(11%)

3.1 计算机视觉核心任务

任务

定义

典型应用

图像分类

判断整张图属于哪个类别

商品分类、医学影像诊断

目标检测

找出图中物体位置+类别

人脸检测、车辆检测

图像分割

像素级分类

医学影像分割、自动驾驶

语义分割:只分类不区分实例

实例分割:分类+区分不同个体

OCR

光学字符识别

身份证识别、发票识别

图像生成

生成新图像

AI绘画、数据增强

视频分析

时序+空间分析

行为识别、视频摘要

3.2 经典网络架构(考点)

网络

特点

适用任务

CNN/卷积神经网络

局部连接、权值共享

图像基础特征提取

ResNet

残差连接,解决梯度消失

深层网络训练

VGG

小卷积核(3×3)堆叠

图像分类

YOLO

单阶段检测,速度快

实时目标检测

Faster R-CNN

双阶段检测,精度高

高精度目标检测

Mask R-CNN

在Faster R-CNN上加分割分支

实例分割

U-Net

编码器-解码器结构

医学图像分割

Transformer/ViT

注意力机制

大规模图像理解

3.3 阿里云视觉智能产品

产品

功能

考试重点

视觉智能开放平台

提供API调用

通用视觉能力

图像搜索

以图搜图

商品搜索、版权保护

人脸识别

人脸检测、比对、属性

1:1/1:N比对、活体检测

OCR

通用文字、卡证、票据、表格

各场景精度差异

内容安全

图片/视频违规检测

鉴黄、暴恐、 politically sensitive


第四章:智能语音处理基础知识(10%)

4.1 语音技术核心链路

音频采集 → 预处理(降噪/去混响) → 特征提取(MFCC/FBank) → 声学模型 → 语言模型 → 后处理 → 文本输出

4.2 三大语音任务

任务

定义

关键指标

语音识别(ASR)

语音转文字

WER(词错误率)、CER(字错误率)

语音合成(TTS)

文字转语音

MOS(主观评分)、相似度

语音唤醒

检测特定唤醒词

唤醒率、误唤醒率

4.3 阿里云智能语音交互产品

产品

功能

考试重点

语音识别

一句话识别、实时识别、录音文件识别

适用场景差异

语音合成

标准音色、定制音色

情感合成、多语言

语音唤醒

设备唤醒

低功耗、远场识别

说话人识别

声纹识别

1:1/1:N


第五章:自然语言处理基础知识(10%)

5.1 NLP核心任务

任务层级

具体任务

说明

词法分析

分词、词性标注、命名实体识别

基础处理

句法分析

依存句法分析、成分句法分析

句子结构

语义分析

词向量、语义相似度、文本分类

理解含义

语用分析

情感分析、意图识别、对话管理

实际应用

5.2 预训练模型(重点)

模型

特点

阿里云对应

BERT

双向编码,理解能力强

通义千问基础

GPT

单向生成,生成能力强

通义千问对话

Transformer

注意力机制,并行计算

大模型底座

通义千问

阿里云自研大模型

产品化应用

5.3 阿里云NLP产品

产品

功能

考试重点

自然语言处理平台

基础NLP能力API

分词、NER、情感分析

文档智能

文档解析、抽取、比对

合同、财报处理

机器翻译

多语言翻译

通用/专业领域

通义千问

大模型对话、推理

应用场景

一、计算机视觉概述

1.1 计算机视觉定义

使机器能够"看"并理解图像和视频内容的技术

目标:从视觉数据中提取有用信息,做出决策或理解场景

1.2 视觉任务层次

低层视觉 中层视觉 高层视觉
图像滤波 目标检测 场景理解
边缘检测 图像分割 行为分析
特征提取 姿态估计 视觉问答

1.3 图像基础概念

概念

说明

像素Pixel

图像最小单位,每个像素有颜色值

分辨率

图像的宽×高像素数

通道(Channel

颜色分量,灰度图1通道,RGB图3通道,RGBA图4通道

位深

每个通道的比特数,常见8bit(0-255)

色彩空间

RGB(显示)、HSV(处理)、CMYK(印刷)、LAB(感知均匀)


二、图像分类

2.1 任务定义

输入:一张图像

输出:该图像所属的类别标签

特点:整张图只有一个类别

2.2 经典网络架构演进

网络

年份

核心创新

特点

LeNet

1998

卷积+池化+全连接

手写数字识别,5层

AlexNet

2012

ReLU、Dropout、GPU训练

8层,ImageNet冠军,深度学习爆发

VGGNet

2014

小卷积核(3×3)堆叠

16-19层,结构规整

ResNet

2015

残差连接(Skip Connection)

152+层,解决梯度消失

Inception

2014

多尺度卷积并行

1×1、3×3、5×5并行

MobileNet

2017

深度可分离卷积

轻量级,移动端适用

EfficientNet

2019

复合缩放(深度/宽度/分辨率)

效率最优

Vision Transformer (ViT)

2020

将图像切分为Patch,用Transformer

大数据量下超越CNN

2.3 卷积神经网络(CNN)核心组件

组件

作用

参数

卷积层(Conv

提取局部特征

卷积核大小、步长、填充、输出通道数

激活函数

引入非线性

ReLU、LeakyReLU、ELU、GELU

池化层(Pooling

降维、平移不变性

Max Pooling、Average Pooling

归一化BN

加速训练、稳定分布

在卷积后、激活前

全连接层(FC

分类决策

输出类别数

Dropout

防止过拟合

丢弃比例

2.4 图像分类评估指标

指标

说明

Top-1准确率

预测第一名正确的比例

Top-5准确率

预测前五名包含正确答案的比例

混淆矩阵

各类别预测情况

宏平均F1

各类别F1的平均

加权平均F1

按样本数加权的F1平均


三、目标检测

3.1 任务定义

输入:一张图像

输出:多个目标的位置(Bounding Box)和类别

与分类区别:分类只输出类别,检测还要输出位置

3.2 核心概念

概念

说明

Bounding Box

矩形框,用(x,y,w,h)或(x1,y1,x2,y2)表示

IoU(交并比)

预测框与真实框的交集/并集,>0.5通常认为正确

NMS(非极大值抑制)

去除重叠过多的冗余检测框

Anchor

预设的参考框,网络预测偏移量

mAP(平均精度均值)

主要评估指标,IoU阈值通常0.5

3.3 检测算法分类

类型

代表算法

特点

两阶段检测

R-CNN、Fast R-CNN、Faster R-CNN

先提候选框再分类,精度高速度慢

单阶段检测

YOLO、SSD、RetinaNet

直接预测,速度快精度略低

Anchor-free

CenterNet、FCOS

无需预设Anchor,简化流程

3.4 YOLO系列演进

版本

年份

核心改进

YOLOv1

2016

首次单阶段实时检测

YOLOv2

2017

Anchor机制、Batch Normalization

YOLOv3

2018

多尺度预测(3个尺度)

YOLOv4

2020

Mosaic增强、CSPDarknet骨干

YOLOv5

2020

PyTorch实现,工程优化

YOLOv8

2023

解耦头、Anchor-free

3.5 两阶段 vs 单阶段

对比项

两阶段(Faster R-CNN)

单阶段(YOLO)

速度

慢(10-20 FPS)

快(45-140 FPS)

精度

高(mAP高)

略低(但不断提升)

适用场景

精度要求高的离线分析

实时视频、移动端

小目标检测

较好

较弱(YOLOv5+改善)


四、图像分割

4.1 任务定义

像素级分类,每个像素分配一个类别标签

比检测更精细,精确到轮廓

4.2 分割类型对比

类型

定义

示例

语义分割

像素级分类,不区分个体

所有"人"像素标为同一类

实例分割

像素级分类+区分不同个体

"人A"、"人B"分别标注

全景分割

语义分割+实例分割结合

同时处理"物"和"人"

4.3 经典分割网络

网络

特点

适用

FCN

首个端到端全卷积分割

语义分割基础

U-Net

编码器-解码器+跳跃连接

医学图像(小样本)

DeepLab系列

空洞卷积扩大感受野

语义分割

Mask R-CNN

在Faster R-CNN上加分割分支

实例分割

SAM

提示分割,零样本泛化

通用分割

4.4 分割评估指标

指标

说明

Pixel Accuracy

正确像素/总像素

mIoU(平均交并比)

各类别IoU的平均,最常用

Dice系数

2×交集/(预测+真实),医学常用

Boundary F1

边界精度


五、OCR(光学字符识别)

5.1 OCR流程

输入图像 → 文本检测 → 文本识别 → 后处理 → 输出文本

5.2 文本检测方法

方法

特点

CTPN

基于Anchor,检测水平文本

EAST

全卷积网络,任意方向文本

DBNet

可微分二值化,速度快

PSENet

渐进尺度扩展,弯曲文本

5.3 文本识别方法

方法

特点

CRNN

CNN+BiLSTM+CTC,经典端到端

Attention-based

注意力机制解码

Transformer-based

如TrOCR,精度更高

5.4 OCR应用场景

身份证识别、银行卡识别、发票识别、车牌识别、文档数字化


六、图像生成

6.1 生成模型类型

模型

原理

特点

VAE分自编码器

学习潜在分布,采样生成

生成模糊,可编辑性强

GAN生成对抗网络

生成器+判别器对抗

生成清晰,训练不稳定

Diffusion Model

逐步去噪生成

当前主流,质量最高

Flow-based

可逆变换

精确似然计算

6.2 GAN核心概念

概念

说明

生成器(Generator)

从噪声生成假样本

判别器(Discriminator)

区分真假样本

损失函数

最小最大博弈

模式崩溃(Mode Collapse)

生成器只生成少数样本

条件GAN(cGAN)

给定条件生成特定内容

6.3 Diffusion Model

概念

说明

前向过程

逐步加噪声,直到纯噪声

反向过程

学习去噪,逐步恢复图像

Stable Diffusion

在潜在空间扩散,效率高

文生图

文本条件控制生成内容


七、视频分析

7.1 视频任务类型

任务

说明

视频分类

整个视频的分类

动作识别

识别视频中人的行为

时序动作检测

检测动作发生的时间段

视频目标跟踪

跟踪特定目标在视频中的轨迹

视频摘要

提取关键帧或片段

7.2 视频处理特点

时序信息:需要考虑帧间关系

计算量大:相比图像增加时间维度

常用方法:3D CNN、LSTM+CNN、Transformer(如TimeSformer)


八、阿里云视觉智能产品

8.1 视觉智能开放平台

能力

功能

图像识别

通用物体、场景、Logo、菜品等识别

图像搜索

以图搜图、商品搜索、版权保护

人脸识别

人脸检测、人脸比对、人脸属性、活体检测

人体分析

人体检测、姿态估计、属性识别

OCR

通用文字、卡证、票据、表格、车牌

内容安全

图片/视频违规内容识别

8.2 人脸识别核心能力

能力

说明

人脸检测

定位人脸位置

人脸比对(1:1)

判断两张脸是否为同一人

人脸搜索(1:N)

从库中找出最相似的人

人脸属性

年龄、性别、表情、眼镜等

活体检测

判断是否为真人(防照片/视频攻击)

8.3 OCR产品矩阵

产品

适用场景

通用文字识别

印刷体、手写体

卡证识别

身份证、银行卡、驾驶证、营业执照

票据识别

增值税发票、火车票、出租车票

表格识别

结构化表格提取

自定义模板

固定版式文档

8.4 内容安全

检测类型

说明

鉴黄

色情内容识别

暴恐

暴力恐怖内容

** politically sensitive**

敏感人物、旗帜等

广告

违规广告识别

图文违规

文字+图像联合审核


第四部分:智能语音处理基础知识(10%)

一、语音信号基础

1.1 声音基本概念

概念

说明

频率

音调高低,单位Hz

振幅

音量大小

采样率

每秒采样次数,常见16kHz、44.1kHz

量化位数

每个采样点的精度,常见16bit

声道数

单声道、立体声

波形

时域表示,振幅随时间变化

1.2 语音信号处理流程

模拟语音 → 采样 → 量化 → 编码 → 数字语音信号

1.3 语音特征提取

特征

说明

用途

时域特征

短时能量、过零率

端点检测、清浊音判断

频域特征

频谱、功率谱

音素识别

MFCC梅尔频率倒谱系数

模拟人耳听觉特性

最常用特征,13-40维

FBank(滤波器组特征)

梅尔滤波器组输出

深度学习输入

Spectrogram(语谱图)

时频联合表示

可直接输入CNN


二、语音识别(ASR)

2.1 ASR任务定义

输入:语音信号

输出:对应的文本

核心挑战:口音、噪声、同音字、上下文歧义

2.2 ASR系统架构演进

阶段

技术

特点

传统方法

GMM-HMM

高斯混合模型+隐马尔可夫模型

深度学习早期

DNN-HMM

深度神经网络替代GMM

端到端

CTC、Attention

直接语音到文本

当前主流

Transformer、Conformer

自注意力+卷积,精度最高

2.3 核心组件

组件

功能

声学模型

语音特征→音素概率

语言模型

文本序列概率,纠正声学错误

发音词典

词到音素的映射

解码器

结合声学+语言模型,输出最优文本

2.4 端到端模型

模型

特点

CTCConnectionist Temporal Classification

帧级独立假设,需对齐

Attention

自动学习对齐,效果好

LAS(Listen, Attend and Spell)

编码器-注意力-解码器

Conformer

CNN+Transformer结合,当前SOTA

2.5 ASR评估指标

指标

说明

WER(词错误率)

(插入+删除+替换词数)/总词数,越低越好

CER(字错误率)

中文常用,字级别错误

SER(句错误率)

整句正确率

RTF实时率

处理时长/音频时长,<1才能实时

2.6 阿里云ASR产品

产品

适用场景

一句话识别

短语音实时识别,如语音搜索

实时语音识别

流式输入,实时返回,如会议转写

录音文件识别

批量处理录音文件,如客服质检

语音自学习

自定义词汇、领域优化


三、语音合成(TTS)

3.1 TTS任务定义

输入:文本

输出:自然语音

核心挑战:自然度、韵律、情感、多语言

3.2 TTS技术演进

阶段

技术

特点

拼接合成

从语音库拼接片段

自然但生硬,库存大

参数合成

统计参数模型

小库存,但机器感强

神经网络

WaveNet、Tacotron

自然度大幅提升

端到端

Tacotron2、FastSpeech、VITS

当前主流,快速高质量

3.3 核心模型

模型

特点

Tacotron2

序列到序列+注意力,生成Mel谱

WaveNet

自回归生成波形,自然但慢

WaveGlow

流模型,并行生成,速度快

HiFi-GAN

对抗网络声码器,质量速度兼顾

VITS

端到端,直接文本到波形,效果优秀

3.4 TTS评估指标

指标

说明

MOS(平均意见分)

人工听感评分,1-5分

相似度

与目标音色的相似程度

实时率RTF

合成速度

Mel Cepstral Distortion

客观指标,与MOS相关

3.5 阿里云TTS产品

能力

说明

标准音色

预置多种男女音色

定制音色

少量录音克隆特定音色

情感合成

开心、悲伤、愤怒等情感

多语言

中文、英文、方言、多语种混合


四、语音唤醒与声纹识别

4.1 语音唤醒

概念

说明

唤醒词

特定触发词,如"天猫精灵"

误唤醒率

非唤醒词触发唤醒的概率

唤醒率

正确唤醒词被识别的概率

低功耗

设备端持续监听,需极低功耗

4.2 声纹识别

任务

说明

声纹确认(1:1)

判断两段语音是否为同一人

声纹辨认(1:N)

从库中找出说话人身份

抗噪能力

噪声环境下识别稳定性

防录音攻击

区分真人语音和录音回放


五、智能语音交互产品架构

5.1 完整交互流程

用户语音 → 语音唤醒 → ASR识别 → NLP理解 → 业务逻辑 → TTS合成 → 语音播放

5.2 阿里云智能语音交互产品

产品

功能

语音识别

一句话、实时、录音文件识别

语音合成

标准音色、定制音色、情感合成

语音唤醒

自定义唤醒词、低功耗方案

说话人识别

声纹确认、声纹辨认

语音自学习平台

自定义模型、领域优化


第五部分:自然语言处理基础知识(10%)

一、NLP基础概念

1.1 NLP层次

词法分析 句法分析 语义分析 语用分析
分词 依存句法 词向量 情感分析
词性标注 成分句法 语义相似度 意图识别
命名实体 短语结构 文本分类 对话管理

1.2 中文NLP特殊挑战

挑战

说明

分词

中文无空格,需自动分词

歧义

"研究生命"→研究/生命 或 研究生/命

新词

网络用语、专业术语不断出现

多音字

行(xíng/háng)、长(cháng/zhǎng)


二、词法分析

2.1 分词(Word Segmentation)

方法

原理

代表

基于词典

最大匹配、最短路径

MMSEG

基于统计

HMM、CRF

jieba(HMM+词典)

基于深度学习

BiLSTM-CRF、BERT

LTP、HanLP

2.2 词性标注(POS Tagging)

词性

示例

n

名词:学生、学校

v

动词:学习、跑步

a

形容词:美丽、高大

d

副词:非常、已经

m

数词:一、百

q

量词:个、只

r

代词:我、这

p

介词:在、从

2.3 命名实体识别(NER)

实体类型

示例

PER

人名:张三、马云

ORG

机构名:阿里巴巴、北京大学

LOC

地名:北京、西湖

TIME

时间:2024年5月

MONEY

金额:100万元

NER方法演进:规则 → CRF → BiLSTM-CRF → BERT-CRF


三、句法分析

3.1 依存句法分析

分析词与词之间的依存关系

核心:找出中心词(Head)和依存词(Dependent)

3.2 常见依存关系

关系

说明

示例

SBV

主谓关系

我[SBV]吃饭

VOB

动宾关系

吃[VOB]饭

ATT

定中关系

美丽[ATT]花朵

ADV

状中关系

非常[ADV]好

COO

并列关系

北京[COO]上海

3.3 成分句法分析

分析句子的短语结构

树形结构:S → NP VP → ...


四、语义分析

4.1 词向量(Word Embedding)

模型

特点

Word2Vec

CBOW(上下文预测中心词)/Skip-gram(中心词预测上下文)

GloVe

全局词频统计+局部上下文

FastText

考虑子词(n-gram),解决OOV

ELMo

上下文相关词向量,一词多义

4.2 词向量特性

特性

说明

语义相似

相似词的向量距离近

类比推理

国王-男人+女人≈女王

维度

通常50-300维

4.3 文本表示方法

方法

说明

优缺点

词袋模型(BOW)

词频统计,忽略顺序

简单,丢失语义

TF-IDF

词频×逆文档频率

考虑重要性,仍无顺序

N-gram

连续N个词组合

捕捉局部顺序,维度高

Word2Vec平均

词向量平均

简单有效

预训练模型

BERT、GPT等

上下文相关,效果最好


五、预训练语言模型

5.1 Transformer架构

组件

说明

自注意力(Self-Attention)

计算序列中每个位置与其他位置的关系

多头注意力

多组注意力并行,捕捉不同子空间信息

位置编码

注入位置信息(正弦/可学习)

前馈网络

逐位置独立的全连接层

归一化

稳定训练

5.2 预训练模型对比

模型

架构

预训练任务

特点

BERT

Encoder-only

MLM(掩码语言模型)+NSP

双向理解,适合分类/NER

GPT系列

Decoder-only

自回归语言模型

单向生成,适合文本生成

T5

Encoder-Decoder

Span Corruption

统一框架,翻译/摘要

RoBERTa

Encoder-only

优化版BERT

去掉NSP,更大数据

ALBERT

Encoder-only

参数共享+因式分解

轻量级BERT

ERNIE(百度)

Encoder-only

实体/知识掩码

知识增强

通义千问

Decoder-only

大规模预训练+指令微调

阿里云自研

5.3 BERT核心预训练任务

任务

说明

MLM(Masked Language Model

随机掩码15%的词,预测被掩码词

NSP(Next Sentence Prediction)

判断两句是否连续(RoBERTa已去掉)

5.4 预训练模型微调(Fine-tuning)

任务

微调方式

文本分类

[CLS]向量接分类层

NER

每个token输出接分类层

问答

预测答案起始和结束位置

文本相似度

两句拼接,[CLS]接分类层


六、NLP核心任务

6.1 文本分类

应用

示例

情感分析

正面/负面/中性

主题分类

体育/财经/娱乐

意图识别

查询/预订/投诉

垃圾检测

垃圾邮件/评论

6.2 文本匹配/相似度

方法

说明

表示型(双塔)

分别编码,向量相似度计算

交互型(单塔)

拼接后交互编码

Cross-Encoder

精度高但慢

Bi-Encoder

可预计算,适合召回

6.3 序列标注

任务

标注体系

NER

BIO/BIOES(B-开始,I-中间,O-非实体)

分词

B/M/E/S(开始/中间/结束/单字)

词性标注

每个词一个词性标签

6.4 文本生成

任务

说明

机器翻译

源语言→目标语言

文本摘要

长文本→短摘要

对话生成

生成回复

代码生成

自然语言→代码

6.5 问答系统

类型

说明

检索式问答

从文档中找答案片段

知识图谱问答

基于结构化知识

生成式问答

直接生成答案

多轮对话

考虑上下文历史


七、阿里云NLP产品

7.1 自然语言处理平台

能力

功能

分词

中文分词、词性标注

命名实体识别

人名、地名、机构名等

情感分析

文本情感倾向

文本分类

自定义分类

关键词提取

TF-IDF、TextRank

摘要生成

自动摘要

文本相似度

语义相似度计算

7.2 文档智能

能力

功能

文档解析

PDF/Word/图片转结构化

信息抽取

从文档提取关键字段

文档比对

合同/标书差异比对

表格识别

复杂表格结构化

票据识别

发票、合同等

7.3 机器翻译

能力

说明

通用翻译

多语种互译

领域翻译

电商、医疗、金融等专业领域

文档翻译

整篇文档翻译

实时翻译

API实时调用

7.4 通义千问大模型

能力

说明

对话能力

多轮对话、上下文理解

推理能力

逻辑推理、数学计算

代码能力

代码生成、代码解释

多模态

图文理解(Qwen-VL)

长文本

支持超长上下文

Logo

更多推荐