前言:

一个很久之前截的B站评论:

@?:

很多人学不懂线代(高代)的原因是,线性代数这门课本质上来说是 具体-抽象-再具体 的回旋过程首先从线性方程组开始讲起,讨论矩阵,方阵的性质然后再由矩阵上升到线性空间上的线性映射线性变换,在研究线性映射和线性变换时又会通过和数域K的联系再具体化到矩阵所以入门学习矩阵的时候,很容易迷失在处处严谨的证明细枝未节里,从而没法把握核心的思路与研究目的;

而矩阵没学好,后面的线性空间更难理解,因为线性空间研究往往是再具体化到矩阵上来进行的

所以我建议朋友们学习高代(线代)的时候,在初期就把这门课当作一门外语来学在矩阵部分对每一条定理每一个命题都把他当作单词吃透当你带着扎实的矩阵功底去接触线性空间的时候,马上如拨云见日般。你也会很快感受到代数学具体抽象再具体的魅力。

@吸猫群众QAQ:

数无形时少直觉,形少数时难入微,数形结合百般好。越学习越惊叹于古人的智慧,三百多年的科学史,孕育出了多少绝妙的思想。想到了年纪轻轻却在数学体系不完善的年代创造出微积分,用古老的几何证明法得出若干现在仍被奉为真理的几大定律,却在晚年困惑于神与世界本质的思辨中的牛顿;还有靠现有的数学工具以及其绝妙的思维创造出广义相对论,以一人之力颠覆了人类对空间和时间这两个玄妙概念的理解,在晚年试图创造出可以解释世界的终极定理却终究敌不过时间的爱因斯坦;还有那些出于对一个奇怪的物理现象的探究,却揭示出一个光怪陆离,极度违背常识,连创始人都无法理解,却又无数次被证实是正确的理论的一众量子力学的奠基人们。人类文明的智慧闪光真的令人叹为观止,或许无尽岁月之后,有足够辨析能力的另一个文明看到或许已经灭绝的人类残存的信息,也会惊叹或惋惜于这个文明曾经的智慧吧。

0.线性代数的“线性”

  • “线性”的严格定义如下若一个变换工满足两条性质:齐次性和可加性
  1. 可加性:
    L ( v ⃗ + w ⃗ ) = L ( v ⃗ ) + L ( w ⃗ ) L(\vec{v} +\vec{w}) = L(\vec{v})+L(\vec{w}) L(v +w )=L(v )+L(w )

  2. 齐次性(成比例)
    L ( c v ⃗ ) = c L ( v ⃗ ) L(c\vec{v}) = cL(\vec{v}) L(cv )=cL(v )

则称L是线性的。

从几何角度看,

i向量固定,移动 j向量,将形成一条直线;

j向量固定,移动 i向量,将形成另一条直线;

每次移动向量,都是对应基向量的倍数(成比例),而基向量之间可以相加形成新的向量。

可加、可乘(成比例)

如果固定其中一个标量,让另一个标量自由变化,所产生的向量的终点会描出一条直线。

基向量线性组合的向量的集合,被称为给定向量张成的空间(span)

  • 线性的词源:出于线性方程组。线性方程组在二维情况下,有形如ax+by=c的子方程

    所谓线性关系,简单地讲就是比例关系,即两个变量按一定的比例增加或减少。

    **这种关系若用图形来表示,就是一条直线,故称线性关系。**这种关系若用方程来表示,就称为线性方程

  • 线性代数 这门学科之所以包含“线性”二字,是因为它主要研究的是**向量空间(或称为线性空间)、线性变换以及线性方程组等概念。**这些概念都涉及到线性关系:

1.线性相关

可以理解为线性相关意味着停留在这个维度不增维。当一组向量成线性相关时,其中至少有一个向量能由其它向量线性表示

2.基向量

空间的一组基的严格定义是这样的:张成该空间的一个线性无关向量的集合。

(向量空间的一组基是张成该空间的一个线性无关向量集)

3.线性变换

严格意义上说,线性变换是将向量作为输入和输出的一类函数。

线性变换是操纵空间的一种手段。

它具备两个性质:

①保持网格线平行且等距分布,②保持原点不动。

这两点性质保证了:只要记录下i帽和j帽变换后的位置,你就能计算出一个坐标为(x,y)的向量变换后的坐标。

令人高兴的是,这种变换只需要几个数字就能描述清楚,这些数字就是变换后基向量的坐标。线性变换由它对空间的基向量的作用完全决定。

习惯上,我们将变换后i帽和j帽的坐标作为一个矩阵的列,并且将两列分别与x和y相乘后加和的结果定义为矩阵向量乘积

这样,矩阵代表一个特定的线性变换。而矩阵与向量相乘,就是将线性变换作用于那个向量。

因此**可以将线性变换看作对空间的挤压伸展。**这是因为其他任意向量都能表示为基向量的线性组合。


线性相关时,如果变换后的i帽和变换后的j帽是线性相关的,意味着其中一个向量是另一个的倍数,那么这个线性变换将整个二维空间挤压到它们所在一条直线上。也就是这两个线性相关向量所张成的一维空间。

以这些坐标为列所构成的矩阵为我们提供了一种描述线性变换的语言,而矩阵向量乘法就是计算线性变换作用于给定向量的一种途径。

这里重要的是。每当你看到一个矩阵时,你都可以把它解读为对空间的一种特定变换。

矩阵相乘:两个变化相互作用,即复合变化。这里可以联想复合函数。

这样也可以解释矩阵的两个性质:

  1. 不具备交换律

    AB ≠ BA

    也就是为什么矩阵乘法有严格顺序要求。例如 先旋转、再剪切 和 先剪切、再旋转是不同的。

  2. 具备结合律

    A(BC) 和 (AB)C 三个线性变化的相对顺序不变,

线性代数中的“剪切”通常指的是剪切矩阵(shear matrix)或剪切变换(shear transformation),这是一种线性变换,它将一个图形沿着某一轴或平面进行倾斜,而不改变图形的大小或形状

这是通过矩阵在几何上的线性变换,证明矩阵乘法具有结合性的一个实实在在的证明。我真的鼓励你在这种想法上多做尝试,想象两个不同的变换,思考他们依次作用后会发生什么,最后用数值方法计算出矩阵乘积。

4.观察基向量的运算和线性变换,缩放再相加的过程在变换前后均适用。

对于一个矩阵,用一个元素均为x、y、z这种未知数的向量相乘,得到的新矩阵就是新的基向量。

线性变换矩阵 * 输入向量 = 输出向量。

(线性变换和函数的功能是类似的,输入-处理-输出。但变换一词更强调变换本身的过程,也就是几何而非数值上的变化。)

4.行列式

不同矩阵代表的线性变换中,有的将空间向外拉伸,有的将空间向内挤压。理解这些线性变换的关键一点,是测量变换对空间拉伸或挤压的程度。也就是测量一个给定区域面积增大或减小的比例

这个特殊的缩放比例,即线性变换改变面积的比例 , 被称为这个变换的行列式

注意:

  1. 无论一个方格如何变化,对其他大小的方格来说,都会有相同变化。

    这是由“网格线保持平行且等距分布”这一事实推断得出的

  2. 对于不是方格的形状(存在曲线的),可以用很多小方格近似。

    对所有小方格都进行等比例缩放,缩放的越小,精度越高。

  3. 如果一个二维线性变换的行列式为0,说明它将整个平面压缩到一条线,甚至是一个点上。

    表现在几何上就是面积为0,没有面积。

    这意味着一个矩阵的行列式如果为0,这个矩阵所代表的变换就能将空间压缩到更小的维度上(降维)。

二维空间的行列式负值

定向

行列式有负值。缩放一个负数是什么意思?

这会涉及到一个叫“定向”的概念。

  1. 如里你将二维空间想象为一张纸,这个变换像是将纸翻转到了另一面。

  2. 根据i帽j帽来考虑。

    初始状态下,显然 j-hat i-hat 左边,形成一个直角。

    如果在变换之后,j帽处于i帽的右边,那么空间定向就发生了改变

    j 帽就是y轴基向量,i -hat 就是x轴基向量

我们称类似这样的变换改变了空间的定向。

当空间定向改变的情况发生时,行列式为负。

此时,行列式的绝对值依然表示区域面积的缩放比例。

比如说,我告诉你由(1,1)和(2,-1)为列的矩阵所代表的线性变换的行列式是-3.

这就是说变换后空间被翻转,并且面积放大为原来的3倍。

  • 负的面积为什么和定向有关?

这里强烈建议看3blue1brown原视频。

《线性代数的本质》行列式 5:05

当i帽靠近j帽时,空间也被压缩地更严重,这意味着行列式趋近于0;

当i帽与j帽完全重合时,行列式为0。

如果i帽继续沿着这个方向运动,行列式继续减小为负值将是一件很自然的事。

换一个角度看,二维的压缩,从三维视角看,就是一种旋转。

压缩时,向量j 不动,向量 i 逐渐靠近 j

想象 i 靠近 j ,越过 j 的过程:

二维视角下,以i 和 j 为基 的坐标系接近时压缩,越过时拉伸。

三维视角下,把红向量j当做Z轴,想象绿向量在XOY平面上旋转——

就像一个圆柱绕圆心的Z轴旋转,你只能看到 XoY 这一个侧切面的变化。

  • 三维空间,行列式意味着什么?

依然是变换前后的缩放比例,不过这次缩放的是体积。

二维空间,我们考虑的是基向量i 和 j 组成的面积为1的正方形,并观察变换对它的影响。

三维空间,我们考虑的是基向量 i , j , k 组成的体积为1 的立体正方形。

三维空间的行列式负值

有一种方法来描述三维空间的定向,那就是“右手定则——

  • 右手食指指向i帽的方向;
  • 伸出中指指向j帽的方向;
  • 当你把大拇指竖起来时,它就正好指向k帽的方向。

如果线性变换后,你还可以用右手这么做,那么定向没有发生改变,行列式为正。

如果变换后,只能用左手描述了,那就是定向发生了改变,行列式为负。

行列式的求值公式: ad - bc
( a + b ) ( c + d ) − a c − b d − 2 b c = a d − b c (a+b)(c+d)-ac-bd-2bc = ad-bc (a+b)(c+d)acbd2bc=adbc
坐标系中, 小正方形凑成的网格面积 减去 平行四边形周围的三角形面积 = 平行四边形的面积

行列式的一个性质证明:
d e t ( M 1 M 2 ) = d e t ( m 1 ) d e t ( m 2 ) det(M1M2) = det(m1) det(m2) det(M1M2)=det(m1)det(m2)

det行列式,M1、M2是矩阵

数值计算很麻烦。但从几何上理解:

两个相继作用的总的线性变换对空间中几何维度造成的影响等于他们单独作用时造成影响的乘积。

两次空间放缩引起的面积变化 是 两次单独放缩面积变化 倍数的乘积

在同一个变换下任何一个图形的拉伸倍率都是一样的,所以M1M2两次变换后的面积倍率结果是一致的。

注意:det乘det本质不是面积相乘,而是面积倍率相乘。

5.线性方程组

用一个式子概括:
A x ⃗ = v ⃗ A\vec{x} = \vec{v} Ax =v

( 1 2 3 4 5 6 7 8 9 ) [ x 1 x 2 x 3 ] = [ a b c ] \left( \begin{matrix} 1 & 2 & 3 \\ 4 & 5 & 6 \\ 7 & 8 & 9 \end{matrix} \right) \left[ \begin{matrix} x_1 \\ x_2 \\ x_3 \end{matrix} \right] = \left[ \begin{matrix} a \\ b \\ c \end{matrix} \right] 147258369 x1x2x3 = abc

A 是未知数系数的矩阵,x 是未知数向量{x,y,z或x1,x2,x3…}, v是常数向量,如果是齐次的话,v 就是 很多 0 的 向量。

这个式子阐明了线性方程组问题中优美的几何直观部分:

矩阵A代表一种线性变换,所以 求解Ax=v意味着我们去寻找一个向量x,使得它在变换后与v重合。

这个时候逆矩阵的几何意义也很清晰了!

当你逆向进行变换时,它实际上对应了另一个线性变换 —— 用v经过线性变换(矩阵)去寻找x

也就是等式两边同乘A逆,v逆向进行变换并跟踪x的动向。

这个线性变换就叫作A-1 A的逆矩阵!

比如说,如果A是逆时针旋转90度的变换,那么A的逆就是顺时针旋转90度的变换。

总的来说,A逆是满足以下性质的唯一变换:

首先应用A代表的变换,再应用A逆代表的变换,你会回到原始状态。

A逆乘以A等于一个“什么都不做”的矩阵,这个“什么都不做”的变换被称为“恒等变换”

x和v重合有两种情况:

  1. 降维,两者变成一条线或一个点从而重合。
  2. 不降维,在原有维度(二维、三维)上通过线性变换重合。

不降维,即存在唯一解的情况,这时存在A逆。

A-1 使得应用A变换再应用A逆变换之后,结果与恒等变换无异。

降维即行列式为 0的情况;

与这个方程组相关的变换将空间压缩到更低的维度上,此时没有逆变换,你不能将一条线“解压缩”为一个平面,也不能将一个点“回溯”成一条线(至少这不是一个函数能做的),你不能进行升维。

降维会损失信息。

空间坍缩为更低的维度后,变换信息有所丢失,无法得到其逆变换,也就是逆矩阵不存在

这样就会要求将一个单独的向量变换为一整条线的向量,但是函数只能将一个输入变换为一个输出。

关于列空间(下面理解方程组求解要用):

所有可能的变换结果(输出向量)的集合 被称为矩阵的“列空间。

不管是一条直线、一个平面还是三维空间等。

矩阵的列告诉你基向量变换后的位置,这些**变换后的基向量张成的空间就是所有可能的变换结果 **;

换句话说**,列空间就是矩阵的列所张成的空间。**

列张成的空间 span of columns↔️列空间 Column space

0向量一定包含在列空间中。

因为线性变换要求原点位置不变。

结合这里的几何特性你可以理解:

对于线性方程组的求解情况——

  • 非齐次
  1. 增广矩阵r(A,v) 的秩和矩阵的秩r(A) 是否相等:

    • r(A,v) == r(A)说明 v 和A在一个维度上 ,至少有一个解

    • r(A,v) > r(A) :说明 v 比 A 的维度要高 ,无解

      列空间:列向量张成的空间span,忘记的看第 0 条 。

      列空间是所有可能的 A 的列向量的线性组合构成的集合。

      假设矩阵 A 是一个 m×n 的矩阵,那么它有 n 个列向量。这些列向量可以看作是 Rm (m维空间)中的向量。

      如果这些列向量线性无关,它们可以张成一个 n 维的子空间,这个子空间就是 A 的列空间。

      现在,当我们说向量 v 不在矩阵 A 的列空间中,这意味着没有一种方式通过 A 的列向量的线性组合来得到向量 v。

      换句话说,v 向量的维度高于 A,于是不存在一个向量 x 使得 Ax = v 成立。

      如果我们将 A 的列向量看作是定义了一个平面或者高维空间中的一个超平面,那么 b 就是位于这个平面或超平面之外的点。

      r(A,v) > r(A) 时,意味着 v 的维度比 A 的维度要高,A经过初等行变换会存在 全 0 行。

      A如果线性相关,则必然存在 全 0 行;

      A如果线性无关,但比我们要追踪的 v 向量 少一行,也意味着A、v两者比较时,A下面要补充一个全0行。

      总之就是少一个维度。

      r(A) 里存在线性相关的列向量。于是 A 的线性变换相比 v向量 少了一个维度,找不到 x向量 经过低维线性变换 追踪到 v。

  2. 秩的数量(A)是否和未知数n (x向量)一样

    • 如果一样,说明 A 和 x 在同一维度,x可以通过有限线性变化A 与 v重叠,这时是唯一解。

    • 如果不一样,说明 A 比 x 维度低 ,x 想与 v 重叠,只能通过“降维”,这时是无穷多解。

      可以想象,物体投影到平面上只有一个影子;而从投影去猜测物体,物体可以有无限种形状。

      同样地,经过降维压缩变换后,能够和低维的 v 重叠的 高维 x 有无穷多种。

      例如三维→二维, 立体被压缩成一条线;

      例如二维→一维,一条线被压缩成一个点。

      都是无穷多解的情况。

提问:增广矩阵的秩为n时,什么时候有解?

答:增广矩阵在n维度, A在n-1维度时无解。 只有当增广和A都在n维度时 才有解

  • 齐次

    一定有解。

    n 是 未知数个数。

    • r(A) = n , A 和 x 在同一维度 ,因为 v 向量是0,x 作为 0 向量,经过任何线性变换都和 v 重叠。

      是的,只有一个 唯一解,那就是0向量。

    • r(A) < n , A 比 x 维度低 ,x 想与 0向量 重叠,只能通过线性变换来 “降维”,这时是无穷多解。

      这无穷多个解不是整个二维平面,而是二维平面/三维空间上的一条线,叫做零空间。

于是不难理解行列式为 0 时的意义:

行列式为0 时,意味着变换前后的面积倍率为0(压缩后面积为0),一定有维度变化。

对线性方程组,表现在齐次上就是无穷多解(线性变换降维),表现在非齐次上要么无解(v 比 A 维度高),要么也无穷多解(线性变换降维)。

6.秩 (Rank)

所以说“秩”代表着变换后空间的维数
So the word “rank” means the number of dimensions in the output of a transformation.

举例:

比如说对于2x2的矩阵,它的秩最大为2,意味着基向量仍旧能张成整个二维空间,并且矩阵的行列式不为零

但是对于3x3的矩阵,秩为2意味着空间被压缩了,但是和秩为1的情况相比,压缩并不是那么严重。

如果一个三维变换的行列式不为零,变换结果仍旧充满整个三维空间,那么它的秩仍为3。

所以更精确的秩的定义是列空间的维数

当达到最大值时,意味着秩与列数相等,我们称之为“满秩”

对一个满秩变换来说,唯一能在变换后落在原点的就是零向量自身。

但是对一个非满秩的矩阵来说,它将空间压缩到一个更低的维度上。也就是说会有一系列向量在变换后成为零向量。

举个例子,如果一个二维线性变换 将 非满秩(秩为1,两个基向量线性相关)平面压缩到一条直线上,那么沿某个不同方向直线上的所有向量就被压缩到原点。

就好像柱子的侧面(直线)经过线性变换(旋转)变成了一个点(底面)。

如果一个三维线性变换将空间压缩到一个二维平面上,同样也会有一整条线上的向量在变换后落在原点。

压缩成二维直线也一样。

零空间:

变换后落在原点的向量的集合,被称为矩阵的“零空间”或“核。变换后一些向量落在零向量上,而“零空间”正是这些向量所构成的空间

比如上面例子中那一整条直线就是零空间。

列空间的概念让我们清楚什么时候存在解,零空间的概念有助于我们理解所有可能的解的集合是什么样的。

7. 非方阵矩阵

举例分析

  • 3x2矩阵:是一个面,但仍然满秩。几何意义是将一个二维空间映射到三维空间上。

    二维空间输入 ,三维空间输出。

    矩阵有两列表明输入空间有两个基向量,有三行表明每一个基向量在变换后都用三个独立的坐标来描述。

  • 2x3矩阵:

    三维空间输入 ,二维空间输出。

    几个基向量说明空间是几维;有两行表明这三个基向量在变换后都仅用两个坐标来描述,所以他们一定落在二维空间中。

解线性方程

  • 3×2矩阵解线性方程:3个方程式,2个未知数,将二维空间投射到三维空间,要么无解,要么一个解
  • 2×3矩阵解线性方程:2个方程式,3个未知数,将三维空间压缩成二维空间,要么无解,要么无穷多解

更多推荐