8.2 线性变换的矩阵
一、线性变换的矩阵
本节将对每个线性变换 TTT 都指定一个矩阵 AAA. 对于一般的列向量,输入 v\\boldsymbol vv 在空间 V=Rn\\pmb{\\textrm V}=\\pmb{\\textrm R}^nV=Rn 中,输出 T(v)T(\\boldsymbol v)T(v) 在空间 W=Rm\\textrm{\\pmb W}=\\pmb{\\textrm R}^mW=Rm 中,则这个变换的矩阵 AAA 即是 m×nm\\times nm×n 的,我们在 V\\textrm{\\pmb V}V 和 W\\textrm{\\pmb W}W 中基向量的选取将决定 AAA.
Rn\\textrm{\\pmb R}^nRn 和 Rm\\textrm{\\pmb R}^mRm 中的标准基向量是 III 的列向量,这种选择可以得到一个标准矩阵,就是通常情况下的 T(v)=AvT(\\boldsymbol v)=A\\boldsymbol vT(v)=Av. 但是这些空间也有其它的基,所以同样的变换 TTT 还可以用其它的矩阵表示。线性代数的主要研究目的之一就是选择出线性变换 TTT 的最佳矩阵(对角矩阵)。
所有的向量空间 V\\textrm{\\pmb V}V 和 W\\pmb{\\textrm W}W 都有基,选择每一种基都会得到 TTT 的一个矩阵,当输入基和输出基不相等时,T(v)=vT(\\boldsymbol v)=\\boldsymbol vT(v)=v 的矩阵就不再是单位矩阵 III,而是 “基变换矩阵(change of basis matrix)”. 以下是核心思想:
假设我们已知输入基向量 v1,v2,⋯ ,vn\\boldsymbol v_1,\\boldsymbol v_2,\\cdots,\\boldsymbol v_nv1,v2,⋯,vn 的变换 T(v1),T(v2),⋯ ,T(vn)T(\\boldsymbol v_1),T(\\boldsymbol v_2),\\cdots,T(\\boldsymbol v_n)T(v1),T(v2),⋯,T(vn).
则这个矩阵 AAA 的第 111 列到第 nnn 列是这些输出 T(v1),T(v2),⋯ ,T(vn)T(\\boldsymbol v_1),T(\\boldsymbol v_2),\\cdots,T(\\boldsymbol v_n)T(v1),T(v2),⋯,T(vn). 此处输出基向量是标准正交基向量。
A 左乘 c=矩阵左乘向量=A 的 n 个列向量的线性组合\\pmb{A\\,左乘\\,\\boldsymbol c=矩阵左乘向量=A\\,的\\,n\\,个列向量的线性组合}A左乘c=矩阵左乘向量=A的n个列向量的线性组合.
AcA\\boldsymbol cAc 就是线性组合 c1T(v1)+c2T(v2)+⋯+cnT(vn)=T(v)c_1T(\\boldsymbol v_1)+c_2T(\\boldsymbol v_2)+\\cdots+c_nT(\\boldsymbol v_n)=T(\\boldsymbol v)c1T(v1)+c2T(v2)+⋯+cnT(vn)=T(v).
原因: 每个 v\\boldsymbol vv 都是基向量 vj\\boldsymbol v_jvj 唯一的线性组合 c1v1+c2v2+⋯+cnvnc_1\\boldsymbol v_1+c_2\\boldsymbol v_2+\\cdots+c_n\\boldsymbol v_nc1v1+c2v2+⋯+cnvn,由于 TTT 是线性变换,T(v)T(\\boldsymbol v)T(v) 一定是输出向量 T(vj)T(\\boldsymbol v_j)T(vj) 相同的线性组合 c1T(v1)+c2T(v2)+⋯+cnT(vn)c_1T(\\boldsymbol v_1)+c_2T(\\boldsymbol v_2)+\\cdots+c_nT(\\boldsymbol v_n)c1T(v1)+c2T(v2)+⋯+cnT(vn).
例1 中给出的矩阵 AAA 选择的是 R2\\textrm {\\pmb R}^2R2 和 R3\\textrm{\\pmb R}^3R3 空间中的标准基向量。
【例1】假设变换 TTT 将基向量 v1=(1,0)\\boldsymbol v_1=(1,0)v1=(1,0) 变换为 T(v1)=(2,3,4)T(\\boldsymbol v_1)=(2,3,4)T(v1)=(2,3,4),将第二个基向量 v2=(0,1)\\boldsymbol v_2=(0,1)v2=(0,1) 变换为 T(v2)=(5,5,5)T(\\boldsymbol v_2)=(5,5,5)T(v2)=(5,5,5). 如果 TTT 是 R2\\textrm{\\pmb R}^2R2 到 R3\\pmb{\\textrm R}^3R3 的线性变换,则这个 “标准矩阵” 是 3×23\\times23×2 的。输出向量 T(v1)T(\\boldsymbol v_1)T(v1) 和 T(v2)T(\\boldsymbol v_2)T(v2) 是 AAA 的列向量:A=[253545]c1=1 且 c2=1 得到 T(v1+v2)=[253545][11]=[789]A=\\begin{bmatrix}2&5\\\\3&5\\\\4&5\\end{bmatrix}\\kern 20ptc_1=1\\,且\\,c_2=1\\,得到\\,T(\\boldsymbol v_1+\\boldsymbol v_2)=\\begin{bmatrix}2&5\\\\3&5\\\\4&5\\end{bmatrix}\\begin{bmatrix}1\\\\1\\end{bmatrix}=\\begin{bmatrix}7\\\\8\\\\9\\end{bmatrix}A=234555c1=1且c2=1得到T(v1+v2)=234555[11]=789
二、基的变换
【例2】假设输入空间 V=R2\\textrm{\\pmb V}=\\textrm{\\pmb R}^2V=R2 也是输出空间 W=R2\\textrm{\\pmb W}=\\textrm{\\pmb R}^2W=R2,T(v)=vT(\\boldsymbol v)=\\boldsymbol vT(v)=v 是恒等变换(identity transformation),此时我们可能会认为变换矩阵就是单位矩阵 III,但是这只有在输入基和输出基相同的情况下才会出现。下面会选择不同的基以演示矩阵是如何构造的。
对于这种特殊情况 T(v)=vT(\\boldsymbol v)=\\boldsymbol vT(v)=v,这里用矩阵 BBB 来替代 AAA,我们要将基 vi\\boldsymbol v_ivi 变换为基 wi\\boldsymbol w_iwi,每个 vi\\boldsymbol v_ivi 均为 w1\\boldsymbol w_1w1 和 w2\\boldsymbol w_2w2 的线性组合。输入基[v1v2]=[3638]输出基[w1w2]=[3012]基的变换v1=1w1+1w2v2=2w1+3w2\\begin{array}{l}\\pmb{输入基}\\kern 5pt\\begin{bmatrix}\\boldsymbol v_1&\\boldsymbol v_2\\end{bmatrix}=\\begin{bmatrix}3&6\\\\3&8\\end{bmatrix}&\\pmb{输出基}\\kern 5pt\\begin{bmatrix}\\boldsymbol w_1&\\boldsymbol w_2\\end{bmatrix}=\\begin{bmatrix}3&0\\\\1&2\\end{bmatrix}&{\\color{blue}基的变换}&\\begin{matrix}\\color{blue}\\boldsymbol v_1=\\pmb1\\boldsymbol w_1+\\pmb1\\boldsymbol w_2\\\\\\color{blue}\\boldsymbol v_2=\\pmb2\\boldsymbol w_1+\\pmb3\\boldsymbol w_2\\end{matrix}\\end{array}输入基[v1v2]=[3368]输出基[w1w2]=[3102]基的变换v1=1w1+1w2v2=2w1+3w2请注意!这里将输入基 v1,v2\\boldsymbol v_1,\\boldsymbol v_2v1,v2 用输出基 w1,w2\\boldsymbol w_1,\\boldsymbol w_2w1,w2 来表示,这是因为按照定义,恒等变换 TTT 作用于每个输出基向量:T(v1)=v1, T(v2)=v2T(\\boldsymbol v_1)=\\boldsymbol v_1,\\,T(\\boldsymbol v_2)=\\boldsymbol v_2T(v1)=v1,T(v2)=v2,则这里我们将输出向量 v1\\boldsymbol v_1v1 和 v2\\boldsymbol v_2v2 用输出基 w1\\boldsymbol w_1w1 和 w2\\boldsymbol w_2w2 来表示。这些加粗的数字 1,1\\pmb1,\\pmb11,1 和 2,3\\pmb2,\\pmb32,3 给出了矩阵 BBB(基的变换矩阵 the change of basis matrix)的第一列和第二列:WB=VWB=VWB=V,所以 B=W−1V\\pmb{B=W^{-1}V}B=W−1V.基变换矩阵 B[w1w2][B]=[v1v2]就是[3012][1213]=[3638](8.2.1)\\begin{array}{l}\\pmb{基变换矩阵\\,B}&\\begin{bmatrix}\\boldsymbol w_1&\\boldsymbol w_2\\end{bmatrix}{\\color{blue}\\begin{bmatrix}B\\end{bmatrix}}=\\begin{bmatrix}\\boldsymbol v_1&\\boldsymbol v_2\\end{bmatrix}&就是&\\begin{bmatrix}3&0\\\\1&2\\end{bmatrix}\\begin{bmatrix}\\color{blue}1&\\color{blue}2\\\\\\color{blue}1&\\color{blue}3\\end{bmatrix}=\\begin{bmatrix}3&6\\\\3&8\\end{bmatrix}\\end{array}\\kern 10pt(8.2.1)基变换矩阵B[w1w2][B]=[v1v2]就是[3102][1123]=[3368](8.2.1)
当输入基是矩阵 V 的列向量,输出基是矩阵 W 的列向量时,T(v)=v 的基变换矩阵是 B=W−1V\\begin{array}{l}当输入基是矩阵\\,\\textrm{\\pmb V}\\,的列向量,输出基是矩阵\\,\\textrm{\\pmb W}\\,的列向量时,T(\\boldsymbol v)=\\boldsymbol v\\,的基变换矩阵是\\,\\pmb{B=W^{-1}V}\\end{array}当输入基是矩阵V的列向量,输出基是矩阵W的列向量时,T(v)=v的基变换矩阵是B=W−1V
关键点: 理解 B=W−1VB=W^{-1}VB=W−1V 的简单方法:假设同一个向量 u\\boldsymbol uu 分别由输入基 vi\\boldsymbol v_ivi 和 输出基 wj\\boldsymbol w_jwj 来表示,有下面三种方法:u=c1v1+c2v2+⋯+cnvnu=d1w1+d2w2+⋯+dnwn即[v1v2⋯vn][c1c2⋮cn]=[w1w2⋯wn][d1d2⋮dn]和Vc=Wd\\begin{array}{l}\\boldsymbol u=c_1\\boldsymbol v_1+c_2\\boldsymbol v_2+\\cdots+c_n\\boldsymbol v_n\\\\\\boldsymbol u=d_1\\boldsymbol w_1+d_2\\boldsymbol w_2+\\cdots+d_n\\boldsymbol w_n&\\end{array}即\\begin{bmatrix}\\boldsymbol v_1&\\boldsymbol v_2&\\cdots&\\boldsymbol v_n\\end{bmatrix}\\begin{bmatrix}c_1\\\\c_2\\\\\\vdots\\\\c_n\\end{bmatrix}=\\begin{bmatrix}\\boldsymbol w_1&\\boldsymbol w_2&\\cdots&\\boldsymbol w_n\\end{bmatrix}\\begin{bmatrix}d_1\\\\d_2\\\\\\vdots\\\\d_n\\end{bmatrix}和\\kern 5pt\\pmb{Vc=Wd}u=c1v1+c2v2+⋯+cnvnu=d1w1+d2w2+⋯+dnwn即[v1v2⋯vn]c1c2⋮cn=[w1w2⋯wn]d1d2⋮dn和Vc=Wd新基 wj\\boldsymbol w_jwj 的系数 d\\pmb dd 是 d=W−1Vc\\pmb {d= W^{-1}Vc}d=W−1Vc,则 B=W−1V.(8.2.2)\\pmb{B=W^{-1}V}.\\kern 15pt(8.2.2)B=W−1V.(8.2.2)
公式 B=W−1V\\pmb{B=W^{-1}V}B=W−1V 给出一个有趣的现象:当标准基 V=I\\pmb{V=I}V=I 变成一个不同的基 W\\pmb WW 时,基变换矩阵是不是 W\\pmb WW 而是 B=W−1V\\pmb{B=W^{-1}V}B=W−1V. 大的基向量有小的系数!标准基向量 [xy]\\begin{bmatrix}x\\\\y\\end{bmatrix}[xy] 在 w1,w2\\boldsymbol w_1,\\boldsymbol w_2w1,w2 的这组基向量情况下的系数是 [w1w2]−1[xy]\\begin{bmatrix}\\boldsymbol w_1&\\boldsymbol w_2\\end{bmatrix}^{-1}\\begin{bmatrix}x\\\\y\\end{bmatrix}[w1w2]−1[xy].
三、变换矩阵的构造
下面我们构造任意一个线性变换的矩阵。假设 TTT 将 nnn 维的空间 V\\pmb{\\textrm V}V 变换成 mmm 维的空间 W\\pmb{\\textrm W}W,我们在空间 V\\pmb{\\textrm V}V 中选择一组基 v1,v2,⋯ ,vn\\boldsymbol v_1,\\boldsymbol v_2,\\cdots,\\boldsymbol v_nv1,v2,⋯,vn,在空间 W\\pmb{\\textrm W}W 中选择一组基 w1,w2,⋯ ,wn\\boldsymbol w_1,\\boldsymbol w_2,\\cdots,\\boldsymbol w_nw1,w2,⋯,wn,则变换矩阵 AAA 是 m×nm\\times nm×n 的。为了求得 AAA 的第一列,将 TTT 作用于第一个基向量 v1\\boldsymbol v_1v1,则输出 T(v1)T(\\boldsymbol v_1)T(v1) 在空间 W\\pmb{\\textrm W}W 中。
T(v1) 是空间 W 输出基的一种线性组合 a11w1+a21w2+⋯+am1wm{\\color{blue}T(\\boldsymbol v_1)}\\,是空间\\,\\pmb{\\textrm W}\\,输出基的一种线性组合\\,\\color{blue}a_{11}\\boldsymbol w_1+a_{21}\\boldsymbol w_2+\\cdots+a_{m1}\\boldsymbol w_mT(v1)是空间W输出基的一种线性组合a11w1+a21w2+⋯+am1wm
a11,a21,⋯ ,am1a_{11},a_{21},\\cdots,a_{m1}a11,a21,⋯,am1 这些数是 AAA 的第一列,将 v1\\boldsymbol v_1v1 变换为 T(v1)T(\\boldsymbol v_1)T(v1) 对应 AAA 左乘 (1,0,⋯ ,0)(1,0,\\cdots,0)(1,0,⋯,0),这给出了变换矩阵 AAA 的第一列。当 TTT 是求导且第一个基向量是 111 时,它的导数是 T(v1)=0T(\\boldsymbol v_1)=\\boldsymbol 0T(v1)=0,所以下面的导数矩阵中,第一列全为零。
【例3】T\\pmb TT 是求导运算:T(v)=dvdx\\pmb{T(\\boldsymbol v)=\\displaystyle\\frac{\\textrm dv}{\\textrm dx}}T(v)=dxdv,此时矩阵 AAA 是 “求导矩阵(derivate matrix)”,输入基 vi\\boldsymbol v_ivi 是 1,x,x2,x31,x,x^2,x^31,x,x2,x3,输出基 wj\\boldsymbol w_jwj 是 1,x,x21,x,x^21,x,x2:如果 v=c1+c2x+c3x2+c4x3则 dvdx=1c2+2c3x+3c4x2Ac=[010000200003][c1c2c3c4]=[c22c33c4]\\begin{array}{l}如果\\,\\boldsymbol v=c_1+c_2x+c_3x^2+c_4x^3\\\\则\\,\\displaystyle\\frac{d\\boldsymbol v}{\\textrm dx}=\\pmb1c_2+\\pmb2c_3x+\\pmb3c_4x^2\\end{array}\\kern 10ptA\\boldsymbol c=\\begin{bmatrix}0&\\pmb1&0&0\\\\0&0&\\pmb2&0\\\\0&0&0&\\pmb3\\end{bmatrix}\\begin{bmatrix}c_1\\\\c_2\\\\c_3\\\\c_4\\end{bmatrix}=\\begin{bmatrix}c_2\\\\2c_3\\\\3c_4\\end{bmatrix}如果v=c1+c2x+c3x2+c4x3则dxdv=1c2+2c3x+3c4x2Ac=000100020003c1c2c3c4=c22c33c4
关键准则: A 的第 j 列是变换 T 作用在第 j 个基向量 vj 所得\\pmb{关键准则:}\\,A\\,的第\\,j\\,列是变换\\,T\\,作用在第\\,j\\,个基向量\\,\\boldsymbol v_j\\,所得关键准则:A的第j列是变换T作用在第j个基向量vj所得
T(vj)=a1jw1+a2jw2+⋯+amjwm 是输出基向量的线性组合(8.2.3){\\color{blue}T(\\boldsymbol v_j)=a_{1j}\\boldsymbol w_1+a_{2j}\\boldsymbol w_2+\\cdots+a_{mj}\\boldsymbol w_m\\,是输出基向量的线性组合}\\kern 15pt(8.2.3)T(vj)=a1jw1+a2jw2+⋯+amjwm是输出基向量的线性组合(8.2.3)
这些数字 aija_{ij}aij 构成了变换矩阵 AAA. 变换矩阵可以直接得到基向量的像(basis vectors right),然后线性性质得到所有向量的像。任意向量 v\\boldsymbol vv 都可以写成线性组合 c1v1+c2v2+⋯+cnvnc_1\\boldsymbol v_1+c_2\\boldsymbol v_2+\\cdots+c_n\\boldsymbol v_nc1v1+c2v2+⋯+cnvn,T(v)T(\\boldsymbol v)T(v) 是基向量 wj\\boldsymbol w_jwj 的一种线性组合。当 AAA 左乘 v\\boldsymbol vv 的组合系数向量 c=(c1,c2,⋯ ,cn)\\boldsymbol c=(c_1,c_2,\\cdots,c_n)c=(c1,c2,⋯,cn),AcA\\boldsymbol cAc 得到 T(v)T(\\boldsymbol v)T(v) 关于输出基向量的组合系数。这是因为矩阵乘法(列向量的线性组合)和 TTT 一样是线性的。
矩阵 AAA 告诉了我们线性变换 TTT 做了什么,每一个从 V\\pmb{\\textrm V}V 到 W\\textrm{\\pmb W}W 的线性变换都可以用一个矩阵来表示,这个矩阵取决于基的选择。
【例4】对于积分 T+(v)T^+(\\boldsymbol v)T+(v),第一个基函数也是 111,它的积分是第二个基函数 xxx,所以 “积分矩阵(integral matrix)” A+A^+A+ 的第一列是 (0,1,0,0)(0,1,0,0)(0,1,0,0)d1+d2x+d3x2 的积分是d1x+12d2x2+13d3x3A+d=[00010001200013][d1d2d3]=[0d112d213d3]\\begin{array}{l}\\pmb{d_1+d_2x+d_3x^2\\,的积分是}\\\\\\pmb{d_1x+\\displaystyle\\frac{1}{2}d_2x^2+\\frac{1}{3}d_3x^3}\\end{array}\\kern 15ptA^+\\boldsymbol d=\\begin{bmatrix}0&0&0\\\\\\pmb1&0&0\\\\0&\\pmb{\\dfrac{1}{2}}&0\\\\0&0&\\pmb{\\dfrac{1}{3}}\\end{bmatrix}\\begin{bmatrix}d_1\\\\d_2\\\\d_3\\end{bmatrix}=\\begin{bmatrix}0\\\\d_1\\\\\\dfrac{1}{2}d_2\\\\[1.5ex]\\dfrac{1}{3}d_3\\end{bmatrix}d1+d2x+d3x2的积分是d1x+21d2x2+31d3x3A+d=01000021000031d1d2d3=0d121d231d3如果对一个函数先积分再求导,将得到原函数,因此,AA+=IAA^+=IAA+=I. 但是如果是先求导再积分,则常数项会消失,因此 A+AA^+AA+A 不是 III. 对 1\\pmb 11 先求导再积分的结果是零:T+T(1)=零函数的积分=0T^+T(1)=零函数的积分=0T+T(1)=零函数的积分=0这和 A+AA^+AA+A 是相符的,其第一列都是零。求导变换 TTT 有一个核(常数函数),它的矩阵 AAA 有一个零空间。再次出现的主要思想:AvA\\boldsymbol vAv 表示 T(v)T(\\boldsymbol v)T(v) 的结果。
求导和积分的例子有三个重要的点:第一,线性变换 TTT 无处不在,例如在微积分、微分方程和线性代数中;第二,与 Rn\\pmb {\\textrm R}^nRn 不同的空间很重要,输入空间 V\\pmb {\\textrm V}V 和输出空间 W\\pmb{\\textrm W}W 都可以是函数空间;第三,如果我们先求导再积分,我们可以将它们的矩阵乘起来 A+A\\pmb{A^+A}A+A 后计算。
四、矩阵乘积 AB 对应于变换 TS
下面是一些重要内容 —— 矩阵乘法规则的真正原因。两个线性变换 TTT 和 SSS 的矩阵分别是 AAA 和 BBB,现在比较 TSTSTS 和乘积 ABABAB:
当将变换 TTT 作用于 SSS 的输出时,由以下规则得到 TSTSTS:(TS)(u) 定义为 T(S(u)), 输出 S(u) 成了 T 的输入.(TS)(\\boldsymbol u)\\,定义为\\,\\pmb{T(S(\\boldsymbol u))},\\,输出\\,S(\\boldsymbol u)\\,成了\\,T\\,的输入.(TS)(u)定义为T(S(u)),输出S(u)成了T的输入. 将矩阵 AAA 作用于 BBB 的输出时,由以下规则得到乘积 ABABAB:(AB)(x) 定义为 A(B(x)), 输出 Bx 成了 A 的输入.(AB)(\\boldsymbol x)\\,定义为\\,\\pmb{A(B(\\boldsymbol x))},\\,输出\\,B\\boldsymbol x\\,成了\\,A\\,的输入.(AB)(x)定义为A(B(x)),输出Bx成了A的输入.矩阵乘法规则得到的矩阵 AB 是变换 TS 的矩阵.\\pmb{矩阵乘法规则得到的矩阵\\,AB\\,是变换\\,TS\\,的矩阵.}矩阵乘法规则得到的矩阵AB是变换TS的矩阵.变换 SSS 是从空间 U\\pmb{\\textrm U}U 到空间 V\\pmb{\\textrm V}V,它的矩阵使用了空间 U\\pmb{\\textrm U}U 的基 u1,u2,⋯ ,up\\boldsymbol u_1,\\boldsymbol u_2,\\cdots,\\boldsymbol u_pu1,u2,⋯,up 和空间 V\\pmb{\\textrm V}V 的基 v1,v2,⋯ ,vn\\boldsymbol v_1,\\boldsymbol v_2,\\cdots,\\boldsymbol v_nv1,v2,⋯,vn,这个矩阵是 n×pn\\times pn×p 的。变换 TTT 是从空间 V\\pmb{\\textrm V}V 到空间 W\\pmb{\\textrm W}W,它的变换矩阵一定要使用空间 V\\pmb{\\textrm V}V 的同一组基 v1,v2,⋯ ,vn\\boldsymbol v_1,\\boldsymbol v_2,\\cdots,\\boldsymbol v_nv1,v2,⋯,vn,V\\textrm{\\pmb V}V 是 SSS 的输出空间也是 TTT 的输入空间。此时矩阵 AB\\pmb{AB}AB 对应于变换 TS\\pmb{TS}TS.
乘法: 线性变换 TSTSTS 将 U\\textrm {\\pmb U}U 中的任一向量变换到 V\\textrm{\\pmb V}V 中的 S(u)S(\\boldsymbol u)S(u),再变换到 W\\textrm{\\pmb W}W 中的 T(S(u))T(S(\\boldsymbol u))T(S(u)). 矩阵 ABABAB 作用于 Rp\\textrm{\\pmb R}^pRp 空间中的任一向量 x\\boldsymbol xx,先得到 Rn\\textrm{\\pmb R}^nRn 中的 BxB\\boldsymbol xBx,然后得到 Rm\\textrm{\\pmb R}^mRm 中的 ABxAB\\boldsymbol xABx. 矩阵 ABABAB 就是变换 TSTSTS 的矩阵:TS:U→V→WAB:(m×n)(n×p)=(m×p)\\color{blue}TS:\\pmb{\\textrm U}\\rightarrow\\pmb{\\textrm V}\\rightarrow\\pmb{\\textrm W}\\kern 18ptAB:(m\\times n)(n\\times p)=(m\\times p)TS:U→V→WAB:(m×n)(n×p)=(m×p)
输入是 u=x1u1+x2u2+⋯+xpup\\boldsymbol u=x_1\\boldsymbol u_1+x_2\\boldsymbol u_2+\\cdots+x_p\\boldsymbol u_pu=x1u1+x2u2+⋯+xpup,输出 T(S(u))T(S(\\boldsymbol u))T(S(u)) 对应于输出 ABxAB\\boldsymbol xABx. 变换 TSTSTS 的复合对应于矩阵的乘积 ABABAB.
最重要的情况是空间 U, V, W\\pmb{\\textrm {U,\\,V,\\,W}}U,V,W 均相同且均选择相同的基,当 m=n=pm=n=pm=n=p 时,则变换矩阵均为方阵,所以可以相乘。
【例5】SSS 将平面逆时针旋转 θ\\thetaθ,TTT 也是逆时针旋转 θ\\thetaθ,则 TSTSTS 逆时针旋转 2θ2\\theta2θ,变换 T2T^2T2 的对应旋转矩阵 A2A^2A2 也是逆时针旋转 2θ2\\theta2θ:T=SA=BT2 是逆时针旋转2 θA2=[cos2θ−sin2θsin2θcos2θ](8.2.4)T=S\\kern 15ptA=B\\kern 15ptT^2\\,是逆时针旋转2\\,\\theta\\kern 15ptA^2=\\begin{bmatrix}\\cos2\\theta&-\\sin2\\theta\\\\\\sin2\\theta&\\kern 7pt\\cos2\\theta\\end{bmatrix}\\kern 15pt(8.2.4)T=SA=BT2是逆时针旋转2θA2=[cos2θsin2θ−sin2θcos2θ](8.2.4)通过对比变换的平方 T2T^2T2 和它们矩阵的平方 A2A^2A2,我们可以得到 cos2θ\\cos2\\thetacos2θ 和 sin2θ\\sin2\\thetasin2θ 的公式。AAA 乘 AAA:[cosθ−sinθsinθcosθ][cosθ−sinθsinθcosθ]=[cos2θ−sin2θ−2sinθcosθ2sinθcosθcos2θ−sin2θ](8.4.5)\\begin{bmatrix}\\cos\\theta&-\\sin\\theta\\\\\\sin\\theta&\\kern 7pt\\cos\\theta\\end{bmatrix}\\begin{bmatrix}\\cos\\theta&-\\sin\\theta\\\\\\sin\\theta&\\kern 7pt\\cos\\theta\\end{bmatrix}=\\begin{bmatrix}\\cos^2\\theta-\\sin^2\\theta&-2\\sin\\theta\\cos\\theta\\\\2\\sin\\theta\\cos\\theta&\\cos^2\\theta-\\sin^2\\theta\\end{bmatrix}\\kern 15pt(8.4.5)[cosθsinθ−sinθcosθ][cosθsinθ−sinθcosθ]=[cos2θ−sin2θ2sinθcosθ−2sinθcosθcos2θ−sin2θ](8.4.5)比较(8.2.4)和(8.2.5)可以得到 cos2θ=cos2θ−sin2θ\\cos2\\theta=\\cos^2\\theta-\\sin^2\\thetacos2θ=cos2θ−sin2θ 和 sin2θ=2sinθcosθ\\sin2\\theta=2\\sin\\theta\\cos\\thetasin2θ=2sinθcosθ. 三角公式(至少是倍角公式)可由线性代数得到。
【例6】SSS 逆时针选择角度 θ\\thetaθ,TTT 逆时针选择角度 −θ-\\theta−θ,则由 TS=ITS=ITS=I 可以得到 AB=IAB=IAB=I. 该情形下 T(S(u))T(S(\\boldsymbol u))T(S(u)) 就是 u\\boldsymbol uu,旋转后又旋转回来了。相应的矩阵表示,ABxAB\\boldsymbol xABx 一定就是 x\\boldsymbol xx,这两个矩阵互为逆矩阵。将 cos(−θ)=cosθ\\cos(-\\theta)=\\cos\\thetacos(−θ)=cosθ 和 sin(−θ)=−sinθ\\sin(-\\theta)=-\\sin\\thetasin(−θ)=−sinθ 代入旋转矩阵 AAA 中即可验证:AB=[cosθsinθ−sinθcosθ][cosθ−sinθsinθcosθ]=[cos2θ+sin2θ00cosθ+sin2θ]=IAB=\\begin{bmatrix}\\kern 7pt\\cos\\theta&\\sin\\theta\\\\-\\sin\\theta&\\cos\\theta\\end{bmatrix}\\begin{bmatrix}\\cos\\theta&-\\sin\\theta\\\\\\sin\\theta&\\kern 7pt\\cos\\theta\\end{bmatrix}=\\begin{bmatrix}\\cos^2\\theta+\\sin^2\\theta&0\\\\0&\\cos^\\theta+\\sin^2\\theta\\end{bmatrix}=IAB=[cosθ−sinθsinθcosθ][cosθsinθ−sinθcosθ]=[cos2θ+sin2θ00cosθ+sin2θ]=I
五、选择最佳基
下面是本节的最后一部分:选择最佳基使得变换矩阵为对角矩阵。使用标准基(III 的列向量)时,变换 TTT 的矩阵 AAA 可能不是对角矩阵;当使用不同的基时,同样的变换 TTT 会由不同的矩阵表示。选择基向量时,两个很好的选择是特征向量和奇异向量:特征向量如果变换 T 将 Rn 映射到 Rn,则它的矩阵 A 是个方阵。但是使用标准基时,矩阵 A 可能不是对角的。如果 A 有 n 个线性无关的特征向量,选择它们作为输入和输出基,使用这组 “好基” 时,T 的变换矩阵为 Λ,其对角元素是 A 的特征值。\\begin{array}{l}\\pmb{特征向量}\\kern 15pt如果变换 \\,T\\,将\\,\\pmb{\\textrm R}^n\\,映射到\\,\\textrm{\\pmb R}^n,则它的矩阵\\,A\\,是个方阵。但是使用标准基时,矩阵\\,A\\,可能不是\\\\对角的。如果\\,A\\,有\\,n\\,个线性无关的特征向量,选择它们作为输入和输出基,使用这组\\,“好基”\\,时,\\pmb{T\\,的变换}\\\\\\pmb{矩阵为\\,\\Lambda,其对角元素是\\,A\\,的特征值}。\\end{array}特征向量如果变换T将Rn映射到Rn,则它的矩阵A是个方阵。但是使用标准基时,矩阵A可能不是对角的。如果A有n个线性无关的特征向量,选择它们作为输入和输出基,使用这组“好基”时,T的变换矩阵为Λ,其对角元素是A的特征值。【例7】投影矩阵 TTT 将 R2\\pmb{\\textrm R}^2R2 中的每个向量 v=(x,y)\\boldsymbol v=(x,y)v=(x,y) 投影到直线 y=−xy=-xy=−x 上。若使用标准基,v1=(1,0)\\boldsymbol v_1=(1,0)v1=(1,0) 的投影为 T(v1)=(12,−12)T(\\boldsymbol v_1)=(\\dfrac{1}{2},-\\dfrac{1}{2})T(v1)=(21,−21);v2=(0,1)\\boldsymbol v_2=(0,1)v2=(0,1) 的投影为 T(v2)=(−12,12)T(\\boldsymbol v_2)=(-\\dfrac{1}{2},\\dfrac{1}{2})T(v2)=(−21,21),这些投影构成了 AAA 的列:标准基下的投影矩阵是非对角矩阵A=[12−12−1212] 有 AT=A 且 A2=A\\begin{array}{l}\\pmb{标准基下的}\\\\\\pmb{投影矩阵是}\\\\\\pmb{非对角矩阵}\\end{array}\\kern 15ptA=\\begin{bmatrix}\\kern 7pt\\dfrac{1}{2}&-\\dfrac{1}{2}\\\\[1.5ex]-\\dfrac{1}{2}&\\kern 7pt\\dfrac{1}{2}\\end{bmatrix}\\,有\\,A^T=A\\,且\\,A^2=A标准基下的投影矩阵是非对角矩阵A=21−21−2121有AT=A且A2=A下面是关于选取特征向量作为基向量的情况,可以对角化变换矩阵!
当基向量是原变换矩阵 AAA 的特征向量时,变换矩阵将变为对角矩阵。v1=w1=(1,−1) 投影到自身:T(v1)=v1,对应 λ1=1v2=w2=(1,1) 投影到零向量:T(v2)=0,对应 λ2=0\\begin{array}{l}\\boldsymbol v_1=\\boldsymbol w_1=(1,-1)\\,投影到自身:T(\\boldsymbol v_1)=\\boldsymbol v_1,对应\\,\\lambda_1=1\\\\\\boldsymbol v_2=\\boldsymbol w_2=(1,1)\\,投影到零向量:T(\\boldsymbol v_2)=\\boldsymbol 0,对应\\,\\lambda_2=0\\end{array}v1=w1=(1,−1)投影到自身:T(v1)=v1,对应λ1=1v2=w2=(1,1)投影到零向量:T(v2)=0,对应λ2=0特征向量基对应对角矩阵新的变换矩阵是 [1000]=[λ100λ2]=Λ(8.2.6)\\begin{array}{l}\\pmb{特征向量基}\\\\\\pmb{对应对角矩阵}\\end{array}\\kern 15pt新的变换矩阵是\\,\\begin{bmatrix}1&0\\\\0&0\\end{bmatrix}=\\begin{bmatrix}\\lambda_1&0\\\\0&\\lambda_2\\end{bmatrix}=\\Lambda\\kern 20pt(8.2.6)特征向量基对应对角矩阵新的变换矩阵是[1000]=[λ100λ2]=Λ(8.2.6)特征向量是完美的基向量,它们给出特征值矩阵 Λ\\LambdaΛ.
当输入基和输出基相同但并不一定是特征向量时会怎样的?将这些基向量 bi\\boldsymbol b_ibi 作为 BBB 的列,则基变换矩阵(从标准基到新基)是 Bin=B\\pmb{B_{\\textrm{in}}}=\\pmb BBin=B,Bout=B−1\\pmb{B_{\\textrm{out}}}=\\pmb{ B^{-1}}Bout=B−1,TTT 新的变换矩阵和 AAA 相似:
新基 bi\\boldsymbol b_ibi 的变换矩阵 Anew=B−1AB\\pmb{A_{\\textrm{new}}}=\\pmb{B^{-1}AB}Anew=B−1AB 与标准基的变换矩阵 A\\pmb AA 相似:Abi到 bi=B标准基到 bi−1A标准基Bbi到标准基(8.2.7){\\color{blue}A_{\\boldsymbol b_i到\\,\\boldsymbol b_i}=B^{-1}_{标准基到\\,\\boldsymbol b_i}A_{标准基}B_{\\boldsymbol b_i到标准基}}\\kern 20pt(8.2.7)Abi到bi=B标准基到bi−1A标准基Bbi到标准基(8.2.7)
原因: 设标准基下的坐标向量为 v\\boldsymbol vv,变换矩阵是 AAA。新基矩阵为 BBB,新的变换矩阵是 AnewA_{\\textrm{new}}Anew. v\\,\\boldsymbol vv 在新基的坐标可以由 v=Bx\\boldsymbol v=B\\boldsymbol xv=Bx 求得,即新基下的坐标向量 x=B−1v\\boldsymbol x=B^{-1}\\boldsymbol vx=B−1v,其中 B−1B^{-1}B−1 即为基变换矩阵。经变换 TTT 作用后的坐标为 Anewx=AnewB−1vA_{\\textrm{new}}\\boldsymbol x=A_{\\textrm{new}}B^{-1}\\boldsymbol vAnewx=AnewB−1v。而 v\\boldsymbol vv 在标准基下经过 TTT 变换后为 AvA\\boldsymbol vAv,将其转换为新基的坐标即为 B−1AvB^{-1}A\\boldsymbol vB−1Av,这两者应相等,即 AnewB−1v=B−1AA_{\\textrm{new}}B^{-1}\\boldsymbol v=B^{-1}AAnewB−1v=B−1A,即可求得 Anew=B−1ABA_{\\textrm{new}}=B^{-1}ABAnew=B−1AB!
这里也可以通过变换的乘积法则理解:对于变换 ITIITIITI,III 是恒等变换,它们的矩阵分别是 B−1,A,BB^{-1},A,BB−1,A,B. 矩阵 BBB 是由标准基下的输入向量 bi\\boldsymbol b_ibi 组成。将其理解成左乘,即先是基变换矩阵由新基到标准基 BBB,然后在标准基下进行变换得 ABABAB,最后再变换为新基即得到 B−1ABB^{-1}ABB−1AB.
最后考虑 V\\pmb VV 和 W\\pmb WW 是不同的空间情形,此时有不同的基 vi\\boldsymbol v_ivi 和 wj\\boldsymbol w_jwj. 当我们选定基后且给出变换 TTT,我们可以得到一个矩阵 AAA,此时 AAA 可能不是对称的,甚至可能不是方阵,但是我们总可以选择出基 vi\\boldsymbol v_ivi 和 wj\\boldsymbol w_jwj 使得这个矩阵是对角矩阵。这个矩阵就是奇异值分解 A=UΣVTA=U\\Sigma V^TA=UΣVT 中的奇异值矩阵 Σ=diag(σ1,σ2,⋯ ,σr)\\pmb{\\Sigma=\\textrm{diag}(\\sigma_1,\\sigma_2,\\cdots,\\sigma_r)}Σ=diag(σ1,σ2,⋯,σr),其中 diag(σ1,σ2,⋯ ,σr)\\textrm{diag}(\\sigma_1,\\sigma_2,\\cdots,\\sigma_r)diag(σ1,σ2,⋯,σr) 是 MATLAB 中的函数,表示对角元素是 σ1,σ2,⋯ ,σr\\sigma_1,\\sigma_2,\\cdots,\\sigma_rσ1,σ2,⋯,σr 的对角矩阵。奇异向量SVD 给出了 U−1AV=Σ,右奇异值向量 v1,v2,⋯ ,vn 是输入基,左奇异值向量 u1,u2,⋯ ,um是输出基。由矩阵的乘法法则,在这些新基下的同样的变换矩阵为 Bout−1ABin=U−1AV=Σ.\\begin{array}{l}\\pmb{奇异向量}\\kern 15pt\\textrm{SVD}\\,给出了\\,U^{-1}AV=\\Sigma,右奇异值向量\\,\\boldsymbol v_1,\\boldsymbol v_2,\\cdots,\\boldsymbol v_n\\,是输入基,左奇异值向量\\,\\boldsymbol u_1,\\boldsymbol u_2,\\cdots,\\boldsymbol u_m\\\\是输出基。由矩阵的乘法法则,在这些新基下的同样的变换矩阵为\\,B^{-1}_{\\textrm{out}}AB_{\\textrm{in}}=U^{-1}AV=\\Sigma.\\end{array}奇异向量SVD给出了U−1AV=Σ,右奇异值向量v1,v2,⋯,vn是输入基,左奇异值向量u1,u2,⋯,um是输出基。由矩阵的乘法法则,在这些新基下的同样的变换矩阵为Bout−1ABin=U−1AV=Σ.这里就不能称 Σ\\SigmaΣ 和 AAA “相似” 了。现在是有两个基,输入基和输出基,它们都是标准正交基所以保持了向量的长度。这里我们可以称 Σ\\SigmaΣ 和 AAA 是 “等距的(isometric)”。定义如果 Q1 和 Q2 均为正交矩阵,则 C=Q1−1AQ2 与 A 等距.定义\\kern 20pt如果\\,Q_1\\,和\\,Q_2\\,均为正交矩阵,则\\,C=Q_1^{-1}AQ_2\\,与\\,A\\,等距.定义如果Q1和Q2均为正交矩阵,则C=Q1−1AQ2与A等距.【例8】为了构造变换 T=ddxT=\\dfrac{\\textrm d}{\\textrm dx}T=dxd 的矩阵 AAA,我们选择了输入基 1,x,x2,x31,x,x^2,x^31,x,x2,x3 和输出基 1,x,x21,x,x^21,x,x2,矩阵 AAA 很简单但可惜的是它并不是对角矩阵。但是我们可以取每组基的反序。
现在输入基是 x3,x2,x,1x^3,x^2,x,1x3,x2,x,1,输出基是 x2,x,1x^2,x,1x2,x,1,基变换矩阵 BinB_{\\textrm{in}}Bin 和 BoutB_{\\textrm{out}}Bout 是置换矩阵。T(u)=dudxT(\\boldsymbol u)=\\dfrac{\\textrm d\\boldsymbol u}{\\textrm dx}T(u)=dxdu 在新基下的变换矩阵是对角奇异值矩阵 Bout−1ABin=Σ\\pmb{B^{-1}_{\\textrm{out}}AB_{\\textrm{in}}=\\Sigma}Bout−1ABin=Σ,且奇异值 σ1,σ2,σ3=3,2,1\\sigma_1,\\sigma_2,\\sigma_3=3,2,1σ1,σ2,σ3=3,2,1:Bout−1ABin=[111][010000200003][1111]=[300002000010](8.2.8)\\pmb{B^{-1}_{\\textrm{out}}AB_{\\textrm{in}}}=\\begin{bmatrix}&&1\\\\&1\\\\1\\end{bmatrix}\\begin{bmatrix}0&\\pmb1&0&0\\\\0&0&\\pmb2&0\\\\0&0&0&\\pmb3\\end{bmatrix}\\begin{bmatrix}&&&1\\\\&&1\\\\&1\\\\1\\end{bmatrix}=\\begin{bmatrix}\\pmb3&0&0&0\\\\0&\\pmb2&0&0\\\\0&0&\\pmb1&0\\end{bmatrix}\\kern 15pt(8.2.8)Bout−1ABin=1110001000200031111=300020001000(8.2.8)从上式可以看到 x3x^3x3
六、主要内容总结
- 如果我们已知一组基的线性变换 T(v1),T(v2),⋯ ,T(vn)T(\\boldsymbol v_1),T(\\boldsymbol v_2),\\cdots,T(\\boldsymbol v_n)T(v1),T(v2),⋯,T(vn),那么线性性质将会决定其它所有的变换 T(v)T(\\boldsymbol v)T(v).
- 线性变换 TTT 的输入基是 v1,v2,⋯ ,vn\\boldsymbol v_1,\\boldsymbol v_2,\\cdots,\\boldsymbol v_nv1,v2,⋯,vn,输出基是 w1,w2,⋯ ,wm\\boldsymbol w_1,\\boldsymbol w_2,\\cdots,\\boldsymbol w_mw1,w2,⋯,wm,则存在 m×nm\\times nm×n 的矩阵 AAA 来表示这个线性变换。
- 基变换矩阵 B=W−1V=Bout−1BinB=W^{-1}V=B^{-1}_{\\textrm{out}}B_{\\textrm{in}}B=W−1V=Bout−1Bin 表示恒等变换 T(v)=vT(\\boldsymbol v)=\\boldsymbol vT(v)=v.
- 如果矩阵 AAA 和 BBB 分别表示变换 TTT 和 SSS,并且 SSS 的输出基是 TTT 的输入基,则矩阵 ABABAB 表示变换 T(S(u))T(S(\\boldsymbol u))T(S(u)).
- 最佳的输入-输出基是 AAA 特征向量或奇异向量,且B−1AB=Λ=特征值矩阵Bout−1ABin=Σ=奇异值矩阵B^{-1}AB=\\Lambda=特征值矩阵\\kern 20ptB^{-1}_{\\textrm{out}}AB_{\\textrm{in}}=\\Sigma=奇异值矩阵B−1AB=Λ=特征值矩阵Bout−1ABin=Σ=奇异值矩阵
七、例题
【例9】2×22\\times22×2 的矩阵空间有下面四个 “向量” 作为一组基:v1=[1000]v2=[0100]v3=[0010]v4=[0001]\\boldsymbol v_1=\\begin{bmatrix}1&0\\\\0&0\\end{bmatrix}\\kern 15pt\\boldsymbol v_2=\\begin{bmatrix}0&1\\\\0&0\\end{bmatrix}\\kern 15pt\\boldsymbol v_3=\\begin{bmatrix}0&0\\\\1&0\\end{bmatrix}\\kern 15pt\\boldsymbol v_4=\\begin{bmatrix}0&0\\\\0&1\\end{bmatrix}v1=[1000]v2=[0010]v3=[0100]v4=[0001]线性变换 TTT 是转置每个 2×22\\times22×2 的矩阵,那么在这组基下表示变换 TTT 的矩阵 AAA 是什么(输入基 = 输出基)?逆矩阵 A−1A^{-1}A−1 是什么?转置变换的逆变换 T−1T^{-1}T−1 是什么?
解: 转置这四个 “基矩阵” 仅仅是交换 v2\\boldsymbol v_2v2 和 v3\\boldsymbol v_3v3:T(v1)=v1T(v2)=v3T(v3)=v2T(v4)=v4给出了变换矩阵的四列A=[1000001001000001]\\begin{array}{l}T(\\boldsymbol v_1)=\\boldsymbol v_1\\\\T(\\boldsymbol v_2)=\\boldsymbol v_3\\\\T(\\boldsymbol v_3)=\\boldsymbol v_2\\\\T(\\boldsymbol v_4)=\\boldsymbol v_4\\end{array}\\kern 10pt给出了变换矩阵的四列\\kern 10ptA=\\begin{bmatrix}1&0&0&0\\\\0&0&1&0\\\\0&1&0&0\\\\0&0&0&1\\end{bmatrix}T(v1)=v1T(v2)=v3T(v3)=v2T(v4)=v4给出了变换矩阵的四列A=1000001001000001逆矩阵 A−1A^{-1}A−1 和 AAA 相同,逆变换 T−1T^{-1}T−1 和 TTT 相同。如果我们转置两次,最终得到的矩阵和原始矩阵相同。
注意 2×22\\times22×2 的矩阵空间是 444 维的,所以矩阵 AAA(转置变换 TTT 的变换矩阵)是 4×44\\times44×4 的,AAA 的零空间是 Z\\pmb ZZ,TTT 的核是零矩阵 —— 转置后为零矩阵的只有零矩阵。AAA 的特征值是 1,1,1,−11,1,1,-11,1,1,−1.
对应特征值 λ=−1\\lambda=-1λ=−1,即满足 T(A)=AT=−AT(A)=A^T=-AT(A)=AT=−A 的 “矩阵直线” 是什么?反对称矩阵!