【第二章】线性代数基础
1.线代基础-总览
2.数学概念
2.1 标量
标量是一个单独的数值,没有方向只有大小,复数不是标量,常在线性代数中用于对向量或矩阵进行缩放等操作。
2.2 向量
向量是一列数,即有序的数字列表,既有大小也有方向,这些数有序排列,通过次序中的索引可以确定每一个单独的数。我们可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。有加法、标量乘法、内积(点积)、外积(叉积)等操作。
2.3 矩阵
矩阵是一个二维数组,其中每个元素被两个索引确定,常用大写变量名称表示,如矩阵A,如果一个矩阵n行m列,A1,1表示A左上的元素,An,m表示右下的元素。有加法、矩阵乘法、标量乘法、转置、逆矩阵等操作。
2.4 张量
张量是标量、向量、矩阵的推广,是一种可以表示任意维度的数据结构。一般地,一个数组中的元素分布在若干维坐标的规则网格中,称为张量。有加减法、标量乘法、张量积、收缩、转置广播等操作。
3.矩阵操作
3.1 转置
矩阵的转置是以对角线为轴的镜像,从左上角到右下角的对角线被称为主对角线,矩阵A的转置表示为:
(AT)i,j=Ai,j(A^T)_{i,j}=A_{i,j}(AT)i,j=Ai,j
3.2 矩阵与向量相乘
3.2.1矩阵乘法
两个矩阵A和B的矩阵乘积是另一个矩阵C。为了使矩阵乘法定义良好,矩阵A的列数必须和矩阵B的行数相等,C=ABC=ABC=AB,假设矩阵A形状为m x n,矩阵B形状为n x p,那么矩阵C的形状是m x p,具体的,乘法的操作定义为
Ci,j=∑kAi,kBk,jC_{i,j}=\\sum_k A_{i,k}B_{k,j}Ci,j=k∑Ai,kBk,j
矩阵乘法服从分配率
A(B+C)=AB+ACA(B+C)=AB+ACA(B+C)=AB+AC
也服从结合率
A(BC)=(AB)CA(BC)=(AB)CA(BC)=(AB)C
注意,矩阵乘法不一定满足交换律AB=BAAB=BAAB=BA的情况并非总是满足
3.2.2矩阵与向量相乘
Ax=bAx=bAx=b
假设已有矩阵A∈Rm×nA\\in R^{m\\times n}A∈Rm×n,向量b∈Rmb\\in R^{m}b∈Rm,求解未知向量x∈Rnx\\in R^nx∈Rn,向量x的每一个元素xi都是未知的。矩阵A的每一行和b中对应的元素构成一个约束,上述公式可改写为
A1:x=b1A2:x=b2...Am:x=bmA_{1:}x=b_1 \\\\A_{2:}x=b_2 \\\\...\\\\A_{m:}x=b_mA1:x=b1A2:x=b2...Am:x=bm
4.特殊矩阵
4.1 单位矩阵
单位矩阵的结构很简单,除主对角线上元素都是1,其他所有元素全为0,n维单位矩阵记作
In∈Rn×nI_n \\in R^{n\\times n}In∈Rn×n,3维单位矩阵I3I_3I3如下图所示
[100010001]\\begin{bmatrix}1&0&0\\\\0&1&0\\\\0&0&1\\end{bmatrix}100010001
4.2 对角矩阵
对角矩阵是一种特殊的方阵,即行数和列数相等,并且对于所有的i行j列,i≠j,都有aij=0a_{ij}=0aij=0,也就是除主对角线上元素的其余元素都为0。
4.3 对称矩阵
对称矩阵是一种特殊的方阵,即行数和列数相等,矩阵关于主对角线对称,举例一个3x3的对称矩阵:
A=[123245356]A=\\begin{bmatrix}1&2&3\\\\2&4&5\\\\3&5&6\\end{bmatrix}A=123245356
4.4 正交矩阵
正交矩阵是一种特殊的方阵,其行向量和列向量都是单位向量并且两两正交,也就是说,一个矩阵Q是正交矩阵,如果它的转置也是它的逆矩阵,即满足以下条件:
QTQ=QQT=IQ^TQ=QQ^T=IQTQ=QQT=I
这里QTQ^TQT表示矩阵Q的转置,I是与Q同阶的单位矩阵
5.特殊向量
单位向量,是具有单位范数的向量,即∣∣x∣∣2=1||x||_2=1∣∣x∣∣2=1,如果xTy=0x^Ty=0xTy=0,那么向量x与向量y互相正交。如果两个向量都有非零范数,那么两个向量之间的夹角是90度。在RnR^nRn中,至多有n个范数非零向量互相正交。如果这些向量互相正交并且范数都为1,那么称为标准正交。
6.矩阵逆
矩阵A的矩阵逆记作A−1A^{-1}A−1,其定义的矩阵满足以下条件
A−1A=InA^{-1}A=I_nA−1A=In
现可以通过以下步骤求解
Ax=bA−1Ax=A−1bInx=A−1bx=A−1bAx=b\\\\A^{-1}Ax=A^{-1}b\\\\I_nx=A^{-1}b\\\\x=A^{-1}bAx=bA−1Ax=A−1bInx=A−1bx=A−1b
逆矩阵A−1A^{-1}A−1的存在具有条件:行列式不为0、满秩、零空间只有零向量
7.线性相关
线性相关是用于描述一组向量之间的关系,具体来说,当存在一组不全为零的标量,使得这些标量与相应的向量相乘的和为零向量时,称这组向量是线性相关的。假设有一组向量v1,v2,……,vnv_1,v_2,……,v_nv1,v2,……,vn,如果存在一组标量c1,c2,......cnc_1,c_2,......c_nc1,c2,......cn它们不全为零,并且满足以下等式:
c1v1+c2v2+......cnvn=0c_1v_1+c_2v_2+......c_nv_n=0c1v1+c2v2+......cnvn=0
则称向量v1,v2,……,vnv_1,v_2,……,v_nv1,v2,……,vn是线性相关的,0表示零向量。
8.范数
有时我们需要衡量一个向量的大小,在机器学习中,常用称为范数的函数来衡量向量大小,形式上,LpL^pLp范数定义如下
∣∣x∣∣p=(∑i∣xi∣p)1/p,其中p∈R,p>=1||x||_p=(\\sum_i|x_i|^p)^{1/p},其中p\\in R,p>=1∣∣x∣∣p=(i∑∣xi∣p)1/p,其中p∈R,p>=1
范数(包括LpL^pLp范数)是将向量映射到非负值的函数。直观上来说,向量x的范数衡量从原点到点x的距离。当p=2时,L2L^2L2范数称为欧几里得范数,它表示从原点出发到向量x确定的点的欧几里得距离。欧几里得范数常被简化表示为∣∣x∣∣||x||∣∣x∣∣。
L∞L^{\\infin}L∞范数,被称为最大范数,它表示向量中具有最大幅值的元素的绝对值,
∣∣x∣∣∞=maxi∣xi∣||x||_\\infin=max_i|x_i|∣∣x∣∣∞=maxi∣xi∣
9.特征分解
特征分解是使用最广的矩阵分解之一,即分解为一组特征向量和特征值。
方阵A的特征向量是指与A相乘后相当于对该向量进行缩放的非零向量vvv:
Av=λvAv=\\lambda vAv=λv
其中λ\\lambdaλ称为这个特征向量对应的特征值。
10.奇异值分解
奇异值分解(SVD),是将矩阵分解为奇异向量和奇异值,将矩阵A分解成3个矩阵的乘积:
A=UDVTA=UDV^TA=UDVT
假设A是一个m×\\times×n的矩阵,那么U是一个m×\\times×m的矩阵,D是一个m×\\times×n的矩阵,V是一个n×\\times×n的矩阵,这些矩阵中的每一个经定义后都拥有特殊结构。矩阵U和V都定义为正交矩阵,而矩阵D定义为对角矩阵。注意,矩阵D不一定的是方阵。
对角矩阵D对角线上的元素称为矩阵A的奇异值。矩阵U的列向量称为左奇异向量,矩阵V的列向量称为右奇异向量。
11.迹运算
**迹运算(Trace)**是线性代数中对方阵的运算,用于求矩阵对角线的和值,记作Tr(A),
Tr(A)=∑iAi,iTr(A)=\\sum_iA_{i,i}Tr(A)=i∑Ai,i
12.行列式
行列式,记作det(A)det(A)det(A),或者是用竖线符号包围矩阵表示∣A∣|A|∣A∣,是一个将方阵A映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或缩小了多少。
行列式的基础运算:
A=∣abcdefghi∣,det(A)=aei+bfg+cdh−ceg−bdi−afhA=\\begin{vmatrix}a & b & c\\\\d & e & f \\\\g & h & i\\end{vmatrix} ,det(A)= aei+bfg+cdh-ceg-bdi-afhA=adgbehcfi,det(A)=aei+bfg+cdh−ceg−bdi−afh
13.本文收获
把书上内容简要摘写一遍,加深印象,在写本文时,发现数学公式的markdown格式非常有趣,发现新大陆,当自己后面回过头来再看这篇文章时,希望能够有更深的理解。学线代是在上上学期,现在忘得差不多了,重新拾起发现数学特别有趣,加油加油加油