模式识别入门(零) - 线性代数与概率论数学基础

本学期选修了学校自动化学院的张绍武教授《模式识别》课程。此为期末总结时候的复习总结。此篇主要包含了一些数学常识与基础。

Chapter 0 数学基础

0.1 行列式与线性方程组

解行列式:

  1. 按行 (列) 展开计算
  2. 化为三角行列式计算
1
det (A)

解线性方程组:

{a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2an1x1+an2x2++annxn=bn\left\{\begin {array}{c}{a_{11} x_{1}+a_{12} x_{2}+\cdots+a_{1 n} x_{n}=b_{1}} \\ {a_{21} x_{1}+a_{22} x_{2}+\cdots+a_{2 n} x_{n}=b_{2}} \\ {\ldots \ldots \ldots \ldots \ldots \ldots \ldots \ldots \ldots} \\ {a_{n 1} x_{1}+a_{n 2} x_{2}+\cdots+a_{n n} x_{n}=b_{n}}\end {array}\right.

  1. 若系数行列式 D=aij0\mathrm {D}=\left|a_{i j}\right| \neq 0, 则方程组存在唯一解

    x1=D1D,x2=D2D,,xn=DnDx_{1}=\frac {D_{1}}{D}, x_{2}=\frac {D_{2}}{D}, \cdots, x_{n}=\frac {D_{n}}{D}

  2. 若为齐次方程组 (b=0b=0), 有非零解的充要条件是 D=aij=0\mathrm {D}=\left|a_{i j}\right|=0

0.2 矩阵

Am×n=[aij]m×nA_{m \times n}=\left [a_{i j}\right]_{m} \times_{\mathrm {n}}​

方阵:

m=nm=n

对角阵:

=diag(a11,a22,,ann)\wedge=\operatorname {diag}\left (a_{11}, a_{22}, \ldots, a_{n n}\right)

1
diag (A)

单位阵:

E=diag(1,1,,1)E=\operatorname {diag}(1,1, \dots, 1)

1
2
3
4
eye (n)
```上三角与下三角阵: (TODO)```matlab
triu (A)
tril (A)

0.3 矩阵运算

矩阵乘法 C=AB:

cij=kaikbkjc_{i j}=\sum_{k} a_{i k} b_{k j}

矩阵的转置:

A=(aij),A=AT=(aji)\mathrm {A}=\left (\mathrm {a}_{i j}\right), \mathrm {A}^{\prime}=\mathrm {A}^{\mathrm {T}}=\left (\mathrm {a}_{j i}\right)

对称方阵:

A=A,aij=aji\mathrm {A}^{\prime}=\mathrm {A}, 即 \mathrm {a}_{i j}=\mathrm {a}_{j i}

方阵的行列式性质:

  1. 如果 A0|\mathrm {A}| \neq 0, AA 称为非奇异阵,否则为奇异阵.
  2. A=A,AB=AB\left|A^{\prime}\right|=|A|, \quad|A B|=|A||B|

逆矩阵:

如果 AB=BA=EAB = BA = E, 则称 AA 可逆,BBAA 的逆.

方阵 AA 可逆的充要条件为

A0|\mathrm {A}| \neq 0

1
B = inv (A)

0.4 分块矩阵及其运算

用横线和竖线把矩阵分成若干小块,每个小块为一个矩阵,它可以作为一个元素参加运算。

[1010010100120021]=[E2E2OB22]\left [\begin {array}{ccccc}{1} & {0} & {\vdots} & {1} & {0} \\ {0} & {1} & {\vdots} & {0} & {1} \\ {\cdots} & {\cdots} & {\vdots} & {\cdots} & {\cdots} \\ {0} & {0} & {\vdots} & {1} & {2} \\ {0} & {0} & {\vdots} & {2} & {1}\end {array}\right] = \left [\begin {array}{ll}{E_{2}} & {E_{2}} \\ {O} & {B_{22}}\end {array}\right]

分块对角阵 (TODO):

A=A11A22Arr|\mathrm {A}|=\left|\mathrm {A}_{11}\right|\left|\mathrm {A}_{22}\right| \ldots\left|\mathrm {A}_{\mathrm {rr}}\right|

1
2
A = blkdiag (A11, A22, ..., Arr)
A11 = A (1:m, 1:n)

0.5 向量

n 维向量:

x=(x1,x2,,xn)T\mathbf {x}=\left (x_{1}, x_{2}, \ldots, x_{n}\right)^{\mathrm {T}}

线性相关与线性无关:

设有 n 维向量组: x1,x2,,xm\mathbf {x}_{1}, \mathbf {x}_{2}, \dots, \mathbf {x}_{\mathrm {m}}, 如果只有当 k1=k2==km=0k_{1}=k_{2}=\ldots=k_{\mathrm {m}}=0 时,才能使得下式成立,则称该向量组线性无关,否则则称线性相关.

k1x1+k2x2++kmxm=0k_{1} \mathbf {x}_{1}+k_{2} \mathbf {x}_{2}+\cdots+k_{m} \mathbf {x}_{m}=0

m 个 n 维的向量的矩阵表示:

A=(a1,a2,,am)\mathrm {A}=\left (\mathbf {a}_{1}, \mathbf {a}_{2}, \ldots, \mathbf {a}_{\mathrm {m}}\right)

n 个 n 维向量: ai=(ai1,ai2,,ain)T\boldsymbol {a}_{i}=\left (\mathbf {a}_{\mathbf {i} 1}, \mathbf {a}_{\mathbf {i} 2}, \ldots, \mathbf {a}_{\mathbf {i n}}\right)^{\mathrm {T}} 线性无关的充要条件是

A0| \mathrm {A}\mathrm | \neq 0

0.6 向量 (二)

若满足下式,则称 A 可以由向量组 B 线性表示:

A=(a1,a2,,am)=(b1,b2,,bm)C=BCA=\left (a_{1}, a_{2}, \dots, a_{m}\right)=\left (b_{1}, b_{2}, \dots, b_{m}\right) C= BC

向量组的秩:(TODO)

rank(A)=nor(A线)\operatorname {rank}(\mathrm {A})=\mathrm {nor}(A 的最大线性无关组)

  1. 向量组 α1,α2...αs\alpha_1, \alpha_2 ... \alpha_s 线性无关等价于 rank(α1,α2...αs)=s\operatorname {rank}(\mathrm {\alpha_1, \alpha_2 ... \alpha_s}) = s
  2. 等价的向量组具有相同的秩
  3. 任意 n+1 个 n 维向量线性相关

向量的内积:

(x,y)=i=1nxiyi=xTy(\mathbf {x}, \mathbf {y})=\sum_{i=1}^{n} x_{i} y_{i}=\mathbf {x}^{T} \mathbf {y}

向量的模 (范数 / 长度):

x=xTx|\mathbf {x}|=\sqrt {\mathbf {x}^{T} \mathbf {x}}

两点的距离:

d(x1,x2)=x2x1=(x2x1)T(x2x1)d\left (\mathbf {x}_{1}, \mathbf {x}_{2}\right)=\left|\mathbf {x}_{2}-\mathbf {x}_{1}\right|=\sqrt {\left (\mathbf {x}_{2}-\mathbf {x}_{1}\right)^{T}\left (\mathbf {x}_{2}-\mathbf {x}_{1}\right)}

两个向量的夹角:

θ=<x1,x2>=arccosx1Tx2x1x2\theta=<\mathbf {x}_{1}, \mathbf {x}_{2}>=\arccos \frac {\mathbf {x}_{1}^{T} \mathbf {x}_{2}}{\left|\mathbf {x}_{1}\right|\left|\mathbf {x}_{2}\right|}

0.7 向量 (三)

两个向量正交:

(x,y)=0,cos(θ)=0(\mathbf {x}, \mathbf {y})=0, \cos (\theta)=0

若非零的 n 维向量 x1,x2,,xm\mathbf {x}_{1}, \mathbf {x}_{2}, \dots, \mathbf {x}_{\mathrm {m}} 两两正交,则称为 正交向量组. 正交向量组队的性质:

  1. 正交向量组线性无关

  2. 若 n 维向量 y 可以由正交向量组 x1,x2,,xm\mathbf {x}_{1}, \mathbf {x}_{2}, \dots, \mathbf {x}_{\mathrm {m}} 线性表示,则

    y=yTx1x1Tx1x1+yTx2x2Tx2x2++yTXmxmTxmxm\mathbf {y}=\frac {\mathbf {y}^{T} \mathbf {x}_{1}}{\mathbf {x}_{1}^{T} \mathbf {x}_{1}} \mathbf {x}_{1}+\frac {\mathbf {y}^{T} \mathbf {x}_{2}}{\mathbf {x}_{2}^{T} \mathbf {x}_{2}} \mathbf {x}_{2}+\cdots+\frac {\mathbf {y}^{T} \mathbf {X}_{m}}{\mathbf {x}_{m}^{T} \mathbf {x}_{m}} \mathbf {x}_{m}

0.8 向量 (四)

向量空间:

对加法和乘法运算均封闭的非空向量集合称为一个向量空间.

向量空间 VV 的基:向量空间的任一向量都可以由线性无关的向量组 a1,a2,,ara_{1}, a_{2}, \dots, a_{r} 线性表示,则称向量组 a1,a2,,ara_{1}, a_{2}, \dots, a_{r}VV 的基,dimV=r\operatorname {dim} \mathrm {V}=\mathrm {r}

向量空间 VV 中的任意一个向量 zz 可由它的基唯一线性表示,有序组 (x1,x2,,xr)\left (x_{1}, x_{2}, \ldots, x_{r}\right) 称为向量 zz 在该基下的坐标.

z=x1a1+x2a2++xrarz=x_{1} \mathbf {a}_{1}+x_{2} \mathbf {a}_{2}+\ldots+x_{r} \mathbf {a}_{r}

基变换与坐标变换:

(β1β2βr)=(α1α2ar)C\left (\beta_{1} \beta_{2} \ldots \beta_{r}\right)=\left (\alpha_{1} \alpha_{2} \ldots a_{r}\right) C

0.9 矩阵的特征值与特征向量

方阵 A 的特征值 λ\lambda 与特征向量 α\alpha:

Aα=λα\mathrm {A}{\alpha}=\lambda {\alpha}

  1. 设 α 是方阵 A 的属于特征值 λ 的特征向量,则 kα 也是 A 的属于特征值 λ 的特征向量.
  2. 方阵 A 的两个不同特征值所对应的特征向量是线性无关的

方阵 AA 的特征矩阵 AλEA-λE 和特征多项式 AλE|A-λE| 和特征多项式 AλE|A-λE|.

仿真 AA 的特征方程:

AλE=0|A-\lambda E|=0

特征方程 AλE=0|A-\lambda E|=0 的解 λ\lambda 为方阵 AA 的特征值,方程 (AλE)x=0(\mathrm {A}-\lambda \mathrm {E}) \mathrm {x}=0 的非零解向量就是方阵 AA 的属于特征值 λ\lambda 的特征向量.

0.10 相似矩阵

如果存在可逆方阵 PP, 使 P1AP=BP^{-1} A P=B, 则称 A 与 B 相似,记作 ABA \sim B

  1. 相似关系具有反身,对称,传递性.
  2. 相似矩阵有相同的行列式,即 A=B|\mathrm {A}|=|\mathrm {B}|
  3. 相似矩阵有相同的特征多项式及特征值

n 阶方阵 AA 与对角矩阵 \wedge 相似的充要条件是 AA 有 n 个线性无关的特征向量.

如果 A\mathrm {A} \sim \wedge, 即有

P1AP==diag(d1,d2,,dn)\mathrm {P}^{-1} \mathrm {AP}=\wedge=\operatorname {diag}\left (\mathrm {d}_{1}, \mathrm {d}_{2}, \ldots, \mathrm {d}_{\mathrm {n}}\right)

, 则 d1,d2,,dn\mathrm {d}_{1}, \mathrm {d}_{2}, \ldots, \mathrm {d}_{\mathrm {n}}AAnn 个特征值.

实对称矩阵:(TODO)

如果有 n 阶矩阵 A, 其矩阵的元素都为实数,且矩阵 A 的转置等于其本身 (aij=ajia_{ij} = a_{ji})(i,j 为元素的脚标), 则称 A 为实对称矩阵

  1. 特征值为实数,特征向量为实向量
  2. 两个相异的特征值对应的特征向量正交
  3. n 阶实对称方阵 AA 有 n 个线性无关的特征向量
  4. n 阶实对称方阵 AA 与对角矩阵相似,即 n 阶实对称矩阵 A 必可对角化,且相似对角阵上的元素即为矩阵本身特征值

0.11 正交矩阵

正交矩阵 AA, 有 AA=EA A^{\prime}=E, 即 A1=AA^{-1}=A^{\prime}

  1. 正交矩阵 A,BA, B 的乘积 ABAB 仍为正交矩阵
  2. 正交矩阵 AA 的行列式 A=1|\mathrm {A}|=1

正交矩阵 AA 的行 (列) 向量组为正交单位向量组,即:

(a1a2an)(a1,a2,,an)=E\left (\begin {array}{c}{\boldsymbol {a}_{1}} \\ {\boldsymbol {a}_{2}} \\ {\vdots} \\ {\boldsymbol {a}_{n}}\end {array}\right)\left (\boldsymbol {a}_{1}^{\prime}, \boldsymbol {a}_{2}^{\prime}, \cdots, \boldsymbol {a}_{n}^{\prime}\right)=E

aiajT=δij\boldsymbol {a}_{i} \boldsymbol {a}_{j}^{T}=\delta_{i j}

AA 为实对称矩阵,则一定存在 正交矩阵 PP, 使得 P1AP=P^{-1} A P=\wedge, \wedge 是以 AA 的特征值为对角元素的对角矩阵.

0.12 二次型

二次齐次函数:

f(x1,x2,,xn)=i=1naijxixj,aij=ajif\left (x_{1}, x_{2}, \cdots, x_{n}\right)=\sum_{i=1}^{n} a_{i j} x_{i} x_{j}, a_{i j}=a_{j i}

x=(x1,x2,xn)\mathbf {x}=\left (x_{1}, x_{2}, \ldots x_{n}\right)^{\top}, A=(aij)nnA=\left (a_{i j}\right)_{n^{*} n}, 则有

f(x1,x2,,xn)=xAxf\left (x_{1}, x_{2}, \cdots, x_{n}\right)=\mathbf {x}^{\prime} A \mathbf {x}

二次型 ff 与对称矩阵 AA 存在一一对应: AA 为二次型 ff 的矩阵,ff 为矩阵 AA 的二次型.

A=A=\wedge 时为标准二次型 (只含平方项)

对于任何二次型,总可以找到正交变换将 ff 化为标准型

f(x1,x2,,xn)=xAxf\left (x_{1}, x_{2}, \cdots, x_{n}\right)=\mathbf {x}^{\prime} \mathbf {A} \mathbf {x}

x=Cy\mathbf {x}=C \mathbf {y}

=CAC\wedge=C^{\prime} A C

f=yy=λ1y12+λ2y22+λnyn2f=\mathbf {y}^{\prime} \wedge \mathbf {y}=\lambda_{1} y_{1}^{2}+\lambda_{2} y_{2}^{2}+\cdots \lambda_{n} y_{n}^{2}

0.13 正定二次型和正定矩阵

二次型 f(x1,x2,,xn)f\left (\mathrm {x}_{1}, \mathrm {x}_{2}, \dots, \mathrm {x}_{n}\right), 如果对于任何 x12+x22++xn20\mathrm {x}_{1}^{2}+\mathrm {x}_{2}^{2}+\ldots+\mathrm {x}_{n}^{2} \neq 0, 都有 f>0f>0, 则称 ff 为正定二次型。其矩阵 AA 为正定矩阵 (A>0A>0).

n 阶方阵 AA 正定的充要条件是: A 的 n 个特征值全为正数.

n 阶方阵 AA, 若存在可逆矩阵 BB, 使得 A=BBA=B^{\prime} B, 则 AA 为正定矩阵.

意义 (TODO)

0.14 多元随机变量的统计特征

n维随机变量:

x=[x1,x2,,xn]T\mathbf {x}=\left [x_{1}, x_{2}, \ldots, x_{n}\right]^{\mathrm {T}}

n 维随机变量的 (总体) 均值:

μ=E(x)=xxp(x)dx\boldsymbol {\mu}=\mathrm {E}(\mathbf {x})=\int_{\mathbf {x}} \mathbf {x} p (\mathbf {x}) d \mathbf {x}

n 维随机变量的 (样本) 均值:

μ^=1Ni=1Nxi\hat {\boldsymbol {\mu}}=\frac {1}{N} \sum_{i=1}^{N} \mathbf {x}_{i}

n 维随机变量的 (总体) 相关函数矩阵:(TODO)

R(x)=[rij]=[E{xixj}]=E{xxT}\mathrm {R}(\mathbf {x})=\left [r_{i j}\right]=\left [\mathrm {E}\left\{x_{i} x_{j}\right\}\right]=\mathrm {E}\left\{\mathbf {x} \mathbf {x}^{T}\right\}

n 维随机变量的 (样本) 相关函数矩阵:

R^(x)=1Ni=1NxixiT\hat {\mathrm {R}}(\mathbf {x})=\frac {1}{N} \sum_{i=1}^{N} \mathbf {x}_{i} \mathbf {x}_{i}^{T}

n 维随机变量的 (总体) 协方差矩阵:

C(x)=[cij]=[E{(xiμi)(xjμj)}]=E{(xμ)(xμ)T}\mathrm {C}(\mathbf {x})=\left [c_{i j}\right]=\left [\mathrm {E}\left\{\left (x_{i}-\mu_{i}\right)\left (x_{j}-\mu_{j}\right)\right\}\right]=\mathrm {E}\left\{(\mathbf {x}-\boldsymbol {\mu})(\mathbf {x}-\boldsymbol {\mu})^{T}\right\}

n 维随机变量的 (样本) 协方差矩阵:

C^(x)=1Ni=1N(xiμi)(xiμi)T\hat {\mathrm {C}}(\mathbf {x})=\frac {1}{N} \sum_{i=1}^{N}\left (\mathbf {x}_{i}-\boldsymbol {\mu}_{i}\right)\left (\mathbf {x}_{i}-\boldsymbol {\mu}_{i}\right)^{T}

0.15 n 维随机变量协方差矩阵的性质

n维随机变量的协方差矩阵 CC 是实对称矩阵

  1. 协方差矩阵 CC 的特征值为实数

  2. CCnn 个线性无关的特征向量

  3. 存在正交矩阵 UU, 使得 U1CU=UTCU=\mathrm {U}^{-1} \mathrm {CU}=\mathrm {U}^{\mathrm {T}} \mathrm {CU}=\wedge, \wedge 是以 CC 的特征值为对角元素的对角矩阵,$$
    \mathrm {U}=\left [\mathbf {u}{1}, \mathbf {u}{2}, \ldots, \mathbf {u}{\mathrm {n}}\right], \quad \mathrm {C} \mathbf {u}{\mathrm {i}}=\lambda_{\mathrm {i}} \mathbf {u}_{\mathrm {i}}

准则函数: J(a)J (\mathbf {a})

最优化问题: a=argminaJ(a)\mathbf {a}^{*}=\underset {\mathbf {a}}{\operatorname {argmin}} J (\mathbf {a})

求解方法: a\mathbf {a}^{*} 应满足方程:

J(a)=[Ja1Ja2Jan]T=0\nabla J (\mathbf {a})=\left [\begin {array}{cc}{\frac {\partial J}{\partial a_{1}}} & {\frac {\partial J}{\partial a_{2}}} & {\cdots} & {\frac {\partial J}{\partial a_{n}}}\end {array}\right]^{T}=0

沿梯度的负方向改变 a\mathbf {a}, 函数会很快达到极小点,梯度趋于 0. 故迭代算法为:

ak+1=akηJ(a)\mathbf {a}_{k+1}=\mathbf {a}_{k}-\eta \nabla J (\mathbf {a})

流程图:

graph TB;
A ("选择初始点 a_0, 给定容许误差 ε, 设定学习率 η. 设 k=0")-->B ["计算梯度▽J (a_k)"];
B-->C ["修改 a_k: a_k+1 = a_k - η▽J (a_k)"];
C-->D {"计算 J (a_k+1), 并检验 | J (a_k+1)-J (a_k)|<ε"};
D--No-->E>"k=k+1"];
E-->B;
D--Yes-->F ["输出结果"]
F-->G ("结束")

Reference: 西北工业大学自动化学院张绍武教授《模式识别》课程 PPT