外观
Lesson 50 积分学
约 2839 字大约 9 分钟
2025-4-29
平均分 87.2 (好高)
Karush - Kuhn - Tucker 定理
我们知道 Lagrange 乘子法是在等式约束下优化 f,我们现在要解决的问题是如何在不等式约束 g≥0 下优化 f.
/Theorem/ (KKT)
(1944 年提出) 设 D={(x,y)∣g(x,y)≥0},设 (x0,y0)∈∂D=D−D∘={(x,y)∣g=0},并且是光滑点 (∇g(x0,y0)=(0,0)),且 (x0,y0) 是 f 在 D 上的最大值点,则 ∃λ≤0 使得
∇f(x0,y0)=λ∇g(x0,y0)
/Remark/
条件中如果改成 (x0,y0) 是在 ∂D 上面的最大值点,∂D={g=0},那么就可以用 Lagrange 乘子法.
上述定理比 Lagrange 乘子法改进的地方在于给出了 λ 的符号.
/Proof/ (探测 path)
(这是那一年期中考试之后有同学想出来的方法.)
从 P0(x0,y0) 进入 D 内部 (g>0),沿着梯度方向 g 增加最快,考虑路径 p(t)=(x0,y0)+t∇g(x0,y0),则:
t→0+limtg(p(t))−g(p(0))=p′(0)∇g(x0,y0)=∇g(x0,y0)>0
所以 ∃r>0,∀0<t<r 有:g(p(t))>0,表明 p(t)∈D.
用 f(P0) 在 D 上是最大值的条件,得到
t→0+limtf(p(t))−f(p(0))=p′(0)∇f(x0,y0)=∇f(x0,y0)≤0
所以 ∇f(x0,y0)∇g(x0,y0)≤0. 由前述,在 ∂D 上用 Lagrange 乘子法,∃λ 使得 ∇f(x0,y0)=λ∇g(x0,y0),因为两边符号相反,所以 λ≤0 得证.
KKT 的应用:
/Example/ (均值不等式)
对于 x1,⋯,xn≥0 有:
nx1+⋯+xn≥nx1⋯xn
固定 x1+⋯+xn=A,来证明 x1⋯xn≤(A/n)n. 这个问题变为约束最值:
D={(x1,⋯,xn)g(x1,⋯,xn)=x1+⋯+xn−A=0xi≥0,∀i}
其中后面一个约束是不等式约束.
令 f=x1⋯xn,hi(x1,⋯,xn)=xi.
(1) 最值的存在性:
D=g−1[{0}]∩h1−1[[0,+∞)]∩⋯∩hn−1[[0,+∞)]
其中 {0} 和 [0,+∞) 皆是 R 的闭子集,所以原像集也是闭的,得到 D 为闭集. 同时,
D⊆[0,A]×⋯[0,A]
有界,所以 D compact,最值存在.
(2) 求最值:设 a=(a1,⋯,an) 是 f 在 D 上面的最大值点,而我们容易发现,D 的图形包含边界,边界 ∂D={∪ 有一个不等式取等号}. 因此 D 内部就是 hi>0,∀i 严格成立的区域.
要分析 a 点的位置来判断方法 (若 a∈∂D 则不可使用 Lagrange 乘子法)
a∈∂D,此时 f(a)=0,随意找一个内点都比这个值要大,因此不可能在边界上.
a∈D∘,可以用 Lagrange 乘子法:∃λ∈R 使得 (a1,⋯,an,λ) 满足:
L=f−λg
的临界点方程.
0=∂xi∂L(a)=aia1⋯an−λ
可见,ai 全同,有 ai=A/n,∀i,得到最大值点的位置.
下面的例子来源于中国数学家樊畿 (Ky Fan).
提示
这个字在这个位置居然还有一个点……好,正确.——艾神
他的父亲叫樊绮,这使得他们的英文名几乎完全一样.
/Example/
回忆:对称矩阵 A,求 ∣v∣=1max(vTAv) 的问题.
Ky Fan 提问:给定实对称矩阵 An×n,对于 q1,⋯,qm∈Rm,要求它们是单位向量并且相互正交,求 f=q1TAq1+⋯+qmTAqm 的最大值. (这个问题的结果被称为 Ky Fan 不等式)
我们先来用线性代数的语言来改述一下这个问题:令 Q=[q1⋯qm]n×m (将 qi 作为列向量). 约束改写为:
QTQ=Im×m
(Q 是正交矩阵) 在这种约束下,我们的优化函数可以写成 f=Tr(QTAQ). 因此新版本的问题表述是:
约束 QTQ=Im,求 f=Tr(QTAQ) 的最大值.
约束是 ⟨qi,qj⟩=δij,一共有 m(m+1)/2 个约束. 变元是 qi 的所有分量,共 mn 个. 设 Q=[q1⋯qm]n×m 是条件极值点,由 Lagrange 乘子法,∃λij (1≤i≤j≤m),使得 (qi,λij) 满足:
L=i=1∑mqiTAqi−i<j∑λij(2⟨qi,qj⟩−2δij)−i=1∑mλii(⟨qi,qi⟩−1)
的临界点方程 (其中有一部分约束 ×2 的原因是为了使得对称的形式更好计算,反正没有影响). (qj 的分量是 qij,同时为了方便,要求 λij=λji,这么做的原因是内积对称)
0=∂qij∂L=∂qij∂(qjTAqj−s<j∑λsj⋅2⟨qs,qj⟩−j<t∑λjt⋅2⟨qj,qt⟩−λjj⟨qj,qj⟩)=2l∑Ailqlj−s<j∑λsj⋅2qis−j<t∑λjt⋅2qit−λjj⋅2qij=2l∑Ailqlj−s=1∑n2qisλsj=2(AQ)ij−2(QK)ij
(记 K=(λij)1≤i,j≤m).
总结:若 Q 是 f 的条件极值点,则 ∃ 对称矩阵 Km×m 使得 AQ=QK. 由 QTQ=Im×m,可知:
QTAQ=QTQK=ImK=K
在此之下,f(Q)=Tr(QTAQ)=TrK.
将 Q 任意扩充为 Rn 的单位正交基 q1,⋯,qm,qm+1,⋯,qn,写成 Q~,仿照 f=Tr(QTAQ),来计算 Q~TAQ~=(⟨qi,Aqj⟩)i,j.
由 AQ=QKm×m:
A[q1⋯qm]⟹[Aq1⋯Aqn]⟹Aq1,⋯,Aqm⟹⟨qi,Aqj⟩=[q1⋯qm]λ11⋮λm1⋯⋱⋯λ1m⋮λmm=(i=1∑nλi1qi⋯)∈span{q1,⋯,qm}=0,1≤j≤m<i
所以得到 Q~TAQ~ 正交相似于 A,且有:
Q~TAQ~=(QTAQ00⋆)=(K00⋆)=B
分块对角化. 因此 A,B 正交相似,由 B 分块对角化,可知 {K 的特征值}⊆{B 的特征值}={A 的特征值}. 进而:f(Q)=TrK=K 的 m 个特征值之和 =A 的某 m 个特征值之和 ≤A 的最大 m 个特征值之和.
最终得到定理:
/Theorem/ (Ky Fan)
设 Qn×m 满足 QTQ=Im,则 f=Tr(QTAQ) 的最大值为 A 的最大 m 个特征值之和.
积分学
有很多种积分:Rn 上的积分 (Riemann 积分的推广)、在几何对象上的积分 (曲线 / 曲面积分)……
对于 Rn 上的积分 (多重积分),回忆 Riemann 积分:
∫abf(x)dx=Plim(i∑f(ξi)Δxi)
(P 是全体剖分)
可以将上述积分式解读为 f 下面图形的面积 (f(x) 解读为 height),亦可以解读为 [a,b] 的带权长度 (f(x) 解读为权重).
推广至 n (n=2) 维:Ω={(x,y,z)∣(x,y)∈D,0≤z≤f(x,y)}. 则整个积分可以视作一个体积:
Vol(Ω)=?
- 剖分 D=∪Di;
- 选代表点 ξi∈Di;
- ∑f(ξi)⋅area(Di);
- lim∑f(ξi)area(Di)=∬Df.
但是这样的直接推广会遇到问题:area(Di) 如何定义?同时很多平面区域 E 无法定义面积.
更严格地定义多重积分:选择矩形面积来作为分割单元.
(1) 对 D 为矩形 (更高维的情况下是 n 维矩体) 定义 D 上函数的积分.
D=[a,b]×[c,d],选择 [a,b] 的剖分为 ⋃iSi,[c,d] 剖分为 ⋃jTj,则 D=⋃i,jSi×Tj. 现在就得到了两种等价的方法:
S,Tlimi=1∑nj=1∑mf(ξij)∣Si∣∣Tj∣
(∣I∣ 表示区间长度) 若上述极限存在,则称 f 在 D 上可积分,记这个极限为:
∬Df(x,y)dA=∬Df(x,y)dxdy=∬Df(x,y)∣dxdy∣=∬Df=∫Df
(有时为了强调“面积”是正的而加上绝对值,而后面的两种属于是简写)
/bug/
上面完全套用 Riemann 的方法需要剖分 & 选点,变得比较麻烦.
Darboux 上和和 Darboux 下和:(对于剖分 P)
upper sum: U(P,f)lower sum: L(P,f):=i,j∑∣Si∣⋅∣Tj∣Si×Tjsupf:=i,j∑∣Si∣⋅∣Tj∣Si×Tjinff
和一维积分几乎一样.
注意:要取 sup 和 inf,意味着 f 必须有界.
/Definition/
称有界函数 f 在矩形 D 上可积分,如果对于所有剖分 P:
Pinf(U(P,f))=Psup(L(P,f))
成立. 我们把上式的公共值称为 ∬Df.
/Claim/
f 在矩形 D 上可积 ⟺ ∀ε>0,∃ 一个剖分 P 使得 U(P,f)−L(P,f)<ε.
/Theorem/ (Riemann - Lebesgue 积分)
设 D 是 n 维矩体 D=[a1,b1]×⋯×[an,bn],则 f 在 D 上可积 ⟺ f 在 D 上有界 / f 在 D 上的间断点集的 n 维 volume 是零.
/Definition/
称 E⊆Rn 的 n 维 volume 为零,如果 ∀ε>0,∃ 可数个矩体 I1,I2,⋯,使得:
m=1⋃∞Im⊇E,m=1∑∞vol(Im)<ε
/Corollary/
连续函数在矩体上均可积.
因此 n 维矩体 I 上 f 的积分为:
n∫⋯∫If(x1,⋯,xn)dV
当然也有很多简写.
(2) 对于一般的有界区域 E,以 2 维为例,取矩形 I⊇E,对于 E 上的 f,将 f 扩充至 I 上:
f~(x)={f(x)0x∈Ex∈/E
/Definition/
∬Ef=∬If~
(这样的定义是严格的,但是复杂程度全部集中在 f~ 上)
沿用 Riemann - Lebesgue 定理:f 在 E 上可积 ⟺ f~ 在 I 上可积 ⟺ f~ 在 I 上有界,disc(f~) (间断点集,因为英文是 discontinuous) 是零面积集.
前半句话比较好判断,因为 I 上有界就是 E 上有界. 但是如何判断间断点集是零面积集?我们引入所谓的示性函数:
/Definition/ (示性函数)
设 f 在 I 上有定义,f~(x)=f(x)χE(x).
对于集合 E⊆R2,示性函数 χE:R2→R,有
χE(x)={10x∈Ex∈/E
回忆:disc(fg)⊆disc(f)∪disc(g),因为若 f,g 在 x0 处连续,则 fg 在 x0 处连续.
从而,若 x0∈C(f)∩C(g)⊆C(fg). 取补集:
disc(fg)=(C(fg))C⊆(C(f)∩C(g))C=disc(f)∪disc(g)