外观
Lesson 48 隐函数定理的应用
约 2627 字大约 9 分钟
2025-4-23
隐函数定理的应用
可以确定几何物体的切空间.
/Theorem/ (切空间)
设:
M=⎩⎨⎧(x1,⋯,xn)∈Rng1(x1,⋯,xn)=0⋯gk(x1,⋯,xn)=0⎭⎬⎫
(是 k 个方程的公共零点集),其中 k≤n.
设 a∈M,且 a 是 M 的光滑点 (即 [∂jFi(a)]1≤i≤k,1≤j≤n 满秩 ⟺ rk=k ⟺ ∃k×k 子阵可逆)
则 M 在 a 处的切空间 (tangent space) 为:
TaM=(span{∇F1(a),⋯,∇Fk(a)})⊥
且满秩要求 k 个行向量线性无关,因此上述 span{∇F1(a),⋯,∇Fk(a)} 的维数是 k,所以切空间维数为 dimTaM=n−k.
/Definition/ (曲面的切平面)
M⊆R3 是曲面,对于 a∈M,称 a 处的 TaM 为 M 在 a 处的切平面.
/Remark/
一般而言我们画切空间的时候会把这个切空间的几个基矢量画在原点处,但是画切平面的时候一般直接画在 a 点处. 这并没有实质的差别,只是相差一个平移而已.
由上述定理,我们知道切平面 TaM=(span{∇F(a)})⊥.
切平面方程:(if a=(a1,a2,a3))
(x,y,z)∈M 在 a 处的切平面 ⟺ (x,y,z)∈a+TaM
⟺ (x,y,z)−(a1,a2,a3)∈TaM=(span{∇F(a)})⊥
⟺ ((x,y,z)−(a1,a2,a3))⋅∇F(a)=0 为切平面方程. 也可以写成偏导数形式:
k=1∑3∂xk∂F(xk−ak)=0
/Remark/
前述的切空间,在证明 Lagrange 乘子法的时候是一种重要的几何看法.
隐函数的求导
隐函数最难的部分不是进行计算,而是证明隐函数的存在性和光滑性 (因为和反函数存在性和光滑性相关). 但是若已经建立了隐函数的存在性和光滑性,那么计算求导就是容易的 ⟹ 恒等式求导.
/Example/
⎩⎨⎧F(x,y,z)=0G(x,y,z)=0
已知 (x0,y0,z0) 是公共解.
我们希望能够在 (x0,y0,z0) 附近,利用上面两个方程将一些变元表示为隐函数.
由隐函数定理,若:
det(Fx(x0,y0,z0)Gx(x0,y0,z0)Fz(x0,y0,z0)Gz(x0,y0,z0))=0
则在 (x0,y0,z0) 附近,可将 x,z 表示为 y 的隐函数 x=x(y),z=z(y). 求:
x′(y)=dydx,z′(y)=dydz
我们知道恒等式:
⎩⎨⎧F(x(y),y,z(y))=0G(x(y),y,z(y))=0
在 ∀y∈y0 的某个邻域中. 对 y 进行恒等式求导,得到
⎩⎨⎧0=Fx⋅x′(y)+Fy⋅1+Fz⋅z′(y)0=Gx⋅x′(y)+Gy⋅1+Gz⋅z′(y)⟹(FxGxFzGz)(x′(y)z′(y))=(−Fy−Gy)
这个方程只需要求矩阵的逆即可得到结果:
(x′(y)z′(y))=detA1(Gz−Gx−FzFx)(−Fy−Gy)
其中 detA 是方程系数矩阵的行列式,也就是 FxGz−FzGx.
多元微分学的应用:最值问题
求解最值问题有两个部分:
- 最值的存在性:用最值定理;
- 用变分法去确定最值点.
联系一元微分学中的最值问题,我们学过 Fermat 定理:若 x0 是可导函数 f 的极值点,则 f′(x0)=0.
/Definition/ (极值点)
“极值点 ⟷ 局部最值点”
设 f:D→R,D⊆Rn. 称 x0 是 f 的极小值点,如果 ∃x0 的 (开球) 邻域 U (U⊆D) 使得 ∀x∈U 有 f(x)≥f(x0) (即 x0 是 f 在 U 中的最小值点).
/Definition/ (临界点)
称 x0 是 f 的临界点 (critical point),如果:
∂x1∂f(x0)=⋯=∂xn∂f(x0)=0
/Theorem/ (Fermat 定理)
设 f 在 x0 处有方向导数 / 偏导数,若 x0 是 f 的极值点,则 x0 是 f 的 critical point.
/Proof/
/Method/ (1) (仿照一元情况)
∂v∂f(x0)=t→0limtf(x0+vt)−f(x0)
如果这个极限存在,则上下极限均存在,因此考虑 t→0+,这时 t 足够小,x0+vt∈U,有 f(x0+vt)≥f(x0),得到导数 ≥0.
同理,对于下极限,得到导数 ≤0. 故导数 =0.
取 v=e^k,得到任意方向的偏导数都是 0.
/Method/ (2)
将 f 限制在 path 上:令 g(t)=f(x0+vt)=f∘p(t),其中 p(t):(−ε,ε)→D (path),p(t)=x0+vt.
令 V=p−1[U],则 V 是 0 在 R 中的开邻域. 由条件知,0 是 g 在 V 中的最小值点 ⟹ 0 是 g 的极小值点 ⟹ (一元 Fermat 定理) 得到
0=dtdt=0g(t)=dtdt=0f(x0+vt)=∂v∂f(x0)
证毕.
下面来看几个多元函数最值的例子.
/Example/
证明:ΔABC 中,sinAsinBsinC≤(sin3π)3.
/Method/ (1) (用凸性 & Jensen 不等式)
先取一个 ln 化为加法,然后要证明的等价形式:
3lnsinA+lnsinB+lnsinC≤lnsin3A+B+C
令 f(x)=lnsinx (0<x<π).
而 f 在 (0,π) 上是上凸的 (⟺ f′′(x)≤0,∀x∈(0,π)). 这样可以用 Jenson 不等式,得到:
3f(A)+f(B)+f(C)≤f(3A+B+C)
证毕. 这个方法是我们上学期就会使用的.
/Method/ (2)
C=π−A−B,来证明:
sinAsinBsin(π−A−B)≤(23)3
∀A,B≥0,A+B≤π (不等式条件保证了 D 为闭集).
为此,令 D={(x,y)∣x,y≥0,x+y≤π},显然 D 是 R2 的有界闭集,f(x,y)=sinxsinysin(x+y).
⟹ (最值定理) f 在 D 上有最大值点 (x0,y0). 我们现在来看 (x0,y0) 的候选点:
若 (x0,y0)∈∂D (D 的边界). 考虑这种情况是为了在 D 的内部应用 Fermat 定理,须排除在边界上的可能性.
补充定义:
/Definition/ (内部 & 边界)
内部:
D∘={a∣∃Br(a)⊆D}
(也就是 D 内点的集合)
边界:∂D=D−D∘.
这时 x0=0 or y0=0 or x0+y0=π,这些值都不是最大的.
若 (x0,y0)∈D∘.
由 Fermat 定理,得到 (x0,y0) 应该是 critical point,所以有方程:
00=∂x∂f=sinysin(2x+y)=∂y∂f=sinxsin(x+2y)
而 x0,y0=0,所以 sin(2x0+y0)=sin(x0+2y0)=0. 而:
0<2x0+y0,x0+2y0<2(x0+y0)≤2π
于是只能有 x0=y0=π/3,找到了最大值点.
这一种证明方法更为朴素和冗长,但是好处是更加容易思考.
/Example/ (Gauss 的最小二乘法)
设 x,y 两个变量,理论上我们已经知道 y 对 x 有依赖关系 y=f(x;α1,⋯,αm) (α1 等是参数).
现在有实验数据:(x1,y1),⋯,(xn,yn) (当 x=xi 时测量 y=yi). 不妨假设 x1∼xn 互异 (因为可以在同一个 xi 处测量几个不同的 y,然后取平均).
问:如何从数据中最佳拟合出 α1∼αm?
提示
当年,意大利的天文学家观测到了一颗小行星,测量了大量的数据. 过了一段时间,小行星离开了视场,法兰西科学院设立了一个大奖赛,悬赏预测小行星再次出现的位置和时间. Gauss 凭借自己发明的最小二乘法得到了冠军.
这颗星体就是著名的谷神星.
最佳拟合 ⟷ 理论公式与实际结果误差最小. 误差可以表示为:
E(α1,⋯,αm)=i=1∑n(f(xi;α1,⋯,αm)−yi)2
(不用绝对值的原因是绝对值函数的光滑性不好). 因此,整个问题转化为一个最值问题,也就是要求 minE 的条件.
因为对于一般的 f,计算量将非常庞大,因此我们在课堂上只了解“线性最小二乘法”,即 y=f(x;α,β)=αx+β. 这时,error 变为:
E(α,β)=i=1∑n(αxi+β−yi)2
第一步就比想象中复杂,因为 α,β 是完全自由的,而 R2 并非紧致,所以我们无法直接应用最值定理.
(1) 我们之前用过这个方法,可以证明 α2+β2→+∞limE(α,β)=+∞,以此来剥夺最远处的点竞争最小值点的权利.
留作练习.
(2) 先求出极值点 Fermat⊆CritE (E 的临界点集). 临界点方程是:
⎩⎨⎧00=∂α∂E=i=1∑n2(αxi+β−yi)xi=∂β∂E=i=1∑n2(αxi+β−yi)
也就是:
(∑xi2∑xi∑xin)(αβ)=(∑xiyi∑yi)
系数矩阵的行列式:
det=n∑xi2−(∑xi)2≥0
(Cauchy - Schwartz 不等式,仅在 (x1,⋯,xn)∥(1,⋯,1) 时取等). 已经设 {xi} 互异,所以不会取等,于是系数矩阵可逆,E 有唯一的 critical point.
直接证明 E(α,β)≥E(α0,β0) (因为我们已经知道它是 critical point,再证明极值点存在并不简单,还不如从定义出发)
Taylor 展开:
E(α,β)=E(α0,β0)+0+21(α−α0β−β0)HE(α−α0β−β0)=E(α0,β0)+21(α−α0β−β0)(2∑xi22∑xi2∑xi2n)(α−α0β−β0)≥E(α0,β0)
(一次项为零,二次项可以用 Hessian 矩阵写成二次型,Hessian 矩阵是正定矩阵)
证毕.