外观
Lesson 42 映射的微分
约 3305 字大约 11 分钟
2025-3-28
可微的充分条件
回顾定义:称 f 在 x0 处可微,若 ∃ 线性 L:Rn→R 使得
⎩⎨⎧f(x0+h)=f(x0)+L(h)+α(h),h∈Br(0)h→0lim∣h∣α(h)=0
/Definition/ (偏导函数)
设 f 在 D 内每点 x0 处皆有偏导数 ∂xk∂f(x0),得到映射 D→R (x0→∂xk∂f(x0)),称之为 f 在 D 上的第 k 个偏导函数,记为:
∂xk∂f,∂xkf,∂kf,fk′
/Example/
二元函数 f:R2 坐标 (x,y) (或者 (x1,x2)) 下,偏导函数写成:
∂xf=fx′,∂yf=fy′,∂1f=f1′,∂2f=f2′
注意
不管怎么样,写 f1′ 时一定要打 prime,否则很容易和映射的分量函数混淆.
三元函数也是类似的写法.
/Theorem/ (可微的充分条件)
设 f 在 a 的某邻域中有定义,若 f 在 a 的某邻域中有各个偏导函数,且各个偏导函数在 a 处都连续,则 f 在 a 处可微.
/Proof/
提示
我们对证明思路的选择似乎是直接的:已知偏导函数 ∂kf,这是沿 k 坐标方向 f 的变化率;而目标是 f 可微,这是要证明 f(a+h)−f(a)≈L(h),因此我们考虑将任何位移写成坐标方向的叠加.
设 a=(a1,⋯,an),h=(h1,⋯,hn),因此:
f(a+h)−f(a)=[f(a1+h1,a2,⋯,an)−f(a1,⋯,an)]+[f(a1+h1,a2+h2,a3,⋯,an)−f(a1+h1,a2,⋯,an)]+⋯
提示
多元函数最麻烦的就是分量特别多.——艾神
这里我们定义 g(x)=f(a1+h1,⋯,ak−1+hk−1,x,ak+1,⋯,an),对 g 用一元微分中值定理,得到
g(ak+hk)−g(ak)=hkg′(ξ)=hkg′(ak+θhk)
由定义,g′(x)=∂kf(a1+h1,⋯,ak−1+hk−1,x,ak+1,⋯,an),所以代入原来的 Δf 的式子,得到:
Δf=k=1∑nhk∂kf(a1+h1,⋯,ak−1+hk−1,ak+θkhk,ak+1,⋯,an)
其中 θk∈(0,1). 现在来验证 f 在 a 处可微. 回忆若 f 可微,则微分表示矩阵至多一个候选,也就是:
L(h)=(∂1f(a)⋯∂nf(a))h1⋮hn
只需证明:
f(a+h)−f(a)−k=1∑n∂kf(a)hk=O(∣h∣)
而对于 LHS,有
∣k=1∑nhk(∂kf(a1+h1,⋯,ak−1+hk−1,ak+θkhk,ak+1,⋯,an)−∂kf(a1,⋯,an))∣≤k=1∑n∣h∣⋅∣∂kf(a1+h1,⋯,ak+θkhk,⋯,an)−∂kf(a1,⋯,an)∣
由 ∂kf 在 a 处连续,∀ε>0,∃δ>0 使得 ∀d(y,a)<δ 有 ∣∂kf(y)−∂kf(a)∣<ε,∀k=1,⋯,n. 这样,∀∣h∣<δ,有
d((a1+h1,⋯,ak+θkhk,⋯,an),(a1,⋯,ak,⋯,an))=h12+⋯+hk−12+θk2hk2,(0<θk<1)≤h12+⋯+hk2≤∣h∣<δ
得到 ∣LHS∣≤k=1∑n∣h∣ε=nε∣h∣.
总结一下:证明了 ∀ε>0,∃δ>0 使得 ∀0<∣h∣<δ 有
∣h∣∣f(a+h)−f(a)−∑∂kf(a)hk∣<nε
表明上述极限为零. 整体的版本是:
/Definition/
设 D 是 Rn 的开集,称 f:D→R 是 C1 光滑函数 (记为 f∈C1(D,R)),若 f 在 D 上各个偏导函数存在且连续.
因此上述定理甚至能够改写为 C1 光滑表述的形式:
/Theorem/ (C1⟹ 可微)
设 f∈C1(D,R),则 f 在 D 上处处可微,且
dfx0(h)=k=1∑n∂kf(x0)hk
从直观的角度理解,f 的微分 Df 事实上是一族线性映射,也就是说 Df={dfx0:Rn→R}x0∈D.
更加富有几何意义的理解是定义切空间,切丛 TD={x0 处切空间 Tx0D}⟶DfTR={f(x0) 处切空间 Tf(x0)R}.
(你怎么开始讲微分几何了😨😰😵)
/Corollary/
设 f∈C1(D,R),则 ∇vf(x0)=∇f(x0)⋅v.
这来源于 f∈C1⟶f 可微 ⟶∇vf(x0)=dfx0(v)=∇f(x0)⋅v,前者是之前的定理证明的,后者早就证明过.
以后我们对 f 加限制条件的时候写成 C□(D,R),而不说它可微,因为这种写法较强,保证了可微性,同时也比较好验证,只需要算偏导函数并验证连续性即可.
映射微分
f:D→Rm data ⟺ 分量函数 f=(f1,⋯,fm).
/Definition/
设 x0 是 D 的内点,f:D→Rm,称 f 在 x0 处可微,若 ∃ 线性映射 L:Rn→Rm 使得
f(x0+h)=f(x0)+L(h)+α(h),h→0lim∣h∣α(h)=0∈Rm
并称上述唯一的线性映射 L 为 f 在 x0 处的微分,记为 Dfx0=dfx0:Rn→Rm.
/Claim/
设 f=(f1,⋯,fm):D→Rm,则 f 在 x0 处可微 ⟺ fk 在 x0 处可微 ∀1≤k≤m,进一步,f 的微分为:
dfx0(h)=(⋱)h1⋮hn
/Proof/
f 在 x0 处可微
⟺ ∃ 线性映射 L=(L1,⋯,Lm):Rn→Rm 使得 fk(x0+h)=fk(x0)+Lk(h)+αk(h),且 h→0limαk(h)/∣h∣=0,∀k.
⟺ fk 在 x0 处可微.
从以上推导知道,dfx0=L=(L1,⋯,Lm)=((df1)x0,⋯,(dfm)x0),具体而言,
dfx0(h)=((df1)x0(h),⋯,(dfm)x0(h))=(j=1∑n∂xj∂f1(x0)hj,⋯,j=1∑n∂xj∂fm(x0)hj)=∂x1∂f1(x0)⋮∂x1∂fm(x0)⋯⋱⋯∂xn∂f1(x0)⋮∂xn∂fm(x0)h1⋮hn
是线性映射 dfx0:Rn→Rm 在标准基下的表示矩阵.
每次写这一个矩阵非常麻烦,所以我们有定义:
/Definition/
f 的 Jacobian (Jacobi 矩阵) 为
Jf(x)=∂x1∂f1(x)⋮∂x1∂fm(x)⋯⋱⋯∂xn∂f1(x)⋮∂xn∂fm(x)m×n=(∂xj∂fi)1≤i≤m,1≤j≤n
或者很多人将其写作
Jf(x)=∂(x1,⋯,xn)∂(f1,⋯,fm)x
这样,dfx0(h)=Jf(x0)h,这里视 h 为列向量.
事实上我们的一元函数导数也是一个 1×1 的 Jacobian,但是这和一个数字没有区别.
/Example/
f:Rn→R,则 Jf(x)=(∂x1∂f⋯∂xn∂f)1×n. 因此 ∇ 算子实际上是一个列向量:
∇f(x)=∂x1∂f⋮∂xn∂fn×1=Jf(x)T
/Example/
f 是 Rn 中的曲线 (path) f(t)=(p1(t),⋯,pn(t)). 这时的 Jacobian 是 f 的速度矢量.
/Example/
复变函数中,常遇到 f:C→C,这实际上等价于 R2→R2. 这时,
f(x+−1⋅y)=u(x,y)+−1⋅v(x,y)
f 对应于 F:R2→R2,F(x,y)=(u(x,y),v(x,y)),于是 F 的 Jacobian 是
JF(x,y)=(∂x∂u∂x∂v∂y∂u∂y∂v)
/Claim/
f 在 z0=x0+−1⋅y0 处复可导 ⟺ F 在 (x0,y0) 处可微且 dF(x0,y0) 反对称.
提示
既然我们讲到这个了,就来尝试证明一下.——艾神
/Proof/
f 在 z0 处复可导.
⟺ 极限 h=s+ti→0limhf(z0+h)−f(z0) 存在 (记为 a+bi).
⟺ h=s+ti→0limhf(z0+h)−f(z0)−h⋅(a+bi)=0∈C.
提示
写到这里我们证完了吗?这几乎是显然的.——艾神
事实:对于 g:C→C,有 limg(h)=0∈C ⟺ lim∣g(h)∣=0.
进而,limq(h)p(h)=0 ⟺ limq(h)p(h)=0 ⟺ lim∣q(h)∣p(h)=0.
⟺h=s+ti→0lim∣h∣f(z0+h)−f(z0)−h⋅(a+bi)=0∈C⟺(s,t)→(0,0)lims2+t2f(z0+h)−f(z0)−(s+ti)(a+bi)=0∈C⟺(s,t)→(0,0)lims2+t2F(x0+s,y0+t)−F(x0,y0)−(as−bt,bs+at)=(0,0)⟺s2+t2F(x0+s,y0+t)−F(x0,y0)−(ab−ba)(st)=o(s2+t2) as (s,t)→(0,0)
⟺ F 在 (x0,y0) 处可微且:
dF(x0,y0)(st)=(ab−ba)(st)
证毕.
事实上有 Cauchy - Riemann 条件:
/Theorem/ (Cauchy - Riemann 条件)
f:C→C 在 z0=x0+−1⋅y0 处复可导,当且仅当 F 在 (x0,y0) 处可微,且:
⎩⎨⎧∂x∂u(x0,y0)=∂y∂v(x0,y0)∂y∂u(x0,y0)=−∂x∂v(x0,y0)
这个定理的证明就是上面证明过程中的那个矩阵.
/Corollary/
若 f 复可导,则 detJf≥0.
复合映射的微分
上学期我们几乎全部证明过了,只需要把变量改成高维变量而已.
x0⟶ff(x0)⟶gg∘f(x0)
↓ 现实世界到“微分照相”,微分 ⟷ 线性近似
Rn⟶dfx0Rm⟶dgf(x0)Rl
/Theorem/
复合映射的微分等于微分的复合.
设 f:X→Y 在 x0 处可微,g:Y→Z 在 f(x0) 处可微,则 g∘f 在 x0 处可微,且 d(g∘f)x0=dgf(x0)∘dfx0.
证明略去,上学期几乎全部证明好了.
上述式子是线性映射层面的等式,但是我们在多元函数领域一旦确定了线性映射的等式就会获得一个表示矩阵之间的等式,所以有推论:
/Corollary/
若 f 在 x0 处可微,g 在 f(x0) 处可微,则
Jg∘f(x0)=Jg(f(x0))Jf(x0)
/Proof/
∀h∈Rn,我们有:
Jg∘f(x0)h=d(g∘f)x0(h)=dgf(x0)(dfx0(h))=Jg(f(x0))Jf(x0)h
得证.
/Theorem/ (Chain Rule)
- 设 f,g 可微,则 Jg∘f(x)=Jg(f(x))Jf(x);
- (可微性很难验证,所以写一个更强的版本) 设 f,g∈C1,则上式成立.
提示
你这样写链式法则,显然是 过 于 抽象了.——艾神
用 Jacobian 的矩阵元写出链式法则,设 f:Rn→Rm,g:Rm→Rl,其中 Rn 的坐标是 (x1,⋯,xn),Rm 的坐标是 (y1,⋯,ym),分量函数有
g∘f=(g1(f1,⋯,fm),⋯,gl(f1,⋯,fm))
于是分量形式的链式法则是:
(∂xj∂gi(f1,⋯,fm))=(∂yk∂gi(f(x)))(∂xj∂fk)⟹∂xj∂gi(f1(x1,⋯,xn),⋯,fm(x1,⋯,xn))=k=1∑m∂yk∂gi(f(x))⋅∂xj∂fk
这个形式虽然可以使用,但是意义没有那么直观简洁了.
实际使用链式法则时,有这样一种解读:g(f1,⋯,fm) 对 xj 的偏导数 =k=1∑m(g 对其第 k 个输入的偏导数)f(x)(g 的第 k 个实际输入对 xj 的偏导数)x.
/Example/
设 f:Rn→R 是可微的,p:R→Rn 是可微的 path,p(t)=(p1(t),⋯,pn(t)).
可以用链式法则,
dtd(f∘p)(t)=dtdf(p1(t),⋯,pn(t))=k=1∑n∂xk∂f(p(t))⋅dtdpk(t)=∇f(p(t))p′(t)
也就是 f 的梯度与速度的内积,其特例就是 p=x0+vt.
有了上面的结论,我们有疑问:f 在 x0 处沿哪个方向增加最快 / 最慢?
当然这个问题比较模糊,因为方向导数的大小和速度矢量的模长有关. 因此我们采用归一化的方法. 具体而言,求 ∣v∣∇vf(x0) 的最值.
/Claim/
f 在 x0 处沿梯度方向增加最快,沿负梯度方向增加最慢 (减少最快).
/Proof/
回忆 Cauchy - Schwartz 不等式,−∣a∣∣b∣≤a⋅b≤∣a∣∣b∣,右边取等条件是 a 和 b 成正比,左边取等条件是成负的正比. 这样,对 ∣v∣=1 有:
−∣∇f(x0)∣≤∇vf(x0)=∇f(x0)⋅v≤∣∇f(x0)∣
得证.