高等微积分 Lesson 15
微分
Leibiniz 为导数设计了一个符号f′(x)=dxdf,他希望将导数解释为微分之商,当然我们在之后的学习中会发现这种方式有不妥之处.
回忆f在x0处可导的条件,是
∃h→0limhf(x0+h)−f(x0)⟺∃A∈R,h→0limhf(x0+h)−f(x0)=A⟺∃A∈R,h→0limhf(x0+h)−f(x0)−h⋅A=0⟺∃A∈R,f(x0+h)=f(x0)+Ah+α(h),h→0limhα(h)=0
虽然上面这几种表述方式都是等价的,但是我们认为最后一种表述方法更加直观. 在这种表达方式中,α(h)是一个“误差项”,因为它相对于其他的项是显著小的,我们有理由称之为“误差”;同时上面还存在一个线性项Ah,这就是我们在求导数时希望找到的.
由上面的讨论,我们能够定义微分:
/Definition/
设f在x0的某个邻域有定义,称f在x0处可微,如果存在线性函数L:R→R(L(h)=Ah,∀h)使得f(x0+h)=f(x0)+Lh+α(h),且有
h→0limhα(h)=0
并称满足以上条件的唯一的L为f在x0处的微分,记作
dfx0:R→R
/Claim/
f在x0处可微 ⟺ f在x0处可导;
进一步,若f在x0处可微,则有dfx0(h)=f′(x0)h,∀h∈R.
对于一元函数,上面的命题显然成立,这一点我们在上面已经说明了,可以发现,一元函数的“可微”、“可导”等价,而且都是“连续”的充分条件.
但是对于多元函数,“可微”能得到“可导”,反过来却不一定成立;同时这时“可微”才能得到“连续”. 所以说,“可微”是更加基本/更好的一个概念.
为什么“可微”更好?
这些概念都是在研究f(x0+h)(f在x0附近的行为),一旦f在x0附近可微,就能直接知道f(x0+h)≈f(x0)+L(h),可以将f近似为线性(一次函数),完全变成线性代数的内容.
就算我们不满意一阶近似,我们还可以使用 Taylor 公式进行展开,产生二次型、三次型……这些仍然是线性代数的内容(tenser).
目前我们已经定义了逐点的可微性,接下来考虑整个定义域上的可微性:
/Definition/
称f在D上可微,如果f在D上的每点可微.
(对于一元函数,在D上可微 ⟺ 在D上可导;对于多元函数,可微强于可导.)
进一步,若f在D上处处可微,{dfx0:R→R}x0∈D是一族线性映射,称之为f的微分,简记为df.
“微分”概念更加偏向代数化,其几何图像不明显;我们考虑空间中的每一个点,都对应自己的一族微分,这构成所谓的“切空间”(你又开始讲微分几何了),实际上微分就是从切丛到切丛的线性映射.
已经对df给出了定义,我们接下来考虑一些例子.
/Example/ (dx的定义)
考虑恒同映射idR:R→R(更早的时期,人们还不会使用映射的语言,就把这个映射写成函数x)
其微分为d(idR)x0:R→R,或者写成dx:R→R,而这两个映射都是将h映射为h(∀h∈R).
这样我们能够来改写一些微分. 对可微的f,
dfx0(h)=⟹dfx0f′(x0)h=f′(x0)(dx)x0(h)=f′(x0)dxx0
这是一个作为线性映射的等式. 这样就实现了 Leibiniz 最初的想法,即将导数写成两个微分之商. 如果没有那么小心,我们现在就能写出
f′(x0)=dxx0dfx0
但是要发出质疑:这样在概念上并不恰当. 一般而言,取两个线性映射,它们成比例的概率是很小的;这里因为两者均是在一元的情况下讨论,所以可以谈及比例系数,否则根本无法定义“商”.
总结一下:我们定义了f在x0处的微分(也即f在x0附近的线性近似),还证明了dfx0:R→R的矩阵表示就是(f′(x0))∣x∣(在f:Rm→Rn时这将是一个m×n的矩阵,但是现在它只是一个1×1的矩阵).
现在我们来证明之前跳过的链式法则. 对于复合映射,有
R⟶fR⟶gRR⟶dfx0R⟶dgf(x0)R d(g∘f)x0
这样,在线性映射的意义上,我们确定了复合映射的微分.
/Theorem/ (复合的微分等于微分的复合,or to say,线性近似保持复合)
设f在x0处可微,g在f(x0)处可微,则g∘f在x0处可微,且
d(g∘f)x0=dgf(x0)∘dfx0
用微分写出这个定理,就能发现至少从直观的角度,比之前的链式法则写法要好证明很多,因为甚至可以把两个线性映射都写出来证明.
/Proof/
记dfx0(h)=Ah(其中A=f′(x0)),dgf(x0)(v)=Bv(其中B=g′(f(x0))),由可微的定义,
f(x0+h)=f(x0)+Ah+α(h),h→0limhα(h)=0g(f(x0)+v)=g(f(x0))+Bv+β(v),v→0limvβ(v)=0
从而,
g∘f(x0+h)=g(f(x0)+Ah+α(h))=g(f(x0))+B(Ah+α(h))+β(Ah+α(h))=g(f(x0))+BAh+[Bα(h)+β(Ah+α(h))]
接下来只要证明这样的命题,整个定理就得证:
/Claim/
h→0limhBα(h)+β(Ah+α(h))=0
/Proof/
首先,极限中的第一项由定义就知道为0. 接下来只需要证明
h→0limhβ(Ah+α(h))=0
定义p(h)=Ah+α(h),定义q(v)如下:
q(v)=⎩⎪⎪⎨⎪⎪⎧vβ(v),v=0v→0limvβ(v),v=0
则q在0处连续,这符合复合极限定理的修正2,由复合极限定理,
h→0limq(p(h))=0
再使用极限的四则运算,得到
h→0limq(p(h))hp(h)=h→0limq(p(h))⋅h→0limhAh+α(h)=h→0lim0⋅(A+0)=0
同时注意到,
q(p(h))hp(h)=⎩⎪⎪⎨⎪⎪⎧p(h)β(p(h))hp(h)=hβ(Ah+α(h)),p(h)=00⋅hp(h)=0=hβ(Ah+α(h)),p(h)=0
这个式子永远都是我们本来需要的那个函数,这就得到了 Claim 的证明.
证毕.
这就说明g∘f在x0处可微,且微分为d(g∘f)x0(h)=BAh. 也就是说,
d(g∘f)x0=dgf(x0)∘dfx0
证毕.
这种证明方式的好处是,我们证明多元函数的相应定理只需要把h和v换成粗体就行,本质是完全一致的.
老师说他在写讲义的LATEX的时候就是这么干的.
这个定理直接得到 Chain Rule:
((g∘f)′(x0))∣x∣=(g′(f(x0)))∣x∣(f′(x0))∣x∣
上面的定理将 Chain Rule 从求导数的角度直接提升到了线性映射的高度,之后可以自然地衔接到 Jacobi 行列式等内容.
反函数求导
回忆反函数定理,若f:D→R是连续单射,则f−1:f[D]→D也连续.
问:若f可导,是否f−1也可导?
我们仍然用线性近似的思维来考虑,发现f−1也是可导的.
/Theorem/ (逆映射的微分等于微分之逆)
设f:D→R是连续单射,f在x0处可导,则f−1在f(x0)处可导,且
(df−1)f(x0)=(dfx0)−1
其中 RHS 表示线性映射的逆映射. 当然有要求,dfx0不能是0.
注意:多元映射,上述结果远非平凡,称之为“反函数定理”,我们到时可能要证明三个小时.
/Proof/ (只适用于1维)
来证明f−1在f(x0)处可导,只需证明极限存在:
(f−1)(f(x0))=y→f(x0)limy−f(x0)f−1(y)−f−1(f(x0))
做换元:f−1(y)=x,由于已经证明了f−1(x)连续,所以当y→f(x0)时,有f−1(y)→f−1(f(x0))=x0,这里复合极限定理的修正1成立.
所以上式等于:
x→x0limf(x)−f(x0)x−x0=x→x0limx−x0f(x)−f(x0)1=f′(x0)1
这里用到f′(x0)=0.
这里有一个推论:
(f−1)′(f(x))=f′(x)1,(f−1)′(y)=f′(f−1(y))1