37202 雙邊Hardy不等式及其幾何應用
雙邊Hardy不等式及其幾何應用

演講者: 陳木法教授(北京師範大學教授、中國科學院院士)
時間: 民國 101 年 10 月 22 日
地點: 天文數學館 202室
整理: 陳麗伍

今天要談的是雙邊的 Hardy 不等式及其在幾何中的應用。雙邊的 Hardy 不等式可能很多人不是特別熟悉, 我會慢慢介紹。事實上, Hardy-type inequality 是調和分析中很大的一個主題。
下面分三個小標題, 首先是背景介紹, 第二個是今天的主題 Hardy-typeinequality (Hardy-type 不等式), 第三個是幾何應用, 介紹的主要是這兩年的工作。

1. 背景介紹

大概在上世紀, 七十年代(1970s), 也就是四、五十年前, 數學重新回歸自然。 一個代表性的例子就是概率論(機率論)跟統計力學的交叉形成的新的研究領域。 當年, 我們就是走這個被稱為交互作用的粒子系統(interacting particle system)的研究方向。統計力學研究的中心問題當然是相變(Phase Transition)現象。相變現象的數學是無窮維的數學。無窮維數學的工具很少, 所以要四處找工具。因為這個原因, 我尋訪過計算數學(獲知其中的三對角線矩陣算法), 也尋訪過泛函分析、 幾何代數、數學物理方法等等, 發現幾何做的比較精彩。 幾何裡面做了許多估計的工作, 所以我們就去學幾何。隨後不久, 發現概率方法也能證明幾何結果, 這大概是在 1992年, 我們開始做一點 幾何的估計。然後大約在 1999年, 距今十多年了, 有個很大的發現, 發現調和分析, 也就是不等式 1 1 Godfrey Harold Hardy (1877$\sim$1947), 英國數學家, 以在數論和數學分析方面的研究最為人所知。 這個工具對我們很有用。當時的十個判別準則全是在知道 Hardy 不等式以後才展開的、才完成的。 十多年過去了, 大概就這兩年, 我們才想到用概率方法也能做 Hardy-type 不等式, 由此迎 來了新的篇章。

概率(機率)的一個特點就是跟其他領域比較起來相對年輕, 所以比較開放。 一方面, 機率理論是在數學好多分支的撫育下成長起來的; 另一方面, 最近這些年來, 機率的一些思想也滲透到很多其它的數學分支。 今天講的就是一個例子, 是機率應用於其它數學分支的一種比較深入的結果。同時, 也希望讓年輕的朋友體會一下數學的功夫。 我覺得做數學很大的程度要靠功夫, 靠硬 功夫。

2. Hardy-type 不等式

談到 Hardy-type 不等式, 當然要從老 Hardy 不等式開始。老 Hardy 不等式是九十年前, 也就是 1920 年提出的一個不等式。這個不等式非常的簡練。 $$\fbox{ $\displaystyle \int_{0}^{\infty}\bigg(\frac{1}{x}\int_{0}^{x}f\bigg)^{p}{\rm d} x \le \bigg(\frac{p}{p-1}\bigg)^{p}\int_{0}^{\infty}f^{p},\qquad f\ge0, \ p\gt 1 $ }$$ 這就是 Hardy 在 1920 年提出的不等式。 這裏及隨後, Lebesgue 測度 ${\rm d} x$ 常略去不寫。 還有一種寫法把 $0$ 到 $x$ 局部的積分, 寫成 $Hf(x)$。 這個 $H$ 是為了紀念 Hardy 而通行的記號, 稱為 Hardy 算子。 利用算子 $H$, 上式可改寫成 \begin{align*} \int_{0}^{\infty}\bigg(\frac{1}{x}Hf(x) \bigg)^{p}{\rm d} x &\le \bigg (\frac{p}{p-1}\bigg)^{p}\int_{0}^{\infty}f^{p}\ . \qquad \boxed{常數 \frac{p}{p-1} \ 精確} \end{align*} 還有一個更方便的解釋:把左邊改成離散的求和, $0$ 到 $x$ 的部分和的平均就是算術平均, 左邊就是算術平均的 $p$ 階矩(moment), 不等式成為 $f$ 的算術平均的 $p$ 階矩小於等於 $f$ 本身的 $p$ 階矩乘以常數 $[p/(p-1)]^p$, 這樣就特別容易記住: \begin{align*} \|Af\|_{L^{p}({\rm d} x)}\le\frac{p}{p-1}\ &\|f\|_{L^{p}({\rm d} x)}. \end{align*}

Hardy 為什麼要證明這個不等式呢? 他是為了尋找 Hilbert 2 2 David Hilbert (1862$\sim$1943), 德國數學家, 十九世紀和二十世紀最有影響力的數學家之一。 的一個定理的 初等證明。 Hilbert 定理講的是離散的級數, 證明一個2重級數(Series)的收斂性。Hilbert 的證明是用傅立葉分析(Fourier Analysis), Hardy質疑一個初等的級數的收斂性為什麼要用傅立葉分析, 嫌它太"高級", 認為應當有一個初等的證明。所以 Hardy 就引進這麼一個不等式, 讓這個2重級數的和用一個單重級數的和來控制, 這是引出這個不等式的原因。 Hardy這篇文章主要討論的是離散級數的情況, 很奇怪的是他同時也把連續(continuous)的情況寫出來, 但是沒有給出證明。這是 1920年的文章。 如果 $p=2$, Hardy 不等式就成為Poincaré 3 3 Jules Henri Poincaré (1854$\sim$1912), 法國數學家、 理論物理學家、 工程師及科學哲學家, 對數學及其應用具有全面知識。 不等式, 這個不等式我們做得更久, 也更老一點, 一八八幾年時就提出來了, 所以 Poincaré 不等式要比 Hardy 不等式更早一點。 這個非常簡單的不等式, 實際上牽扯到那個時代的三位頂尖的數學家, 我認為當時最前面的三位數學家就是這三位。 所以很好玩, 這麼簡單的數學, 牽扯了這麼多一流的數學家。

看到這麼簡單的不等式, 大家都會想要自己證它一下。我想對學數學的人來說這個很要緊, 因為數學是做出來的, 不是讀出來的, 更不像看戲那樣就能看會的。 所以遇到甚麼問題, 就想自己證明它一下。 在這裏, 首先容易聯想到 $L^p(\mu)$ 的性質, 這裏 $\mu$ 是概率測度 (measure)。 不等式的左方的被積函數是關於概率測度 $\frac 1 x \int_0^x$ 的一階矩的 $p$ 次方, 它受控於關於此測度的 $p$ 階矩。 $L^p$ 就是 $p$ 階矩, 這個 $p$ 階矩所對應的範數 (norm) 有一個單調上升 (monotone increasing)的性質, 當 $p$ 大於零時, $L^p(\mu)$ 範數關於 $p$ 單調上升。 有了這一點概念, 就可以給出證明。 \begin{align*} \int_0^\infty\Bigg{(}\frac 1x\int_0^x f(y){\rm d} y\Bigg{)}^p {\rm d} x &\le \int_0^\infty \Bigg{(}\int_0^x f(y)^p {\rm d} y \Bigg{)} \frac {{\rm d} x}x \\ &=\int_0^\infty f(y)^p {\rm d} y \fbox{$\displaystyle \int_y^\infty \frac {{\rm d} x}x$} \qquad (由Fubini定理) \\ &=\infty \end{align*} 倒數第二行中的 $1/x$ 積出來是無窮大, 所以這個結論沒有用。 我們的第一輪證明失敗了。

我們不必為此感到灰心喪氣, 實際上這個不等式的證明也不是平凡的。之前提到過, Hardy 在 1920 年寫出這個不等式但是沒有給證明, 這個不等式的證明是五年 (1925年) 之後才發表的。所以它的證明並不是平凡的, 不能一下子就看出來。 讓我們回頭看看在哪裡摔的跤? 這個證明問題就在 $1/x$ 是個發散積分(divergent integral)。 把 $1/x$ 修改一下, 改成 $\frac 1{x^{1+\delta}}$, 就會變成一個收斂積分(convergent integral)。這樣, 我們可以將上面的論證重寫如下: \begin{align*} \int_0^\infty\Bigg{(}\frac 1x\int_0^x f(y){\rm d} y\Bigg{)}^p \frac {{\rm d} x}{x^\delta} &\le \int_0^\infty \Bigg{(}\int_0^x f(y)^p {\rm d} y \Bigg{)} \frac {{\rm d} x}{x^{1+\delta}} \\ &=\int_0^\infty f(y)^p {\rm d} y \fbox{$\displaystyle\int_y^\infty \frac {{\rm d} x}{x^{1+\delta}}$} \quad (由Fubini定理) \\ &= \frac 1\delta \int_0^\infty f(y)^p \frac {{\rm d} y}{y^\delta} \ , \qquad \boxed{\forall \delta \gt 0, \ f \ge 0} \ . \end{align*} 這個改變很多時候可能就不平凡, 這就是絕地逢生。別人看沒路可走, 我們卻走出一條路來。 可惜所得到的結果並不是我們所要的 Hardy 不等式。該怎麼回到 Hardy 不等式呢? 也就是需要將最後一行中的分母 $y^{\delta}$ 去除, 就有希望了。移除分母最簡單的方法就是變量替換(variable substitution), 將不等式兩邊的 $f$ 改寫成 $g$ : \begin{equation*} 設\ g(y) = f(y^{1+\gamma})\, y^{\gamma} \ , \qquad \gamma = \frac \delta{p-1} \ , \qquad \delta=1 \end{equation*} 這個一看就知道是變量替換公式。這一步可說是神來之筆, 用了這一個步驟後, 答案就呼之欲出, 回到 Hardy 不等式了。實際上, 這個 $\delta$ 是最小化的解, 等於1, 如果要知道答案, 把 $\delta$ 代進去就完了, 但這當中包含了很深刻的道理。這樣, 我們就完成了 Hardy 不等式的證明。

這個證明我自己覺得相當神奇。實際上Hardy 1925年的證明之後, 經過了40年, 這個證明才由E. K. Godunova 4 4 E. K. Godunova, Russian mathematician, 找到。儘管這篇文章在 1970年, 也就是五年後翻譯成英文, 在中研院數學所的圖書館可以找到這篇文章的資料, 但是實際上沒有人注意到這個工作。 之後又過了差不多40年的時間, 在2002年Stein Kaijser 5 5 Sten Kaijser, 任教於瑞典烏普薩拉大學(Uppsala University)。 , Lars-Erik Persson 6 6 Lars-Erik Persson, 任教於瑞典呂勒奧科技大學 (Lulea University of Technology)。 和 Andersöberg 7 7 Andersöberg, 任教於瑞典耶夫勒大學 (University College of Gavle)。 發表了一篇文章 8 8 Kaijser, Sten; Persson, Lars-Erik; öberg, Anders, On Carleman and Knopp's inequalities. J. Approx. Theory 117 (2002), no. 1, 140-151. , 重新發表這個證明, 這時候大家才注意到有一個很簡單的方法來證明這個不等式, Hardy 始終不知道有這樣一個證明。

這是一個滿漂亮的證明, 可以體現 我第一個想說的話, 體現 出數學的功夫。有功夫能看出來, 沒有功夫還是不行。 當然, 這個 Hardy 不等式太簡單了。 說老實話, 我在做這個方向的早期就知道, 但是它對我來說沒有什麼用處, 因為太簡單了。如果熟悉隨機過程, 看看其對應的算子就知道這太簡單了, 只是一種非常特別的情況, 沒有太多用處, 所以就要往前走。接下來的故事就滿長的, 因為要一步一步發展。

剛才的 Hardy 算子寫法是這個樣子, \begin{align*} \int_{0}^{\infty}\bigg (\frac{1}{x}Hf(x) \bigg)^{p}{\rm d} x &\le \bigg(\frac{p}{p-1}\bigg)^{p}\int_{0}^{\infty}f^{p} \end{align*} 或等價地 \begin{align*} \|Hf\|_{L^{p}({x^{-p}{\rm d} x})}&\le\frac{p}{p-1}\|f\|_{L^{p}({{\rm d} x})} \end{align*} 現在用另一個觀點來看, 左方老 Hardy 處理的是 $Hf$ 的 $L^p$ 範數 (norm), 針對的是測度 $x^{-p}{\rm d} x$。 當然, 上式左右的兩個測度都很簡單, 因為簡單, 所以下一個任務就要推廣一下。 把兩邊的測度換成一般的、抽象的 Borel 測度=:$(x^{-p}{\rm d} x,{\rm d} x) \to (\mu, \nu)$, 就變成非常一般的形式: \begin{equation*} \|Hf\|_{L^{p}({\mu})}\le A\|f\|_{L^{p}({\nu})} \end{equation*} 這就是今天所要講的 Hardy-type 不等式。從現在開始, 為節省記號, 不等式中的常數 $A$ 均指最佳常數。 這個 Hardy-type 不等式經歷了大約七十年, 約在 1970年前後, 這個不等式才研究得比較完整, 有多篇文章, G. Talenti (1969), G. Tomaselli (1969), R.S. Chisholm & W.N. Everitt (1970-71) 等, 其中 B. Muckenhoupt 在 1972 年發表的文章 9 9 Muckenhoupt, Benjamin, Weighted norm inequalities for the Hardy maximal function. Trans. Amer. Math. Soc. 165 (1972), 207-226. 被引用得多一點, 時間上也晚一點。 其他的文章, 例如 M. Artola (1968-69)和D.W. Boyd & J.A. Erdös (1972) 根本沒有發表, 因為知道別人已經寫出來了, 所以即使投稿了的稿件也自己撤回。總之, 這裡已經牽扯到六篇文章。

下一步想想能不能再推廣到更一般的 $p$ 和 $q$: \begin{equation*} \|Hf\|_{L^{{q}}(\mu)}\le A\|f\|_{L^{p}(\nu)}\ , \end{equation*} 這個時候兩邊幾乎對等了。但一邊是 $L^p$, 另一邊是 $L^q$, 難度又增加了。差不多又做了 20 年, 經過 P. Gurka (1984), E.N. Batuev & V.D. Stepanov (1989), 直到 1990年B. Opic & A. Kufner才做得比較完整。應當說, 這種 $(p, q)$ 情形也很早就注意到了, Hardy本人在 1930年就開始做一些特殊的情況 (G.H. Hardy & J.E. Littlewood, 1930), 不過這篇也沒有發表。最後指出, 《Hardy-type Inequalities》 10 10 B. Opic and A. Kufner, Hardy-type Inequalities, Pitman Research Notes in Mathematics Series, Longman, New York, 1990. 是一本專著, 總結了之前的故事, 是關於 Hardy 不等式比較經典的著作。

再往下說之前, 還要提一下, 總體的目標是用測度 $\mu$ 和 $\nu$ 來算出 $A$ 的一個較好的估計(當然, 如能sharp就更好)。回憶 $Hf$ 是 $f$ 從 $0$ 到 $x$ 的積分。如果將 $Hf$ 改寫成 $f$, 原本的 $f$ 就成為 $f'$ 。這樣改寫後, 左邊就成為 $f$ 的 $q$ 階範數, 右邊就變成 $f'$ 的 $p$ 階範數, 再將區間改成更廣一些的從 $ -M$ 到 $N\,(M, N\le \infty)$ 的區間, 我們得到如下形式的 Hardy-type 不等式: \begin{equation*} \fbox{$\displaystyle \Bigg{(}\int_{-M}^{N}|f|^{q}d\mu \Bigg{)}^{\frac1q}\le A \Bigg{(}\int_{-M}^{N}|f'|^{p}d\nu \Bigg{)}^{\frac 1p}.$} \end{equation*} 當然, 這個不等式也可以寫成 \begin{equation*} \|f\|_{\mu,q}\le A\|f'\|_{\nu,p}. \end{equation*} 這樣一寫, 就要小心。原來的 Hardy 算子初值為 $0$, 是 $0$ 到 $x$ 的積分。所以新的函數 $f$ 在左端點要等於 $0$, 邊界條件要寫上:$f({-M})=0$。事實上, 這時候可以寫兩個邊界條件: $f(-M)=0$ 和 $f(N)=0$。兩個邊界條件就是今天的主題, 雙邊的 Hardy-type 不等式。在雙邊的時候, 不能寫成單邊的 Hardy 算子的形式, 尤其你由一個 $0$ 初值出去, 只要非負、 非零, 積分後就不可能再回到 $0$, 所以不可能寫成 Hardy 算子的形式。 這樣, 前面的單邊情形變換 $(Hf,f)\to (f, f')$ 前後沒有差別, 但是後面的雙邊情形就有不同。後者是今天討論的主要情況。

因為這個題目很多人不熟悉, 所以我要強調一下。這是相當時髦的題目, 就我所知, 總共已有五本書討論這個題目。

  • [1] Opic, B. and Kufner, A. Hardy-type Inequalities. Longman, New York, 1990.
  • [2] Kufner, A. and Persson, L.E. Weighted Inequalities of Hardy-type. World Scientific, 2003.
  • [3] Kufner, A., Maligranda, L. and Persson, L.E. The Hardy Inequality: About its History and Some Related Results. Vydavatelsky Servis, 2007.
  • [4] Kokilashvili, V., Meshki, A. and Persson, L.E. Weighted Norm Inequalities for Integral Transforms with Product Weights. Nova Sci. Publ., New York, 2010.
  • [5] Maz'ya, V. Sobolev Spaces with Applications to Elliptic Partial Differential Equations (2nd Ed.). Springer, 2011.

第一本書是剛才提到的 1990 年的名著。之後的四本都是最近十年出現的著作。前三本的書名中都有 Hardy 不等式或是 Hardy-type 不等式。 第四本書名中沒有提到 Hardy 不等式, 但是 weighted norm inequalities 完全是 Hardy 不等式, 只不過做的是高維的 Hardy 不等式。第三本書談的是歷史, 內容是好玩的。一個分支的研究狀況, 如果東西少, 就沒有歷史可談; 這裏邊講了許多歷史, 說明這個題目已經有了充分的發展。 第五本書標題也沒有 Hardy 不等式, 因為這本書有 894 頁, Hardy 不等式只是其中一部分。

一開始的時候, 我提過想要用譜值論、特徵值理論來研究相變現象。我做了整整十年之後, 還不知道有 Hardy-type 不等式, 我只知道有古典的 Hardy 不等式, 而不知道有這麼一般的 Hardy-type 不等式。這個一般的 不等式對我來說是個非常大的 favor。知道這個就不得了, 好多東西都做出來了, 對我們幫助非常大。比如說大家可能聽說過的 Log-Sobolev不等式。 Log-Sobolev 不等式我們也做了幾十年, 但是其準則 只是因為有了 Hardy-type 不等式後才找到的。 很多很要緊的結果就是因為用了 Hardy-type 不等式, 所以我們十年中不斷地用。 我有一個列表, 一維情形有十個準則 。 在當時被稱為十大準則。 Hardy-type 不等式為什麼在調和分 析中有如此地位就是因為它是很要緊的、核心的一個問題。 然後大約在二年前(2010年), 我們找到反向的、 原來的 Hardy 理論中沒有的東西, 引導我們往這個方向發展。

在講我的結果之前, 先解釋一下記號。第一個是測度 $\hat\nu$, 它是由測度 $\nu$ 的絕對連續部分 (absolutely continuous part) 導出的。接下來所有的事情都要通過測度 $\mu$ 和 $\hat\nu$ 表示出來, 所以 $\hat\nu$ 是很要緊的。 \begin{equation*} \fbox{$\displaystyle \hat{\nu}({\rm d} x)=\hat{\nu}_{p}({\rm d} x)=\bigg(\frac{d {\nu}^{\#}}{{\rm d} x}\bigg)^{\frac{-1}{p-1}} \ {\rm d} x$} \qquad {\nu}^{\#} : \nu 的絕對連續部分, \end{equation*} 此處需要假定 ${\nu}^{\#}$ 的密度非零, 否則可用極限過渡。接著需要常數 $k_{q, p}$: \begin{equation*} \fbox{$\displaystyle k_{q,p} = \bigg(1+\frac q{p'}\bigg)^{\frac 1q}\ \bigg (1+\frac {p'}q\bigg)^{\frac 1{p'}}$} \qquad \boxed{\le 2\ 若\ q\ge p}\ , \end{equation*} 其中 $p'$ 是 $p$ 的共軛指數: $1/p+1/p'=1$。 後面要用到的這個 $k_{q, p}$, 當 $q=p$ 時是精確的;當 $q\ne p$ 時, 可換成更小一些的精確常數, 此處略去。 這個式子不需要記住, 只要知道 $k_{q, p}$ 永遠小於等於2。所以粗糙地講, 把 $k_{q, p}$ 當成2好了。 有了這兩個記號後, 就可以進入今天的第一個主要結果。

定理2.1(陳, Acta Math. Sin. Eng. Ser. 2013).在 Hardy-type 不等式中的最佳常數 $A$ 滿足

  • (1)$A\le k_{q,p}B^{*}$如 $1\lt p\le q\lt \infty\ 且\ \mu_{pp}=0$ ,
  • (2)$A\ge B_{*} $ 如 $1\lt p,q\lt \infty$, 其中 \begin{align*} &{B^{*}} =\sup_{x\le y}\frac{\mu[x,y]^{\frac 1q}}{[\hat{\nu}[-M,x)^{\frac {q(1-p)}p} \ + \ \hat{\nu}[y,N]^{\frac{q(1-p)}p}]^{\frac1q}}\ , \\ &{B_{*}}=\sup_{x\le y}\frac{\mu[x,y]^{\frac{1}{q}}}{[\hat{\nu}[-M,x)^{1-p}\ +\ \hat{\nu}[y,N]^{1-p}]^{\frac 1q}}\ , \end{align*}
此外, 當 $q\ge p$ 時, 我們有$B_{*}\le B^{*}\le 2^{\frac1p-\frac1q}\ B_{*}$。

換言之, 最佳常數 $A$ 有上、下控制, 分別由(1)和(2)給出。 $B^*$ 和 $B_*$ 這兩個表達式由測度 $\mu$ 和 $\hat\nu$ 完全刻劃。只是對於上界, 要一些條件: $q$ 要大於等於 $p$, 測度 $\mu$ 要連續。熟知測度 $\mu$ 的分解有三部分: 第一部分絕對連續, 第二部分奇異連續(singularly continuous), 第三部分 是純點的(discrete), 這裏假定純點是 $0$, 也就是 $\mu_{pp}=0$, 沒有純跳的部分。在這裡我們要強調: 上界估計是最重要、最有用的東西。如果把(1)中的條件都去掉, 會是什麼情況, 目前還沒有答案。 所以這裡是一個開放的地盤, 還有很多的問題。

講一下這個定理有那些漂亮的地方。首先, 第一個漂亮的地方是上、下界相差的常數是universal, 是一個普適常數, 跟測度沒有關係。第二個優點是這裡有兩個邊界, 一個是 $-M$, 另一個是 $N$。 $M$ 和 $N$ 都可以是無窮大。那麼邊界條件 $F(-M)=0$, 如果 $M$ 是無窮大, 表示趨於負無窮大時 $F$ 趨於 $0$。 兩個邊界, 一個 ${-M}$, 一個 $N$, 這兩個邊界在這兩個常數中是對稱的, 這是一個漂亮的地方。 無論是 $B^*$ 或是 $B_*$, 這兩個邊界都是對稱的, 這是第二個優點。第三個優點, 如果不喜歡一個上、一個下, 只利用一個也是可以。因為 $B^*$ 可以由 $B_*$ 統起來, 相差一個常數倍而已。 將這個常數倍放大, 寫到第一行裡, 這個新常數仍然是小於等於2。如果 $q=p$, 兩個常數就變成一個, \begin{equation*} B^{*}=B_{*} =\sup_{x\le y}\frac{\mu[x,y]^{\frac 1q}}{[\hat{\nu}[-M,x)^{1-p}\ +\ \hat{\nu}[y,N]^{1-p}]^{\frac 1q}}\ , \end{equation*} 這又是另一個優點。最後一個優點, 我做的這個雙邊的, 可以回到單邊。如果把第二加項 ${\hat\nu}[y, N]$ 去掉, 那麼 $y$ 不起作用, 可取為 $N$, 因此 $N$ 的邊界條件就不起作用, $y$ 就可以移到 $N$ 那邊, 就變成單邊。 所以右邊的邊界條件不起作用, 就變成單個邊界條件, 這個表達式就變得非常簡單。因為那項去掉後, 分母可以倒過來, 就很簡單。如果把第一項 ${\hat\nu} [-M, x)$ 去掉, 因為是對稱的, 邊界條件就變成在右邊。也就是 \begin{align*} 去掉 \hat{\nu}[y,N],得到 {\boxed{f(-M)=0}} , {B^{-}} &=\sup_{x}\ \mu[x,N]^{\frac1q}\ \hat{\nu}[-M,x)^{\frac{p-1}p}\ . \\ 去掉\ \hat{\nu}[-M,x),得到 {\boxed{f(N)=0}}\ , \ {B^{+}} &=\sup_{y}\ \mu[{-M},y]^{\frac 1q}\ \hat{\nu}[y,N]^{\frac{p-1}p}\ . \end{align*}

總結起來, 我們所研究的Hardy-type不等式是 \begin{align*} 在 ({-M},\ N) 上, \quad \|f\|_{\mu,q}\ \le\ &A\|f'\|_{\nu,p}\ , \end{align*} 其中 $\mu$ 和 $\nu$ 是Borel測度。 對於單邊情形, 如 $f(-M)=0$, 即左邊 $=0$, 最佳常數寫成 $A^{-}$;如果右邊 $=0$, 最佳常數寫成 $A^+$。 區分開來, 這時候就有了以下這個定理:

定理2.2 令 $q \ge p$, 則 $B^{\pm} \le A^{\pm}\le k_{q,p}B^{\pm}$, 其中 \begin{align*} B^{-} &= \sup_{x}\ \mu[x,N]^{\frac 1q}\ \hat{\nu}[-M,x)^{\frac{p-1}p}\ , \\ B^{+} &= \sup_{y}\ \mu[-M,y]^{\frac 1q}\ \hat{\nu}[y,N]^{\frac{p-1}p}\ . \end{align*}

這就回答前面說的, 從 1920年到 1990年間70年研究的結果, 就是這個結果。 容易看出, 從後一定理到前一個, 有相當的跨度。

現在的問題是, 該如何從單邊走向雙邊, 這是我的核心問題, 也是困難的地方。原本 $p=q=2$ 時, 我們會證明。最早的發現, 也就是從這個地方發現的。 只是那是在用了三大工具, 經過五個步驟後才做出來的, 所以很辛苦。 但是我還是不甘心, 覺得這樣簡單的問題, 為什麼需要那麼大的工具, 特別是需要容度(capacity)等等。 經過長時間的摸索, 才找到新的辦法。 下面要講的就是這個新的證明。 相信許多讀者, 不論是經驗老到的或是初學者, 都會在此處停下來, 想想能否找到自己的證明。

在介紹我們的證明之前, 讓我們回顧一下, 單邊的情形結論已經有了。 現在, 我們把 $-M$ 跟 $N$ 的 區間中間加了一個點 $\theta$, 將區間分成兩部分。

$令 A_{\theta}^{-}\ \text{ 為在}\ (-M,\theta)\ \text{上, 當}f(-M)=0 時的最佳常數$,
$令 A_{\theta}^{+}\ \text{ 為在}\ (\theta,N)\ \text{上, 當} f(N)=0 時的最佳常數$。

加了這個點 $\theta$ 後, 變成兩個單邊。在左邊這個半區間裡關心的是左端點 $-M$, 在另一個半邊關心的是右端點的 $N$, 然後將剛才的結果重寫一次, 得到下面的結果。這個跟上面的差別, 從左邊半區間看, 無非是用 $\theta$ 代表先前的 $N$; 從右邊半區間看, 無非是用 $\theta$ 代表先前的 $-M$;也就是換一下記號而已。 這是下面我們要用到的已知結果。 \begin{align*} 令 \boxed{q \ge p}.& \quad 則我們有 B_{\theta}^{\pm} \le A_{\theta}^{\pm}\le k_{q,p}\, B_{\theta}^{\pm},\ 其中 \\ {B_{\theta}^{-}} &= \sup_{x\lt \theta} \ \mu[x,\theta]^{\frac 1q}\ \hat{\nu}[-M,x)^{\frac{p-1}p}\ , \\ {B_{\theta}^{+}} &= \sup_{y\gt \theta} \ \mu[{\theta},y]^{\frac 1q} \ \hat{\nu}[y,N]^{\frac {p-1}p} \ . \end{align*}

現在, 我開始證明我們的上界估計: $ k_{q,p} B^* \ge A$。 首先, 改寫 $B^*$: \begin{align*} B^* \ &= \sup_{x \le y} \frac {\mu[x,y]^{\frac 1q}} {\big[\hat{\nu}[{-M},x)^{\frac {q(1-p)}p} + \hat{\nu}[y,N]^{\frac {q(1-p)}p} \big]^{\frac 1q}} \\ &= \ { \Bigg{\{} \sup_{x \le y} {\frac {\mu[x,y]} {\hat{\nu}[{-M},x)^{\frac {q(1-p)}p} \ + \ \hat{\nu}[y,N]^{\frac {q(1-p)}p} } \Bigg{\}} } ^{\frac 1q}} \\ &=: \ \Bigg{\{} \sup_{x \le y} {\frac {\mu[x,y]}{\varphi(x) + \psi(y)}} \Bigg{\}}^{\frac 1q} \end{align*} 右方的分數可分拆, 然後使用合分比定理(proportional property)得出 \begin{align*} \frac{\mu[x,y]}{\varphi(x)+\psi(y)} &= {\frac{\mu[x,\theta]+\mu(\theta,y]}{\varphi(x)+\psi(y)}} \qquad \boxed{\theta \in [x,y]} \\ &{\ge \frac {\mu[x,\theta]}{\varphi(x)} \bigwedge \frac {\mu(\theta,y]}{\psi(y)}}, \end{align*} 此處 $x\wedge y=\min\{x, y\}$, 類似地, $x\vee y=\max\{x, y\}$。 兩邊對 $\theta$ 取上確界, 得 \begin{align*} \frac {\mu[x,y]}{\varphi(x)+\psi(y)} &\ge \sup_{\theta \in [x,y]}\Bigg{\{} \frac {\mu[x,\theta]}{\varphi(x)} \bigwedge \frac {\mu(\theta,y]}{\psi(y)} \Bigg{\}}. \end{align*} 再對 $x\le y$ 取上確界, 注意兩個 $\sup$ 可交換, 得出 \begin{align*} \sup_{x \le y} \frac{\mu[x,y]}{\varphi(x)+\psi(y)} &\ge \sup_{x \le y} \ \sup_{\theta \in [x,y]}\Bigg{\{} \frac {\mu[x,\theta]}{\varphi(x)} \bigwedge \frac {\mu(\theta,y]}{\psi(y)} \Bigg{\}} \\ &= \sup_\theta \ \sup_{\theta \in [x,y]} \ \{ \cdots \} \\ &= \sup_\theta \Bigg{\{} \bigg[ \sup_{x \le \theta} \frac {\mu[x,\theta]}{\varphi(x)} \bigg] \bigwedge \bigg [ \sup_{y \ge \theta} \frac {\mu(\theta,y]}{\psi(y)}\bigg ] \Bigg{\}} . \end{align*} 兩邊取 $1/q$ 次方, 完成了證明的第一步。

引理2.3. $ B^* \ge \sup_{\theta}\ (B_{\theta}^{-}\ {\wedge} \ B_{\theta}^{+})$.

這裡我們做了什麼 ? 我們把兩個單邊的情況跟一個整體的雙邊的情況聯繫起來。 然而, 右方只是最小值, 那是不夠的, 我們需要的是最大值。 由測度 $\mu$ 的連續性假定 $\mu_{pp}=0$, 存在 $\bar\theta$ 使得 $ B_{\bar\theta}^{-}= B_{\bar\theta}^{+}$, 當然更有 \begin{align*}B^* &\ge\ \sup_{\theta}\ (B_{\theta}^{-}\ {\wedge} \ B_{\theta}^{+}) \ge B_{{\bar{\theta}}}^{-}.\\ {於是} k_{q,p}B^{*}\ & \ge\ (k_{q,p}B_{\bar{\theta}}^{-})\ \vee\ (k_{q,p}B_{\bar{\theta}}^{+}). \\ &\ge\ A_{\bar{\theta}}^{-} \, {\vee}\, A_{\bar{\theta}}^{+}\ \qquad (上面所述的已知定理) \\ &\ge\ {\inf_{\theta}\ (A_{\theta}^{-}\ \vee\ A_{\theta}^{+})} \\ &{\ge A} \qquad (分裂技術)。\tag*{$\Box$} \end{align*} 最後一步是兩個半區間上的最佳常數與整個區間上的最佳常數的比較, 是典型的分裂技術, 其證明也不長, 我們十多年前就會了, 此處不再解釋。我們指出:最後這一步及開頭的定理 2.2, 都用到條件 $q\ge p$。

這個證明總共有三個要點, 第一個是分裂技術(splitting technique); 第二個是 $\bar{\theta}$ 的使用, 做了一個過河拆橋的好事, 不需要將 $\bar{\theta}$ 解出, 過了河就拆了橋;最後一個技巧就是使用合分比, 將上界估計證出來。這個證明做出來的時候, 真會讓人高興得跳起來, 因為是這麼漂亮又這麼簡單。 所以這是一個讓我們很得意的證明。實際上, 當我說那個複雜的表達式很漂亮, 可能很多人心裡並不同意, 因為還是有點複雜。我說它漂亮, 是因為我喜歡, 因為證明是這麼漂亮, 所以當然會喜歡。

我已經證明了雙邊的 Hardy 的情況, 用概率(機率)的語言講, 這是Transient情形。還有Ergodic的情況。 \begin{align*} \| f \|_{\mu,q} \ &\le \ A \|f' \|_{\nu,p} \qquad {Transient}, \\ \| f - \mu(f) \|_{\mu,q} \ &\le \ A \|f' \|_{\nu,p} \qquad {Ergodic}. \end{align*} 如果 $\mu$ 是概率測度, 自然考慮 Ergodic 情況。若只是將兩邊等於 $0$ 的邊界條件都去掉, 那麼所得不等式是平凡的, 因為恒等於 $1$ 的常數 $f$ 給出 $A=\infty$。 所以中間要減去一個概率測度的平均值。 這是概率論最重要的情形。這種情形讓我吃了許多苦頭, 之前提到的三大工具、五個步驟就是證明這種情形的平行的結果。 然而, 剛才我們所用證明的方法完全可以套過來, 所以我們那個方法在發表的論文中至少用了三次。 它不僅能處理這種情況, 還能處理 Log-Sobolev 不等式以及 Nash 不等式。 所以有好多的故事。

3. 幾何應用

這最後十幾分鐘的時間我想跟大家講應用, 這個 Hardy-type 不等式有甚麼用處。 現在給大家一個很簡單情況的應用。如果 $q=p$, 這些估計都能改進。如果 $q \neq p$, 應該也可以改進, 但是還沒做出來, 這是一個開放的問題 (校稿註:現已基本解決)。 我們考慮如下的 $q=p=2$ 的特殊例子: $$\| f \|_{\mu,2} \ \le \ A \|f'\|_{\nu,2} \ \qquad on ({-M},N), \ f(N)=0.$$ 其中測度 $\mu$ 和 $\nu$ 來自微分算子: \begin{align*} &L=a(x) \frac {{\rm d}^2}{{\rm d} x^2} + b(x) \frac {\rm d}{{\rm d} x}, \qquad C(x)=\int^x_{\theta} \frac ba,\\ &\qquad \fbox{$\mu({\rm d} x)$} = \frac {e^C}a (x){\rm d} x, \qquad \fbox{$\nu({\rm d} x)$} =e^{C(x)}{\rm d} x, \end{align*} $\theta\in (-M, N)$ 是一個參考點。 有趣的是, 最佳常數可寫成 $$\fbox{$A^2 = {\lambda}^{-1}_0 $,}$$ 其中 ${\lambda}_0$ 是算子 $L$ 的一個主特徵值: $$Lf = {-\lambda_0}f, \qquad f \neq \ 0, \ f(N)=0.$$ 此處, 當 $M\lt \infty$ 時, 還需補充邊界條件 $ f'({-M})=0$。 這就建立了不等式與特徵值之間的關係。 一般地講, 不等式是特徵值的變分形式; 而特徵值所呈現的特徵方程是使不等式成為等式所導出的方程。 所以剛才講的所有關於不等式最佳常數的估計都是特徵值的估計。 在當前情況下, 有 $\mu$ 也有 $\nu$, 我們真正用的不是 $\nu$ 而是 ${\hat{\nu}}$, ${\hat{\nu}}$ 在這裡特別簡單, ${\hat\nu}({\rm d} x) =e^{-C(x)}{\rm d} x $。

我們有以下的一般結果:

定理 3.1. 對於給定的算子 $L$, 存在系列 $\{\underline{k}_{n}\}_{n\ge 1}$ 和 $\{\bar{k}_{n}\}_{n\ge 1}$,使得當 $ n \uparrow $ 時, \begin{equation*} \uparrow\ \underline{k}_{n}^{-1}\le\lambda_{0}=A^{-2}\le\bar{k}_{n}^{-1}\ \downarrow. \end{equation*}

換言之, 我們可以構造出兩串數列, 一串升, 一串降, 慢慢靠近 $\lambda_0$。 實際上, 我相信它們都收斂於 $\lambda_0$, 但是還沒有證出來。 特別地, 我們寫出當 $n=1$ 時的下界和上界如下 :

推論3.2.對於一般的二階微分算子 $L$, 我們有 $ \underline{k}^{-1}\le\lambda_{0}\le\bar{k}^{-1}$, 其中 \begin{eqnarray*} \underline{k} &=& \sup_{x \in ({-M},N)} \frac 1{\sqrt{\psi(x)}} \int^N_{-M} \psi(\cdot \vee x) \sqrt{\psi}\; {\rm d}{\mu} \\ \bar{k} &=& \sup_{x \in ({-M},N)} \frac 1{\psi(x)} \int^N_{-M} \psi(\cdot \vee x) \psi\; {\rm d}{\mu} \\ \psi(x) &=& {\hat{\nu}}(x,N) = \int^N_{x} e^{-C} \ ,\quad \ x \vee y = \max\{x,y\}. \end{eqnarray*}

當然, 這裏的上下界也是通過測度 $\mu$ 和 $\hat\nu$ 表出的, 適用於一般的算子。 下面考慮更特殊的特例。

例3.3.令 $({-M},N) = (0,1)$, \begin{equation*} a(x) \equiv 1 和 \ b(x) = {-(d-1)}{\alpha} \tanh{(\alpha x)},\qquad x\in (0, 1), \end{equation*} 其中 ${\rm d}$ 和 $\alpha$ 為給定的常數參數。

將常數 ${\rm d}$ 和 $\alpha$ 代入 $\bar{k}$ 和 $\underline{k}$, 產生如下的圖形。

畫圖時, 將常數 ${\rm d}$ 固定為 $5$, 看上下界隨 $\alpha$ 的變動情況。 因為 $\alpha$ 可能是純虛數(隨後給出表達式), 所以這裏我們做了變換: $\alpha=\sqrt{-\text{sgn}(x)}\,|x|$, $x\in (-2.5, \pi/2)$。 圖中有兩條粗一點的曲線, 顏色深一點的是下界估計, 顏色淺一點的(位於上方)是上界估計。 從圖可以看出, 兩條線相差最大的地方, 其倍數小於等於 2。 左邊幾乎可以說是重疊, 這是畫了圖後才發現的。一般情形在做很多例子的時候, 上下界之比都小於等於2, 比 4 要改進一倍, 但是沒想到會如此貼近。 這個貼近是很不尋常的發現, 因為負的時候更難, 允許無限, 在 $-1$ 的地方就已經幾乎相疊, 更別說更負的情形。

在這個圖中除了兩條粗一點的曲線外, 還有兩條細一點的曲線。關於這兩條細曲線的故事就很長了。 上圖的意義來自幾何。考慮緊的黎曼流形(Riemann Manifold), 假設無邊, 因為是緊的, 所以譜值離散(discrete spectrum), 考慮它的第一個非零的特徵值 $\lambda_1$。要點是用三個幾何量做估計: 流形維數 ${\rm d}$, 流形直徑 $D$ 和流形曲率的下界 $K$。一個標準例子是 $d$ 維單位球面: $$\mathbb{S}^d: D=\pi, \ Ric=d-1, \ \lambda_1=d \ \qquad \forall d \ge 1.$$ 為方便, 我們定義 $$\fbox{$\displaystyle \alpha = \frac D 2 \sqrt{\frac {-K}{d-1}} \;\; 如 \;K\ne 0,\qquad \alpha = 0 \;\; 如 ; K=0.$}$$ 著名的Myers定理斷言: 當 $K\gt 0$ 時, $|\alpha| \le \pi/ 2$。

如開頭所說, 在幾何中關於第一特徵值有相當完整的研究。當 $K\ge 0$ 時, 代表性成果如下表。前三個結果對於單位高維曲面達到最優, 其中的第三個最好; 第四個是在單位圓、零曲率時達到最優, 被認為是幾何中最艱深的結果。上一張圖中的兩條細曲線, 在右方高一些的那一條就是下面的第三個結果。 此處提及, 這裏我們只列出最優估計而不可能談及其它結果,我們直奔目標而不顧細節。 詳細文獻可在文末的論文中找到。

作者下界估計: $K\ge 0$情形
A. Lichnerowicz (1958) ${{\displaystyle{\frac{d}{d-1}\,K}}}$
P.H.Bérard, G.Besson & S. Gallot (1985)$\begin{array}{c}{\displaystyle {d\Bigg\{ \frac{\int_0^{\pi/2} \cos^{d-1} t\, {\rm d} t}{ \int_0^{D/2} \cos^{d-1} t\, {\rm d} t }\Bigg\}^{\!2/d}}},\; {K=d-1}\end{array}$
Chen & F.Y. Wang (1997) ${\displaystyle{\frac{dK}{(d-1) (1-\cos^d |\alpha|)}}}$
J.Q. Zhong & H.C. Yang (1984)${\displaystyle{\frac{\pi^2}{D^2}}}$

對於負曲率的情況, 有三個最優估計。 第二個優於第一個, 它們都在 $\alpha=0$ 處達到最優。 第三個在曲率很負時優於第二個, 但它們自身不能比較。

作者下界估計: $K\le 0$情形
H.C. Yang (1989)
F. Jia (1991)$d\ge 5$
Chen & F.Y. Wang (1994)
${\displaystyle{\frac{\pi^2}{D^2} e^{-(d-1)\alpha}}}$
Chen & F.Y. Wang (1997) $\displaystyle{{\frac{1}{D^2}\sqrt{\pi^4\!+\!8(d\!-\!1)\alpha^2} \cosh^{1-d}\! \alpha}}$
Chen (1994) $\displaystyle{{\frac{1}{D^2}\big({(d-1)\alpha} \tanh \alpha\;\mbox{sech}\, \theta\big)^2}}$

其中的 $\theta$ 可由如下方式得到: 定義 $$\begin{aligned} \theta_1&=2^{-1}{(d-1)\alpha}\,\tanh \alpha,\\ \theta_n&=\theta_1\tanh \theta_{n-1},\quad n\ge 2,\quad\text{則 $\theta_n\downarrow \theta$.} \end{aligned}$$

在零曲率的情況, 最優估計如下表。其中第二個優於第一個。 第三個在零附近優於第二個, 誤差可以達到 $10^{-7}$, 非常精確。

作者下界估計: $K\approx 0$情形
11 authors ${\displaystyle{\frac{\pi^2}{D^2}+\frac{K}{2}}},\quad K\in \pmb{\mathbb R}$
Y.M. Shi & H.C. Zhang (2007)$\displaystyle{\sup_{s\in (0, 1)} s\bigg[4 (1-s)\frac{\pi^2}{D^2}+ K\bigg]\quad (*)}$
Chen & E. Scacciatelli & L. Yao (2002) $\displaystyle{\frac{\pi^2}{D^2}\!+\! \frac{K}{2}\! +\!\big(10\!-\!{\pi^2}\big) \frac{K^2 D^2}{16},\quad |K|\!\le\! \frac{4}{D^2}}$

其中的第二個結果有顯式: $${(*)}= \begin{cases} \displaystyle\bigg(\dfrac{\pi}{D}+ \dfrac{K D}{4 \pi}\bigg)^2,\quad & -4\pi^2\le KD^2\le 4\pi^2\\ K, & KD^2\!\in\!\big( 4\pi^2, (d\!-\!1) \pi^2\big]\\ 0, & KD^2\lt - 4\pi^2 \end{cases} $$ 總而言之, 從 1958 年到現在的這五、六十年間所得到的10個最優估計中, 經過比較, 以下5個結果領先。

作者 下界估計
Chen & F.Y. Wang (1997)${ \displaystyle{\frac{dK}{(d-1) (1-\cos^d |\alpha|)} },\quad K\ge 0}$
Chen & F.Y. Wang (1997)$\displaystyle{{\frac{1}{D^2}\,\sqrt{\pi^4 + 8\,(d - 1)\,\alpha^2\,}\; \cosh^{1-d} \alpha}}$
Chen (1994) $\displaystyle{{\frac{1}{D^2}\, \big({(d-1)\,\alpha} \tanh \alpha\; \text{sech}\, \theta \big)^2}}$
Y. Shi & H.C. Zhang (2007)${\displaystyle{\sup_{s\in (0, 1)} s \bigg[4 (1-s)\frac{\pi^2}{D^2}+K\bigg]}}$
Chen & E. Scacciatelli & L. Yao (2002)${\displaystyle{\frac{\pi^2}{D^2}+ \frac{K}{2} \!+\!\big(10\!-\!{\pi^2}\big) \frac{K^2 D^2}{16}, |K|\!\le\! \frac{4}{D^2} }}$

現在, 我們可以給出上圖的完整的解釋。我們給出了新的統一的下界估計, 它通常優於此表中的第二、第三個估計。 在右端點近旁, 可用此表中的第一個估計作補充; 在零點近旁, 可用此表中第四個估計的改進形式作補充(它即是圖中的另一細曲線)。 如前所述, 表中的第五個估計很精確, 但它只適用於零點的一個小鄰域, 此處不再討論。 總之, 此圖已顯示出我們對於幾何所獲得的進步: 一個統一的下界加上兩個補充。 圖中的上界估計最初的用意是作為判斷下界估計優劣的參照物。然而, 圖中顯示出上、下界的曲線十分相似, 這就啟發我們去做凸平均(convex mean)。挑選凸平均的係數時, 自然選一個過零點, 選另一個過右端點, 因為這兩點 都是最優點。於是 我們得到兩條新曲線 $\underline{\eta}$ 和 $\bar{\eta}$, 依賴於 $\alpha$ 和 $d $, 滿足 $\underline{\eta} \le \lambda_0 \le \bar{\eta}$. 它們都是 $\bar{k}^{-1}$ 和 $ \underline{k}^{-1}$ 的凸平均: \begin{align*}\eta&= \gamma\, \bar{k}^{-1} +(1-\gamma)\, \underline{k}^{-1}\\[6pt] \bar{\gamma} &= \frac{5^{3/2}-5\pi^2 / 16}{5^{3/2}-10/3} \approx 0.39 \ \qquad {\boxed{曲線經過|\alpha|=0}} \quad \text{(與}\ \alpha , \ {\rm d} \ 無關)\\[6pt] \underline{\gamma} &= \left.\frac{d\pi^{2}/4-\underline{k}^{-1}}{\bar{k}^{-1} -\underline{k}^{-1}}\right|_{|\alpha|=\pi/2} \qquad {\boxed{曲線經過|\alpha|=\frac{\pi}2}} \qquad (只與 {\rm d} 有關) \\[6pt] &\approx0.367\ \ if \ d=5 \end{align*} 這兩個凸平均所畫出的圖如下:

這兩個上、下界, 在圖形上幾乎看不出差別, 相差非常小。如果查閱本文的電子版, 你會發現這裏實際上有紅和藍兩條曲線。換句話說, 我們差不多把馬上要講到 的 $\bar\lambda=\lambda_0$ 找出來了。 使用三個幾何量 ${\rm d}$, $D$ 和 $K$ 的估計, 差不多也就這樣了。 取得這樣的結果是預先難以想像的, 回想五、六十年來的那麼多人的努力, 可見來之不易。 在這個過程中, 只有最後一步做凸平均時用到特定的幾何行為, 其它結論都適用於 遠為一般的情形。今天所講的所有內容都是一維的, 至於怎麼樣從高維化為一維, 下面的比較定理完全是用機率方法做出來, 是非常機率的(參見附錄)。

定理3.4(比較定理) 我們有 $$\lambda_{1} \ge \frac{4}{D^{2}}\ {\bar{\lambda}} \qquad (陳和王鳳雨1994:耦合方法), $$ 此處 $\bar{\lambda}$ 是算子 $\bar{L}$ 的主特徵值: $$\bar{L} = \frac{{\rm d}^2}{{\rm d} x^2} + (d-1)\alpha \tanh(\alpha x) \frac{{\rm d}}{{\rm d} x}, \quad f(0)=0,\ f'(1)=0.$$ 其次, 我們有 $$\bar{\lambda} = \lambda_0 \qquad (陳 2011:對偶方法), $$ 其中 ${\lambda_0}$ 是算子 ${L}$ 的主特徵值: $$ {L} \ {= \frac{{\rm d}^2}{{\rm d} x^2}-(d-1)\alpha\ \tanh(\alpha x) \frac {{\rm d}}{{\rm d} x},\quad f'(0)=0,\ f(1)=0}.$$

由以上應用也許可以看出, 機率這門學科現在已經充分地長大, 如果一個數學系裡面沒有機率, 是非常危險的。這話我不只在這裡說, 早年對大陸的名校的朋友也說過。 以上的所有這些方法, 對幾何都有用。我講的是緊流形, 沒有邊界, 就算是凸邊界(convex boundary)也是一樣。 事實上, 就算是非緊流形, 也類似, 只是需要添加一個向量場。 我看到最新的是一個Finsler-Laplacian估計, 結構也是一樣, 只不過要用不同記號而已。謝謝大家。

附錄: 耦合方法與概率度量

這次演講集中於這兩年的新進展, 幾乎未涉及概率方法, 後者以前訪問臺灣時曾多次講過。 這裏略作介紹, 以饗讀者。

A.1. 測度的耦合

回顧在學微積分學的重積分的時候, 總是利用累次積分, 化成比較容易處理的單重積分來計算。 但也有特別的例外, 把單重積分提升為多重積分來計算。 最典型的例子是計算正態分布 $$\int_{\mathbb R}e^{-x^2/2}{\rm d} x=\sqrt{2\pi},$$ 為計算左方的單重積分。 我們先將它提升為二重積分 $$\int_{\mathbb R} \int_{\mathbb R} e^{-(x^2+y^2)/2}{\rm d} x {\rm d} y,$$ 此時使用極坐標很容易算出結果。 這個巧妙的算法屬於Simón-Denis Poisson (1781$\sim$1840)。 換言之, 我們把單個測度 ${\rm d} x$ 提升為乘積測度 ${\rm d} x\times {\rm d} y.$ 也可以說, 我們把單個概率測度(正態分布) $\mu({\rm d} x)$ 提升為乘積 空間 ${\mathbb R} \times {\mathbb R}$ 上的乘積概率測度 $\mu({\rm d} x)\times \mu({\rm d} y)$。 這已經是一種特殊的耦合, 稱為獨立耦合。

想想為什麼這種耦合的應用很有限, 原因就在於"獨立性"的要求太強了。 只要脫離獨立性, 容許相關性, 那就是一片廣闊新天地。 給定兩個可測空間 $(E_k,\,{\mathscr E}_k)$ 上的 概率測度 $\mu_k$, $k=1, 2$, 稱乘積空間 $(E_1\times E_2,\, {\mathscr E}_1\times{\mathscr E}_2)$ 上 的概率測度 ${\widetilde \mu}$ 為 $\mu_1^{}$ 和 $\mu_2^{}$ 的耦合, 如果下述 邊緣性條件成立: \begin{aligned} &{\tilde \mu}(A_1\times E_2)= \mu_1^{} (A_1),\qquad A_1\in {\mathscr E}_1,\\ &{\tilde \mu}(E_1\times A_2)= \mu_2^{} (A_2), \qquad A_2\in {\mathscr E}_2.\end{aligned}

近乎平凡的耦合是獨立耦合:${\tilde\mu}_0=\mu_1\times \mu_2$。 它卻有非平凡的應用。 我們斷言直線上的每一個概率測度 $\mu$, 總滿足如下的不等式: $$\int_{\mathbb R} f g{\rm d} \mu\ge \int_{\mathbb R} f{\rm d} \mu \ \int_{\mathbb R} g{\rm d} \mu, \qquad f, g\in {\mathscr M},$$ 其中 ${\mathscr M}$ 是 $\mathbb R$ 上有界單調增函數的全體。 使用獨立 耦合 ${\tilde\mu}_0={\mu\times\mu}$ 和直線的全序性, 證明只需一行: $$ \iint_{{\mathbb R}\times {\mathbb R}} \tilde\mu_0^{}({\rm d} x, d y)[f(x)-f(y)][g(x)-g(y)]\ge 0, \qquad f, g\in {\mathscr M}. $$ 展開左方的積分, 即得所求。

下面是一種很有用的基本耦合 $\tilde\mu_b$。 設 $E_k=E$(Hausdorff空間), $k=1,2$。 記 $\Delta$ 為 $E$ 的對角線集: $\Delta=\{(x, x ): x\in E\}$。 命 $$ \tilde\mu_b({\rm d} x_1^{}, {\rm d} x_2^{})= (\mu_1^{}\wedge\mu_2^{})(d x_1^{}) I_{\Delta}+ \frac{(\mu_1^{}-\mu_2^{})^+(d x_1^{})(\mu_1^{}-\mu_2^{})^-(d x_2^{})}{(\mu_1^{}-\mu_2^{})^+(E)}I_{\Delta^c}, $$ 其中 $\nu^{\pm}$ 為符號測度 $\nu$ 的Jordan--Hahn分解, 而 $\nu_1^{}\wedge \nu_2^{}=\nu_1^{}- (\nu_1^{}-\nu_2^{})^+$。 特別地, 如 $\mu_k$ 關於Lebesgue測度有密度 $h_k$, 則 $(\mu_1-\mu_2)^{\pm}$ 和 $\mu_1\wedge\mu_2$ 亦然: 分別有密度 $(h_1-h_2)^{\pm}$ (函數的正、負部)和 $h_1\wedge h_2:=\min\{h_1, h_2\}$。 每一種耦合都有它的基本特徵。 這裏是第一項。 有了它之後, 由邊緣性自然導出第二項。 因為 $(\mu_1^{}-\mu_2^{})^+$ 表示 $\mu_1$ 比 $\mu_2$ 多出的部分, $\mu_1\wedge\mu_2$ 是最大的共有 部分。 此耦合的第一項就是把這個共有部分都放到對角線上。 特別地, 如果 $\mu_1=\mu_2$, 則第二部分消失。 基本耦合的重要性在於它刻畫了概率測度的全變差距離。 詳言之, 暫設 $\rho $ 為離散距離: $$\rho (x, y)= {\begin{cases} 1 &\quad x\ne y,\\ 0 &\quad x=y. \end{cases}}$$ 則我們有如下的Dobrushin定理: $$\int_{E\times E}\rho\,{\rm d} {\tilde\mu}_b=: \tilde\mu_b(\rho) = \inf_{\tilde\mu\in {\mathscr C}(\mu_1^{}\!,\, \mu_2^{})} \tilde\mu (\rho)=\frac 1 2 \|\mu_1^{}-\mu_2^{}\|_{\mbox{ Var}}\quad\big(=(\mu_1-\mu_2)^+\big),$$ 其中 ${\mathscr C}(\mu_1^{}, \mu_2^{}):=\{{\tilde \mu}: {\tilde \mu}$ 是 $\mu_1^{}$ 和 $\mu_2^{}$ 的耦合}。 對於一般的距離函數 $\rho$, 如下的定義 $$W(\mu_1, \mu_2) = \inf_{\tilde\mu\in {\mathscr C}(\mu_1^{}\!,\, \mu_2^{})} \tilde\mu (\rho)$$ 稱為 $\mu_1^{}$ 和 $\mu_2^{}$ 的距離。 這是 1969年在研究隨機場(概率論與統計物理的交叉學科) 時引進的, 隨後逐步成為研究諸多數學課題(特別是無窮維)的基本工具。

進一步, 將上述距離函數 $\rho$ 換成更一般的費用函數 $c$(非負): $$\inf_{\tilde\mu\in {\mathscr C}(\mu_1^{}\!,\, \mu_2^{})} \int_{E\times E}c(x, y)\tilde\mu ({\rm d} x, {\rm d} y),$$ 並考察輸運函數 $T:E\to E$, 使得 $\mu_2$ 是在 $\mu_1$ 之下、由 $T$ 導出的分布, 而且 $ \int_{E}c\big(x, T(x)\big) \mu_1$ ${\rm d} x$ 達到上式的下確界, 這就構成了當今PDE中很熱鬧的研究方向:最優輸運 (optimal transport)。

至此為止, 我們講的是靜態情形(即不含時間 $t$)。 下面轉入動態情形。 對於給定的兩個馬氏過程, 依照上述方法, 我們可以定義它們對於固定的不同出發點、在固定的同一時間 $t$ 的分布(概率測度)的耦合。 然而, 這種耦合未必是馬氏的。 雖然非馬氏耦合有它的用處, 但為簡單計, 此處我們只考慮馬氏耦合(即給定邊緣過程是馬氏的, 要求耦合過程也是馬氏的)。

A.2. 馬氏過程的耦合

給定($E_k,{\mathscr E}_k$) 的馬氏半群 $P_k(t)$ 或轉移概率 $P_k(t, x_k,\cdot)$, $k=1$, $2$, 稱乘積空間上的馬氏半群 $\widetilde P(t)$ 或轉移概率 $\widetilde P(t; x_1^{}, x_2^{}; \cdot)$ 是 $P_k(t)$ 或 $P_k(t, x_k, \cdot)\,(k=1, 2)$ 的耦合, 如果下述(關於過程的)邊緣性成立: \begin{eqnarray*} & \widetilde P(t; x_1^{}, x_2^{}; A_1\times E_2)\!=P_1(t,x_1^{},A_1),\\ & \widetilde P(t; x_1^{}, x_2^{}; E_1\times A_2)\!=\!P_2(t,x_2^{},A_2),\quad t\ge 0, x_k\in E_k, A_k\in{\mathscr E}_k, k=1,2.\,\,\,\,\,\, \end{eqnarray*}$\tag*{MP}$ 等價地, \begin{aligned} &\widetilde P(t)f(x_1^{}, x_2^{})=P_1(t)f(x_1^{}),\qquad f\in {}_b{\mathscr E}_1\\ &\widetilde P(t)f(x_1^{}, x_2^{})=P_2(t)f(x_2^{}),\qquad \;f\in {}_b{\mathscr E}_2,\;t\ge 0,\;x_k\in E_k,\;k=1, 2, \end{aligned}$\tag*{MP}$ 此處 ${}_b{\mathscr E}$ 是有界 ${\mathscr E}$ 可測函數的全體; 在等式的左邊, 原為單變量的函數 $f$ 都被視為 雙變量函數。

上述定義"(MP)"實際上沒有多少用處, 因為 $P_k(t)$ 或 $P_k(t, x_k, \cdot)\,(k=1, 2)$ 都是未知的。 然而, 從它們出發, 自然導出如下關於算子的耦合。

A.3. 馬氏過程的耦合

分別以 $L_k\,(k=1,2)$ 和 $\widetilde L$ 表邊緣半群 $P_k(t)\,(k=1, 2)$ 和耦合半群 $\widetilde P(t)$ 的形式無窮小生成元, 在 (MP) 兩邊關於 $t$ 在 $0$ 處取導數, 得出如下(關於算子)的邊緣性: \begin{aligned} & \widetilde L f(x_1^{}, x_2^{})=L_1 f(x_1^{}), \qquad f\in {\mathscr F}_1,\\ & \widetilde L f(x_1^{}, x_2^{})=L_2 f(x_2^{}), \qquad f\in {\mathscr F}_2,\; x_k\in E_k,\; k=1,\, 2; \end{aligned}$\tag*{MO}$ 其中 ${\mathscr F}_k$ 是 ${}_b\mathscr E_2$ 的適當子集; 與前面的(MP)一樣, 等式左邊的函數 $f$ 都被視為雙變量函數。

現在, 對於馬氏過程的馬氏耦合, 我們有了算子耦合的可行手段。 例如, 對於 ${\mathbb R}^d$ 上的擴散過程, 我們有二階微分算子 $$L=\sum_{i,\,j=1}^d a_{ij}(x)\frac{\partial^2}{\partial x_i\partial x_j} + \sum_{i=1}^d b_i(x) \frac{\partial}{\partial x_i}.$$ 為簡單計, 寫成 $L\sim \big(a(x), b(x)\big)$。 今給定邊緣算子 $L_k\sim \big(a_k(x), b_k(x)\big),\; k=1,\, 2,$ 則由耦合算子的邊緣性, 乘積空間 $\mathbb R^d\times\mathbb R^d$ 上的 耦合算子 $\widetilde L\sim \big(a(x, y),$ $ b(x, y)\big)$ 應有如下形式: $$a(x,y)=\left(\begin{matrix} a_1(x) & c(x,y)\\ c(x,y)^*& a_2(y)\end{matrix}\right), \qquad b(x,y)=\left(\begin{matrix} b_1(x)\\b_2(y)\end{matrix}\right), $$ 其中矩陣 $c(x, y)^*$ 是 $c(x, y)$ 的轉置, 條件是保證 $a(x, y)$ 非負定。 更具體些, 設 $L_1=L_2\sim\big(a(x), b(x)\big)$, $a(x)=\sigma (x)\sigma (x)^*$, $\det \sigma\ne 0$。 則可取 $$c(x, y)=\sigma(x)\big[I-2\bar u \bar u^*\big]\sigma(y)^*,\qquad x\ne y,$$ 其中 $\bar u =(x-y)/|x-y|$。 矩陣 $I-2\bar u \bar u^*$ 是反射矩陣(即行列式為 $-1$ 的正交矩陣)。 這個耦合稱為反射耦合。

A.4. 應用於特徵值估計

回顧 $\{P_t\}_{t\ge 0}$ 與自身的 耦合 $\big\{\widetilde P_t\big\}_{t\ge 0}$ 滿足邊緣性: 對於一切 $f\in C_b^2(\mathbb R^d)$ 及 $(x,y)$ $(x\ne y)$, 有 \begin{equation}\widetilde P_t f(x,y)=P_t f(x) \; \big(相應地, \widetilde P_t f(x,y)=P_t f(y) \big), \label{A1}\end{equation} 此處還是將 $f$ 視為 雙變量函數。 我們由此出發來證明特徵值估計。

第一步. 設 $g$ 是相應於 $\lambda_1$ 的算子 $-L$ 的特徵函數: $-L g=\lambda_1 g$。 則由關於半群的標準的微分方程 (即Kolmogorov向前微分方程), 我們有 $$ \frac{{\rm d} }{{\rm d} t} P_t g(x)= P_t L g(x)=-\lambda_1 P_t g(x).$$ 固定 $g$ 和 $x$, 解這個關於函數 $t\to P_tg(x)$ 的常微分方程, 得出 \begin{equation}P_t g(x)=g(x) e^{-\lambda_1 t},\qquad t\ge 0. \label{A2}\end{equation} 這個恆等式很漂亮, 它將特徵值、特徵函數和半群三者統一到一個簡潔的公式裡。 可惜此刻這個公式無用, 因為三者均未知。

第二步. 幸運的是: 耦合方法使得上述公式變得強有力。 我們所需要的只是關於耦合算子的下述估計: \begin{equation}\widetilde L \rho (x, y)\le -\alpha \rho (x, y),\qquad x\ne y, \label{A3}\end{equation} 其中 $\alpha\gt 0$ 為常數。 它等價於 \begin{equation}{\widetilde P}_t \rho (x, y)\le \rho (x, y) e^{-\alpha t},\qquad t\ge 0. \label{A4}\end{equation} 今考慮緊空間情形。 此時 $g$ 關於 $\rho$ Lipschitz連續。 記其Lipschitz常數 為 $c_{\rho}^{}$。 命 $g_1(x,y)=g(x)$, $g_2(x,y)=g(y)$。 那麼, 我們有 \begin{aligned} e^{-\lambda_1 t}|g(x)-g(y)| &=\big|P_t g (x)- P_t g (y) \big|\quad(由 \eqref{A2} )\\ &=\big|\widetilde P_t g_1 (x,y)- \widetilde P_t g_2 (x,y) \big|\quad(由 \eqref{A1})\\ &=\big|\widetilde P_t (g_1- g_2)(x,y)\big|\quad(因耦合在同一乘積空間上)\\ &\le \widetilde P_t |g_1- g_2|(x,y)\\ &\le c_g \widetilde P_t \rho (x, y)\quad\rm (Lipschitz 性) \\ &\le c_g \rho (x, y) e^{-\alpha t}\quad (\text{由 \eqref{A4} }). \end{aligned} 因為 $g$ 非常數, 存在 $x\ne y$ 使得 $g(x)\ne g(y)$。 固定這樣一對 $(x, y)$, 然後 令 $t\to \infty $, 必然得出 $\lambda_1\ge \alpha$。 經過這麼簡單的兩步, 我們就得到了所需的下界估計。

上面的緊性假定是可以避免的, 只需使用局部化程序。 因此, 我們的方法適用於非常一般的情形。 作為示例, 考慮O.U.過程: $$L=\sum_{i=1}^d \bigg(\frac{\partial^2}{\partial x_i^2} -x_i\frac{\partial}{\partial x_i}\bigg). $$ 取 $\rho(x,y)=|x-y|$ (通常的歐氏距離), 稍作計算, 便可看出 條件 \eqref{A3} 對於反射耦合及 $\alpha=1$ 成立, 此時達到精確估計: $\lambda_1=1=\alpha$。 應當指出, 在一般情況下, 由條件 \eqref{A3} 可見, 為得到好的下界 $\alpha$, 不僅需要選擇好的耦合, 還需要選取好的距離。 不難想象, 這裏有很多故事。

多年前, 我們曾經感到很奇怪, 為什麼文獻上處理的幾乎都是Dirichlet邊界情形, 後來才明白這種情形等價於極大值原理: 其特徵函數在內部為正、在邊界上達到最小值 $0$。 對於 $\lambda_1$, 特徵函數的零值曲面在區域內部, 極大值原理不適用。 所以, 這裏的關鍵點是用耦合方法這一概率論工具代替了極大值原理。

致謝:

作者感謝中研院數學所的邀請(hosts: 黃啟瑞、許順吉), 感謝黃、許、姜祖恕、周雲雄和他們夫人們的熱情款待。 感謝陳隆奇、徐洪坤、羅夢娜、郭美惠、李育嘉及夫人、許元春和胡殿中等教授及其團隊的邀請和熱情款待。 趁此機會, 也感謝數學所的其他同仁, 秘書組、圖書館等行政團隊所提供的幫助和溫暖如家的環境, 感謝陳麗伍助理為整理我的幾篇文章所付出的辛勞。同時, 作者感謝中國國家自然科學基金重點項目(No.11131003)和教育部973項目的資助。

參考資料

Chen, Mu-Fa (2011). General estimate of the first eigenvalue on manifolds. Front. Math. China 6(6): 1025-1043. Chen, Mu-Fa (2013). Bilateral Hardy-type inequalities. Acta Math. Sin., Eng. Ser. 29, no. 1, 1-32.

---本文演講者陳木法教授任教於北京師範大學數學科學學院, 整理者陳麗伍為中央研究院數學研究所助理---