因果律與極值原理—漫談哈密頓原理的量子力學根源

  • 皮皮老師的物理心得
  • 撰文者:欒丕綱(國立中央大學光電科學與工程學系)
  • 發文日期:2021-10-01
  • 點閱次數:802


隨手翻開一本古典力學 (classical mechanics) 的教科書,除了會看到大家在普通物理 (General physics) 就遇見過的牛頓力學 (Newtonian mechanics) 之外,應該還會看到所謂拉格朗日力學 (Lagrangian Mechanics) 與哈密頓力學 (Hamiltonian Mechanics)。其實這幾種名稱不同的力學大致上處理的是相同範疇的力學問題,但是表達的方式與使用的手法有很大的差異。以現代物理學的眼光來看,後兩種力學裡的概念不但對量子力學的建立有很重要的啟發,其中用到的拉格朗日函數 (Lagrangian)哈密頓量 (Hamiltonian) 更是要以標準程序量子化 (quantize) 任何一個物理系統必須先知道的關鍵物理量。究竟這些力學的概念與牛頓力學有何不同?它們與量子力學的關係是什麼?它們的適用範圍與優缺點是什麼?在這一期的專欄文章裡,我想先跟大家聊聊牛頓力學與拉格朗日力學的關係,以及後者所採用的基本原理在量子力學觀點下是如何解釋的。關於哈密頓力學的相關討論,就留待未來的專欄文章再跟大家分享。


牛頓力學裡最重要的概念是作用力。當我們知道力學系統中各個組成部分的作用力時,藉由牛頓運動定律就可以分析系統在時間中會如何演化。以粒子的運動為例,只要我們知道粒子的初始位置與初始速度,並知道作用力在不同位置或時間是如何作用的,就可以根據牛頓運動定律預測粒子的運動過程與運動軌跡。很明顯,這是因果律 (causality) 的概念。初始位置、初始速度與作用力是 (cause),運動軌跡是 (effect)。果是根據因,藉由作用力與動量變化之間的關係 (牛頓第二運動定律) 一步一步演化出來的。當需要描述粒子於某種位能場 \(U\) 中的運動時,牛頓力學的做法是將對應此位能場的保守力 (conservative force) \(\vec{F}= -\nabla U\) 代入第二運動定律之中,然後解運動方程式

$$\frac{d}{dt}\left( m \frac{d \vec{r}}{dt}\right) = \frac{d \vec{p}}{dt}\ = - \nabla U\hspace{2cm}(1)$$

就可以得到粒子的運動軌跡。

上述方程式在笛卡爾坐標系 (Cartesian coordinate) 之下很容易寫出來。不過,很多的力學問題在適當選擇的曲線坐標系 (curvilinear coordinate) 之下更容易分析。此外,粒子的運動有可能受到一些約束 (constraints) 的制約,例如被綁在長度固定的繩子一端,或是緊貼著光滑的曲面等等。最後,力學系統內的粒子數可能不只一個,且彼此有相互作用,或是需要分析的根本不是粒子而是整塊的剛體。若是採用牛頓力學的方法,不但要將向量方程式作各種複雜的投影,還要處理不太容易分析的約束力 (constraint forces)。經由數學上的一些轉換,會發現只要選擇 “剛好夠用” 的曲線座標數量,就可以在曲線坐標系寫下跟上述牛頓運動方程式等價的歐勒--拉格朗日方程式 (Euler- Lagrange Equations):

$$\frac{d}{dt} \frac{\partial L}{\partial \dot{q_j}}- \frac{\partial L}{\partial q_j}=0 \hspace{1mm}, \hspace{1cm} j=1,\hspace{1mm}2,...., \hspace{1mm}s \hspace{2cm}(2) $$

這裡的 \(L=T-U\) 就是拉格朗日函數,它是動能 \(T\) 與位能 \(U\) 的差。方程式中出現的 \(q_j\) 是力學系統的第 \(j\) 個廣義座標 (generalized coordinate),而 \(\dot{q_j}= dq_j / dt\) 是對應的廣義速度 (generalized velocity),而 \(s\) 就是那個 “剛好夠用” 的座標數目,被稱作自由度 (degree of freedom)。利用這樣的表達方式,我們可以把力學系統的演化 (由 \(s\) 個運動方程式描述) 想像成是發生在 \(s+1\) 維 “時空” (時間本身是其中一維!) 中的某種抽象的 “粒子” 的運動。

上述歐勒--拉格朗日方程式可以根據一個看起來很像目的論哈密頓原理 (Hamilton’s principle) 直接導出。這個又被稱為最小作用量原理 (Least action principle) 的極值原理可以表達為:在給定的兩個時間 \(t_1\)   \(t_2\)  先後通過坐標點 \(q_{jA} = q_j (t_1)\) 與 \(q_{jB} = q_j (t_2)\) 的所有可能時空路徑中,真實的路徑就是作用量取極小值 (minimum) 的那條路徑。這段敘述用數學符號表達出來,就是

\(S = \int^{t_2}_{t_1}L(q_i(t), \dot{q_i}(t),t)dt=\)極小值\(\hspace{2cm}(3)\)

此處 \(S\) 就是作用量,是拉氏函數沿選定路徑所做的時間積分。以這個原理表達運動定律時,可能會給讀者這樣一個印象: “粒子” 在每一瞬間都在比較各個可能路徑的作用量值,而始終挑選那條作用量極小的路徑。這個擬人化的想法雖然看起來有點荒謬,但由它導出的運動方程式跟直接由牛頓力學導出的等價。


既然如此,為何需要發展這種不同的力學表達形式呢?這有幾個重要的理由。首先是前面提過的,此方法中的拉氏函數是純量,這比處理牛頓力學中的向量作用力簡單。而選擇曲線坐標系時,歐勒--拉格朗日方程式就是曲線坐標系之下的正確運動方程式,不需要先在笛卡爾座標寫出向量方程式再投影。此外,極值方法較牛頓力學架構更容易看出對稱性與守恆律的關係。例如若拉氏函數具有座標平移不變性,則系統的動量就守恆。若有座標旋轉不變性,角動量就守恆。若具有時間平移不變性,系統能量就守恆。最重要的,是當我們把最小作用原理中的拉氏函數的形式換成別的適當形式時,就可以跳脫出牛頓力學與保守力的框架,而導出其他領域的物理定律。可以毫不誇張的說,所有基本物理定律的演化方程式,在還未考慮量子修正之前,都可以由最小作用量原理導出。


事實上,幾何光學 (geometrical optics) 裡也有類似的極值原理,那就是費馬原理 (Fermat’s principle) 。這個原理說:光線在通過不均勻介質或是多個介質時,選擇的是傳播時間最短的那一個路徑。根據費馬原理,可以推導出折射 (refraction) 現象所滿足的斯奈爾定律 (Snell’s law):

$$ n_1 \sin \theta_1 = n_2 \sin \theta_2 \hspace{2cm}(4)$$

這個定律描述光在經過各種介質時,折射率的改變如何改變光的傳播方向。因此,它就是一個像牛頓運動定律的因果定律。若與力學定律比較,會發現這裡的光路徑取代了力學上的時間角色,而折射率的變化就像是力學位能的變化。如果讀者記得光其實是波的話,應該不難理解此處的 “傳播時間” 其實是 “沿傳播路徑的相位累積量” 的替代物。根據波動光學的概念,波的疊加 (superposition of waves) 會產生建設性與破壞性的干涉 (interference)。建設性干涉使波的振幅更大,而破壞性干涉使波振幅減小,甚至完全消失。藉著干涉,波能量被集中分配到那些建設性干涉的區域,而避開那些會發生破壞性干涉的區域。幾何光學研究的就是波長遠小於傳播路徑距離的那種極限情況的光學現象。在這種極限之下,即使是巨觀尺度下看起來很微不足道的路徑差異,都會對應巨大的相位差。因此,只要不是在相位累積量為極小值的那個特殊路徑附近,破壞性干涉都會太嚴重而導致光波無法在那裏出現。反之,在相位累積量極小的那個路徑附近是由建設性干涉主導,光波會同調地 (coherently) 疊加起來。這就解釋了費馬原理的微觀機制。

講到這裡,即使是沒有學過量子力學,但對近代物理的物質波 (matter wave) 概念有基本認識的讀者大概也猜到了:最小作用量原理成立的理由其實就是來自波函數 (wave functions) 的建設性干涉。根據德布羅意 (Louis de Broglie) 的物質波理論,一個動量為 \(p\) 的粒子對應一個波長為 \(\lambda = h / p \) 的物質波。由於普朗克常數 (Planck’s constant) \(h = 6.626 \times 10^{-34} \hspace{1mm} \rm J \cdot s\) 是一個非常小的量,若假設巨觀物體的動量大約在 \(\rm 1 \hspace{1mm} kg \cdot m / s = 1 \hspace{1mm}J \cdot s / m\) 的等級,會得到其物質波波長在\( \rm 10^{-33} \hspace{1mm}m \hspace{1mm} = 10^{-24} \hspace{1mm}nm\) 的尺度,遠比可見光波長 (大於 \(300 \hspace{1mm}\rm nm\) ) 小得多。這表示藉由物質波的干涉效應,一條非常明確的古典粒子軌跡會被選擇出來。更進一步,根據費曼 (Richard P. Feynman) 的路徑積分 (path integral) 理論,若在時間 \(t_1\) 有一個粒子在位置 \(\vec{r_1}\) 被找到,那麼在時間 \(t_2\) 於位置 \(\vec{r_2}\) 再找到這個粒子的量子躍遷振幅 (quantum transition amplitude) \(K \left( \vec{r_2},t_2;\vec{r_1},t_1\right)\) 有以下形式:

$$K \left( \vec{r_2},t_2;\vec{r_1},t_1\right) = \sum_{\rm path} e^{iS[\rm path]/\hbar}\hspace{2cm}(5)$$

公式中的 “\( \rm path\)” 是任何能連接 \( \left( \vec{r_1},t_1 \right) \) 與 \( \left( \vec{r_2},t_2 \right) \) 的可能路徑,\(S[\rm path]\) 是對應於該路徑的作用量,而 \( \hbar = h / 2 \pi = 1.0546 \times 10^{-34} \hspace{1mm} \rm J \cdot s\) 是約化普朗克常數。\(\sum\limits_{\rm path}\) 代表對所有可能路徑求和。從這個公式可以看出,出現在指數上的 \( S[\rm path]/\hbar\) 就是相位 (phase)。跟前面提到的理由一樣,對巨觀物體而言,\( S[\rm path]/\hbar\) 是一個非常大的數量,因此路徑的任何微小的差異都會導致相位的劇烈變化,這就表示只有在給出  \( S[\rm path]=\)極值 的那個特殊路徑的附近才會對這個總和有不可忽略的貢獻。這就提供了關於最小作用量原理的量子力學式理解。

fig1.jpg

回到前面提到的運動方程式問題。無論是方程式 (1) 還是 (2),都是關於位置坐標 \( \vec{r}(t)\) 或廣義座標 \(q_j(t)\) 的二階微分方程式 (2nd order differential equations)。若將力學動量 \( \vec{p}=md \vec{r}/ dt\) 或正則動量 (canonical momentum) \(p_j = \partial L / \partial \dot{q_j}\) 當成另一種 “座標”,就可以將 \(s\) 個二階微分方程式化為 \(2s\) 個一階微分方程式,而這種處理力學問題的方式被稱作哈密頓力學。狄拉克 (P. A. M. Dirac) 發現,將哈密頓力學中的帕松括號 (Poisson bracket) 乘以 \(i \hbar\) 並換成對易子 (commutator),就可以建立力學系統的量子版本。另一方面,若將作用量視為座標與時間的函數,就可以寫下一個哈密頓-雅可比方程式 (Hamilton-Jacobi equation)。解這個方程式可以得到作用量函數,而這個函數被座標偏微分就得到正則動量。薛丁格 (Erwin Schrödinger) 藉由對這個方程式的深入思考,做了一個很像是由幾何光學 “倒推” 出波動光學方程式的推導,就得到了薛丁格方程式 (Schrödinger’s equation)!這些錯綜複雜的細節無法三言兩語就說清楚。這篇分享就在此打住,以後再詳細討論吧!