HM (Analysis) 4.3

\( \def\pause{} \def\,{\kern.2em} \def\implies{\Longrightarrow} \newcommand{\alert}[1]{\color{red}{#1}} \def\ds{\displaystyle} \let\epsilon\varepsilon \let\subseteq\subseteqq \let\supseteq\supseteqq \let\setminus\smallsetminus \let\le\leqq \let\leq\leqq \let\ge\geqq \let\geq\geqq \newcommand{\NN}{\mathbb N} \newcommand{\RR}{\mathbb R} \renewcommand{\limsup}{\mathop{\overline{\mathrm{lim}}}} \renewcommand{\liminf}{\mathop{\underline{\mathrm{lim}}}} \newcommand{\redlimsup}{\mathop{\color{red}{\overline{\mathrm{lim}}}}} \newcommand{\redliminf}{\mathop{\color{red}{\underline{\mathrm{lim}}}}} \newcommand{\konv}[1][]{\mathbin{\mathop{\longrightarrow}\limits_{#1}}} \newcommand{\bigset}[2]{\left\{{#1}\left|\strut \vphantom{#1}\vphantom{#2}\right.\kern.1em {#2}\right\}} \newcommand{\set}[2]{\left\{\smash{#1}\left|% \vphantom{\smash{#1}}\vphantom{\smash{#2}}\right.\kern.1em\smash{#2}\right\}} \newcommand{\E}{\mathrm{e}} \newcommand{\I}{\mathrm{i}} \newcommand{\diff}{\mathop{\mathrm{\kern0pt d}}} \newcommand{\diffAt}[3]{\frac{\diff}{\diff{#2}}\kern.1em\left.{\vphantom{\frac00}#1}\kern.1em\right|_{#2=#3}} \newcommand{\partAt}[3]{\frac{\partial}{\partial{#2}}\kern.1em\left.{\vphantom{\frac00}#1}\kern.1em\right|_{#2=#3}} \newcommand{\diffgleich}{\mathbin{\kern.1em\mathop{=}\limits^{\kern.1em\prime}}\kern.1em} \newcommand{\grad}{\mathop{\mathrm{grad}}} \newcommand{\Jac}[2]{\mathrm{J}{#1}\left(#2\right)} \newcommand{\Hesse}[2]{\mathrm{H}{#1}\left(#2\right)} \newcommand{\Hesso}[1]{\mathrm{H}{#1}} \newcommand{\transp}{^{^{\scriptstyle\intercal}}} \newcommand{\inn}[1]{{#1}^\circ} \newcommand{\Cf}[2]{\mathcal C^{#1}(#2)} \newcommand{\skalp}{\mathbin{\scriptstyle\bullet}} \)

4.3. Partielle Ableitungen

Es sei \( D\subseteq\RR^n \) und \( a=\left(\begin{array}{c}a_1\\\vdots\\a_n\end{array}\right)\in\inn D \).

Für jede Gerade \( G =a+\RR\kern.2em v \) durch \(a\) enthält dann der Schnitt \( G\cap D \) ein ganzes Intervall \( \bigset{a+h\kern.2em v}{h\in(-\epsilon,+\epsilon)} \).

Wir konzentrieren uns zunächst auf den Fall, dass \(v\) einer der Basisvektoren \(e_j\) der Standardbasis von \(\RR^n\) ist. Dann liegt die Gerade \(G\) parallel zur entsprechenden Koordinatenachse:

Es gilt \( G=\bigset{\left(\begin{array}{c} a_1\\\vdots\\a_{j-1}\\\alert{x_j}\\a_{j+1}\\\vdots\\a_n\end{array}\right)}{x_j\in\RR} \).

Das eben gefundene Intervall hat dann die Gestalt \( \bigset{\left(\begin{array}{c} a_1\\\vdots\\a_{j-1}\\\alert{x_j}\\a_{j+1}\\\vdots\\a_n\end{array}\right)} {x_j\in U_\epsilon(a)} \); dabei ist \(U_\epsilon(a) = (a_j-\epsilon,a_j+\epsilon)\).

\( f_G\colon (a_j-\epsilon,a_j+\epsilon) \to \RR \colon \) \( t \mapsto f\bigl(a+(t-a_j^{})\kern.2em e_j\bigr) \) \( = f \left(\begin{array}{c} a_1\\\vdots\\a_{j-1}\\\alert{t}\\a_{j+1}\\\vdots\\a_n\end{array}\right) \)

Den Graph von \( f_G \) können wir uns als einen Teil des Graphen von \(f\) vorstellen: als Teil der Kurve, die als Schnitt des Graphen von \(f\) mit der vertikalen Ebene durch die Gerade \( G=a+\RR\kern.2em e_j \) entsteht.

4.3.1. Definition.

Ist die Funktion \( f_G \) differenzierbar an der Stelle \(a_j\), so heißt ihre Ableitung

\( \diffAt{f_G(t)}{t}{a_j} \) \( \quad =: \quad \alert{\left.\frac{\partial}{\partial\kern.2em x_j}\kern.2em f(x)\right|_{x=a}} \) \( \quad =: \quad \alert{\frac{\partial\kern.2em f}{\partial\kern.2em x_j}\kern.2em(a)} \)

In diesem Fall nennt man \(f\) partiell nach \( x_j \) differenzierbar an der Stelle \(a\) (oder kurz in \(a\)).

Das Symbol „\(\partial\)“ statt \(\diff\) soll signalisieren, dass wir alle Variablen bis auf eine festhalten.

Weitere übliche Bezeichnungen sind \( \alert{\partial_j\kern.2em f(a)} \) oder \( \alert{f_{x_j}(a)} \) statt \( \frac{\partial\kern.2em f}{\partial\kern.2em x_j}\kern.2em(a) \).

4.3.2. Definition.

Ist \(f\) in jedem inneren Punkt von \(D\) partiell nach \( x_j \) differenzierbar, so nennt man die Funktion

Wenn die Variablen der Funktion \(f\) statt mit \( x_1,\kern.2em x_2,\kern.2em\ldots \) mit \( \alert{x,y,z,t} \) bezeichnet werden, schreibt man auch \( \alert{f_x,\kern.2em f_y,\kern.2em f_z,\kern.2em f_t} \) für die partiellen Ableitungen.

Diese Bezeichnungen sind vor allem dann hilfreich, wenn man die partiellen Ableitungen erneut partiell differenziert.

4.3.3. Beispiel.

Die Einschränkung der Funktion \(f\) auf die Gerade \( G=\binom00+\RR\binom10 \) (das ist die \(x\)-Achse) liefert \( f_G(t) \) \( = f\binom t0 \) \( = -t^2+3 \).

die Ableitung \( f_x\binom 00 \) \( =f_G'(0) \) \( =0 \) dieser Funktion gibt die Steigung der Geraden in der \(x\)-\(z\)-Ebene an, die den Graphen von \(f\) (also das Paraboloid) im Punkt \( \left(0,0,f\binom 00\right)\transp \) berührt.

Für die Parallele \( H = \binom 1{-1}+\RR\binom 01 \) zur \(y\)-Achse durch \( \binom 1{-1} \) ergibt sich

Die Steigung der Tangente an das Paraboloid in der zur \(y\)-\(z\)-Ebene parallelen Ebene durch \( (1,-1,0)\transp \) im Punkt \( \bigl(1,-1,f\binom 1{-1}\bigr)\transp \) erhalten wir als \( f_y\binom 1{-1} \) \( = f_H'(-1) \) \( = 2 \).

Die folgende interaktive Skizze zeigt einen Ausschnitt des Paraboloids, die \(x\)-\(y\)-Ebene (grau), die \(x\)-\(z\)-Ebene (als Maschendrahtzaun) und die Parallele zur \(y\)-\(z\)-Ebene durch \( (1,-1,0)\transp \).

Außerdem sind die Geraden \(\color{blue}G\) und \(\color{red}H\) (rot bzw. blau) sowie die darüber liegenden Tangenten samt ihren Berührpunkten eingezeichnet.

4.3.4. Beispiel.

\( f_x(x,y,z) \) \( = y\kern.2em \cos(x\kern.2em y) + 0 \) \( = y\kern.2em \cos(x\kern.2em y) \)

\( f_y(x,y,z) \) \( = x\kern.2em \cos(x\kern.2em y) + z\kern.2em \bigl(-\sin(y\kern.2em z)\bigr) \) \( = x\kern.2em \cos(x\kern.2em y) - z\kern.2em \sin(y\kern.2em z) \)

\( f_z(x,y,z) \) \( = 0 + y\kern.2em \bigl(-\sin(y\kern.2em z)\bigr) \) \( = - y\kern.2em \sin(y\kern.2em z) \).

4.3.5. Beispiel.

Die durch \( h(x_1^{},x_2^{},x_3^{}) \) \( := x_1^{}\kern.2em x_2^2\kern.2em \sqrt[3]{x_3^{}} \) definierte Funktion \( h\colon\RR^3\to\RR \) hat die partiellen Ableitungen

\( h_{x_1^{}}(x_1^{},x_2^{},x_3^{}) \) \( = x_2^2\kern.2em \sqrt[3]{x_3^{}} \qquad \) [\(x_2\), \(x_3\) sind hier Konstanten]

\( h_{x_2^{}}(x_1^{},x_2^{},x_3^{}) \) \( = x_1^{}\kern.2em \sqrt[3]{x_3^{}}\kern.2em \kern.2em 2\kern.2em x_2^{} \qquad \) [jetzt sind \(x_1\), \(x_3\) konstant]

\( h_{x_3^{}}(x_1^{},x_2^{},x_3^{}) \) \( = \dfrac{x_1^{}\kern.2em x_2^2}{3\kern.2em \sqrt[3]{x_3^{2}}} \).

Insbesondere ist \(h\) nur in den Stellen partiell nach \( x_3 \) differenzierbar, die zu \( \RR^3 \setminus \set{x\in\RR^3}{x_3^{}\alert{=}0\alert{\ne} x_1x_2} \) gehören.

4.3.6. Beispiel.

\( g\colon\RR^n\to\RR\colon \) \( x = (x_1^{},x_2^{},\ldots,x_n^{}) \) \( \mapsto \prod\limits_{j=1}^n x_j^{} \) \( = x_1^{}\cdot x_2^{}\cdots x_n^{} \).

Das ist so gemeint: Man multipliziert alle Faktoren (mit Nummern zwischen \(1\) und \(n\)) außer dem mit Nummer \(\color{blue}k\).

4.3.7. Definition.

Es sei \( D\subseteq\RR^n \). Die Funktion \( f\colon D\to\RR \) sei nach jeder Variablen partiell differenzierbar. Dann heißt

\( \alert{\grad f(x)} := \left(\begin{array}{l} f_{{x_1^{}}^{}}(x)\\ f_{{x_2^{}}^{}}(x) \\\vdots \\ f_{{x_n^{}}^{}}(x) \end{array}\right) \)

Man schreibt auch \( \alert{\nabla f(x)} := \grad f(x) \), dieses Symbol wird „Nabla“ ausgesprochen.

Wenn die Funktion \( f_{x_j^{}} \) wieder partiell differenzierbar ist, schreiben wir kurz

\( \alert{f_{x_j^{}\kern.2em x_\ell^{}}}(x) \) \( := \left(f_{x_j^{}}\right)_{x_\ell^{}} (x) \).

\( \alert{f_{x_{j_1}^{}\kern.2em x_{j_2}^{}\kern.2em \cdots\kern.2em x_{j_k^{}}}}(x) \)

entsteht durch wiederholtes partielles Differenzieren (zuerst nach \( x_{j_1} \), dann nach \( x_{j_2} \) usw., zuletzt nach \( x_{j_k} \)).

Dabei sind Wiederholungen in der Folge \( x_{j_1}^{} \), \( x_{j_2}^{} \), \( x_{j_3}^{}\ldots \) natürlich erlaubt!

Die Funktion \( f_{x_{j_1}^{}\kern.2em x_{j_2}^{}\kern.2em \cdots\kern.2em x_{j_k}^{}} \) nennt man eine \(k\)-te partielle Ableitung von \(f\).

Es kommt hier ja auf die Wahl der Folge \( x_{j_1}^{} \), \( x_{j_2}^{} \), \( x_{j_3}^{}\ldots \) an.

Häufig sind zur Bezeichnung höherer partieller Ableitungen Multi-Indizes nützlich:

Unter einem solchen Multi-Index verstehen wir (wie in 4.2.10) eine Liste \( \alpha=(\alpha_1,\dots,\alpha_n) \in \NN_0^n \) von \(n\) Zahlen.

\( \mathrm{D}^\alpha f(x) \) \( := \frac{\partial^{|\alpha|}}{(\partial x_1)^{\alpha_1}_{} \cdots (\partial x_n)^{\alpha_n}_{}} \kern.2em f(x{_1^{},\dots,x_n^{}}) \) \( := \left(\frac{\partial}{\partial x_1}\right)^{\alpha_1} \cdots \left(\frac{\partial}{\partial x_n}\right)^{\alpha_n} \kern.2em f(x) \).

\( \mathrm{D}^{(3,0,2,1)}f(x) \) \( = \) \( \frac{\partial^{6}}{(\partial x_1)^{3}\kern.2em (\partial x_3)^{2}\kern.2em (\partial x_4)^{}}\kern.2em f(x_1^{},\dots,x_n^{}) \) \( = f_{x_4^{}\kern.2em x_3^{}\kern.2em x_3^{}\kern.2em x_1^{}\kern.2em x_1^{}\kern.2em x_1^{}}(x) \)

Zuerst einmal nach der vierten, dann zweimal nach der dritten und schließlich noch dreimal nach der ersten Variablen abgeleitet.

(Dass wir nicht noch kompliziertere Bezeichnungen einführen müssen, liegt am Satz von Schwarz 4.3.10).

4.3.8. Definition.

Die Funktion \( f\colon D\to\RR \) heißt \(k\)-mal partiell differenzierbar, wenn alle \(k\)-ten partiellen Ableitungen existieren (d.h. für alle \( (x_{j_1}^{}, x_{j_2}^{}, \ldots, x_{j_k}^{}) \) mit \( 1\le j_\ell\le n \) — insbesondere verlangen wir die Existenz von \( \mathrm{D}^\alpha f \) für alle Multi-Indizes \( \alpha\in \NN_0^n \) mit \( |\alpha|\le k \)).

Man nennt die Funktion \(k\)-mal stetig partiell differenzierbar, wenn sie \(k\)-mal partiell differenzierbar ist und für alle \( \ell \) mit \( 0\le\ell\le k \) auch jede \(\ell\)-te partielle Ableitung stetig ist.

Die Menge aller (mindestens) \(k\)-mal stetig partiell differenzierbaren Funktionen von \(D\) nach \(\RR\) wird mit \( \alert{\Cf k D} \) bezeichnet.

Wenn man null mal ableitet, aber dann noch eine stetige Funktion erhält, hat man die ursprüngöliche Funktion behalten, aber die muss stetig sein.

Es gilt offensichtlich \( \Cf{k+1}D\subseteq\Cf kD \) \( \subseteq\cdots \) \( \subseteq\Cf1D\subseteq\Cf0D \).

4.3.9. Beispiel.

\( f_x\binom xy \) \( = 2\kern.2em x\kern.2em y^3\kern.2em \ln x + x^2\kern.2em y^3\kern.2em \frac1x \) \( = x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^3 \),

\( f_y\binom xy \) \( = 3\kern.2em (x^2\kern.2em \ln x)\kern.2em y^2 \).

\( f_{x\kern.2em x}\binom xy \) \( = \frac{\partial}{\partial x} \left( x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^3\right) \) \( = \left((2\kern.2em \ln x+1) + x\kern.2em \frac2x\right)\kern.2em y^3 \) \( = \left(2\kern.2em \ln x + 3 \right)\kern.2em y^3 \),

\( f_{x\kern.2em y}\binom xy \) \( = \frac{\partial}{\partial y} \left( x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^3\right) \) \( = 3\kern.2em x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^2 \),

\( f_{y\kern.2em x}\binom xy \) \( = \frac{\partial}{\partial x} \left( 3\kern.2em (x^2\kern.2em \ln x)\kern.2em y^2 \right) \) \( = 3\kern.2em \left(2\kern.2em x\kern.2em \ln x + x^2\kern.2em \frac1x\right)\kern.2em y^2 \) \( = 3\kern.2em x\kern.2em \left(2\kern.2em \ln x + 1 \right) \kern.2em y^2 \),

\( f_{y\kern.2em y}\binom xy \) \( = \frac{\partial}{\partial y} \left(3\kern.2em (x^2\kern.2em \ln x)\kern.2em y^2 \right) \) \( = 6\kern.2em (x^2\kern.2em \ln x)\kern.2em y \).

Dass im eben betrachteten Beispiel \( f_{x\kern.2em y} \) und \( f_{y\kern.2em x} \) übereinstimmen, ist kein Zufall:

4.3.10. Satz von Schwarz.

Die partiellen Ableitungen sind „Ableitungen in Richtung der Koordinatenachsen“. Wir verallgemeinern dies zu Ableitungen in beliebige Richtungen:

4.3.11. Definition.

Es seien \( D\subseteq\RR^n \), ein innerer Punkt \( a\in\inn D \) und eine Funktion \( f\colon D\to\RR \) gegeben.

Wenn der Grenzwert \( \lim\limits_{h\to 0} \dfrac{f(a+h\kern.2em v)-f(a)}{h} \) existiert, so nennt man ihn die Ableitung längs \(v\) von \(f\) im Punkt \(a\).

Wenn \(v\) die Länge \(1\) hat, nennt man \( \) die Richtungsableitung (oder den Anstieg) von \(f\) in Richtung \(v\) im Punkt \(a\).

Die Ableitung längs \(v\) hängt tatsächlich nicht nur von der Richtung, sondern auch vom Betrag von \(v\) ab: Es gilt \( \partial_{\color{blue}{t}\kern.2em v}^{}\kern.2em f(x) = \color{blue}{t}\kern.2em \partial_{v}^{}\kern.2em f(x) \).

Das sieht man, indem man im definierenden Grenzwert \(v\) durch \(t\kern.2em v\) und \(h\) durch \(h/t\) ersetzt.

Allgemein beschreibt die Richtungsableitung \( \partial_v^{}f(a) \) einer Funktion \(f\) in zwei Variablen die Steigung der Tangenten im Punkt \( \bigl(a_1,a_2,f(a)\bigr)\transp \) an den Graphen von \(f\) in der Ebene, die angeheftet am Punkt \( \bigl(a_1,a_2,f(a)\bigr)\transp \) aufgespannt wird von \(v\) und dem dritten Standardbasisvektor (der die „vertikale Achse“ erzeugt, auf der wir die Funktionswerte abtragen).

Damit sich diese Steigung richtig ergibt, ist die Voraussetzung \(|v | = 1\) wichtig!

4.3.12. Satz.

Für jeden Vektor \( v=(v_1,\ldots,v_n)\transp \) und für jeden inneren Punkt \( a\in\inn D \) gilt:

\( \partial_v^{} f(a) \) \( = \grad f(a)\alert{\skalp} v \) \( = \sum\limits_{j=1}^n f_{x_j^{}}(a)\kern.2em v_j \).