\( \def\pause{} \def\,{\kern.2em} \def\implies{\Longrightarrow} \newcommand{\alert}[1]{\color{red}{#1}} \def\ds{\displaystyle} \let\epsilon\varepsilon \let\subseteq\subseteqq \let\supseteq\supseteqq \let\setminus\smallsetminus \let\le\leqq \let\leq\leqq \let\ge\geqq \let\geq\geqq \newcommand{\NN}{\mathbb N} \newcommand{\RR}{\mathbb R} \renewcommand{\limsup}{\mathop{\overline{\mathrm{lim}}}} \renewcommand{\liminf}{\mathop{\underline{\mathrm{lim}}}} \newcommand{\redlimsup}{\mathop{\color{red}{\overline{\mathrm{lim}}}}} \newcommand{\redliminf}{\mathop{\color{red}{\underline{\mathrm{lim}}}}} \newcommand{\konv}[1][]{\mathbin{\mathop{\longrightarrow}\limits_{#1}}} \newcommand{\bigset}[2]{\left\{{#1}\left|\strut \vphantom{#1}\vphantom{#2}\right.\kern.1em {#2}\right\}} \newcommand{\set}[2]{\left\{\smash{#1}\left|% \vphantom{\smash{#1}}\vphantom{\smash{#2}}\right.\kern.1em\smash{#2}\right\}} \newcommand{\E}{\mathrm{e}} \newcommand{\I}{\mathrm{i}} \newcommand{\diff}{\mathop{\mathrm{\kern0pt d}}} \newcommand{\diffAt}[3]{\frac{\diff}{\diff{#2}}\kern.1em\left.{\vphantom{\frac00}#1}\kern.1em\right|_{#2=#3}} \newcommand{\partAt}[3]{\frac{\partial}{\partial{#2}}\kern.1em\left.{\vphantom{\frac00}#1}\kern.1em\right|_{#2=#3}} \newcommand{\diffgleich}{\mathbin{\kern.1em\mathop{=}\limits^{\kern.1em\prime}}\kern.1em} \newcommand{\grad}{\mathop{\mathrm{grad}}} \newcommand{\Jac}[2]{\mathrm{J}{#1}\left(#2\right)} \newcommand{\Hesse}[2]{\mathrm{H}{#1}\left(#2\right)} \newcommand{\Hesso}[1]{\mathrm{H}{#1}} \newcommand{\transp}{^{^{\scriptstyle\intercal}}} \newcommand{\inn}[1]{{#1}^\circ} \newcommand{\Cf}[2]{\mathcal C^{#1}(#2)} \newcommand{\skalp}{\mathbin{\scriptstyle\bullet}} \)

4.3. Partielle Ableitungen

Es sei \( D\subseteq\RR^n \) und \( a=\left(\begin{array}{c}a_1\\\vdots\\a_n\end{array}\right)\in\inn D \).

Für jede Gerade \( G =a+\RR\kern.2em v \) durch \(a\) enthält dann der Schnitt \( G\cap D \) ein ganzes Intervall \( \bigset{a+h\kern.2em v}{h\in(-\epsilon,+\epsilon)} \).

Wir konzentrieren uns zunächst auf den Fall, dass \(v\) einer der Basisvektoren \(e_j\) der Standardbasis von \(\RR^n\) ist. Dann liegt die Gerade \(G\) parallel zur entsprechenden Koordinatenachse:

Es gilt \( G=\bigset{\left(\begin{array}{c} a_1\\\vdots\\a_{j-1}\\\alert{x_j}\\a_{j+1}\\\vdots\\a_n\end{array}\right)}{x_j\in\RR} \).

Das eben gefundene Intervall hat dann die Gestalt \( \bigset{\left(\begin{array}{c} a_1\\\vdots\\a_{j-1}\\\alert{x_j}\\a_{j+1}\\\vdots\\a_n\end{array}\right)} {x_j\in U_\epsilon(a)} \); dabei ist \(U_\epsilon(a) = (a_j-\epsilon,a_j+\epsilon)\).

Für jede Funktion

\( f\colon D\to\RR \)

ist die Zuordnung

\( f_G\colon (a_j-\epsilon,a_j+\epsilon) \to \RR \colon \) \( t \mapsto f\bigl(a+(t-a_j^{})\kern.2em e_j\bigr) \) \( = f \left(\begin{array}{c} a_1\\\vdots\\a_{j-1}\\\alert{t}\\a_{j+1}\\\vdots\\a_n\end{array}\right) \)

dann eine Abbildung in einer Veränderlichen.

Den Graph von \( f_G \) können wir uns als einen Teil des Graphen von \(f\) vorstellen: als Teil der Kurve, die als Schnitt des Graphen von \(f\) mit der vertikalen Ebene durch die Gerade \( G=a+\RR\kern.2em e_j \) entsteht.

4.3.1. Definition.

Ist die Funktion \( f_G \) differenzierbar an der Stelle \(a_j\), so heißt ihre Ableitung

\( \diffAt{f_G(t)}{t}{a_j} \) \( \quad =: \quad \alert{\left.\frac{\partial}{\partial\kern.2em x_j}\kern.2em f(x)\right|_{x=a}} \) \( \quad =: \quad \alert{\frac{\partial\kern.2em f}{\partial\kern.2em x_j}\kern.2em(a)} \)

die partielle Ableitung von \(f\) nach \( x_j \) an der Stelle \(a\).

In diesem Fall nennt man \(f\) partiell nach \( x_j \) differenzierbar an der Stelle \(a\) (oder kurz in \(a\)).

Man erhält die partielle Ableitung auch als Grenzwert (Differentialquotient) \( \quad \frac{\partial f}{\partial x_j^{}}(a) \) \( \quad = \quad \pause \lim\limits_{h\to0}\frac{f\bigl(a+h\kern.2em e_j^{}\bigr) - f(a)}{h} \).

Das Symbol „\(\partial\)“ statt \(\diff\) soll signalisieren, dass wir alle Variablen bis auf eine festhalten.

Weitere übliche Bezeichnungen sind \( \alert{\partial_j\kern.2em f(a)} \) oder \( \alert{f_{x_j}(a)} \) statt \( \frac{\partial\kern.2em f}{\partial\kern.2em x_j}\kern.2em(a) \).

4.3.2. Definition.

Ist \(f\) in jedem inneren Punkt von \(D\) partiell nach \( x_j \) differenzierbar, so nennt man die Funktion

\( f_{x_j}\colon\inn D \to\RR \colon \) \( x\mapsto f_{x_j}(x) \)

die partielle Ableitung von \(f\) nach \( x_j \).

Wenn die Variablen der Funktion \(f\) statt mit \( x_1,\kern.2em x_2,\kern.2em\ldots \) mit \( \alert{x,y,z,t} \) bezeichnet werden, schreibt man auch \( \alert{f_x,\kern.2em f_y,\kern.2em f_z,\kern.2em f_t} \) für die partiellen Ableitungen.

Diese Bezeichnungen sind vor allem dann hilfreich, wenn man die partiellen Ableitungen erneut partiell differenziert.

4.3.3. Beispiel.

Der Graph der Funktion

\( f\colon\quad \RR^2\to\RR\colon \) \( \binom xy\mapsto -x^2-y^2+3 \)

ist ein Rotationsparaboloid. Die partiellen Ableitungen sind

\( f_x\binom xy = -2\kern.2em x , \qquad \) \( f_y\binom xy = -2\kern.2em y \).

Beim Ableiten nach \(y\) ist \(x\) als Konstante zu behandeln!

Die Einschränkung der Funktion \(f\) auf die Gerade \( G=\binom00+\RR\binom10 \) (das ist die \(x\)-Achse) liefert \( f_G(t) \) \( = f\binom t0 \) \( = -t^2+3 \).

die Ableitung \( f_x\binom 00 \) \( =f_G'(0) \) \( =0 \) dieser Funktion gibt die Steigung der Geraden in der \(x\)-\(z\)-Ebene an, die den Graphen von \(f\) (also das Paraboloid) im Punkt \( \left(0,0,f\binom 00\right)\transp \) berührt.

Für die Parallele \( H = \binom 1{-1}+\RR\binom 01 \) zur \(y\)-Achse durch \( \binom 1{-1} \) ergibt sich

\( f_H(t) \) \( = f\binom 1{t} \) \( = -t^2+2 \).

Die Steigung der Tangente an das Paraboloid in der zur \(y\)-\(z\)-Ebene parallelen Ebene durch \( (1,-1,0)\transp \) im Punkt \( \bigl(1,-1,f\binom 1{-1}\bigr)\transp \) erhalten wir als \( f_y\binom 1{-1} \) \( = f_H'(-1) \) \( = 2 \).

Die folgende interaktive Skizze zeigt einen Ausschnitt des Paraboloids, die \(x\)-\(y\)-Ebene (grau), die \(x\)-\(z\)-Ebene (als Maschendrahtzaun) und die Parallele zur \(y\)-\(z\)-Ebene durch \( (1,-1,0)\transp \).

Außerdem sind die Geraden \(\color{blue}G\) und \(\color{red}H\) (rot bzw. blau) sowie die darüber liegenden Tangenten samt ihren Berührpunkten eingezeichnet.

4.3.4. Beispiel.

Für \( f(x,y,z) = \sin(x\kern.2em y)+\cos(y\kern.2em z) \) erhalten wir

\( f_x(x,y,z) \) \( = y\kern.2em \cos(x\kern.2em y) + 0 \) \( = y\kern.2em \cos(x\kern.2em y) \)

\( f_y(x,y,z) \) \( = x\kern.2em \cos(x\kern.2em y) + z\kern.2em \bigl(-\sin(y\kern.2em z)\bigr) \) \( = x\kern.2em \cos(x\kern.2em y) - z\kern.2em \sin(y\kern.2em z) \)

\( f_z(x,y,z) \) \( = 0 + y\kern.2em \bigl(-\sin(y\kern.2em z)\bigr) \) \( = - y\kern.2em \sin(y\kern.2em z) \).

4.3.5. Beispiel.

Die durch \( h(x_1^{},x_2^{},x_3^{}) \) \( := x_1^{}\kern.2em x_2^2\kern.2em \sqrt[3]{x_3^{}} \) definierte Funktion \( h\colon\RR^3\to\RR \) hat die partiellen Ableitungen

\( h_{x_1^{}}(x_1^{},x_2^{},x_3^{}) \) \( = x_2^2\kern.2em \sqrt[3]{x_3^{}} \qquad \) [\(x_2\), \(x_3\) sind hier Konstanten]

\( h_{x_2^{}}(x_1^{},x_2^{},x_3^{}) \) \( = x_1^{}\kern.2em \sqrt[3]{x_3^{}}\kern.2em \kern.2em 2\kern.2em x_2^{} \qquad \) [jetzt sind \(x_1\), \(x_3\) konstant]

\( h_{x_3^{}}(x_1^{},x_2^{},x_3^{}) \) \( = \dfrac{x_1^{}\kern.2em x_2^2}{3\kern.2em \sqrt[3]{x_3^{2}}} \).

Insbesondere ist \(h\) nur in den Stellen partiell nach \( x_3 \) differenzierbar, die zu \( \RR^3 \setminus \set{x\in\RR^3}{x_3^{}\alert{=}0\alert{\ne} x_1x_2} \) gehören.

4.3.6. Beispiel.

Es sei

\( g\colon\RR^n\to\RR\colon \) \( x = (x_1^{},x_2^{},\ldots,x_n^{}) \) \( \mapsto \prod\limits_{j=1}^n x_j^{} \) \( = x_1^{}\cdot x_2^{}\cdots x_n^{} \).

Die partielle Ableitung nach \( x_k \) ist

\( g_{x_k^{}}(x) \) \( = \prod\limits_{j\alert{\ne}\color{blue} k} x_j^{} \).

Das ist so gemeint: Man multipliziert alle Faktoren (mit Nummern zwischen \(1\) und \(n\)) außer dem mit Nummer \(\color{blue}k\).

4.3.7. Definition.

Es sei \( D\subseteq\RR^n \). Die Funktion \( f\colon D\to\RR \) sei nach jeder Variablen partiell differenzierbar. Dann heißt

\( \alert{\grad f(x)} := \left(\begin{array}{l} f_{{x_1^{}}^{}}(x)\\ f_{{x_2^{}}^{}}(x) \\\vdots \\ f_{{x_n^{}}^{}}(x) \end{array}\right) \)

der Gradient von \(f\) an der Stelle \( x\in D \).

Beim Gradienten legen wir Wert darauf, dass er als Spalte geschrieben wird.

Man schreibt auch \( \alert{\nabla f(x)} := \grad f(x) \), dieses Symbol wird „Nabla“ ausgesprochen.

Der Gradient liefert eine Abbildung \( \grad f\colon D \to \RR^n \).

Wenn die Funktion \( f_{x_j^{}} \) wieder partiell differenzierbar ist, schreiben wir kurz

\( \alert{f_{x_j^{}\kern.2em x_\ell^{}}}(x) \) \( := \left(f_{x_j^{}}\right)_{x_\ell^{}} (x) \).

Allgemeiner:

\( \alert{f_{x_{j_1}^{}\kern.2em x_{j_2}^{}\kern.2em \cdots\kern.2em x_{j_k^{}}}}(x) \)

entsteht durch wiederholtes partielles Differenzieren (zuerst nach \( x_{j_1} \), dann nach \( x_{j_2} \) usw., zuletzt nach \( x_{j_k} \)).

Dabei sind Wiederholungen in der Folge \( x_{j_1}^{} \), \( x_{j_2}^{} \), \( x_{j_3}^{}\ldots \) natürlich erlaubt!

Die Funktion \( f_{x_{j_1}^{}\kern.2em x_{j_2}^{}\kern.2em \cdots\kern.2em x_{j_k}^{}} \) nennt man eine \(k\)-te partielle Ableitung von \(f\).

Man beachte, dass es mehrere \(k\)-te partielle Ableitungen gibt:

Es kommt hier ja auf die Wahl der Folge \( x_{j_1}^{} \), \( x_{j_2}^{} \), \( x_{j_3}^{}\ldots \) an.

Häufig sind zur Bezeichnung höherer partieller Ableitungen Multi-Indizes nützlich:

Unter einem solchen Multi-Index verstehen wir (wie in 4.2.10) eine Liste \( \alpha=(\alpha_1,\dots,\alpha_n) \in \NN_0^n \) von \(n\) Zahlen.

Man schreibt \( |\alpha|:=\alpha_1+\cdots+\alpha_n \) und dann

\( \mathrm{D}^\alpha f(x) \) \( := \frac{\partial^{|\alpha|}}{(\partial x_1)^{\alpha_1}_{} \cdots (\partial x_n)^{\alpha_n}_{}} \kern.2em f(x{_1^{},\dots,x_n^{}}) \) \( := \left(\frac{\partial}{\partial x_1}\right)^{\alpha_1} \cdots \left(\frac{\partial}{\partial x_n}\right)^{\alpha_n} \kern.2em f(x) \).

Bei einer Funktion in \(4\) Variablen wäre also z. B.

\( \mathrm{D}^{(3,0,2,1)}f(x) \) \( = \) \( \frac{\partial^{6}}{(\partial x_1)^{3}\kern.2em (\partial x_3)^{2}\kern.2em (\partial x_4)^{}}\kern.2em f(x_1^{},\dots,x_n^{}) \) \( = f_{x_4^{}\kern.2em x_3^{}\kern.2em x_3^{}\kern.2em x_1^{}\kern.2em x_1^{}\kern.2em x_1^{}}(x) \)

eine sechste partielle Ableitung von \(f\):

Zuerst einmal nach der vierten, dann zweimal nach der dritten und schließlich noch dreimal nach der ersten Variablen abgeleitet.

(Dass wir nicht noch kompliziertere Bezeichnungen einführen müssen, liegt am Satz von Schwarz 4.3.10).

4.3.8. Definition.

Es sei \( D\subseteq\RR^n \).

Die Funktion \( f\colon D\to\RR \) heißt \(k\)-mal partiell differenzierbar, wenn alle \(k\)-ten partiellen Ableitungen existieren (d.h. für alle \( (x_{j_1}^{}, x_{j_2}^{}, \ldots, x_{j_k}^{}) \) mit \( 1\le j_\ell\le n \) — insbesondere verlangen wir die Existenz von \( \mathrm{D}^\alpha f \) für alle Multi-Indizes \( \alpha\in \NN_0^n \) mit \( |\alpha|\le k \)).

Man nennt die Funktion \(k\)-mal stetig partiell differenzierbar, wenn sie \(k\)-mal partiell differenzierbar ist und für alle \( \ell \) mit \( 0\le\ell\le k \) auch jede \(\ell\)-te partielle Ableitung stetig ist.

Die Menge aller (mindestens) \(k\)-mal stetig partiell differenzierbaren Funktionen von \(D\) nach \(\RR\) wird mit \( \alert{\Cf k D} \) bezeichnet.

Insbesondere ist \( \Cf 0 D \) die Menge aller stetigen Funktionen auf \(D\).

Wenn man null mal ableitet, aber dann noch eine stetige Funktion erhält, hat man die ursprüngöliche Funktion behalten, aber die muss stetig sein.

Es gilt offensichtlich \( \Cf{k+1}D\subseteq\Cf kD \) \( \subseteq\cdots \) \( \subseteq\Cf1D\subseteq\Cf0D \).

4.3.9. Beispiel.

Wir betrachten \( D:=(0,+\infty)\times\RR \subseteq\RR^2 \) und

\( f\colon D\to\RR\colon \binom xy \mapsto x^2\kern.2em y^3\kern.2em \ln x \).

Es gilt

\( f_x\binom xy \) \( = 2\kern.2em x\kern.2em y^3\kern.2em \ln x + x^2\kern.2em y^3\kern.2em \frac1x \) \( = x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^3 \),

\( f_y\binom xy \) \( = 3\kern.2em (x^2\kern.2em \ln x)\kern.2em y^2 \).

\( f_{x\kern.2em x}\binom xy \) \( = \frac{\partial}{\partial x} \left( x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^3\right) \) \( = \left((2\kern.2em \ln x+1) + x\kern.2em \frac2x\right)\kern.2em y^3 \) \( = \left(2\kern.2em \ln x + 3 \right)\kern.2em y^3 \),

\( f_{x\kern.2em y}\binom xy \) \( = \frac{\partial}{\partial y} \left( x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^3\right) \) \( = 3\kern.2em x\kern.2em \left(2\kern.2em \ln x + 1\right)\kern.2em y^2 \),

\( f_{y\kern.2em x}\binom xy \) \( = \frac{\partial}{\partial x} \left( 3\kern.2em (x^2\kern.2em \ln x)\kern.2em y^2 \right) \) \( = 3\kern.2em \left(2\kern.2em x\kern.2em \ln x + x^2\kern.2em \frac1x\right)\kern.2em y^2 \) \( = 3\kern.2em x\kern.2em \left(2\kern.2em \ln x + 1 \right) \kern.2em y^2 \),

\( f_{y\kern.2em y}\binom xy \) \( = \frac{\partial}{\partial y} \left(3\kern.2em (x^2\kern.2em \ln x)\kern.2em y^2 \right) \) \( = 6\kern.2em (x^2\kern.2em \ln x)\kern.2em y \).

Dass im eben betrachteten Beispiel \( f_{x\kern.2em y} \) und \( f_{y\kern.2em x} \) übereinstimmen, ist kein Zufall:

4.3.10. Satz von Schwarz.

Es sei \( D\subseteq\RR^n \) und \( f\in\Cf2D \).

Dann gilt für alle \( a\in\inn D \) und alle \( j,\ell\in\{1,\ldots,n\} \):

\( f_{x_j^{}\kern.2em x_\ell^{}}(a) = f_{x_\ell^{}\kern.2em x_j^{}}(a) \).

Vorsicht:

Wenn man unsere Voraussetzung \( f\in\Cf2D \) (also die Existenz und Stetigkeit der nullten, ersten und zweiten Ableitungen) abschwächt zu „zweimal partiell differenzierbar“, ist die Vertauschbarkeit der partiellen Ableitungen im Allgemeinen nicht mehr gegeben.

Die partiellen Ableitungen sind „Ableitungen in Richtung der Koordinatenachsen“. Wir verallgemeinern dies zu Ableitungen in beliebige Richtungen:

4.3.11. Definition.

Es seien \( D\subseteq\RR^n \), ein innerer Punkt \( a\in\inn D \) und eine Funktion \( f\colon D\to\RR \) gegeben.

Wir betrachten einen Vektor \( v\in\RR^n \).

Wenn der Grenzwert \( \lim\limits_{h\to 0} \dfrac{f(a+h\kern.2em v)-f(a)}{h} \) existiert, so nennt man ihn die Ableitung längs \(v\) von \(f\) im Punkt \(a\).

Wir bezeichnen die Ableitung längs \(v\) mit \( \alert{\partial_v^{} f(a)} \).

Wenn \(v\) die Länge \(1\) hat, nennt man \( \) die Richtungsableitung (oder den Anstieg) von \(f\) in Richtung \(v\) im Punkt \(a\).

Die Ableitung längs \(v\) hängt tatsächlich nicht nur von der Richtung, sondern auch vom Betrag von \(v\) ab: Es gilt \( \partial_{\color{blue}{t}\kern.2em v}^{}\kern.2em f(x) = \color{blue}{t}\kern.2em \partial_{v}^{}\kern.2em f(x) \).

Das sieht man, indem man im definierenden Grenzwert \(v\) durch \(t\kern.2em v\) und \(h\) durch \(h/t\) ersetzt.

Für den Standardbasisvektor \(e_j\) gilt

\( \partial_{e_j}^{} f(a) = \frac{\partial}{\partial x_j^{}}f(a) \).

Partielle Ableitungen sind also tatsächlich spezielle Richtungsableitungen.

Allgemein beschreibt die Richtungsableitung \( \partial_v^{}f(a) \) einer Funktion \(f\) in zwei Variablen die Steigung der Tangenten im Punkt \( \bigl(a_1,a_2,f(a)\bigr)\transp \) an den Graphen von \(f\) in der Ebene, die angeheftet am Punkt \( \bigl(a_1,a_2,f(a)\bigr)\transp \) aufgespannt wird von \(v\) und dem dritten Standardbasisvektor (der die „vertikale Achse“ erzeugt, auf der wir die Funktionswerte abtragen).

Damit sich diese Steigung richtig ergibt, ist die Voraussetzung \(|v | = 1\) wichtig!

4.3.12. Satz.

Es sei \( f\in\Cf1D \).

Für jeden Vektor \( v=(v_1,\ldots,v_n)\transp \) und für jeden inneren Punkt \( a\in\inn D \) gilt:

\( \partial_v^{} f(a) \) \( = \grad f(a)\alert{\skalp} v \) \( = \sum\limits_{j=1}^n f_{x_j^{}}(a)\kern.2em v_j \).

Hier bezeichnet das Verknüpfungssymbol \( \alert{\skalp} \) das Skalarprodukt in \(\RR^n\).

Wir werden das im Rahmen der Analysis mehrerer Veränderlicher so beibehalten.