MAT O18 DAT 04 ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-001.jpg?height=239&width=799&top_left_y=2532&top_left_x=1041) Michael Drmota Bernhard Gittenberger Günther Karigl Alois Panholzer Institut für Diskrete Mathematik und Geometrie Technische Universität Wien Wiedner Hauptstraße 8-10/104 A-1040 Wien ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-003.jpg?height=303&width=316&top_left_y=1291&top_left_x=103) 1. Auflage 2007 2. Auflage 2008 Alle Rechte vorbehalten. Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Gedruckt auf säurefreiem Papier. (c) Copyright 2008 by Heldermann Verlag, Langer Graben 17, 32657 Lemgo, Germany; www.heldermann.de. All rights reserved. Berliner Studienreihe zur Mathematik Band 17 M. Drmota, B. Gittenberger G. Karigl, A. Panholzer ## Mathematik für Informatik diomernum? roudrod bewid didsmrotof rint sidsmedtsM ## Inhaltsverzeichnis Vorwort ..... vii 1 Grundlagen ..... 1 1.1 Zahlen ..... 1 1.2 Elementare Zahlentheorie ..... 15 1.3 Elementare Aussagenlogik . . ..... 24 1.4 Mengen ..... 29 1.5 Relationen und Abbildungen ..... 35 1.6 Übungsaufgaben ..... 43 2 Diskrete Mathematik ..... 47 2.1 Kombinatorik . ..... 47 2.2 Graphentheorie ..... 57 2.3 Algebraische Strukturen ..... 71 2.4 Übungsaufgaben ..... 88 3 Lineare Algebra ..... 92 3.1 Vektoren ..... 93 3.2 Matrizen ..... 104 3.3 Lineare Abbildungen ..... 113 3.4 Lineare Gleichungssysteme ..... 118 3.5 Determinanten ..... 125 3.6 Eigenwerte und Eigenvektoren ..... 129 3.7 Skalarprodukte ..... 132 3.8 Übungsaufgaben ..... 136 4 Folgen, Reihen und Funktionen ..... 139 4.1 Folgen reeller Zahlen . . ..... 139 4.2 Unendliche Reihen ..... 148 4.3 Asymptotischer Vergleich von Folgen ..... 158 4.4 Elementare Funktionen . ..... 160 4.5 Grenzwerte von Funktionen und Stetigkeit ..... 170 4.6 Übungsaufgaben ..... 177 5 Differential- und Integralrechnung in einer Variablen ..... 182 5.1 Die Ableitung.. ..... 183 5.2 Die Taylor'sche Formel und der Mittelwertsatz ..... 189 5.3 Das unbestimmte Integral ..... 204 5.4 Das bestimmte Integral . ..... 209 5.5 Uneigentliche Integrale . ..... 217 5.6 Übungsaufgaben ..... 220 6 Differential- und Integralrechnung in mehreren Variablen ..... 225 6.1 Funktionen in mehreren Variablen ..... 225 6.2 Differentialrechnung in mehreren Variablen ..... 233 6.3 Bestimmung von Extrema ..... 243 6.4 Integralrechnung in mehreren Variablen . ..... 249 6.5 Übungsaufgaben ..... 265 7 Differenzen- und Differentialgleichungen ..... 270 7.1 Differenzengleichungen - Einführung und Beispiele ..... 270 7.2 Differenzengleichungen erster Ordnung . . ..... 273 7.3 Lineare Differenzengleichungen zweiter Ordnung ..... 282 7.4 Zelluläre Automaten und das Spiel des Lebens ..... 287 7.5 Gewöhnliche Differentialgleichungen - Einführung und allgemeine Theorie ..... 289 7.6 Lineare Differentialgleichungen erster und zweiter Ordnung ..... 293 7.7 Nichtlineare Differentialgleichungen und qualitative Methoden . ..... 302 7.8 Partielle Differentialgleichungen ..... 306 7.9 Übungsaufgaben ..... 336 8 Fourier-Analyse ..... 342 8.1 Fourier-Reihen ..... 342 8.2 Diskrete Fourier-Transformation . . ..... 360 8.3 Fourier-Transformation ..... 367 8.4 Laplace-Transformation ..... 375 8.5 Übungsaufgaben ..... 383 9 Numerische Mathematik ..... 388 9.1 Auflösung von Gleichungen und Gleichungssystemen ..... 388 9.2 Verfahren zur Lösung linearer Gleichungssysteme ..... 395 9.3 Approximation und Interpolation ..... 400 9.4 Numerische Integration ..... 409 9.5 Simulation von Differentialgleichungen ..... 414 9.6 Die Methode der Finiten Elemente . ..... 420 9.7 Übungsaufgaben ..... 424 Literaturverzeichnis ..... 427 Sachverzeichnis ..... 429 ## Vorwort Das vorliegende Buch ist aus Vorlesungen Mathematik 1 - 3 für Studierende der Informatik an der Technischen Universität Wien entstanden, die von den Autoren seit mehreren Jahren betreut werden. Es behandelt alle erforderlichen Gebiete, die im Studienplan für diese drei Vorlesungen vorgesehen sind, versucht aber auch, durch inhaltliche Ergänzungen zum Weiterlesen und zum Weiterstudium anzuregen. Das Buch richtet sich vorrangig an Studierende der Informatik. Es soll einerseits ein begleitendes Lehrbuch für die mathematischen Grundvorlesungen sein, natürlich Unterlage zur Prüfungsvorbereitung, es soll aber genau so als Mathematik-Nachschlagewerk für das gesamte Studium dienen. Dieses Buch ist schließlich auch zum Selbststudium geeignet, und die Autoren würden sich freuen, wenn es ebenso von dritter Seite Verwendung finden würde. Eine besondere Herausforderung war es, trotz der knappen Darstellung sowohl die Lesbarkeit als auch die Vollständigkeit der behandelten Themenkreise zu erhalten. Weiters wurden viele inhaltliche Bezüge zur Informatik hergestellt, insbesondere in den im Text ausgeführten Beispielen, und der algorithmische Aspekt steht, wo immer es möglich war, im Vordergrund. So werden unter anderem der Euklidische Algorithmus, die Berechnung von Prüfziffern, das RSA-Verschlüsselungsverfahren, Fehler korrigierende Linearcodes, die Berechnung elektrischer Netzwerke, die Eigenwertmethode zur Reihung von Webseiten, Aufwandsabschätzungen von Algorithmen wie z.B. Bubblesort und Quicksort, zelluläre Automaten wie z.B. „Spiel des Lebens", die Fast-Fourier-Transform in der Signalverarbeitung und verschiedene Aufgabenstellungen aus der Physik und Elektrotechnik behandelt. Wie bereits angedeutet, orientiert sich der Inhalt an den mathematischen Grundvorlesungen. Nach den Grundlagen (d.s. im Wesentlichen Zahlen, elementare Aussagenlogik und Mengenlehre) befasst sich bereits das zweite Kapitel mit Informatik-nahen Themenbereichen aus der diskreten Mathematik, nämlich mit kombinatorischen Methoden, Graphentheorie und Grundlagen algebraischer Strukturen. Codierungstheorie und Kryptografie wurden nur in Beispielen behandelt, da diese für die Informatik zweifellos wichtigen Gebiete an der TU Wien in einer eigenen Lehrveranstaltung unterrichtet werden. Das dritte Kapitel befasst sich mit linearer Algebra. Hier wurde bewusst ein allgemeiner Zugang (über beliebigen Skalarkörpern) gewählt. Trotzdem wird versucht, den Bezug zur Anschauung immer wieder herzustellen. Die nächsten drei Kapitel sind der Analysis gewidmet. Das vierte Kapitel beginnt mit dem Grenzwertbegriff und behandelt weiters Folgen, Reihen und elementare Funktionen. Das fünfte Kapitel umfasst die Differential- und Integralrechung in einer Variablen und das sechste die in mehreren Variablen. Einen besonderen Stellenwert nehmen Extremwertaufgaben ein. Die letzten drei Kapitel sind spezielleren Themenkreisen gewidmet. Das siebente beschäftigt sich mit Differenzen- und Differentialgleichungen. Dabei werden sowohl Lösungsverfahren, einschließlich der Methode der erzeugenden Funktionen, als auch die qualitative Theorie behandelt. Hier findet man zahlreiche Anwendungsbeispiele aus Naturwissenschaft und Technik: Komplexität von Sortieralgorithmen, zelluläre Automaten, elektrischer Schwingkreis, Wachstumsmodelle in der Biologie, die Wellengleichung und die Differentialgleichung der schwingenden Membran. Das achte Kapitel befasst sich mit verschiedenen Gesichtspunkten der Fourieranalyse. Neben den klassischen Fourierreihen werden die Fast-Fourier-Transform (FFT), die Fouriertransformation und die Laplacetransformation behandelt. Schließlich sind im neunten Kapitel noch einfache numerische Verfahren wie z.B. Näherungsverfahren zur Lösung von Gleichungen und Gleichungssystemen, Interpolationsverfahren, numerische Integrationsverfahren und Näherungsverfahren für Differentialgleichungen zusammengestellt. Aus Platzgründen mussten einige Themenbereiche der angewandten Mathematik wie z.B. Stochastik und Statistik oder lineare und diskrete Optimierung ausgeklammert werden. Das Lesen des Buches erfordert keine speziellen Vorkenntnisse. Es werden alle Begriffe grundlegend erklärt, und durch zahlreiche Bilder und durchgerechnete Beispiele wird versucht, die angegebenen Methoden und Resultate zu illustrieren. Jedes Kapitel schließt mit einer Sammlung ausgewählter Übungsaufgaben. Sie sollten alle mit den im Text dargestellten Methoden gelöst werden können. Wenn auch keine speziellen Vorkenntnisse erforderlich sind, so möchten wir trotzdem einen Rat zur Benutzung des Buches geben, der sich in erster Linie an Anfängerinnen und Anfänger bzw. weniger Geübte richtet: Die Mathematik ist geprägt von einem intensiven Gebrauch von Abkürzungen und Symbolen, die am Anfang abschreckend und vielleicht auch unnötig kompliziert erscheinen mögen. Dass diese Symbole überaus nützlich, ja sogar notwendig sind, wird erst nach einer gewissen Vertiefung verständlich. Dieser Unterschied zur Alltagssprache hat aber zur Folge, dass man Mathematikbücher nicht einfach durchliest und schon deren Inhalt beherrscht. Mathematik lässt sich nur durch learning by doing begreifen. Deshalb sollte man beim Lesen dieses Buches immer wieder inne halten und - mit Hilfe von Bleistift und Papier - einzelne Passagen durchdenken. Auf diese Art werden Sie als Leser dieses Buches rasch Fortschritte machen und hoffentlich auch viel Freude an der Mathematik finden. Die Autoren möchten sich vor allem bei ihrem Kollegen Günther Eigenthaler für das genaue Korrekturlesen des Manuskripts und für seine zahlreichen wertvollen Verbesserungsvorschläge bedanken. Wir danken auch Hans Havlicek für seine Unterstützung bei der Erstellung der Formatvorlage für dieses Buch. Unser Dank gebührt schließlich dem Heldermann-Verlag für die Aufnahme und Unterstützung bei der Herausgabe des Buches. ## Kapitel 1 ## Grundlagen Mathematik hat sich historisch aus der Notwendigkeit entwickelt, zählen und messen bzw. quantifizieren zu können. Wir führen daher gleich am Anfang die natürlichen, ganzen, rationalen, reellen und komplexen Zahlen ein. Daran schließt eine kleine Einführung in die elementare Zahlentheorie und in das Rechnen mit Kongruenzen. Die moderne Mathematik ruht hingegen auf zwei Säulen, auf der Mathematischen Logik und der Mengenlehre. Für unsere Zwecke dienen diese Grundlagen auch zur Sprachregelung, die wir im weiteren Verlauf benützen werden. Die nächsten Unterkapitel sind daher der Aussagenlogik und der Mengenlehre gewidmet. Abschließend kommen wir noch zu weiteren grundlegenden Begriffen, zu Relationen und Funktionen. ### 1.1 Zahlen ## 1. Natürliche Zahlen Die natürlichen Zahlen ${ }^{1}$ sind die Zahlen $0,1,2,3, \ldots$ In der Mathematik fasst man sie zu einer Menge zusammen, die mit $\mathbb{N}=\{0,1,2,3, \ldots\}$ bezeichnet wird. Die wesentliche Eigenschaft der natürlichen Zahlen ist, dass es zu jeder natürlichen Zahl $n$ einen Nachfolger $n^{\prime}=n+1$ gibt. Das entspricht dem intuitiven „Immerweiterzählen“. Streng genommen können die natürlichen Zahlen etwa durch die Peanoaxiome charakterisiert werden: 1. 0 (Null) ist eine natürliche Zahl. 2. Jede natürliche Zahl $n$ hat genau einen Nachfolger. 3. 0 ist nicht Nachfolger einer natürlichen Zahl. 4. Verschiedene natürliche Zahlen besitzen verschiedene Nachfolger. 5. Jede Eigenschaft, welche 0 zukommt und sich von jeder natürlichen Zahl auf den Nachfolger überträgt, kommt bereits allen natürlichen Zahlen zu. Das letzte Axiom heißt auch Induktionsaxiom.[^0] Man überlegt sich leicht, dass die natürlichen Zahlen durch diese fünf (Peano-)Axiome eindeutig bestimmt sind. Graphisch kann man sie folgendermaßen darstellen (siehe Abb. 1.1). Dabei ist $1=0^{\prime}$ der Nachfolger von $0,2=1^{\prime}$ ist der Nachfolger von 1 , usw. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-011.jpg?height=75&width=1032&top_left_y=509&top_left_x=416) Abbildung 1.1 Die natürlichen Zahlen Die folgende Tabelle zeigt, warum die in Abb. 1.1 angegebene Struktur nach den Peanoaxiomen die einzig mögliche ist. | | unmöglich wegen 3 . | | :---: | :---: | | $0 \longrightarrow 1 \longrightarrow 2$ | unmöglich wegen 2 . | | $0 \longrightarrow 1 \longrightarrow$ | unmöglich wegen 4. | | $0 \longrightarrow 1 \longrightarrow$ | unmöglich wegen 4. | | $0 \longrightarrow 1 \longrightarrow \cdots$
$a \longrightarrow a^{\prime} \longrightarrow \cdots$ oder {f170449514606141042} | unmöglich wegen 5. | Aus der „Auflistung“ $0,1,2,3, \ldots$ der natürlichen Zahlen ergibt sich eine natürliche Ordnung. Man sagt $m$ ist kleiner als $n$ und schreibt dafür $mn$ anstelle von $nn+2 $$ Offensichtlich ist diese Aussage für $n=0, n=1$ und $n=2$ nicht richtig. Allerdings gilt $P(3)$ wegen $2^{3}=8>5=2+3$, und es ist nahe liegend, dass auch $P(4), P(5), \ldots$ alle richtig sind. Für den Nachweis verschieben wird den Induktionsanfang zu $n=3$ und versuchen nun, den Schritt $P(n) \Rightarrow P(n+1)$ für $n \geq 3$ zu überprüfen. Wir nehmen also an, dass $2^{n}>n+2$ für ein $n \geq 3$ richtig ist. Multipliziert man mit 2, so ergibt sich direkt $$ 2 \cdot 2^{n}=2^{n+1}>2(n+2)=2 n+4 \geq n+4 \geq(n+1)+2 . $$ Daher gilt $P(n)$ für alle $n \geq 3$.[^2] Manchmal ist es auch günstiger, nicht nur den Schluss $P(n) \Rightarrow P(n+1)$ zu verwenden, sondern die Information über alle vorigen $P(k)$ zu nützen, d.h. man nimmt an, dass $P(0), P(1), \ldots, P(n)$ gültig sind und leitet daraus $P(n+1)$ ab. In der Schreibweise der Logik sieht diese Variante der vollständigen Induktion so aus: $$ P(0) \wedge(\forall n \in \mathbb{N}:(\forall k \leq n: P(k)) \Rightarrow P(n+1)) \Longrightarrow \forall n \in \mathbb{N}: P(n) $$ Je nach Anwendungsbeispiel verwendet man die eine oder andere Variante. Beispiel 1.3 Eine natürliche Zahl $n>1$ heißt prim oder unzerlegbar, wenn sie nicht als Produkt $n=r \cdot s$ zweier natürlicher Zahlen $r, s$ darstellbar ist, die beide kleiner sind als $n$. Für $n>1$ sei $P(n)$ die Aussage, dass $n$ entweder selbst prim ist oder als Produkt endlich vieler primer Zahlen darstellbar ist. Wieder ist der Induktionsanfang verschoben. Wir beginnen mit (der Primzahl) $n=2$, hier ist die Aussage offensichtlich richtig. Für den Beweis nehme man an, dass $P(k)$ für alle $k \leq n$ wahr ist. Wenn nun $n+1$ nicht prim ist, dann gibt es natürliche Zahlen $r \leq n$ und $s \leq n$ mit $n+1=r \cdot s$. Unter der eben angeführten Annahme sind $P(r)$ und $P(s)$ wahr. (Man beachte, dass $r>1$ und $s>1$ sein müssen.) Folglich kann $n+1$ auch als Produkt von endlich vielen primen Zahlen dargestellt werden. Daher ist $P(n+1)$ wahr. Es wurde damit gezeigt, dass jede natürliche Zahl $n>1$ eine Primfaktorenzerlegung besitzt. Um zu zeigen, dass diese Zerlegung bis auf die Reihenfolge der auftretenden Primzahlen eindeutig ist, benötigt man noch zusätzliche Überlegungen (vergleiche mit Abschnitt 1.2). Das „Immerweiterzählen“ ist auch Grundlage des Rechnens mit natürlichen Zahlen. Die Addition von $n$ mit 1 ist durch den Nachfolger von $n$ gegeben: $n+1=n^{\prime}$. Entsprechend ist die Addition von $n$ und 2 (dem Nachfolger von 1): $n+2=n+1^{\prime}=(n+1)^{\prime}$. Allgemein definiert man $$ n+k^{\prime}=(n+k)^{\prime} $$ Aus dem Induktionsaxiom folgt, dass damit die Addition von zwei beliebigen natürlichen Zahlen definiert wird, wenn man zusätzlich noch $n+0=0+n=n$ setzt. Die Multiplikation zweier natürlicher Zahlen wird ebenso rekursiv definiert: $0 \cdot n=0$, $1 \cdot n=n, 2 \cdot n=n+n$ und allgemein $$ k^{\prime} \cdot n=k \cdot n+n $$ Die Addition und die Multiplikation erfüllen die folgenden Rechenregeln, die induktiv bewiesen werden. Satz 1.4 Für natürliche Zahlen $n, m, k \in \mathbb{N}$ gelten die folgenden Eigenschaften: (i) Kommutativgesetz: $n+m=m+n, n \cdot m=m \cdot n$, (ii) Assoziativgesetz: $(n+m)+k=n+(m+k),(n \cdot m) \cdot k=n \cdot(m \cdot k)$, (iii) Distributivgesetz: $(n+m) \cdot k=n \cdot k+m \cdot k$, (iv) Existenz eines neutralen Elements: $n+0=0+n=n, n \cdot 1=1 \cdot n=n$. Neben der Addition und der Multiplikation betrachtet man in den natürlichen Zahlen auch die Subtraktion und die Division. Ist $n \leq m$, so bezeichnet $k=m-n$ die Differenz, also jene natürliche Zahl mit $n+k=m$. Gibt es zu zwei natürlichen Zahlen $m, n$ (mit $n \neq 0$ ) eine natürliche Zahl $q$ mit $n \cdot q=m$, so sagt man, , $n$ teilt $m$ “ und bezeichnet $q$ als Quotienten, der durch $q=m: n=\frac{m}{n}$ geschrieben wird. Man überlegt sich leicht, dass Differenz und Quotient eindeutig bestimmt sind. ## 2. Ganze und rationale Zahlen Ein Nachteil der natürlichen Zahlen ist, dass man nicht uneingeschränkt subtrahieren und dividieren kann, d.h., Gleichungen der Form $5+x=2$ und $3 \cdot y=5$ bzw. allgemein geschrieben $$ n+x=m \quad \text { und } \quad n \cdot y=m $$ sind nicht immer in den natürlichen Zahlen lösbar. Aus diesem Grund führt man die ganzen Zahlen $$ \mathbb{Z}=\{\ldots,-2,-1,0,1,2, \ldots\} $$ und die rationalen Zahlen $$ \mathbb{Q}=\left\{\frac{m}{n} \mid m \in \mathbb{Z}, n \in \mathbb{Z} \backslash\{0\}\right\} $$ ein. ${ }^{4}$ Die Lösung der Gleichung $n+x=m$ ist nun die ganze Zahl $x=m-n$, also z.B. $x=2-5=-3$, und die Lösung der Gleichung $n \cdot y=m$ die rationale Zahl $y=\frac{m}{n}$ (für $n \neq 0$ ), also z.B. $y=5 / 3$. Dazu muss man einiges beachten. Bevor wir Gleichungen dieser Art allgemein betrachten können, müssen wir Addition und Multiplikation für ganze und rationale Zahlen einführen. Bleiben wir zunächst bei den ganzen Zahlen $\mathbb{Z}$. Sie wurden so konstruiert, dass man zu jeder natürlichen Zahl $n>0$ auch die negative Zahl $-n$ betrachtet. Damit kann man (ausgehend von 0 ) auch um -1 immer weiterzählen und erhält auch eine Fortsetzung der Ordnung der natürlichen Zahlen (siehe Abb. 1.2). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-014.jpg?height=92&width=1201&top_left_y=1499&top_left_x=329) Abbildung 1.2 Die ganzen Zahlen Im nächsten Schritt definiert man die Addition für alle ganzen Zahlen: $$ \begin{aligned} (-m)+(-n) & =-(m+n) & & \text { für } n, m \geq 0, \\ m+(-n)=(-n)+m & =m-n & & \text { für } 0 \leq n \leq m, \\ m+(-n)=(-n)+m & =-(n-m) & & \text { für } 0 \leq m0 \text {, } $$ also z.B. $-(-3)=3$. Jede ganze Zahl hat daher eine negative Zahl. Mit dieser Festlegung wird die Subtraktion $$ n-m=n+(-m) $$ für alle ganzen Zahlen $n, m \in \mathbb{Z}$ definiert. Damit ist es nun möglich, die Gleichung $n+x=m$ für alle ganzen Zahlen $n, m \in \mathbb{Z}$ zu lösen, die Lösung ist $x=m-n$. Z.B. hat die Gleichung $-4+x=-8$ die Lösung $x=-8-(-4)=-4$.[^3] Eine ähnliche Idee liegt der Konstruktion der rationalen Zahlen $\mathbb{Q}$ zu Grunde. Hier spielt der Kehrwert $\frac{1}{r}=r^{-1}$ eine ähnliche Rolle wie zuvor die negative Zahl $-n$. Wieder ist es wichtig, den Kehrwert $r^{-1}=\frac{1}{r}$ jeder rationalen Zahl $r=\frac{m}{n} \neq 0$ zu kennen: $$ \left(\frac{m}{n}\right)^{-1}=\frac{1}{\frac{m}{n}}=\frac{n}{m} $$ Beispielsweise ist $\left(\frac{1}{2}\right)^{-1}=2$. Damit ist (zunächst) für alle ganzen Zahlen $m, n$ (mit $n \neq 0$ ) die Lösung von $n \cdot y=m$ durch $y=\frac{m}{n}$ gegeben. Neben dem Kehrwert einer rationalen Zahl definiert man auch die negative Zahl $-r$ einer rationalen Zahl $r=\frac{m}{n}$ : $$ -r=-\frac{m}{n}=\frac{-m}{n} $$ Schließlich führen wir die Addition und Multiplikation von zwei rationalen Zahlen $r=\frac{m}{n}$ und $s=\frac{k}{l}$ ein: $$ r+s=\frac{m}{n}+\frac{k}{l}=\frac{m l+n k}{n l} \quad \text { und } \quad r \cdot s=\frac{m}{n} \cdot \frac{k}{l}=\frac{m \cdot k}{n \cdot l} \text {. } $$ Entsprechend definieren wir für zwei beliebige rationale Zahlen $r=\frac{m}{n}, s=\frac{k}{l}$ die Subtraktion und Division: $$ r-s=r+(-s) \quad \text { und } \quad r: s=\frac{r}{s}=r \cdot \frac{1}{s} \quad(s \neq 0) $$ Damit können wir die Gleichungen $s+x=r$ und $s \cdot y=r$ für alle rationalen Zahlen $r, s$ lösen: $$ x=r-s \quad \text { und } \quad y=\frac{r}{s} \quad(s \neq 0) $$ In den ganzen Zahlen kann man daher uneingeschränkt addieren, multiplizieren und subtrahieren. In den rationalen Zahlen kommt noch die uneingeschränkte Division durch eine Zahl $\neq 0$ dazu. Man beachte, dass die Rechenregeln von Satz 1.4 in derselben Weise für $\mathbb{Z}$ und $\mathbb{Q}$ gelten. Zusätzlich kommt noch hinzu, dass wir negative und reziproke Zahlen bilden können. Wie bereits angegeben, sind die ganzen Zahlen geordnet. Ebenso können die rationalen Zahlen geordnet werden. Dies wird an der so genannten Zahlengeraden verdeutlicht (siehe Abb. 1.3): ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-015.jpg?height=311&width=1221&top_left_y=1992&top_left_x=244) Abbildung 1.3 Zahlengerade Für zwei rationale Zahlen $r=\frac{m}{n}, s=\frac{k}{l}$ (mit $n>0$ und $l>0$ ) definiert man $$ r=\frac{m}{n}0)$ eine rationale Zahl, so erhält man die Dezimalentwicklung durch den üblichen Divisonsalgorithmus von $m: n$. Die dabei auftretenden Reste $r_{i}$ sind alle kleiner als $n$. Ist ein Rest $r_{i}=0$, so ist die Dezimalentwicklung endlich und es ist nichts zu zeigen. Andernfalls muss sich nach jeweils $n$ Schritten ein Rest wiederholen, d.h. es gibt ein $i$ und ein $\ell>0$ mit $r_{i+\ell}=r_{i} \geq 1$. Der darauf folgende Rest $r_{i+1}$ ist aber (ab einem Index $i_{0}$, wenn immer nur Null übertragen wird) nur von $r_{i}$ und $n$ abhängig. Daher gilt (für $i \geq i_{0}$ ) $r_{i+\ell+1}=r_{i+1}$, d.h. die Reste sind (schließlich) periodisch. Daraus folgt aber auch, dass die dazugehörige Dezimalentwicklung (schließlich) periodisch ist. Dieser Satz beschreibt auch den Unterschied zwischen den rationalen Zahlen und beliebigen unendlichen Dezimalentwicklungen, den so genannten reellen Zahlen. Definition 1.7 Die Menge aller positiven und negativen, endlichen und unendlichen Dezimalentwicklungen - wobei Zahlen mit (schließlicher) Periode $999 \ldots$ mit ihrer endlichen Dezimalentwicklung identifiziert werden - wird als die Menge $\mathbb{R}$ der reellen Zahlen bezeichnet. Anschaulich gesprochen füllen die reellen Zahlen die Lücken auf der Zahlengeraden (siehe Abb. 1.3), die die rationalen Zahlen lassen. Aus der Dezimalentwicklung ergibt sich auch die natürliche Ordnung der reellen Zahlen (die sich auch graphisch auf der Zahlengeraden widerspiegelt). Selbstverständlich kann man reelle Zahlen auch addieren und multiplizieren. Sind $x$ und $y$ zwei reelle Zahlen (wobei wir aus Gründen der Einfachheit annehmen, dass $x$ und $y$ positiv sind) und bezeichnen $x_{m}^{\prime}, x_{m}^{\prime \prime}$ und $y_{m}^{\prime}, y_{m}^{\prime \prime}$ die durch die Dezimalentwicklung induzierten Approximationen mit jeweils $m$ Dezimalstellen nach dem Komma, gilt also insbesondere $x_{m}^{\prime} \leq x \leq x_{m}^{\prime \prime}$, $y_{m}^{\prime} \leq y \leq y_{m}^{\prime \prime}$ und $x_{m}^{\prime \prime}-x_{m}^{\prime}=y_{m}^{\prime \prime}-y_{m}^{\prime}=10^{-m}$, so bilden die Intervalle $\left[x_{m}^{\prime}+y_{m}^{\prime}, x_{m}^{\prime \prime}+y_{m}^{\prime \prime}\right]$ und $\left[x_{m}^{\prime} \cdot y_{m}^{\prime}, x_{m}^{\prime \prime} \cdot y_{m}^{\prime \prime}\right]$ wieder Intervallschachtelungen, die reelle Zahlen definieren, die wir mit $x+y$ und $x \cdot y$ identifizieren können. Es übertragen sich auch alle Rechenregeln aus Satz 1.4. Weiters kann man uneingeschränkt subtrahieren und durch Zahlen $\neq 0$ dividieren, also negative und reziproke Zahlen bilden. Jede reelle Zahl $x$ kann auch eindeutig als Summe einer ganzen Zahl $n$ und einer Zahl $r$ mit $0 \leq r<1$ dargestellt werden: $x=n+r$. Die ganze Zahl $n$ wird durch $n=\lfloor x\rfloor$ $=\max \{k \in \mathbb{Z} \mid k \leq x\}$ bestimmt und heißt Ganzteil von $x$, der verbleibende Rest $r=\{x\}=$ $x-\lfloor x\rfloor$ Bruchteil von $x$. Weiters definieren wir den Betrag $|x|$ einer reellen Zahl als $|x|=$ $\max \{x,-x\}$. Es ist also z.B. $|3|=3$ und $|-5|=5$. ## 4. Komplexe Zahlen Wir haben nun gesehen, dass das Lösen von Gleichungen der Form $a+x=b, a \cdot y=b$ bzw. $x^{2}=a$ uns dazu geführt hat, unseren Zahlbegriff ausgehend von den natürlichen Zahlen immer wieder zu erweitern. Diese Vorgangweise wird noch ein weiteres Mal angewandt. Dazu betrachten wir die Gleichung $$ x^{2}=-1 $$ Diese Gleichung hat selbst in den rellen Zahlen keine Lösung, da das Quadrat einer rellen Zahl nicht negativ sein kann. Trotzdem ist es möglich, die reellen Zahlen so zu erweitern, dass Gleichungen dieser Art (also algebraische Gleichungen) immer lösbar sind. Entscheidend ist das Einführen der so genannten imaginären Zahl $i$, die Lösung dieser Gleichung ist, also die Beziehung $$ i^{2}=-1 $$ erfüllt. Wir machen uns zunächst noch keine Gedanken, was $i$ sein kann, selbstverständlich ist $i$ keine reelle Zahl. Mit Hilfe von $i$ werden die komplexen Zahlen definiert. Definition 1.8 Die Menge $\mathbb{C}$ der komplexen Zahlen besteht aus den formalen Summen der Form $$ z=a+i b \quad \text { mit } a, b \in \mathbb{R} \text {. } $$ Dabei heißt $a=\Re(z)$ auch Realteil und $b=\Im(z)$ Imaginärteil von $z$. Beispielsweise ist $z=3+2 i$ eine komplexe Zahl mit Realteil $\Re(z)=3$ und Imaginärteil $\Im(z)=2$. Es erweist sich als günstig, komplexe Zahlen (in gewisser Analogie zur Zahlengeraden) in der Ebene, der so genannten Gauß'schen Ebene als Zeiger darzustellen (siehe Abb. 1.4). Dabei dienen Real- und Imaginärteil von $z=a+i b$ als Koordinaten der Spitze des Zeigers. Die Länge dieses Zeigers wird auch als Betrag $r=|z|=\sqrt{a^{2}+b^{2}}$ von $z$ und ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-020.jpg?height=372&width=699&top_left_y=649&top_left_x=566) Abbildung 1.4 Die Gauß'sche Zahlenebene der Winkel zur reellen Achse als Argument $\varphi=\arg (z)$ bezeichnet. ${ }^{9}$ Das Paar $[r, \varphi]$ bildet die Polarkoordinaten von $z$. Dabei ist das Argument nur bis auf ein ganzzahliges Vielfaches von $2 \pi$ bestimmt, man sagt auch, es ist modulo $2 \pi$ bestimmt. Mit Hilfe der Winkelfunktionen sin und cos gewint man einen direkten Zusammenhang zwischen der Darstellung einer komplexen Zahl $z=a+i b$ durch Real- und Imaginärteil und den Polarkoordinaten: $$ a=r \cos \varphi, \quad b=r \sin \varphi $$ bzw. $^{10}$ $$ r^{2}=a^{2}+b^{2}, \quad \tan \varphi=\frac{b}{a} $$ Beispielsweise ist $1+i=[\sqrt{2}, \pi / 4]$ und $-1-i=[\sqrt{2}, 5 \pi / 4]$. Komplexe Zahlen werden so addiert, dass Realteile und Imaginärteile addiert werden. Sind also $z_{1}=a_{1}+i b_{1}$ und $z_{2}=a_{2}+i b_{2}$, so ist $$ z=z_{1}+z_{2}=\left(a_{1}+a_{2}\right)+i\left(b_{1}+b_{2}\right) $$ die Summe von $z_{1}$ und $z_{2}$. Graphisch entspricht dies der Addition der entsprechenden Zeiger (in der Gauß'schen Ebene) mittels der Parallelogrammregel (siehe Abb. 1.5). Ebenso kann man komplexe Zahlen in natürlicher Weise multiplizieren, indem man formal die Gültigkeit des Distributivgesetzes annimmt und unter Beachtung der Regel $i^{2}=-1$ multipliziert: $$ \begin{aligned} z_{1} \cdot z_{2} & =\left(a_{1}+i b_{1}\right)\left(a_{2}+i b_{2}\right)=a_{1} a_{2}+i b_{1} a_{2}+i a_{1} b_{2}+i^{2} b_{1} b_{2} \\ & =\left(a_{1} a_{2}-b_{1} b_{2}\right)+i\left(a_{1} b_{2}+a_{2} b_{1}\right) \end{aligned} $$[^6] ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-021.jpg?height=457&width=760&top_left_y=271&top_left_x=552) Abbildung 1.5 Parallelogrammregel Wegen $\left(a_{1}^{2}+b_{1}^{2}\right)\left(a_{2}^{2}+b_{2}^{2}\right)=\left(a_{1} a_{2}-b_{1} b_{2}\right)^{2}+\left(a_{1} b_{2}+a_{2} b_{1}\right)^{2}$ ist der Betrag des Produkts gleich dem Produkt der Beträge: $$ \left|z_{1} \cdot z_{2}\right|=\left|z_{1}\right| \cdot\left|z_{2}\right| $$ Außerdem addieren sich die Argumente: $$ \arg \left(z_{1} \cdot z_{2}\right)=\arg \left(z_{1}\right)+\arg \left(z_{2}\right) \bmod 2 \pi $$ was aus den Summensätzen der Winkelfunktionen abgeleitet werden kann (siehe Abschnitt 4.4). Graphisch entspricht dies einer Drehstreckung des Zeigers von $z_{1}$ um den Betrag von $z_{2}$ und den Winkel von $z_{2}$, und auf Polarkoordinaten übertragen lautet dies einfach $$ z_{1} \cdot z_{2}=\left[r_{1}, \varphi_{1}\right] \cdot\left[r_{2}, \varphi_{2}\right]=\left[r_{1} r_{2}, \varphi_{1}+\varphi_{2}\right] $$ In diesem Zusammenhang sei auch die Moivre'sche Formel erwähnt: $$ (\cos \varphi+i \sin \varphi)^{n}=\cos (n \cdot \varphi)+i \sin (n \cdot \varphi) $$ Zum Nachweis betrachte man einfach beide Seiten in Polarkoordinaten. Es ist leicht nachzurechnen, dass für die komplexen Zahlen wieder die üblichen Rechenregeln gelten, insbesondere übertragen sich alle Eigenschaften aus Satz 1.4 auf die komplexen Zahlen. Weiters kann man uneingeschränkt subtrahieren, die negative Zahl $-z$ von $z=a+i b$ ist durch $-z=-a-i b$ gegeben. Weiters, und das ist bemerkenswert, kann man - wie man wieder sofort nachrechnet - auch von jeder komplexen Zahl $z=a+i b \neq 0$ den Reziprokwert $$ \frac{1}{z}=\frac{a}{a^{2}+b^{2}}-i \frac{b}{a^{2}+b^{2}} $$ bilden, d.h. man kann in $\mathbb{C}$ uneingeschränkt durch Zahlen $\neq 0$ dividieren. Der Reziprokwert kann mit Hilfe der konjugiert komplexen Zahl $\bar{z}$ von $z=a+b i$, die durch $$ \bar{z}=a-i b $$ definiert ist, noch einfacher angegeben werden: $$ \frac{1}{z}=\frac{\bar{z}}{z \cdot \bar{z}}=\frac{\bar{z}}{|z|^{2}} $$ Dabei haben wir bereits eine einfache Rechenregel für konjugiert komplexe Zahlen verwendet (nämlich $z \cdot \bar{z}=|z|^{2}$ ). Es gelten - wie man direkt sieht - noch weitere Rechenregeln: $$ \begin{aligned} \overline{z_{1}+z_{2}} & =\overline{z_{1}}+\overline{z_{2}} \\ \overline{z_{1} \cdot z_{2}} & =\overline{z_{1}} \cdot \overline{z_{2}} \\ |z| & =\sqrt{z \cdot \bar{z}} \\ \Re(z) & =\frac{z+\bar{z}}{2} \\ \Im(z) & =\frac{z-\bar{z}}{2 i} \end{aligned} $$ Daraus gewinnt man übrigens einen weiteren (einfachen) Beweis für $\left|z_{1} \cdot z_{2}\right|=\left|z_{1}\right| \cdot\left|z_{2}\right|$ : $$ \begin{aligned} \left|z_{1} \cdot z_{2}\right|^{2} & =z_{1} \cdot z_{2} \cdot \overline{z_{1} \cdot z_{2}} \\ & =z_{1} \cdot z_{2} \cdot \overline{z_{1}} \cdot \overline{z_{2}} \\ & =z_{1} \cdot \overline{z_{1}} \cdot z_{2} \cdot \overline{z_{2}} \\ & =\left|z_{1}\right|^{2} \cdot\left|z_{2}\right|^{2} . \end{aligned} $$ Man beachte insbesondere, dass $z \cdot \bar{z}=|z|^{2}$ immer eine reelle $\mathrm{Zahl} \geq 0$ ist. Die Division $z_{1} / z_{2}$ komplexer Zahlen kann nun so gesehen werden, dass der Quotient mit $\bar{z}_{2}$ erweitert wird, so dass der Nenner $z_{2} \cdot \bar{z}_{2}$ insgesamt reell wird: $$ \frac{z_{1}}{z_{2}}=\frac{z_{1} \cdot \overline{z_{2}}}{z_{2} \cdot \overline{z_{2}}}=\frac{1}{z_{2} \cdot \overline{z_{2}}} \cdot\left(z_{1} \cdot \overline{z_{2}}\right) $$ Weiters gilt (wie bei der Multiplikation) $$ \left|\frac{z_{1}}{z_{2}}\right|=\frac{\left|z_{1}\right|}{\left|z_{2}\right|} \quad \text { und } \quad \arg \left(\frac{z_{1}}{z_{2}}\right)=\arg \left(z_{1}\right)-\arg \left(z_{2}\right) \bmod 2 \pi $$ ## Beispiel 1.9 $$ \frac{2+3 i}{1-2 i}=\frac{(2+3 i)(1+2 i)}{(1-2 i)(1+2 i)}=\frac{1}{5}(-4+7 i)=-\frac{4}{5}+\frac{7}{5} i $$ Wir kommen jetzt wieder zur ursprünglichen Motivation für die Einführung komplexer Zahlen zurück, nämlich zum Lösen von quadratischen und verwandten Gleichungen. Offensichtlich kann man in den komplexen Zahlen, wenn man eine komplexe Zahl $z$ in ihren Polarkoordinaten $z=[R, \psi]$ darstellt, direkt die Wurzel ziehen. Die komplexe Zahl $w=[\sqrt{R}, \psi / 2]$ erfüllt wegen der Rechenregel (1.1) die Beziehung $w^{2}=z$, d.h. $w=\sqrt{z}$. Neben dieser Lösung erfüllt aber $w^{\prime}=-w=[\sqrt{R}, \psi / 2+\pi]$ auch die Beziehung $\left(w^{\prime}\right)^{2}=z$. Wir haben also zwei Lösungen der Gleichung $w^{2}=z$ gefunden. Entsprechend bildet man die $n$-te(n) Wurzel(n) $)^{11} \sqrt[n]{z}$ einer komplexen Zahl $z \in \mathbb{C}$, d.h. man sucht $w$ mit $w^{n}=z$. Ist $z$ in Polarkoordinaten $z=[R, \psi]$ gegeben, so sind alle $n$-ten Wurzeln $$ w_{j}=\left[\sqrt[n]{R}, \frac{\psi}{n}+\frac{2 \pi j}{n}\right], \quad j \in\{0,1, \ldots, n-1\} $$[^7] Es ist leicht zu sehen, dass das die einzigen Lösungen sind. Dies ist in Übereinstimmung mit dem Fundamentalsatz der Algebra (siehe Satz 1.12), da es nicht mehr als $n$ Lösungen der Gleichung $w^{n}=z$ geben kann. Beispiel 1.10 Die 5-ten Wurzeln der Zahl $z=1+i=\left[\sqrt{2}, \frac{\pi}{4}\right]$ sind $$ \begin{aligned} & w_{0}=\left[\sqrt[10]{2}, \frac{\pi}{20}\right] \\ & w_{1}=\left[\sqrt[10]{2}, \frac{\pi}{20}+\frac{2 \pi}{5}\right] \\ & w_{2}=\left[\sqrt[10]{2}, \frac{\pi}{20}+\frac{4 \pi}{5}\right] \\ & w_{3}=\left[\sqrt[10]{2}, \frac{\pi}{20}+\frac{6 \pi}{5}\right] \\ & w_{4}=\left[\sqrt[10]{2}, \frac{\pi}{20}+\frac{8 \pi}{5}\right] \end{aligned} $$ Man beachte auch, dass alle 5-ten Wurzeln denselben Betrag haben und in der Gauß'schen Zahlenebene ein regelmäßiges Fünfeck bilden. Die Wurzeln von 1 heißen auch Einheitswurzeln. Die komplexe Zahl $$ \zeta_{n}=\left[1, \frac{2 \pi}{n}\right]=\cos \left(\frac{2 \pi}{n}\right)+i \sin \left(\frac{2 \pi}{n}\right) $$ wird primitive $n$-te Einheitswurzel genannt. Sie erfüllt die Gleichung $\zeta_{n}^{n}=1$ und alle anderen $n$-ten Einheitswurzeln sind Potenzen von $\zeta_{n}$ : $$ \zeta_{n}^{j}=\left[1, \frac{2 \pi j}{n}\right], \quad j \in\{0,1, \ldots, n-1\} $$ Beispielsweise sind $\{1,-1\}$ die zweiten Einheitswurzeln, $\left\{1,-\frac{1}{2}+i \frac{\sqrt{3}}{2},-\frac{1}{2}-i \frac{\sqrt{3}}{2}\right\}$ die dritten Einheitswurzeln und $\{1,-1, i,-i\}$ die vierten Einheitswurzeln. Betrachten wir jetzt eine allgemeine quadratische Gleichung $$ z^{2}+p z+q=0 $$ mit komplexen Koeffizienten $p, q \in \mathbb{C}$. Wie im Reellen hat diese Gleichung (i. Allg.) zwei Lösungen $$ z_{1,2}=-\frac{p}{2} \pm \sqrt{\frac{p^{2}}{4}-q} $$ Nur wenn die Diskriminante $D=p^{2}-4 q=0$ ist, fallen diese beiden Lösungen zusammen. Das quadratische Polynom zerfällt aber in jedem Fall in zwei Linearfaktoren: $$ z^{2}+p z+q=\left(z-z_{1}\right)\left(z-z_{2}\right) . $$ Vergleicht man die Koeffizienten von den Potenzen von $z$, erhält man auch den so genannten Vieta'schen Wurzelsatz: $$ p=-\left(z_{1}+z_{2}\right) \quad \text { und } \quad q=z_{1} z_{2} $$ Quadratische Gleichungen können also immer explizit gelöst werden. Beispiel 1.11 Die Gleichung $z^{2}+2 z+2=0$ hat die Lösungen $z_{1,2}=-1 \pm \sqrt{1-2}=$ $-1 \pm \sqrt{-1}=-1 \pm i$ und es gilt $z^{2}+2 z+2=(z+1-i)(z+1+i)$. Schließlich können wir auch allgemeine algebraische Gleichungen betrachten. Hier gibt es aber nur in wenigen Fällen explizite Lösungen. Trotzdem ist eine algebraische Gleichung immer lösbar. Satz 1.12 (Fundamentalsatz der Algebra) Es seien $a_{0}, a_{1}, \ldots, a_{n}$ komplexe Zahlen mit $a_{n} \neq$ 0 . Dann gibt es zum Polynom $$ p(z)=a_{n} z^{n}+a_{n-1} z^{n-1}+\ldots+a_{1} z+a_{0} $$ komplexe Zahlen $z_{1}, \ldots, z_{n}$ mit $$ a_{n} z^{n}+\ldots+a_{0}=a_{n}\left(z-z_{1}\right) \cdot\left(z-z_{2}\right) \cdot \ldots \cdot\left(z-z_{n}\right) $$ d.h. $z_{1}, \ldots, z_{n}$ sind Nullstellen des Polynoms $p(z)$, also Lösungen der Gleichung $p(z)=0$. Sie sind (bis auf die Reihenfolge) eindeutig bestimmt. Für Polynome dritten und vierten Grades gibt es ähnlich wie bei der quadratischen Gleichung Lösungsformeln für diese Nullstellen. Es kann aber gezeigt werden, dass es für $n \geq 5$ keine allgemeinen (algebraischen) Lösungsformeln gibt. Man ist daher auf Approximationsverfahren angewiesen. ### 1.2 Elementare Zahlentheorie ## 1. Teilbarkeit In der Zahlentheorie rechnet man mit den natürlichen Zahlen $\mathbb{N}$ bzw. mit den ganzen Zahlen $\mathbb{Z}$. Teilbarkeitsprobleme sind in $\mathbb{N}$ etwas leichter, da man nicht auf negative Teiler Rücksicht nehmen muss, vom algebraischen Standpunkt ist es aber einfacher, in $\mathbb{Z}$ zu rechnen, da $\mathbb{Z}$ einen so genannten Ring bildet (siehe Abschnitt 2.3). Definition 1.13 Es seinen $a, b$ ganze Zahlen. Man sagt $b$ teilt $a$, in Zeichen $b \mid a$, wenn es eine ganze Zahl $c$ mit $a=b c$ gibt, also wenn $a / b$ wieder eine ganze Zahl ist. Für viele Anwendungen muss der größte gemeinsame Teiler zweier Zahlen bestimmt werden. Definition 1.14 Für $a, b \in \mathbb{Z}$ heißt $d=\operatorname{ggT}(a, b)$ ein größter gemeinsamer Teiler, wenn folgende zwei Eigenschaften erfüllt sind: (i) $d \mid a$ und $d \mid b$. (ii) Ist $t$ gemeinsamer Teiler von $a$ und $b$, d.h. $t \mid a$ und $t \mid b$, dann gilt auch $t \mid d$. Man beachte, dass mit $d$ auch $-d$ ein größter gemeinsamer Teiler (in diesem Sinn) ist. Aus Gründen der Einfachheit nimmt man üblicherweise an, dass der größte gemeinsame Teiler nicht negativ ist. Er ist dann eindeutig bestimmt. Zwei ganze Zahlen $a, b$ heißen teilerfremd, wenn $\operatorname{ggT}(a, b)=1$. In ähnlicher Weise wird das kleinste gemeinsame Vielfache $\mathrm{kgV}(a, b)$ zweier ganzer Zahlen definiert. Eine elementare, aber für die Zahlentheorie grundlegende Eigenschaft ist die Division mit Rest. Sie wird auch, wie wir gleich sehen werden, benötigt, um den ggT zweier Zahlen mit Hilfe des Euklidischen Algorithmus effizient zu bestimmen. Satz 1.15 Es seien $a, b \in \mathbb{Z}$ und $b>0$. Dann gibt es ganze Zahlen $q, r \in \mathbb{Z}$ mit $$ a=b q+r \quad \text { und } \quad 0 \leq r0$ die Divisionskette $$ \begin{array}{cl} a=b q_{0}+r_{0}, & 0r_{0}>r_{1}>r_{2}>\cdots \geq 0$ einmal abbrechen, d.h., es gibt irgendeinmal einen verschwindenden Rest. Der letzte Rest $r_{k} \neq 0$ ist dann der größte gemeinsame Teiler $\operatorname{ggT}(a, b)$. Beweis. Zunächst folgt aus $r_{k} \mid r_{k-1}$ auch $r_{k} \mid r_{k-2}$ und induktiv $r_{k} \mid r_{j}$ für alle $j \geq 0$. Dies hat aber schließlich auch $r_{k} \mid b$ und $r_{k} \mid a$ zu Folge. Gilt umgekehrt $t \mid a$ und $t \mid b$, so folgt zunächst $t \mid\left(a-q_{0} b\right)=r_{0}$, daraufhin $t \mid r_{1}$ und induktiv $t \mid r_{k}$. Daher ist $r_{k}=\operatorname{ggT}(a, b)$. Die Anzahl der Divisionsschritte ist (auf den ersten Blick) durch $b$ beschränkt. Tatsächlich ist der Algorithmus viel schneller. Aus $r_{k-2} \geq r_{k-1}+r_{k} \geq 2 \cdot r_{k}$ folgt $$ r_{k} \leq \frac{1}{2} \cdot r_{k-2} $$ Das Verfahren bricht also schon nach wenigen Schritten ab. ${ }^{12}$ Beispiel 1.17 Zur Bestimmung des ggT $(59,11)$ ermittelt man die Divisionskette $$ \begin{aligned} 59 & =11 \cdot 5+4 \\ 11 & =4 \cdot 2+3 \\ 4 & =3 \cdot 1+1 \\ 3 & =1 \cdot 3+0 . \end{aligned} $$ Es ist also $\operatorname{ggT}(59,11)=1$.[^8] Umgekehrt kann man mit Hilfe dieser Divisionskette auch den ggT zweier Zahlen $a, b$ als ganzzahlige Linearkombination von $a, b$ darstellen, indem man ausgehend von der Gleichung $\operatorname{ggT}(59,11)=1=4-3 \cdot 1$ sukzessive die weiteren Reste 3 und 4 rückeinsetzt: $$ \begin{aligned} 1 & =4-3 \cdot 1 \\ & =4-(11-4 \cdot 2) \cdot 1 \\ & =3 \cdot 4-1 \cdot 11 \\ & =3 \cdot(59-5 \cdot 11)-1 \cdot 11 \\ & =3 \cdot 59-16 \cdot 11 \end{aligned} $$ Das soeben beschriebene Verfahren lässt sich allgemein durchführen. Satz 1.18 Ist d der größte gemeinsame Teiler der von Null verschiedenen ganzen Zahlen $a, b$, so gibt es ganze Zahlen e, $f$ mit $$ e a+f b=d $$ die mit Hilfe der Divisionskette des Euklidischen Algorithmus von a und b effektiv berechnet werden können. ## 2. Primzahlen Als nächstes beschäftigen wir uns mit Primzahlen und der eindeutigen Primfaktorenzerlegung ganzer Zahlen, dem Fundamentalsatz der Zahlentheorie. Definition 1.19 Eine natïrliche Zahl $p>1$ heißt Primzahl, wenn die einzigen Teiler von $p$ die Zahlen \pm 1 und $\pm p$ sind. Die Menge der Primzahlen wird mit $\mathbb{P}$ bezeichnet. Satz 1.20 Teilt eine Primzahl $p$ ein Produkt ganzer Zahlen $a_{1}, a_{2}, \ldots, a_{r}$, also $p \mid a_{1} a_{2} \cdots a_{r}$, dann teilt sie wenigstens einen der Faktoren, also $p \mid a_{j}$ für ein $j \in\{1,2, \ldots, r\}$. Beweis. Wir beweisen den Satz nur für $r=2$ Zahlen $a=a_{1}, b=a_{2}$. Der allgemeine Fall folgt daraus mit Hilfe vollständiger Induktion. Es sei also $p \mid a b$. Gilt bereits $p \mid a$, dann ist nichts zu beweisen. Ist hingegen $p \nmid a$, so gilt $\operatorname{ggT}(p, a)=1$, da der $\operatorname{ggT}$ ein Teiler von $p$ sein muss, aber $p$ ausscheidet. Demnach gibt es wegen Satz 1.18 zwei ganze Zahlen $e, f$ mit $1=e p+f a$. Also kann $b$ in der Form $b=b e p+f a b$ dargestellt werden. Sowohl bep als auch fab sind durch $p$ teilbar, also gilt auch $p \mid b e p+f a b=b$. Satz 1.21 (Fundamentalsatz der Zahlentheorie) Jede natürliche Zahl $a \geq 2$ lässt sich als Produkt von Primzahlen darstellen: $$ a=p_{1} \cdot p_{2} \cdot \ldots \cdot p_{r} \quad \text { mit } p_{1}, p_{2}, \ldots, p_{r} \in \mathbb{P} $$ wobei die Darstellung bis auf die Reihenfolge eindeutig ist. ${ }^{13}$[^9] Beweis. Wir zeigen zuerst, dass es immer möglich ist, $a$ als Produkt von Primzahlen darzustellen. Ist $a \in \mathbb{P}$, so ist nichts zu beweisen. Ist $a \notin \mathbb{P}$, so kann man $a$ als $a=a_{1} \cdot a_{2}$ mit $10$ ). Dann gilt $$ \varphi(m)=m \cdot\left(1-\frac{1}{p_{1}}\right) \cdot \ldots \cdot\left(1-\frac{1}{p_{r}}\right) $$ Für eine Primzahlpotenz $p^{k}$ ist diese Formel direkt einsichtig, denn $$ \varphi\left(p^{k}\right)=p^{k}-p^{k-1}=p^{k-1} \cdot(p-1)=p^{k} \cdot\left(1-\frac{1}{p}\right) $$ Der allgemeine Fall kann z.B. mit Hilfe des Inklusion-Exklusions-Prinzips, das in Abschnitt 2.1 besprochen wird, behandelt werden (siehe Beispiel 2.9). Eine wichtige Anwendung der Euler'schen $\varphi$-Funktion ist der folgende Sachverhalt. Satz 1.35 (Kleiner Satz von Fermat) Für teilerfremde ganze Zahlen a, $m$ gilt $$ a^{\varphi(m)} \equiv 1 \bmod m $$ Beweis. Dieser Satz ist ein Spezialfall von Satz 2.49 und wird in Abschnitt 2.3 in einem allgemeineren Rahmen bewiesen. Ist speziell $m=p$ eine Primzahl, so vereinfacht sich das zu $$ p \nmid a \Longrightarrow a^{p-1} \equiv 1 \bmod p \quad \text { bzw. } \quad p \mid\left(a^{p-1}-1\right) $$ ## 4. Das RSA-Verfahren Als erste zahlentheoretische Anwendung besprechen wir das nach Rivest, Shamir und Adleman benannte RSA-Verschlïsselungsverfahren. Im Unterschied zur Codierungstheorie, wo die Fehlererkennung und -korrektur bei Fehlübertragungen im Vordergrund steht, ist bei der Verschlïsselung das Ziel, sie abhörsicher zu machen, d.h. ein potentieller Lauscher soll nicht in der Lage sein, die gesendete verschlüsselte Nachricht zu entziffern. Verschlüsselungsverfahren finden nicht nur militärische Anwendungen, sie werden natürlich auch im zivilen Bereich, etwa im Bankenwesen, eingesetzt. Grundlage des RSA-Verfahrens ist der folgenden Satz:[^11] Satz 1.36 Seien $p, q$ zwei verschiedene ungerade Primzahlen, $v=\operatorname{kgV}(p-1, q-1)$ und $m=p q$. Dann gilt für beliebige ganze Zahlen $a, k$ $$ a^{k v+1} \equiv a \bmod m $$ Sind also $e, d \in \mathbb{Z}$ zwei Zahlen mit $e d \equiv 1 \bmod v$, so gilt für alle $a \in \mathbb{Z}$ $$ \left(a^{e}\right)^{d} \equiv a \bmod m $$ Beweis. Zunächst beobachtet man, dass $a^{k v+1} \equiv a \bmod m$ (mit $m=p q$ ) genau dann gilt, wenn sowohl $a^{k v+1} \equiv a \bmod p$ als auch $a^{k v+1} \equiv a \bmod q$ gelten. Wir zeigen nun die erste dieser beiden Eigenschaften, die zweite folgt analog. Gilt $p \mid a$, so ist offensichtlich $a^{k v+1} \equiv 0 \equiv a \bmod p$. Gilt hingegen $p \nmid a$, so folgt aus dem kleinen Fermatschen Satz $a^{p-1} \equiv 1 \bmod p$. Setzt $\operatorname{man} v=s \cdot(p-1)$, so erhält man $$ a^{k v+1}=a \cdot a^{(k \cdot s) \cdot(p-1)}=a \cdot\left(a^{p-1}\right)^{k \cdot s} \equiv a \cdot 1 \equiv a \bmod p $$ was zu beweisen war. Möchte also eine Person $A$ verschlüsselte Nachrichten empfangen können, so multipliziert $A$ zwei (i. Allg. mindestens 100-stellige) Primzahlen $p, q$ miteinander und veröffentlicht das Produkt $m=p q$ und eine Zahl $e$, die $\mathrm{zu} v=\operatorname{kgV}(p-1, q-1)$ teilerfremd ist. Das Paar der Zahlen $(m, e)$ ist der so genannte öffentliche Schlüssel. Ist nun eine weitere Person $B$ daran interessiert, der Person $A$ eine Nachricht zu senden, die nur $A$ lesen kann, so unterteilt er seine Nachricht in Blöcke $a_{1}, a_{2}, \ldots$, so dass jeder Block durch eine nichtnegative $\mathrm{Zahl}0$ erfüllen $(a, b \in \mathbb{C}, b \neq 0$ ). (d) Welche Teilmenge der komplexen Zahlenebene wird durch die Ungleichung $\left|\frac{z+4}{z-4}\right|<3$ beschrieben? 1.10 Man bestätige die Richtigkeit der folgenden Behauptungen: (a) Für alle $n \in \mathbb{N}$ ist $n^{3}-n$ stets durch 3 teilbar - mittels eines direkten Beweises. (b) Ist die Summe $m+n$ zweier Zahlen $m, n \in \mathbb{Z}$ ungerade, dann ist genau einer der beiden Summanden ungerade - mittels eines indirekten Beweises. (c) Ist das Quadrat $n^{2}$ einer ganzen Zahl $n \in \mathbb{Z}$ gerade, dann ist auch $n$ gerade - mittels eines indirekten Beweises. (d) Die Aussage von (a) - mittels eines Beweises durch vollständige Induktion. 1.11 Man zeige, dass für alle natüllichen Zahlen $n$ die beiden Teilbarkeitseigenschaften $2 \mid\left(n^{2}+n\right)$ und $6 \mid\left(n^{3}-n+12\right)$ gelten. 1.12 Man bestimme den $\operatorname{ggT}(7469,2464)$ sowie den $\operatorname{ggT}(1109,4999)$ mit Hilfe des Euklidischen Algorithmus. 1.13 Man bestimme alle ganzen Zahlen $x, y$, welche die Gleichung $243 x+198 y=9$ erfüllen. 1.14 Man zeige für natürliche Zahlen $a, b$ die Eigenschaft $\operatorname{ggT}(a, b) \cdot \operatorname{kgV}(a, b)=a \cdot b$. 1.15 Man zeige, dass jede ganze Zahl der Form $n^{4}+4^{n}$ (mit $n>1$ ) keine Primzahl ist. (Hinweis: Man unterscheide zwischen geradem und ungeradem $n$. Insbesondere betrachte man bei ungeradem $n$ die Zerlegung $\left(n^{2}+2^{n}+n 2^{(n+1) / 2}\right)\left(n^{2}+2^{n}-n 2^{(n+1) / 2}\right)$.) 1.16 Lösen Sie die folgenden Kongruenzen bzw. beweisen Sie deren Unlösbarkeit: (a) $8 x \equiv 4 \bmod 16$, (b) $8 x \equiv 4 \bmod 15$, (c) $3 x \equiv 9 \bmod 11$, (d) $3 x \equiv 9 \bmod 12$, (e) $x^{2}-3 x+2 \equiv 0 \bmod 5$, (f) $x^{2}-3 x+2 \equiv 0 \bmod 6$. 1.17 Im europäischen Artikelnummernsystem EAN werden Zahlen mit 13 Dezimalziffern der Form $a_{1} a_{2} \ldots a_{12} p$ verwendet. Dabei wird die letzte der 13 Ziffern, das ist die Prüfziffer $p$, im EAN-Code so bestimmt, dass $$ a_{1}+3 a_{2}+a_{3}+3 a_{4}+\cdots+a_{11}+3 a_{12}+p \equiv 0 \bmod 10 $$ gilt. Man zeige, dass beim EAN-Code ein Fehler in einer einzelnen Ziffer stets erkannt wird, während eine Vertauschung von zwei benachbarten Ziffern genau dann nicht erkannt wird, wenn die beiden Ziffern gleich sind oder sich um 5 unterscheiden. 1.18 Sei a die Aussage „Es gibt eine größte natürliche Zahl." und $b$ die Aussage ,0 ist die größte natürliche Zahl." Man entscheide, ob die Aussagen $a \Rightarrow b$ bzw. $b \Rightarrow a$ wahr oder falsch sind. 1.19 Entscheiden Sie mit Hilfe einer Wahrheitstafel, ob die folgenden Äquivalenzen richtig sind: (a) $a \vee(b \vee c) \Longleftrightarrow(a \vee b) \vee c$, (b) $a \vee(a \wedge b) \Longleftrightarrow a$, (c) $a \wedge(b \vee c) \Longleftrightarrow(a \wedge b) \vee(a \wedge c)$, (d) $(a \wedge \neg b) \wedge \neg c \Longleftrightarrow a \wedge \neg(b \wedge \neg c)$, (e) $a \Leftrightarrow b \Longleftrightarrow(a \Rightarrow b) \rightarrow \neg(b \Rightarrow a)$, (f) $\neg(a \Rightarrow b) \Longleftrightarrow a \wedge \neg b$. 1.20 Man beweise bzw. widerlege die folgenden Mengenidentitäten: (a) $A \cap(B \cap C)=(A \cap B) \cap C$, (b) $(A \backslash B) \backslash C=A \backslash(B \backslash C)$, (c) $(A \cup B)^{\prime}=A^{\prime} \cap B^{\prime}$, (d) $(A \cup B) \cap(B \cup C)^{\prime} \subseteq A \cap B^{\prime}$, (e) $(A \cap B)^{\prime}=A^{\prime} \cup B^{\prime}$, (f) $(A \triangle B)^{\prime}=A^{\prime} \triangle B^{\prime}$, (g) $A \triangle B=(A \cup B) \backslash(A \cap B)$, (h) $A \cap(B \triangle C)=(A \cap B) \triangle(A \cap C)$, (i) $A \triangle(B \cap C)=(A \triangle B) \cap(A \triangle C)$, (j) $(A \times B) \cap(B \times A)=(A \cap B) \times(A \cap B)$, (k) $(A \times B) \cup(B \times A)=(A \cup B) \times(A \cup B)$, (l) $(A \times B) \cup(A \times C)=A \times(B \cup C)$. 1.21 Sei $M$ eine nichtleere endliche Menge. Man zeige, dass $M$ gleich viele Teilmengen mit gerader Elementanzahl wie solche mit ungerader Elementanzahl besitzt, indem man ein Verfahren angebe, das aus den Teilmengen der einen Art umkehrbar eindeutig die der anderen Art erzeugt. 1.22 Sei $A=\{1,2, \ldots, 8\}$ und $R$ eine binäre Relation auf $A$, definiert durch $$ a R b \Longleftrightarrow a=b \text { oder } \operatorname{ggT}(a, b)=2 $$ Man gebe explizit die Relation $R$ sowie ihren Graphen $G_{R}$ an. 1.23 Man untersuche nachstehend angeführte Relationen $R \subseteq M^{2}$ in Hinblick auf die Eigenschaften Reflexivität, Symmetrie, Transitivität und Antisymmetrie: (a) $M=$ Menge aller Einwohner von Wien, $a R b \Longleftrightarrow a$ ist verheiratet mit $b$, (b) $M$ wie oben, $a R b \Longleftrightarrow a$ ist nicht älter als $b$, (c) $M$ wie oben, $a R b \Longleftrightarrow a$ ist so groß wie $b$, (d) $M=\mathbb{R}, a R b \Longleftrightarrow a-b \in \mathbb{Z}$, (e) $M=\mathbb{R}^{n},\left(x_{1}, \ldots, x_{n}\right) R\left(y_{1}, \ldots, y_{n}\right) \Longleftrightarrow x_{i} \leq y_{i}(i=1, \ldots, n)$. 1.24 Man zeige, dass durch $a R b \Longleftrightarrow 3 \mid a^{2}-b^{2}$ für alle $a, b \in \mathbb{Z}$ eine Äquivalenzrelation $R$ in der Menge $\mathbb{Z}$ erklärt wird, und bestimme die zugehörende Partition. 1.25 Sei $f: A \rightarrow B$ eine Funktion. Man zeige, dass durch $x \equiv y \Longleftrightarrow f(x)=f(y)$ eine Äquivalenzrelation $\equiv$ auf der Menge $A$ definiert wird. 1.26 Untersuchen Sie, ob die Relation $A R B \Longleftrightarrow A \triangle B=\emptyset$ auf der Potenzmenge einer Menge $M$ eine Äquivalenzrelation bildet ( $\triangle$ bezeichnet die symmetrische Differenz). 1.27 Man vergleiche die Hassediagramme der beiden Halbordnungen $(\mathbf{P}(\{a, b, c\}), \subseteq)$ und $\left(T_{70}, \mid\right)$, wobei $T_{70}=\{n \in \mathbb{N}|n| 70\}$. 1.28 Für $k, n \in\{1,2,3, \ldots, 10\}$ sei $k R n$, falls $k$ ein Teiler von $n$ ist und $k$ und $\frac{n}{k}$ teilerfremd sind. Man untersuche, ob die Relation $R$ eine Halbordnung ist, und ermittle gegebenfalls das Hassediagramm. 1.29 Man zeige: $(\mathbb{C}, \preceq)$ ist Halbordnung mit $z=a+i b \preceq w=c+i d$, falls $an \operatorname{setzt} \operatorname{man}\left(\begin{array}{l}n \\ k\end{array}\right)=0$. Man beachte die rekursive Beziehung $(n+1) !=n !(n+1)$. Diese ist auch im Fall $n=0$ richtig. Viele kombinatorische Probleme lassen sich auf Anordnungsprobleme und Auswahlprobleme zurückführen, wobei bei Anordnungen die Reihenfolge der betrachteten Objekte eine Rolle spielt, bei Auswahlen hingegen nicht. Die folgenden sechs kombinatorischen Grundaufgaben beziehen sich genau auf diese Fälle. Im folgenden sei $A=\left\{a_{1}, a_{2}, \ldots, a_{n}\right\}$ eine Menge mit $n$ Elementen. (i) Anordnungen ohne Einschränkung. Die Menge $A^{k}$ der geordneten $k$-Tupel wird als die Menge der Anordnungen von Elementen von $A$ der Länge $k$ interpretiert. Hier ist die Reihenfolge der Elemente natürlich wesentlich. Wegen der Produktregel gilt jedenfalls $$ \left|A^{k}\right|=|A|^{k}=n^{k} $$ Manchmal bezeichnet man $A^{k}$ auch als Variationen mit Wiederholung oder als „geordnete Auswahl" von $k$ Elementen aus $A$ mit Zurücklegen. Der Begriff „Zurücklegen " kommt davon, dass es in der Kombinatorik üblich ist, eine Menge $A$ als „Urne" und die Elemente als „Kugeln“ bildlich zu beschreiben. Die $k$-Tupel aus $A^{k}$ können nun als geordnete Auswahlen von $k$ Elementen aus $A$ interpretiert werden, wobei man bei jedem Schritt wieder alle Elemente („Kugeln“) zur Verfügung hat, also das gewählte Element (,Kugel“) wieder zurückgelegt worden ist. Beispielsweise gibt es $3^{12}$ mögliche Tototipps. Hier ist $A=\{1,2, \mathrm{X}\}, n=3$ und $k=12$. (ii) Anordnungen veschiedener Elemente. Die geordneten $k$-Tupel von Elementen von $A$, wobei alle Elemente verschieden sind, werden als Variationen ohne Wiederholung oder - wieder mit Hilfe des Urnenbildes - als ,geordnete Auswahlen" von $k$ Elmenten aus $A$ ohne Zurücklegen bezeichnet. Offensichtlich muss hier $k \leq n$ gelten. Für die Berechnung der Anzahl dieser Möglichkeiten kann man wieder die Produktregel verwenden, allerdings in einer leicht modifizierten Form. Für die Auswahl der ersten „Kugel“ hat man alle Elemente aus $A$ zur Verfügung, also $n$ Möglichkeiten. Für die zweite Stelle kann das zuerst gewählte Element nicht verwendet werden, es bleiben daher $n-1$ Möglichkeiten, usw. Insgesamt ergeben sich $$ n \cdot(n-1) \cdot(n-2) \cdots(n-k+1)=\frac{n !}{(n-k) !} $$ Auswahlmöglichkeiten. Beispielsweise gibt es $26 \cdot 25 \cdot 24=15600$ verschiedene (mögliche) Wörter aus 3 verschiedenen Buchstaben (des üblichen Alphabets). (iii) Permutationen einer Menge. Eine Permutation $\pi$ einer Menge $A$ ist eine bijektive Funktion $\pi: A \rightarrow A$. Besteht die Menge $A$ aus $n$ Elementen, etwa $A=\left\{a_{1}, a_{2}, \ldots, a_{n}\right\}$, so wird $\pi$ auch durch Angabe der Bilder $\pi\left(a_{1}\right), \pi\left(a_{2}\right), \ldots, \pi\left(a_{n}\right)$ beschrieben. Wegen der Bijektivität muss jedes Element aus $A$ in dieser Auflistung genau einmal auftreten. Eine Permutation von $A$ entspricht daher genau einer Anordnung der Elemente von $A$, wobei jedes Element genau einmal auftritt. Mit derselben Überlegung wie vorhin erkennt man, dass es $$ n ! $$ verschiedene Permutationen einer $n$-elementigen Menge gibt. Beispielsweise gibt es $3 !=6$ Möglichkeiten, 3 Gläser gefüllt mit Bier, Schnaps und Wein nacheinander zu leeren: $A=\{B, S, W\}$, $$ B S W, B W S, S B W, S W B, W B S, W S B . $$ (iv) Permutationen einer Multimenge. Ein etwas allgemeineres Problem ist es, Anordnungen der Elemente von $A$ zu betrachten, wobei man vorgibt, wie oft ein Element auftreten soll. Man spricht hier auch von Permutationen einer Multimenge. Fordert man, dass das Element $a_{i}$ genau $k_{i}$-mal auftreten soll $(1 \leq i \leq n)$, so gibt es $$ \frac{\left(k_{1}+k_{2}+\cdots+k_{n}\right) !}{k_{1} ! k_{2} ! \cdots k_{n} !} $$ Möglichkeiten solcher Anordnungen. Dies lässt sich folgendermaßen begründen. Unterscheidet man zunächst die $k_{i}$ gleichen Elemente $a_{i}(1 \leq i \leq n)$, so gibt es $\left(k_{1}+k_{2}+\cdots+k_{n}\right)$ ! mögliche Anordnungen. Davon führen aber (wegen der Produktregel) insgesamt $k_{1} ! k_{2} ! \cdots k_{n}$ ! Anordnungen zur selben ursprünglich gesuchten Anordnung, da alle Umordnungen unter den $k_{i}$ Elementen $a_{i}(1 \leq i \leq n)$ dieselbe (gesuchte) Anordnung ergeben. Beispielsweise können 2 Gläser Bier, 1 Glas Schnaps und 1 Glas Wein in $4 ! /(2 ! 1 ! 1 !)=$ 12 verschiedenen Reihenfolgen getrunken werden: $$ \begin{aligned} & B B S W, B B W S, B S B W, B W B S, B S W B, B W S B, \\ & S B B W, W B B S, S B W B, W B S B, S W B B, W S B B . \end{aligned} $$ (v) Auswahlen einer Teilmenge. Eine (ungeordnete) Auswahl von $k$ verschiedenen Elementen einer Menge $A$ ist nichts anderes als eine Teilmenge von $A$ der Größe $k$. In der Kombinatorik wird so eine Auswahl auch als Kombination ohne Wiederholung bezeichnet. Hier gibt es $$ \frac{n !}{k !(n-k) !}=\left(\begin{array}{l} n \\ k \end{array}\right) $$ Möglichkeiten. Das kann auf verschiedene Arten begründet werden. Z.B. entsprechen die $k$-elementigen Teilmengen einer $n$-elementigen Menge den Binärzahlen der Länge $n$ mit $k$ Einsen, also genau den Permutationen einer Multimenge von $k$ Einsen und $(n-k)$ Nullen. Eine andere Begründung ist, dass genau $k$ ! Anordnungen verschiedener Elemente einer Auswahl entsprechen. Es ist auch üblich, die Elemente von $A$ gedanklich in eine Urne zu geben und sie als verschiedene „Kugeln“ zu interpretieren. Eine Auswahl von $k$ Elementen entspricht dann einfach dem ,gleichzeitigen "Entnehmen von $k$ Kuglen aus der Urne. Im Gegensatz dazu wird - bildlich gesprochen - bei einer Anordnung eine „Kugel“ nach der anderen aus der Urne genommen. Beispielsweise gibt es $\left(\begin{array}{c}45 \\ 6\end{array}\right)=45 ! /(6 ! 39 !)=8145060$ mögliche Lottotipps ,,6 aus 45.“ Ein Tipp entspricht einer 6-elementigen Teilmenge von $A=\{1,2, \ldots, 45\}$. (vi) Auswahlen einer Teilmultimenge. Entsprechend betrachtet man auch Auswahlen von Elementen einer Menge $A$, wo die Elemente von $A$ mehrfach auftreten können, also Teilmultimengen der Multimenge $\tilde{A}$, in der jedes Element von $A$ beliebig oft vorkommt. Solche Anordnungen werden auch als Kombinationen mit Wiederholung bezeichnet. Hier kann wieder das Bild der „Urne" verwendet werden. Man stelle sich eine Urne vor, in der jedes Element von $A$ nicht nur einmal, sondern beliebig oft vorhanden ist, d.h. in der Urne sind unendlich viele „Kugeln“ vom Typ $a_{1}$, unendlich viele „Kugeln“ vom Typ $a_{2}$ etc. Entnimmt man nun dieser Urne in einem Satz $k$,Kugeln“", so entspricht dies genau so einer Auswahl. Da die Reihenfolge keine Rolle spielt, können wir diese Kugeln der Reihe nach anordnen, zuerst die Kugeln vom Typ $a_{1}$, dann die Kugeln vom Typ $a_{2}$, usw. Insgesamt sind dies $k$ Kugeln. Wir wollen nun diese Kugeln alle weiß färben. Damit geht allerdings die Information, welche Kugeln von welchem Typ sind, verloren. Um diese Information nicht zu verlieren, setzen wir $n-1$ schwarze „Trennkugeln“ ein. Wir illustrieren das an einem einfachen Beispiel: Sei $A=\left\{a_{1}, a_{2}, a_{3}, a_{4}\right\}$ eine Menge mit $n=4$ Elementen und $$ a_{1}, a_{1}, a_{1}, a_{2}, a_{2}, a_{4}, a_{4} $$ eine Auswahl von $k=7$ Elementen. Nach Einfügen von $n-1=3$ schwarzen Kugeln an den Schnittstellen erhalten wir zunächst folgendes Bild: $$ a_{1}, a_{1}, a_{1}, \bullet, a_{2}, a_{2}, \bullet, \bullet, a_{4}, a_{4} $$ Jetzt kann man die Elemente (= Kugeln) von $A$ alle weiß färben: $$ \circ, \circ, \circ, \bullet, \circ, \circ, \bullet, \bullet, \circ, \circ $$ Offensichtlich ist es sofort möglich, aus dieser Anordnung von $k+n-1$ Kugeln die Auswahl $a_{1}, a_{1}, a_{1}, a_{2}, a_{2}, a_{4}, a_{4}$ eindeutig zu rekonstruieren. Wegen der Gleichheitsregel ist daher die Anzahl der Auswahlmöglichkeiten von Elementen von $A$ genau der Anzahl der Permutationen von $k$ weißen Kugeln $\circ$ und $n-1$ schwarzen Kugeln $\bullet$ : $$ \frac{(n+k-1) !}{k !(n-1) !}=\left(\begin{array}{c} n+k-1 \\ k \end{array}\right) $$ Wir geben noch eine weitere Interpretation solcher Auswahlen. Um eine ungeordnete Anordnung von Elementen $a_{1}, a_{2}, \ldots, a_{n}$ zu beschreiben, ist es ausreichend zu wissen, wie oft die Elemente vorkommen, die Reihenfolge spielt ja keine Rolle. Sei also $k_{i}$ die Anzahl, wie oft $a_{i}$ vorkommt $(1 \leq i \leq n$ ), dann wird eine ungeordnete Auswahl von $k$ Elementen auch durch das $n$-Tupel $\left(k_{1}, k_{2}, \ldots, k_{n}\right)$ von natürlichen Zahlen mit der Eigenschaft $k_{1}+k_{2}+\cdots+k_{n}=k$ beschrieben. Das heißt, eine Kombination mit Wiederholung entspricht auch einer Komposition einer natürlichen Zahl in $n$ Summanden $k_{i} \geq 0$. Beispielsweise gibt es $(4+7-1) ! /(7 !(4-1) !)=120$ Möglichkeiten, die Zahl $k=7$ als (geordnete) Summe von $n=4$ Zahlen $k_{i} \geq 0$ darzustellen. Ein Beispiel wäre $7=$ $3+2+0+2$. ## 2. Der Binomische Lehrsatz In den Anzahlformeln (2.5) und (2.6) für die Anzahl von Teilmengen und für die Anzahl von Teilmultimengen (bzw. für die Anzahl von Kombinationen ohne und mit Wiederholung) tritt der Binomialkoeffizient $\left(\begin{array}{l}n \\ k\end{array}\right)$ in ganz natürlicher Weise auf. Wir werden uns nun etwas genauer mit den Binomialkoeffizienten beschäftigen, insbesondere mit dem Binomischen Lehrsatz, dem eigentlichem Namensgeber der Binomialkoeffizienten. Satz 2.4 Die Binomialkoeffizienten erfüllen die Eigenschaften (i) $\left(\begin{array}{l}n \\ 0\end{array}\right)=\left(\begin{array}{l}n \\ n\end{array}\right)=1$, (ii) $\left(\begin{array}{l}n \\ k\end{array}\right)=\left(\begin{array}{c}n \\ n-k\end{array}\right)$, (iii) $\left(\begin{array}{l}n+1 \\ k+1\end{array}\right)=\left(\begin{array}{l}n \\ k\end{array}\right)+\left(\begin{array}{c}n \\ k+1\end{array}\right)$. Beweis. Die Eigenschaften (i) und (ii) folgen unmittelbar aus der Definition. Auch die dritte Eigenschaft rechnet man für $0 \leq k>$)$ | | | | | | | $n=1$ | $\left(<>$)$ | $\left(<>$)$ | | | | | | $n=2$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | | | | | $n=3$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | | | | $n=4$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | | | $n=5$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | $\left(<>$)$ | Zeile $n=1$ und in den Spalten $k=1$ und $k=0$. Es ist leicht zu sehen, dass auf diesem Weg das Pascal'sche Dreieck Zeile für Zeile gebildet wird. Vergleicht man dieses Bildungsgesetz mit Satz 2.4, so folgt direkt, dass die Eintragungen des Pascal'schen Dreiecks mit den Binomialkoeffizienten übereinstimmen. Man beachte, dass aus der rekursiven Beschreibung auch folgt, dass $\left(\begin{array}{l}n \\ k\end{array}\right)$ immer eine natürliche Zahl ist, was aus der Definition nicht unmittelbar ersichtlich ist. Binomialkoeffizienten erfüllen zahlreiche weitere Beziehungen. Beispielsweise ist $$ \sum_{k=0}^{n}\left(\begin{array}{l} n \\ k \end{array}\right)=2^{n} $$ Auf beiden Seiten der Gleichung werden Teilmengen einer $n$-elementigen Menge gezählt, auf der linken Seite wird nach der Größe $k$ der Teilmengen unterschieden und summiert, und auf der rechten Seite steht die Gesamtanzahl der Teilmengen. Diese Beziehung hat einen tieferen Hintergrund, der auch den Namen „Binomialkoeffizient“ erklärt, den so genannten Binomischen Lehrsatz. Satz 2.5 (Binomischer Lehrsatz) Für $n \geq 0$ und beliebige $x, y \in \mathbb{C}$ gilt $$ \sum_{k=0}^{n}\left(\begin{array}{l} n \\ k \end{array}\right) x^{n-k} y^{k}=(x+y)^{n} $$ Die Beziehung (2.7) ergibt sich aus dem Spezialfall $x=y=1$. Für $n=3$ lautet (2.8) etwa $$ (x+y)^{3}=\left(\begin{array}{l} 3 \\ 0 \end{array}\right) x^{3}+\left(\begin{array}{l} 3 \\ 1 \end{array}\right) x^{2} y+\left(\begin{array}{l} 3 \\ 2 \end{array}\right) x y^{2}+\left(\begin{array}{l} 3 \\ 3 \end{array}\right) y^{3}=x^{3}+3 x^{2} y+3 x y^{2}+y^{3} \text {. } $$ Beweis. Man benützt das Beweisprinzip der vollständigen Induktion. Die Gleichung (2.8) ist offensichtlich richtig für $n=0$ (und auch für $n=1$ ). Man nehme nun an, sie sei für ein $n \geq 0$ richtig, dann folgt mittels Anwendung von Satz 2.4 (und unter Beachtung der Konvention $\left(\begin{array}{c}n \\ -1\end{array}\right)=\left(\begin{array}{c}n \\ n+1\end{array}\right)=0$ ) die entsprechende Beziehung für $n+1$ : $$ \begin{aligned} (x+y)^{n+1} & =(x+y)^{n}(x+y) \\ & =\sum_{k=0}^{n}\left(\begin{array}{l} n \\ k \end{array}\right) x^{n-k} y^{k}(x+y) \\ & =\sum_{k=0}^{n}\left(\begin{array}{l} n \\ k \end{array}\right) x^{n-k+1} y^{k}+\sum_{k=0}^{n}\left(\begin{array}{l} n \\ k \end{array}\right) x^{n-k} y^{k+1} \\ & =\sum_{k=0}^{n+1}\left(\begin{array}{l} n \\ k \end{array}\right) x^{n-k+1} y^{k}+\sum_{k=0}^{n+1}\left(\begin{array}{c} n \\ k-1 \end{array}\right) x^{n-k+1} y^{k} \\ & =\sum_{k=0}^{n+1}\left(\left(\begin{array}{l} n \\ k \end{array}\right)+\left(\begin{array}{c} n \\ k-1 \end{array}\right)\right) x^{n+1-k} y^{k} \\ & =\sum_{k=0}^{n+1}\left(\begin{array}{c} n+1 \\ k \end{array}\right) x^{n+1-k} y^{k} . \end{aligned} $$ ## 3. Inklusions-Exklusions-Prinzip Im letzen Teilabschnitt über Kombinatorik beschäftigen wir uns mit der allgemeinen Summenregel für die Berechnung von $|A \cup B|$, wenn $A$ und $B$ auch gemeinsame Elemente haben können (und entsprechende Verallgemeinerungen für mehrere Mengen). Man überzeugt sich leicht, dass etwa die Beziehung $$ |A \cup B|=|A|+|B|-|A \cap B| $$ gilt, d.h. zur Bestimmung der Anzahl der Elemente von $A \cup B$ addiert man zunächst die Anzahl der Elemente von $A$ und von $B$ (Inklusion) und subtrahiert danach jene Elemente, die man einmal zuviel aufgenommen hat (Exklusion). Man kann dieses Prinzip folgendermaßen exakt ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-063.jpg?height=366&width=649&top_left_y=852&top_left_x=619) Abbildung 2.1 Vereinigung von zwei Mengen $A$ und $B$ fassen (siehe Abb. 2.1): $$ \begin{aligned} |A \cup B| & =|A \backslash B|+|A \cap B|+|B \backslash A| \\ & =|A \backslash B|+|A \cap B|+|B \backslash A|+|A \cap B|-|A \cap B| \\ & =|A|+|B|-|A \cap B| . \end{aligned} $$ Die Situation wird bei drei Mengen etwas aufwändiger. Jedenfalls erhält man (nach einer kleinen Rechnung) $$ |A \cup B \cup C|=|A|+|B|+|C|-|A \cap B|-|A \cap C|-|B \cap C|+|A \cap B \cap C| . $$ Es zeigt sich schon, wie das Inklusions-Exklusions-Prinzip im allgemeinen aussehen wird. Tatsächlich gilt der folgende Satz. Satz 2.6 (Inklusions-Exklusions-Prinzip oder Siebformel) Es seien $A_{1}, A_{2}, \ldots, A_{n}$ endliche Mengen. Dann gilt $$ \begin{aligned} \left|\bigcup_{i=1}^{n} A_{i}\right|= & \left|A_{1} \cup A_{2} \cup \cdots \cup A_{n}\right| \\ = & \sum_{i=1}^{n}\left|A_{i}\right|-\sum_{1 \leq i0$ ), dann gilt $$ \begin{aligned} \varphi(m) & =m \cdot\left(1-\frac{1}{p_{1}}\right) \cdot \ldots \cdot\left(1-\frac{1}{p_{r}}\right) \\ & =m-\sum_{j=1}^{r} \frac{m}{p_{j}}+\sum_{1 \leq j_{1}0$ ist. Definition 2.20 Ein ungerichteter Graph $G$ heißt zusammenhängend, wenn es zwischen je zwei Knoten $v, w \in V(G)$ eine Kantenfolge von $v$ nach $w$ gibt. Die maximalen zusammenhängenden Teilgraphen eines ungerichteten Graphen $G$ heißen (Zusammenhangs-) Komponenten von $G$. Ein Graph $G$ ist daher genau dann zusammenhängend, wenn er nur aus einer Zusammenhangskomponente besteht. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-071.jpg?height=211&width=399&top_left_y=1404&top_left_x=752) Abbildung 2.5 Zusammenhangskomponenten eines ungerichteten Graphen Definition 2.21 Ein gerichteter Graph $G$ heißt stark zusammenhängend, wenn für je zwei verschiedene Knoten $v, w \in V(G)$ eine (gerichtete) Kantenfolge von $v$ nach $w$ existiert. Ein gerichteter Graph $G$ heißt schwach zusammenhängend, wenn für je zwei verschiedene Knoten $v, w \in V(G)$ eine Folge von Kanten existiert, die bei Missachtung der Richtung der Kanten $v$ und $w$ verbindet. Die maximalen stark zusammenhängenden Teilgraphen eines gerichteten Graphen $G$ heißen starke Zusammenhangskomponenten oder Komponenten des starken Zusammenhangs von $G$. Entsprechend heißen die maximalen schwach zusammenhängenden Teilgraphen eines gerichteten Graphen $G$ schwache Zusammenhangskomponenten oder Komponenten des schwachen Zusammenhangs von $G$. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-071.jpg?height=130&width=634&top_left_y=2349&top_left_x=634) Abbildung 2.6 Stark zusammenhängender Graph und ein schwach (aber nicht stark) zusammenhängender Graph ## 2. Bäume und Wälder Definition 2.22 Ein schlichter ungerichteter Graph $W$, der keine Kreise positiver Länge enthält, heißt Wald. Ein Wald $T$, der auch zusammenhängend ist, heißt Baum. Offensichtlich sind die Zusammenhangskomponenten eines Waldes Bäume. Man beachte, dass es in einem Baum $T$ zu je zwei Knoten $v, w$ genau einen Weg von $v$ nach $w$ gibt. Da $T$ zusammenhängend ist, muss es einen Weg von $v$ nach $w$ geben. Gäbe es aber einen weiteren ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-072.jpg?height=288&width=666&top_left_y=752&top_left_x=596) Abbildung 2.7 Beispiel eines Waldes Weg, so müsste es (wegen Satz 2.17) auch einen Kreis positiver Länge geben, was aber definitionsgemäß ausgeschlossen ist. Die Länge dieses Weges bezeichnet man als den Abstand $d_{T}(v, w)$ zwischen den Knoten $v$ und $w$. Satz 2.23 Für einen Baum T gilt $$ \alpha_{0}(T)=\alpha_{1}(T)+1 $$ Entsprechend gilt für einen Wald $W$ mit $k$ Komponenten $$ \alpha_{0}(W)=\alpha_{1}(W)+k $$ Beweis. Es genügt, die Beziehung (2.10) für einen Baum zu zeigen. Bei einem Wald gilt (2.10) dann für jede der $k$ Komponenten, und (2.11) folgt durch Summation. Der Nachweis von (2.10) erfolgt nun mit vollständiger Induktion über die Anzahl $n=$ $\alpha_{0}(T)$ der Knoten von $T$. Offensichtlich gilt (2.10) für $n=1$. Man nehme nun an, dass (2.10) für alle Bäume mit $n$ Knoten gilt. Ist nun $T$ ein Baum mit $\alpha_{0}(T)=n+1$ Knoten, so hat $T$ sicher einen Knoten $v$ mit Knotengrad $d(v)=1$, einen so genannten „Endknoten “ (vergleiche mit Übungsaufgabe 2.24). Entfernt man diesen Knoten $v$ gemeinsam mit der einzigen Kante, die von $v$ wegführt, so erhält man wieder einen Baum $T^{\prime}$ mit $\alpha_{0}\left(T^{\prime}\right)=\alpha_{0}(T)-1=n$ und $\alpha_{1}\left(T^{\prime}\right)=\alpha_{1}(T)-1$. (Man beachte, dass $T^{\prime}$ wieder zusammenhängend ist.) Aus der Induktionsvoraussetzung folgt $\alpha_{0}\left(T^{\prime}\right)=\alpha_{1}\left(T^{\prime}\right)+1$ und damit $\alpha_{0}(T)=\alpha_{0}\left(T^{\prime}\right)+1=\alpha_{1}\left(T^{\prime}\right)+2=$ $\alpha_{1}(T)+1$. Zeichnet man in einem Baum einen Knoten $w \in E(T)$ als so genannte Wurzel aus, so kann man sich die Struktur eines Baumes sehr einfach verdeutlichen. Platziert man in einer graphischen Darstellung die Nachbarn von $w$ oberhalb von $w$ und deren Nachbarn (mit der Ausnahme $w$ ) wieder darüber, usw., so entsteht tatsächlich ein Bild, das einem „Baum“ ähnelt (vergleiche mit Abb. 2.8). Man beachte, dass hier tatsächlich von jedem Knoten in neue Knoten verzweigt wird, da ein Baum definitionsgemäß kreisfrei ist. Manchmal wird ein Wurzelbaum auch als gerichteter Graph interpretiert, in dem alle Kanten von der Wurzel weg gerichtet sind. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-073.jpg?height=416&width=1385&top_left_y=544&top_left_x=262) Abbildung 2.8 Wurzelbaum und Binärbaum Wurzelbäume spielen in der Informatik eine große Rolle. So bilden z.B. die Ordner auf der Festplatte in einem Computer einen Wurzelbaum. Man unterscheidet in Wurzelbäumen zwischen externen Knoten (die auch Blätter oder Endknoten genannt werden), das sind Knoten vom Knotengrad 1, und internen Knoten. (Die Wurzel betrachtet man als externen Knoten, wenn sie Grad 0 hat, sonst zählt sie zu den internen Knoten.) Diese Unterscheidung ist insbesondere bei so genannten Binärbäumen von Bedeutung, die z.B. als Datenstrukturen (binäre oder digitale Suchbäume, TRIES etc.) auftreten. Bei Binärbäumen haben alle Knoten (mit Ausnahme der Wurzel) Knotengrad 1 oder 3, die Wurzel hat Knotengrad 2 (bzw. 0, wenn der Baum nur aus der Wurzel besteht). Ein interner Knoten $v$ hat daher Knotengrad 3, jener Nachbarknoten, der auf der Verbindung zur Wurzel liegt, heißt Vorgänger von $v$, und die beiden anderen Nachbarknoten heißen Nachfolger von $v$, wobei die „Links-Rechts-Reihenfolge" der beiden Nachfolger eine Rolle spielt; vergleiche auch mit Abb. 2.8, wo die externen Knoten eines Binärbaums durch $\square$ und die internen Knoten durch $\bigcirc$ dargestellt werden. ## 3. Euler'sche und Hamiliton'sche Linien Definition 2.24 Eine Kantenfolge in einem (gerichteten oder ungerichteten) Graphen $G$ heißt Euler'sche Linie, wenn sie jeden Knoten und jede Kante enthält, und zwar jede Kante genau einmal. Ein Graph wird als Euler'scher Graph bezeichnet, wenn er eine Euler'sche Linie besitzt. Bei einer geschlossenen Euler'schen Linie stimmen Anfangs- und Endknoten überein, bei einer offenen Euler'schen Linie sind sie verschieden. Grob gesprochen bedeutet die Existenz einer Euler'schen Linie, dass die Kanten von $G$,in einem Zug" ohne Absetzen gezeichnet werden können. Interessanterweise kann die Existenz einer Euler'schen Linie sehr leicht mit den Knotengraden überprüft werden. Es ist also möglich, durch eine „lokale Bedingung" eine „globale Eigenschaft" zu erhalten. Satz 2.25 Ein ungerichteter Graph $G$ besitzt genau dann eine geschlossene Euler'sche Linie, wenn $G$ zusammenhängend ist und alle Knotengrade $d(v)(v \in V(G))$ gerade sind. Ein ungerichteter Graph $G$ besitzt genau dann eine offene Euler'sche Linie, wenn $G$ zusammenhängend ist und mit der Ausnahme von zwei Knoten $w_{1}, w_{2} \in V(G)$ mit ungeradem Knotengrad alle übrigen Knotengrade $d(v)\left(v \in V(G) \backslash\left\{w_{1}, w_{2}\right\}\right)$ gerade sind. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-074.jpg?height=206&width=740&top_left_y=640&top_left_x=572) Abbildung 2.9 Ungerichteter Euler'scher Graph und Euler'sche Linie Satz 2.26 Ein gerichteter Graph $G$ besitzt genau dann eine geschlossene Euler'sche Linie, wenn $G$ schwach zusammenhängend ist und für alle Knoten $v \in V(G)$ Hin-und Weggrad gleich sind: $d^{+}(v)=d^{-}(v)$. Ein gerichteter Graph $G$ besitzt genau dann eine offene Euler'sche Linie, wenn $G$ schwach zusammenhängend ist und mit der Ausnahme von zwei Knoten $w_{1}, w_{2} \in V(G)$, für die $d^{+}\left(w_{1}\right)=d^{-}\left(w_{1}\right)+1$ und $d^{+}\left(w_{2}\right)=d^{-}\left(w_{2}\right)-1$ gilt, bei allen übrigen Knoten $v \in$ $V(G) \backslash\left\{w_{1}, w_{2}\right\}$ Hin- und Weggrad gleich sind: $d^{+}(v)=d^{-}(v)$. Beweis. Wir untersuchen nur einen gerichteten schwach zusammenhängenen Graphen, der die Bedingung $d^{+}(v)=d^{-}(v)$ für alle Knoten $v \in V(G)$ erfüllt. Alle anderen Fälle lassen sich auf diesen Fall zurückführen bzw. sind ganz ähnlich zu behandeln. Wir benützen wieder vollständige Induktion über die Anzahl $m=\alpha_{1}(G)$ der Kanten. Bei $m=0$ besteht der Graph nur aus einem Knoten, und eine Euler'sche Linie ist eine leere Kantenfolge. Sei jetzt also $G$ ein gerichteter Graph mit $m \geq 1$ Kanten, und man nehme an, dass der Satz für alle gerichteten Graphen mit weniger als $m$ Kanten gilt. Es ist nun immer möglich, eine nicht-leere geschlossene Kantenfolge zu finden, wo keine Kante mehrfach verwendet wird. Dazu beginnne man in irgendeinem Knoten $v_{1}$. Da $G$ schwach zusammenhängend ist, gilt $d^{+}\left(v_{1}\right)=d^{-}\left(v_{1}\right)>0$. Also kann man einen Knoten $v_{2}$ mit $\left(v_{1}, v_{2}\right) \in E(G)$ finden. $\mathrm{Da}$ es eine Kante von $v_{1}$ nach $v_{2}$ gibt, muss es wegen der Bedingung $d^{+}\left(v_{2}\right)=d^{-}\left(v_{2}\right)$ auch eine Kante von $v_{2}$ zu einem Knoten $v_{3}$ geben. Man entfernt nun die Kanten $\left(v_{1}, v_{2}\right)$ und $\left(v_{2}, v_{3}\right)$ aus dem Graphen $G$. Dadurch werden die Knotengrade im Graphen verringert, allerdings bleibt die Balance zwischen Hin- und Weggrad im Knoten $v_{2}$ erhalten, da sowohl Hin- als auch Weggrad jeweils um 1 reduziert werden. Ist nun $v_{3} \neq v_{1}$, so verfährt man in derselben Weise weiter. Es gibt sicher einen Knoten $v_{4}$ mit einer Kante $\left(v_{3}, v_{4}\right) \in E(G)$, die wieder entfernt wird. Die Knotengradbedingung sichert, dass man dieses Verfahren fortsetzen kann, solange man in einem Knoten $v \neq v_{1}$ gelandet ist. Da $G$ endlich ist, muss man aber nach endlich vielen Schritten wieder nach $v_{1}$ zurückkehren. Es gibt also, wie behauptet, eine geschlossene Kantenfolge $K$ in $G$, wo keine Kante mehrfach verwendet wird. Ist $K=E(G)$, so hat man bereits eine Euler'sche Linie gefunden. Andernfalls betrachte man $G^{\prime}=G \backslash K$. Dieser Graph ist zwar möglicherweise nicht mehr schwach zusammenhängend, aber auch in $G^{\prime}$ gilt noch immer die Bedingung $d_{G^{\prime}}^{+}(v)=d_{G^{\prime}}^{-}(v)$ für alle $v \in V\left(G^{\prime}\right)$, da in jedem Knoten beim Entfernen von $K$ sowohl Hin- als auch Weggrad jeweils um denselben Betrag verringert werden. Aus der Induktionsvoraussetzung folgt, dass jede schwache Zusammenhangskomponente $G_{j}^{\prime}$ von $G^{\prime}$ eine geschlossene Euler'sche Linie $K_{j}$ besitzt. Da $G^{\prime} \cup K=G$ schwach zusammenhängend ist, muss jedes $K_{j}$ mit $K$ wenigstens einen Knoten $v_{j}^{\prime}$ gemeinsam haben. Es ist daher möglich, die Kantenfolge $K$ im Knoten $v_{j}^{\prime}$ zu „unterbrechen “ und die geschlossene Kantenfolge $K_{j}$,einzuhängen“. Führt man dies für alle $j$ durch, so erhält man insgesamt eine Euler'sche Linie von $G$. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-075.jpg?height=202&width=774&top_left_y=770&top_left_x=531) Abbildung 2.10 Gerichteter Euler'scher Graph und Euler'sche Linie Definition 2.27 Eine Kantenfolge in einem (gerichteten oder ungerichteten) Graphen $G$ heißt Hamilton'sche Linie, wenn sie jeden Knoten (mit der möglichen Ausnahme, dass Anfangsund Endpunkt übereinstimmen) genau einmal enthält. Ein Graph wird als Hamilton'scher Graph bezeichnet, wenn er eine Hamilton'sche Linie besitzt. Bei einer geschlossenen Hamilton'schen Linie stimmen Anfangs- und Endknoten überein, bei einer offenen Hamilton'schen Linie sind sie verschieden. Im Gegensatz zu den Euler'schen Linien gibt es (bis heute) noch kein allgemeines Kriterium für die Existenz von Hamilton'schen Linien. Es gibt aber viele Sätze, die hinreichende Bedingungen für die Existenz einer Hamilton'schen Linie angeben. Als Beispiel dafür sei der folgende Satz (ohne Beweis) angegeben. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-075.jpg?height=204&width=1054&top_left_y=1812&top_left_x=390) Abbildung 2.11 Hamilton'scher Graph und Hamilton'sche Linie Satz 2.28 Sei $G$ ein schlichter ungerichteter Graph mit $n$ Knoten, so dass für alle Knotenpaare $x, y \in V(G)$, die in $G$ nicht durch eine Kante verbunden sind, d.h. $(x, y) \notin E(G)$, $$ d(x)+d(y) \geq n $$ gilt. Dann gibt es in G eine geschlossene Hamilton'sche Linie. ## 4. Netzwerke Netzwerke sind gerichtete oder ungerichtete Graphen $G=(V, E)$, wo jeder Kante $e \in E$ ein Wert $w(e) \in \mathbb{R}$ zugeordnet wird. Dieser Wert kann je nach Anwendung als Länge, Kosten, Kapazität, Gewicht etc. gedeutet werden. Netzwerke spielen gerade in den Anwendungen der Graphentheorie eine große Rolle. Formal ist eine solche Bewertung eine Funktion $w: E \rightarrow \mathbb{R}$. Anstelle der gewöhnlichen Adjazenzmatrix $A(G)$ betrachtet man auch die bewertete Adjazenzmatrix $A_{w}(G)=\left(w\left(v_{i}, v_{j}\right)\right)_{1 \leq i, j \leq n}$. Hier ist jedoch genau zu definieren, welche Bedeutung ein Eintrag $w\left(v_{i}, v_{j}\right)=0$ hat. Im folgenden werden wir uns mit zwei einfachen Algorithmen für Netzwerke beschäftigen, mit dem Kruskal-Algorithmus zur Bestimmung eines minimalen Gerüstes und dem DijkstraAlgorihmus zur Bestimmung eines kürzesten Weges. Definition 2.29 Ein spannender Baum $T$ eines schlichten ungerichteten zusammenhängenden Graphen $G$ ist ein Baum mit $V(T)=V(G)$ und $E(T) \subseteq E(G)$, d.h. er enthält dieselben Knoten wie $G$ und gewisse Kanten von $G$. Ein Gerüst oder spannender Wald $W$ eines schlichten ungerichteten Graphen $G$ ist ein Wald mit $V(W)=V(G)$ und $E(W) \subseteq E(G)$ und denselben Zusammenhangskomponenten wie $G$, d.h., schränkt man $W$ auf eine Zusammenhangskomponente $K$ von $G$ ein, so ist diese Einschränkung ein spannender Baum von $K$. Ist $G$ ein bewerteter Graph, so bezeichnet man ein Gerüst $W$ als minimales Gerüst, wenn die Summe aller Kantengewichte des Gerüstes $$ w(W)=\sum_{e \in E(W)} w(e) $$ unter allen möglichen Gerüsten von $G$ kleinstmöglich ist. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-076.jpg?height=342&width=810&top_left_y=1788&top_left_x=591) Abbildung 2.12 Gerüst eines Graphen mit 3 Zusammenhangskomponenten Ein Graph hat üblicherweise sehr viele verschiedene Gerüste. Beispielsweise hat der so genannte vollständige Graph $K_{n}$ aus $n$ Knoten und allen möglichen $n(n-1) / 2$ Kanten $n^{n-2}$ verschiedene spannende Bäume. Es scheint daher sehr aufwändig zu sein, ein minimales Gerüst zu finden. Tatsächlich stellt sich heraus, dass es relativ leicht möglich ist, ein solches effektiv zu finden. Die Idee ist, ein minimales Gerüst Schritt für Schritt aufzubauen. Man sortiert zuerst die Kanten nach steigendem Gewicht und betrachtet einmal eine Kante $e_{1}$ mit kleinstmöglichem Gewicht. (Wäre die kleinste Kante nicht im minimalen Gerüst enthalten, so könnte man sie austauschen und erhielte ein Gerüst mit noch kleinerem Gewicht.) Man setzt nun die (nach ihrem Gewicht sortierten) Kanten der Reihe nach in den Graphen ein. Bei jedem Schritt prüft man nach, ob durch Einsetzen dieser Kante ein Kreis mit den bisher eingesetzten Kanten entstehen würde. Wenn ja, dann entfernt man diese Kante, wenn nein, dann belässt man sie im Graphen. Auf diese Weise erhält man schließlich ein minimales Gerüst $W .{ }^{2}$ ## Kruskal-Algorithmus: 1. Man nummeriere die Kanten $E=\left\{e_{1}, e_{2}, \ldots, e_{m}\right\}$ nach steigendem Gewicht: $$ w\left(e_{1}\right) \leq w\left(e_{2}\right) \leq \cdots \leq w\left(e_{m}\right) $$ 2. Setze $E^{\prime}:=\emptyset$ und $j:=1$. 3. Ist der $\operatorname{Graph}\left(V, E^{\prime} \cup\left\{e_{j}\right\}\right)$ kreisfrei, so setze $E^{\prime}:=E^{\prime} \cup\left\{e_{j}\right\}$. 4. Ist $\left|E^{\prime}\right|=|V|-1$ oder $j=m$, so wird der Algorithmus beendet und $W=\left(V, E^{\prime}\right)$ ist ein minimales Gerüst von $G$. Andernfalls setze $j:=j+1$ und gehe zu Schritt 3 . In Abb. 2.13 ist ein minimales Gerüst eines Netzwerks, das sehr einfach mit Hilfe des Kruskal-Algorithmus gewonnen werden kann, eingezeichnet. Wegen Satz 2.23 hat jedes Gerüst von $G$ genau $|V|-k$ Kanten, wobei $k$ die Anzahl der Zusammenhangskomponenten bezeichnet. Ist $k$ bekannt, so kann im Schritt 4. abgebrochen werden, wenn $E^{\prime}$ bereits $j=|V|-k$ Kanten enthält. Der Kruskalalgorithmus ist ein so genannter Greedy-Algorithmus, d.h., in jedem Schritt versucht man - in ,hungriger" Weise - jene Kante mit minimal möglichem Gewicht einzusetzen (so dass kein Kreis entsteht). Analog bestimmt man auch maximale spannende Bäume bzw. Gerüste. Man muss in 1. die Kanten nur nach fallendem Gewicht ordnen. ${ }^{3}$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-077.jpg?height=383&width=414&top_left_y=1751&top_left_x=703) Abbildung 2.13 Beispiel eines minimalen Gerüsts[^18] Als nächstes beschäftigen wir uns mit der Distanz bzw. mit kürzesten Wegen zwischen zwei Knoten. Definition 2.30 Sei $G=(V, E)$ ein Netzwerk mit Bewertung $w: E \rightarrow \mathbb{R}_{0}^{+}$. Die Länge einer Kantenfolge $e_{1}, e_{2}, \ldots, e_{k}$ ist durch die Summe der Gewichte $$ w\left(\left\{e_{1}, e_{2}, \ldots, e_{k}\right\}\right)=\sum_{j=1}^{k} w\left(e_{j}\right) $$ gegeben. Die Distanz $d(v, w)$ zwischen zwei Knoten $v, w \in V$ ist die kleinstmögliche Länge einer Kantenfolge von $v$ nach $w$. Gibt es keine Kantenfolge von $v$ nach $w$, so setzt man $d(v, w)=\infty$. Das tatsächliche Bestimmen der Distanz (und des kürzesten Weges) zwischen zwei Knoten ist viel aufwändiger als das Bestimmen eines minimalen Gerüsts. Mit Hilfe des DijkstraAlgorithmus wird von einem Knoten $v_{0} \in V$ eines Netzwerkes mit nichtnegativer Bewertung die Distanz $d\left(v_{0}, v\right)$ für alle Knoten $v \in V$ bestimmt. ## Dijkstra-Algorithmus: 1. Man setze $l\left(v_{0}\right)=0, l(v):=\infty$ für alle $v \in V \backslash\left\{v_{0}\right\}, U=\left\{v_{0}\right\}$ und $u=v_{0}$. 2. Für alle $v \in V \backslash U$ mit $(u, v) \in E$, die $l(v)>l(u)+w(u, v)$ erfüllen, setze man $p(v):=u$ und $$ l(v):=l(u)+w(u, v) . $$ 3. Man bestimme $m=\min _{v \in V \backslash U} l(v)$. Falls $m=\infty$, dann terminiere, andernfalls wähle einen Knoten $z \in V \backslash U$ mit $l(z)=m$ und setze $U:=U \cup\{z\}$ und $u:=z$. 4. Ist $U=V$, so wird der Algorithmus beendet. Andernfalls gehe zu Schritt 2. Die Menge $U \subseteq V$ umfasst in jedem Zeitpunkt des Algorithmus jene Knoten $v \in V$, für die der kürzeste Weg von $v_{0}$ schon bekannt ist, wobei $l(v)=d\left(v_{0}, v\right)$ ist. Für $v \in V \backslash U$ ist hingegen $l(v)$ die minimale Länge einer Kantenfolge, die mit Ausnahme von $v$ nur Knoten aus $U$ enthält, und kann sich im Verlauf des Algorithmus noch ändern. $p(v)$ ist jeweils der Vorgängerknoten von $v$ auf einer minimalen Kantenfolge von $v_{0}$ nach $v$. Aus diesen Bedingungen ist klar, dass der in Schritt 3. ausgewählte Knoten $z$ in $U$ aufgenommen werden kann. Endet der Algorithmus nicht mit $U=V$, sondern mit der Abbruchbedingung $l(v)=\infty$ für alle $v \in V \backslash U$, so ist $G$ nicht zusammenhängend, und $U$ umfasst genau jene Knoten, die von $v_{0}$ aus erreichbar sind. Ein wesentlicher Aspekt des Dijkstra-Algorithmus ist, dass auch die Distanz $d\left(v_{0}, v_{1}\right)$ zu einem vorgegebenem Zielknoten $v_{1} \in V$ bestimmt werden kann, ohne dass möglicherweise alle anderen Distanzen $d\left(v_{0}, v\right)$ bestimmt werden müssen. Man bricht den Algorithmus im Schritt 4. $\mathrm{ab}$, sobald $u=v_{1}$ ist, da dieser Knoten zuvor in $U$ aufgenommen wurde und somit die Distanz $d\left(v_{0}, v_{1}\right)$ bereits ermittelt worden ist. Übrigens kann für alle Knoten $v \in U$ durch $v, p(v), p(p(v)), \ldots, v_{0}$ eine Kantenfolge von $v_{0}$ nach $v$ von kleinstmöglicher Länge rückverfolgt werden. Beispiel 2.31 Im gerichteten Netzwerk, das in Abb. 2.14 dargestellt wird, sollen alle Distanzen $d\left(v_{0}, v\right)$ mit Hilfe des Dijkstra-Algorithmus bestimmt werden. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-079.jpg?height=324&width=539&top_left_y=465&top_left_x=635) Abbildung 2.14 Netzwerk zum Dijkstra-Algorithmus Im ersten Durchlauf des Algorithmus werden folgende Operationen durchgeführt: 1. $l\left(v_{0}\right)=0$ und $l\left(v_{1}\right)=l\left(v_{2}\right)=l\left(v_{3}\right)=l\left(v_{4}\right)=l\left(v_{5}\right)=\infty, U=\left\{v_{0}\right\}$ und $u=v_{0}$. 2. $l\left(v_{1}\right)=\min \{\infty, 0+2\}=2, p\left(v_{1}\right)=v_{0} ; l\left(v_{2}\right)=\min \{\infty, 0+5\}=5, p\left(v_{2}\right)=v_{0}$. 3. $m=2, z=v_{1}, U=\left\{v_{0}, v_{1}\right\}, u=v_{1}$. 4. Fortsetzung bei Schritt 2. Beim zweiten Durchlauf, der gleich mit dem 2. Schritt beginnt, geschieht dann folgendes: 2. $l\left(v_{2}\right)=\min \{5,2+2\}=4, p\left(v_{2}\right)=v_{1} ; l\left(v_{3}\right)=\min \{\infty, 2+4\}=6, p\left(v_{3}\right)=v_{1}$; $l\left(v_{4}\right)=\min \{\infty, 2+3\}=5, p\left(v_{4}\right)=v_{1}$. 3. $m=4, z=v_{2}, U=\left\{v_{0}, v_{1}, v_{2}\right\}, u=v_{2}$. 4. Fortsetzung bei Schritt 2. Zur besseren Übersicht ist es günstig, eine Tabelle anzulegen: | | $v_{0}$ | $v_{1}$ | $v_{2}$ | $v_{3}$ | $v_{4}$ | $v_{5}$ | Auswahl | Vorgänger | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | 0 | 0 | $\infty$ | $\infty$ | $\infty$ | $\infty$ | $\infty$ | $v_{0}$ | | | 1 | | 2 | 5 | $\infty$ | $\infty$ | $\infty$ | $v_{1}$ | $v_{0}$ | | 2 | | | 4 | 6 | 5 | $\infty$ | $v_{2}$ | $v_{1}$ | | 3 | | | | 6 | 5 | $\infty$ | $v_{4}$ | $v_{1}$ | | 4 | | | | 6 | | 11 | $v_{3}$ | $v_{1}$ | | 5 | | | | | | 10 | $v_{5}$ | $v_{3}$ | Der kürzeste Weg von $v_{0}$ nach $v_{5}$ ist daher $l\left(v_{5}\right)=10$, und von hinten nach vorne sind die Knoten $v_{5}, p\left(v_{5}\right)=v_{3}, p\left(v_{3}\right)=v_{1}, p\left(v_{1}\right)=v_{0}$. In richtiger Reihenfolge muss man also die Knoten $v_{0}, v_{1}, v_{3}, v_{5}$ durchlaufen. Da alle Distanzen $d\left(v_{0}, v\right)$ berechnet wurden, kann man auch den so genannten Entfernungsbaum (siehe Abb. 2.15) bestimmen, aus dem die kürzesten Wege von $v_{0}$ zu allen Endknoten $v$ abgelesen werden können. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-080.jpg?height=363&width=585&top_left_y=501&top_left_x=706) Abbildung 2.15 Entfernungsbaum bezüglich $v_{0}$ in einem Netzwerk ### 2.3 Algebraische Strukturen Wir haben bereits in Abschnitt 1.1 einige Rechenregeln (Kommutativgesetz, Assoziativgesetz etc.) kennengelent, die sowohl für die Addition als auch für die Multiplikation in $\mathbb{R}$ oder $\mathbb{C}$ gelten. In diesem Abschnitt werden sowohl Rechenoperationen (wie die Addition und die Multiplikation) als auch Rechenregeln in einem allgemeinen Kontext betrachtet. Diese abstrakten algebraischen Strukturen werden in der Informatik in verschiedenen Anwendungen benötigt, z.B. bei formalen Sprachen oder in der Codierungstheorie. ## 1. Binäre Operationen Wir beginnen mit der Definition einer allgemeinen algebraischen Struktur mit einer binären Operation. Definition 2.32 Sei $A$ eine nichtleere Menge. Eine binäre Operation $\circ$ auf $A$ ist eine Abbildung $A \times A \rightarrow A$, d.h., je zwei Elementen $a, b \in A$ wird ein Element $a \circ b$ zugeordnet. Das Paar $(A, 0)$ heißt dann binäre algebraische Struktur oder Gruppoid. Beispiel 2.33 Die Addition + bildet auf den üblichen Zahlmengen eine algebraische Struktur: $$ (\mathbb{N},+),(\mathbb{Z},+),(\mathbb{Q},+),(\mathbb{R},+),(\mathbb{C},+) $$ Dasselbe gilt für die Multiplikation: $$ (\mathbb{N}, \cdot),(\mathbb{Z}, \cdot),(\mathbb{Q}, \cdot),(\mathbb{R}, \cdot),(\mathbb{C}, \cdot) $$ Es tritt öfters die Situation ein, dass eine binäre Operation o auf einer Menge $A$ nur für Elemente $a, b$ in einer Teilmenge $B \subseteq A$ betrachtet wird. Dafür muss aber gewährleistet sein, daß für alle $a, b \in B$ das Element $a \circ b$ wieder in $B$ liegt, also o auch eine binäre Operation auf $B$ ist. Diese Eigenschaft nennt man Abgeschlossenheit der Operation $\circ$ auf $B$. Diese Bedingung ist jedenfalls sicherzustellen, da sonst keine algebraische Struktur vorliegt. Wir verallgemeinern nun einige Rechenregeln, die wir in Abschnitt 1.1 für die Addition und die Multipikation kennengelernt haben. Definition 2.34 Die folgenden Gesetzmäßigkeiten können für eine algebraische Struktur $(A, \circ)$ zusätzlich definiert werden. (i) Assoziativgesetz: Für alle $a, b, c \in A$ gilt $$ (a \circ b) \circ c=a \circ(b \circ c) $$ (ii) Existenz eines neutrales Elements: Es gibt ein $e \in A$ mit der Eigenschaft, dass für alle $a \in A$ gilt $$ e \circ a=a \circ e=a \text {. } $$ (iii) Existenz inverser Elemente: Für alle $a \in A$ gibt es ein $a^{\prime} \in A$ mit $$ a \circ a^{\prime}=a^{\prime} \circ a=e, $$ wobei $e$ das neutrale Element aus (ii) bezeichnet. (iv) Kommutativgesetz: Für alle $a, b \in A$ gilt $$ a \circ b=b \circ a \text {. } $$ Benützt man für das binäre Operationssymbol das Malzeichen $\cdot$, so schreibt man für das inverse Element von $a$ auch $a^{-1}$, verwendet man hingegen das Pluszeichen + , so bezeichnet man das inverse Element von $a$ durch $-a$. Beispiel 2.35 In der algebraischen Struktur $(\mathbb{N},+$ ) gilt das Assoziativgesetz und das Kommutativgesetz, das (additive) neutrale Element ist $e=0$, aber es gibt (außer zu 0) zu keiner natürlichen Zahl ein (additives) inverses Element. In $(\mathbb{Z},+$ ) können aber uneingeschränkt inverse Elemente gebildet werden. Entsprechend gilt in $(\mathbb{Z}, \cdot)$ das Assoziativgesetz und das Kommutativgesetz, das (multiplikative) neutrale Element ist $e=1$. Allerdings gibt es (außer für \pm 1 ) keine (multiplikativen) inversen Elemente. Interessanterweise kann man nicht einmal in $(\mathbb{Q}, \cdot)$ uneingeschränkt (multiplikative) inverse Elemente finden, 0 hat kein inverses Element. Erst, wenn man 0 ausschließt, also $(\mathbb{Q} \backslash\{0\}, \cdot)$ betrachtet, sind alle vier Eigenschaften erfüllt. Satz 2.36 In einer algebraischen Struktur $(A, \circ)$ gibt es höchstens ein neutrales Element, und in jeder assoziativen algebraischen Struktur gibt es zu jedem Element höchstens ein inverses Element. Es wird daher im folgenden nur mehr vom neutralen Element $e$ bzw. vom inversen Element $a^{-1}$ gesprochen werden, sofern diese existieren. Beweis. Wären $e_{1}$ und $e_{2}$ zwei neutrale Elemente in $A$, so gilt $e_{1} \circ e_{2}=e_{1}$, da $e_{2}$ neutrales Element ist, aber auch $e_{1} \circ e_{2}=e_{2}$, da $e_{1}$ neutrales Element ist. Also: $e_{1}=e_{1} \circ e_{2}=e_{2}$. Wären in einer assoziativen algebraischen Struktur $a^{\prime}$ und $a^{\prime \prime}$ zu $a$ invers, so gilt $$ a^{\prime}=a^{\prime} \circ e=a^{\prime} \circ\left(a \circ a^{\prime \prime}\right)=\left(a^{\prime} \circ a\right) \circ a^{\prime \prime}=e \circ a^{\prime \prime}=a^{\prime \prime}, $$ $a^{\prime}$ und $a^{\prime \prime}$ müssen also übereinstimmen. ## 2. Gruppen Gruppen gehören zu den wichtigsten algebraischen Strukturen und werden daher etwas näher untersucht. Die folgende Definition beschreibt neben Gruppen auch so genannte Halbgruppen und Monoide, die nicht alle Gruppeneigenschaften erfüllen. Definition 2.37 Eine algebraische $\operatorname{Struktur}(A, \circ)$ heißt (i) Halbgruppe, wenn sie assoziativ ist, also (i) aus Definition 2.34 erfüllt, (ii) Monoid, wenn sie assoziativ ist und ein neutrales Element besitzt, also (i) und (ii) aus Definition 2.34 erfüllt, und (iii) Gruppe, wenn sie assoziativ ist, ein neutrales Element und zu jedem Element ein Inverses besitzt, also (i), (ii) und (iii) aus Definition 2.34 erfüllt. Erfüllt eine der Strukturen Gruppoid, Halbgruppe, Monoid bzw. Gruppe auch das Kommutativgesetz (iv), so heißt sie kommutative(s) Gruppoid, Halbgruppe, Monoid bzw. Gruppe. Kommutative Gruppen werden auch als abelsche Gruppen ${ }^{4}$ bezeichnet. ## Beispiel 2.38 (a) $(A, \circ)$ mit $A=\mathbb{N}$ und $a \circ b=a^{b}$ ist ein Gruppoid. (b) ( $\mathbb{N} \backslash\{0\},+)$ ist eine Halbgruppe, $(\mathbb{N},+)$ und $(\mathbb{N}, \cdot)$ sind Monoide, aber keine Gruppen. (c) Sei $\Sigma$ eine Menge, genannt Alphabet, und bezeichne $\Sigma^{*}$ die Menge aller endlichen Wörter über $\Sigma$, das sind alle endlichen Folgen $x_{1} x_{2} \ldots x_{k}$ mit $x_{j} \in \Sigma(1 \leq j \leq k)$ ergänzt um das leere Wort $\varepsilon$. Sind $w_{1}=x_{1} x_{2} \ldots x_{k}$ und $w_{2}=y_{1} y_{2} \ldots y_{l}$ zwei Wörter in $\Sigma^{*}$, so definiert man $$ w_{1} \circ w_{2}=x_{1} x_{2} \ldots x_{k} y_{1} y_{2} \ldots y_{l} \in \Sigma^{*} $$ $\left(\Sigma^{*}, \circ\right)$ ist damit ein Monoid mit neutralem Element $\varepsilon$. Man bezeichnet $\Sigma^{*}$ auch als freies Monoid über dem Alphabet $\Sigma$. ## Beispiel 2.39 (a) $(\mathbb{Z},+),(\mathbb{Q},+),(\mathbb{Q} \backslash\{0\}, \cdot),(\mathbb{R},+),(\mathbb{R} \backslash\{0\}, \cdot)$ etc. sind abelsche Gruppen. (b) Die Menge aller $n \times n$-Matrizen $\mathbb{R}^{n \times n}$ mit Koeffizienten aus $\mathbb{R}$ bildet mit der Matrizenadditon eine Gruppe. Außerdem bilden jene $n \times n$-Matrizen $A$ mit $\operatorname{det}(A) \neq 0$ bezüglich der Matrizenmultiplikation eine Gruppe. Diese ist für $n \geq 2$ nicht kommutativ (vergleiche mit Kapitel 3). (c) Sei $M$ eine beliebige Menge. Dann bildet $(\mathbf{P}(M), \Delta)$, d.h. alle Teilmengen von $M$ mit der symmetrischen Mengendifferenz, eine Gruppe. Das neutrale Element ist $\emptyset$, und jedes Element ist zu sich selbst invers.[^19] ## Beispiel 2.40 (a) Die Menge $\mathbf{S}_{n}$ der Permutationen der Zahlen $\{1,2, \ldots, n\}$ ist die Menge der bijektiven Abbildungen $\pi:\{1,2, \ldots, n\} \rightarrow\{1,2, \ldots, n\}$. Führt man zwei bijektive Abbildungen hintereinander aus, erhält man wieder eine bijektive Abbildung. $\left(\mathrm{S}_{n}, \circ\right)$ bildet die so genannte symmetrische Gruppe. Die identische Abbildung $\operatorname{id}(j)=j$ ist das neutrale Element. (b) Die Symmetriegruppe eines gleichseitigen Dreiecks besteht aus allen Isometrien (das sind längen- und winkeltreue Abbildungen) der Ebene, die ein gleichseitiges Dreieck auf sich selbst abbilden. Da ein Dreieck durch seine Eckpunkte eindeutig gegeben ist, reicht es aus, die Auswirkung solcher Isometrien auf die Eckpunkte zu betrachten. Es entstehen gewisse Permutationen der Eckpunkte $\{1,2,3\}$. Bei den Drehungen um $0^{\circ}, 120^{\circ}$ und $240^{\circ}$ werden die Eckpunkte zyklisch vertauscht, und bei den Spiegelungen an den drei Höhen werden jeweils zwei Eckpunkte miteinander vertauscht. Insgesamt erhält man also sechs verschiedene Symmetrien, die bezüglich Hintereinanderausführung eine Gruppe bilden. In diesem speziellen Fall eines gleichseitigen Dreiecks ist die Symmetriegruppe nichts anderes als die symmetrische Gruppe auf den drei Eckpunkten. Beispiel 2.41 Kleine algebraische Strukturen kann man auch durch so genannte Operationstafeln definieren. Um dies zu demonstrieren, werden (bis auf Isomorphie) alle Möglichkeiten von Gruppen mit höchstens 6 Elementen aufgelistet. (Dabei bezeichnet $e$ immer das neutrale Element.) | $\circ$ | $e$ | $\circ$ | $e$ | $a$ | | | | | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | $e$ | $e$ | $e$ | $e$ | $a$ | $e$ | $e$ | $a$ | $b$ | | $a$ | $a$ | $e$ | $a$ | $a$ | $b$ | $e$ | | | | $b$ | $b$ | $e$ | $a$ | | | | | | | $\circ$ | $e$ | $a$ | $b$ | $c$ | $\circ$ | $e$ | $a$ | $b$ | $c$ | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | $e$ | $e$ | $a$ | $b$ | $c$ | $e$ | $e$ | $a$ | $b$ | $c$ | | $a$ | $a$ | $b$ | $c$ | $e$ | $a$ | $a$ | $e$ | $c$ | $b$ | | $b$ | $b$ | $c$ | $e$ | $a$ | $b$ | $b$ | $c$ | $e$ | $a$ | | $c$ | $c$ | $e$ | $a$ | $b$ | $c$ | $c$ | $b$ | $a$ | $e$ | | $\circ$ | $e$ | $a$ | $b$ | $c$ | $d$ | | :--- | :--- | :--- | :--- | :--- | :--- | | $e$ | $e$ | $a$ | $b$ | $c$ | $d$ | | $a$ | $a$ | $b$ | $c$ | $d$ | $e$ | | $b$ | $b$ | $c$ | $d$ | $e$ | $a$ | | $c$ | $c$ | $d$ | $e$ | $a$ | $b$ | | $d$ | $d$ | $e$ | $a$ | $b$ | $c$ | | $\circ$ | $e$ | $a$ | $b$ | $c$ | $d$ | $f$ | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | $e$ | $e$ | $a$ | $b$ | $c$ | $d$ | $f$ | | $a$ | $a$ | $b$ | $c$ | $d$ | $f$ | $e$ | | $b$ | $b$ | $c$ | $d$ | $f$ | $e$ | $a$ | | $c$ | $c$ | $d$ | $f$ | $e$ | $a$ | $b$ | | $d$ | $d$ | $f$ | $e$ | $a$ | $b$ | $c$ | | $f$ | $f$ | $e$ | $a$ | $b$ | $c$ | $d$ | | $\circ$ | $e$ | $a$ | $b$ | $c$ | $d$ | $f$ | | :--- | :--- | :--- | :--- | :--- | :--- | :--- | | $e$ | $e$ | $a$ | $b$ | $c$ | $d$ | $f$ | | $a$ | $a$ | $e$ | $d$ | $f$ | $b$ | $c$ | | $b$ | $b$ | $f$ | $e$ | $d$ | $c$ | $a$ | | $c$ | $c$ | $d$ | $f$ | $e$ | $a$ | $b$ | | $d$ | $d$ | $c$ | $a$ | $b$ | $f$ | $e$ | | $f$ | $f$ | $b$ | $c$ | $a$ | $e$ | $d$ | Als nächstes betrachten wir Teilmengen von Gruppen, die ihrerseits wieder Gruppen sind. Definition 2.42 Eine (nichtleere) Teilmenge $U \subseteq G$ einer Gruppe $(G, \circ)$ heißt Untergruppe von $G$, wenn $(U, \circ)$ selbst eine Gruppe ist. Man schreibt dafür auch $(U, \circ) \leq(G, \circ)$ oder nur $U \leq G$. Man beachte, dass es immer zwei so genannte triviale Untergruppen gibt: $\{e\} \leq G$ und $G \leq G$. Beispiel 2.43 Für $m \in \mathbb{N}$ bilden die Mengen $m \mathbb{Z}=\{0, \pm m, \pm 2 m, \pm 3 m, \ldots\}$ Untergruppen von $(\mathbb{Z},+)$. Es ist relativ leicht zu überprüfen, ob eine nichtleere Teilmenge $U$ von $G$ eine Untergruppe bildet. Beispielsweise muss das Assoziativgesetz nicht überprüft werden, da es in ganz $G$ gilt. Es muss nur untersucht werden, ob für je zwei Elemente $a, b \in U$ auch $a \circ b \in U$ und $a^{-1} \in U$ liegen. Das neutrale Element von $G$ liegt dann sicher auch in $U$. Ist nämlich $a \in U$, dann auch $a^{-1}$ und folglich $e=a \circ a^{-1}$. Gleichzeitig wurde damit gezeigt, dass das neutrale Element von $G$ auch das neutrale Element von $U$ sein muss. In der Zahlentheorie haben wir bereits - ohne sie so zu benennen - die Untergruppe $(m \mathbb{Z},+)$ von $(\mathbb{Z},+)$ betrachtet, nämlich beim Rechnen modulo $m$. Die Untergruppe $m \mathbb{Z}$ ist gerade die Restklasse $\overline{0}$ modulo $m$. Neben dieser Restklasse wurden dort auch weitere Restklassen $\bar{a}=$ $a+m \mathbb{Z}$ betrachtet. Vom Standpunkt der Gruppentheorie können diese Restklassen auch als „verschobene Untergruppen“ bezeichnet werden. Dies motiviert die allgemeine Definition einer Nebenklasse einer Untergruppe. Definition 2.44 Sei $(G, 0)$ Gruppe, $U$ Untergruppe von $G$ und $a \in G$. Dann heißt $$ a \circ U=\{a \circ u \mid u \in U\} $$ Linksnebenklasse von $U$ in $G$ und $$ U \circ a=\{u \circ a \mid u \in U\} $$ Rechtsnebenklasse von $U$ in $G$. Wie die Restklassen $\bar{a}=a+m \mathbb{Z}$ in der Zahlentheorie bilden die Links- bzw. die Rechtsnebenklassen stets eine Zerlegung von $G$ (vergleiche mit Übungsaufgabe 2.33). Die Relation $a \sim b \Longleftrightarrow a \circ U=b \circ U$ ist die entsprechende Äquivalenzrelation für die Linksnebenklassen, Analoges gilt für die Rechtsnebenklassen. Wir werden uns gleich davon überzeugen, dass es immer gleich viele Links- wie Rechtsnebenklassen gibt. So können wir den Index einer Untergruppe definieren. Definition 2.45 Sei $(G, o)$ eine endliche Gruppe und $U \leq G$. Die Anzahl der Links- bzw. Rechtsnebenklassen von $U$ in $G$ wird als Index $|G: U|$ von $G$ nach $U$ bezeichnet. Die Anzahl $|G|$ der Elemente einer Gruppe wird als Ordnung von $G$ bezeichnet. Satz 2.46 (Satz von Lagrange) Ist $(G, \circ)$ endliche Gruppe, so ist die Ordnung $|U|$ einer Untergruppe $U \leq G$ stets Teiler der Gruppenordnung $|G|$, und es gilt $|G: U|=|G| /|U|$. Beweis. Die Abbildung $U \rightarrow a \circ U, x \mapsto a \circ x$ ist wegen der Gruppeneigenschaften eine bijektive Abbildung. Es gilt daher bei einer endlichen Gruppe immer $|a \circ U|=|U|$, d.h., die Linksnebenklassenzerlegung zerlegt die Gruppe $G$ in $m=|G: U|$ gleich große Teilmengen. Offensichtlich folgt dann $|G|=m|U|$. Für Rechtsnebenklassen ist die Überlegung ganz analog, insbesondere ist die Anzahl der Linksnebenklassen gleich der Anzahl der Rechtsnebenklassen. Definition 2.47 Sei $(G, \circ)$ Gruppe mit neutralem Element $e$. Für $a \in G$ werden die Potenzen $a^{n}$ von $a$ mit $n \in \mathbb{Z}$ folgendermaßen definiert: $$ a^{n}=\left\{\begin{array}{cl} e & \text { für } n=0 \\ a & \text { für } n=1 \\ a^{n-1} \circ a & \text { rekursiv für } n>1 \\ \left(a^{-1}\right)^{-n} & \text { für } n<0 \end{array}\right. $$ Wird das Operationssymbol + verwendet, so schreibt man statt $a^{n}$ auch $n a$, z.B. $3 a$ für $a+a+a$. Mit Hilfe der Beweismethode der vollständigen Induktion folgt für alle ganzen Zahlen $n, m$ $$ a^{n+m}=a^{n} \circ a^{m} \text { und } \quad\left(a^{m}\right)^{n}=a^{m n} \text {. } $$ Aus der ersten Regel $a^{n+m}=a^{n} \circ a^{m}$ folgt, dass die Menge der Potenzen $\langle a\rangle=\left\{a^{n} \mid n \in \mathbb{Z}\right\}$ eine Untergruppe von $G$, die von $a$ erzeugte Untergruppe, bildet. Diese Untergruppe ist immer kommutativ, auch wenn $G$ nicht kommutativ ist. Sind alle Potenzen $a^{n}(n \in \mathbb{Z})$ voneinander verschieden, so bildet diese Untergruppe eine Teilmenge von $G$, die als Kopie der ganzen Zahlen $\mathbb{Z}$ gesehen werden kann (falls man jede Potenz $a^{n}$ mit ihrem Exponenten $n$ identifiziert). Es muss aber nicht sein, dass alle Potenzen $a^{n}$ voneinander verschieden sind. Es sei also z.B. $a^{m}=a^{n}$ für ganze Zahlen $m0$ mit $a^{k}=e$. Dies motiviert die folgende Definition. Definition 2.48 Sei $(G, o)$ Gruppe und $a \in G$. Sind alle Potenzen $a^{n}(n \in \mathbb{Z})$ voneinander verschieden, so hat $a$ unendliche Ordnung $\operatorname{ord}_{G}(a)=\infty$. Andernfalls bezeichnet man $$ \operatorname{ord}_{G}(a)=\min \left\{k>0 \mid a^{k}=e\right\} $$ als Ordnung von $a$. Das Element $a$ hat dann endliche Ordnung. Hat $a \in G$ unendliche Ordnung, so ist auch die von $a$ erzeugte Untergruppe $\langle a\rangle=\left\{a^{n} \mid n \in\right.$ $\mathbb{Z}\}$ unendlich. Bei endlicher Ordnung $\operatorname{ord}_{G}(a)$ ist $$ \langle a\rangle=\left\{a^{n} \mid 0 \leq n<\operatorname{ord}_{G}(a)\right\} $$ die von $a$ erzeugt Untergruppe, da die Potenzen $a^{n}$ wegen $a^{n+\operatorname{ord}_{G}(a)}=a^{n}$ zyklisch bzw. periodisch mit Periode $\operatorname{ord}_{G}(a)$ wieder auftreten. Man beachte, dass in allen Fällen $$ |\langle a\rangle|=\operatorname{ord}_{G}(a) $$ gilt. Insbesondere ist daher $\operatorname{ord}_{G}(a)$ ein Teiler der Gruppenordnung $|G|$. Daraus leitet sich der kleine Fermat'sche Satz der Gruppentheorie ab (vergleiche mit Satz 1.35). Satz 2.49 (Kleiner Fermat'scher Satz) Für jedes Element $a \in G$ einer endlichen Gruppe $(G, \circ)$ gilt $a^{|G|}=e$. Beweis. Es bezeichne $U=\langle a\rangle, k=\operatorname{ord}_{G}(a)=|\langle a\rangle|$ und $m=|G: U|$. Dann gilt $k m=|G|$. Aus $a^{k}=e$ erhält man nun direkt $a^{|G|}=\left(a^{k}\right)^{m}=e^{m}=e$. Gruppen bzw. Untergruppen der Form $\langle a\rangle$ spielen in der Gruppentheorie trotz ihrer Einfachheit eine besondere Rolle. Man bezeichnet eine Gruppe $G$ als zyklische Gruppe, wenn es ein $a \in G$ mit $G=\langle a\rangle$ gibt, d.h. wenn $G$ von $a$ erzeugt wird. Eine weitere wichtige Klasse von Untergruppen sind die so genannten Normalteiler. Definition 2.50 Eine Untergruppe $N$ einer Gruppe $G$ heißt Normalteiler, wenn die Linksund Rechtsnebenklassen übereinstimmen. Man schreibt dafür kurz $N \unlhd G$. Offensichtlich ist jede Untergruppe einer kommutativen Gruppe $G$ ein Normalteiler. Weiters ist jede Untergruppe $N$ mit Index $|G: N|=2$ Normalteiler, da es in diesem Fall nur zwei Linksbzw. Rechtnebenklassen gibt. Die eine ist $e \circ N=N \circ e=N$ und die andere $G \backslash N$. Die wesentliche Eigenschaft von Normalteilern ist, dass man mit ihnen in derselben Weise wie mit Restklassen $\bar{a}=a+m \mathbb{Z}$ rechnen kann. Es seien $a \circ N=N \circ a$ und $b \circ N=N \circ b$ zwei Nebenklassen von $N$ und $a_{2} \in a \circ N$ und $b_{2} \in b \circ N$. Dann liegt das Produkt $a_{2} \circ b_{2} \in$ $(a \circ N) \circ(b \circ N)$. Wegen der Normalteilereigenschaft gilt aber $$ \begin{aligned} (a \circ N) \circ(b \circ N) & =(N \circ a) \circ(b \circ N) \\ & =(N \circ(a \circ b)) \circ N \\ & =(a \circ b) \circ(N \circ N) \\ & =(a \circ b) \circ N, \end{aligned} $$ d.h., das Produkt $a_{2} \circ b_{2}$ liegt wieder in einer Nebenklasse, nämlich $(a \circ b) \circ N$, und diese ist nicht von der Wahl von $a_{2}$ und $b_{2}$ abhängig. Mit Hilfe dieser Eigenschaft von Normalteilern kann auch auf der Menge der Nebenklassen eine Gruppenoperation definiert werden. Definition 2.51 Sei $N$ Normalteiler einer Gruppe $G$ und bezeichne $G / N$ die Menge der Nebenklassen von $G$ nach $N$. Dann wird duch die Operation $$ (a \circ N) \circ(b \circ N)=(a \circ b) \circ N $$ eine Gruppenoperation auf $G / N$ definiert. Die Gruppe $(G / N, \circ)$ heißt Faktorgruppe von $G$ nach $N$. Die Gruppeneigenschaften sind leicht nachzurechnen. Übrigens ist $e \circ N=N$ das neutrale Element und $a^{-1} \circ N$ die inverse Nebenklasse von $a \circ N$. Beispiel 2.52 Sei $G=\mathbb{Z}$ (mit der Addition + ) und $N=m \mathbb{Z}$ (mit $m \in \mathbb{N}$ ). Dann besteht $\mathbb{Z} / m \mathbb{Z}=\mathbb{Z}_{m}$ aus $m$ Nebenklassen $\overline{0}=0+m \mathbb{Z}=m \mathbb{Z}, \overline{1}=1+m \mathbb{Z}, \ldots, \overline{m-1}=(m-1)+m \mathbb{Z}$, den schon bekannten Restklassen modulo $m$. Das Rechnen in der Faktorgruppe $\mathbb{Z}_{m}=\mathbb{Z} / m \mathbb{Z}$ ist nichts anderes als das Addieren von Restklassen bzw. das Addieren modulo $m$ (vergleiche mit (1.4)). Übrigens ist $\left(\mathbb{Z}_{m},+\right)$ eine endliche zyklische Gruppe, sie wird etwa von $\overline{1}=1+m \mathbb{Z}$ erzeugt. Definition 2.53 Eine Abbildung $\varphi: G \rightarrow H$ zwischen zwei Gruppen $(G, \circ)$ und $(H, \star)$ heißt Homomorphismus (oder Gruppenhomomorphismus), wenn für alle $a, b \in G$ gilt $$ \varphi(a \circ b)=\varphi(a) \star \varphi(b) $$ Ist $\varphi$ bijektiv, so heißt $\varphi$ Isomorphismus. Die inverse Abbildung $\varphi^{-1}: H \rightarrow G$ ist dann auch ein Isomorphismus. Existiert zwischen zwei Gruppen $G, H$ ein Isomorphismus, so heißen $G$ und $H$ isomorph, und man schreibt dafür $G \cong H$. Beispiel 2.54 Sei $G$ Gruppe und $a \in G$. Dann ist die Abbildung $\varphi: \mathbb{Z} \rightarrow\langle a\rangle, n \mapsto a^{n}$ ein Gruppenhomorphismus. Sind alle Potenzen $a^{n}$ voneinander verschieden, so ist $\varphi$ bijektiv, also ein Isomorphismus, d.h. in diesem Fall gilt $\langle a\rangle \cong \mathbb{Z}$. Satz 2.55 Ist $\varphi: G \rightarrow H$ ein Gruppenhomomorphismus, so wird das neutrale Element $e_{G}$ von $G$ auf das neutrale Element $e_{H}$ von $H$ abgebildet, d.h. $\varphi\left(e_{G}\right)=e_{H}$. Weiters gilt $\varphi\left(a^{-1}\right)=$ $\varphi(a)^{-1}$ für alle $a \in G$. Beweis. Aus $e_{G} \circ e_{G}=e_{G}$ folgt $\varphi\left(e_{G}\right) \star \varphi\left(e_{G}\right)=\varphi\left(e_{G}\right)$ und nach Multiplikation mit $\varphi\left(e_{G}\right)^{-1}$ schließlich $\varphi\left(e_{G}\right)=e_{H}$. Weiters folgt aus $a \circ a^{-1}=a^{-1} \circ a=e_{G}$, dass $\varphi(a) \star \varphi\left(a^{-1}\right)=$ $\varphi\left(a^{-1}\right) \star \varphi(a)=e_{H}$ und damit $\varphi\left(a^{-1}\right)=\varphi(a)^{-1}$. Definition 2.56 Sei $\varphi: G \rightarrow H$ ein Gruppenhomomorphismus. Das Urbild $\varphi^{-1}\left(\left\{e_{H}\right\}\right) \operatorname{des}$ neutralen Elements $e_{H}$ wird als $\operatorname{Kern}$ von $\varphi$ bezeichnet: $$ \operatorname{ker}(\varphi)=\left\{a \in G \mid \varphi(a)=e_{H}\right\} $$ Weiters nennt man $$ \varphi(G)=\{b \in H \mid \exists a \in G: \varphi(a)=b\} $$ Bild von $G$ unter $\varphi$. Satz 2.57 Sei $\varphi: G \rightarrow H$ ein Gruppenhomomorphismus. Dann ist $\operatorname{ker}(\varphi)$ ein Normalteiler von $G$ und $\varphi(G)$ eine Untergruppe von $H$. Beweis. $e_{G}$ ist sicher in $\operatorname{ker}(\varphi)$ enthalten, also ist der Kern nie leer. Sind nun $a, b \in \operatorname{ker}(\varphi)$, so gilt $\varphi(a \circ b)=\varphi(a) \star \varphi(b)=e_{H} \star e_{H}=e_{H}$ und $\varphi\left(a^{-1}\right)=\varphi(a)^{-1}=e_{H}$. Daher ist $\operatorname{ker}(\varphi)$ eine Untergruppe von $G$. Sei nun $a \in \operatorname{ker}(\varphi)$ und $c \in G$. Dann ist wegen $\varphi\left(c^{-1} \circ a \circ c\right)=\varphi(c)^{-1} \star \varphi(a) \star \varphi(c)=$ $\varphi(c)^{-1} \star \varphi(c)=e_{H}$ auch $c^{-1} \circ a \circ c \in \operatorname{ker}(\varphi)$. Also gilt $c^{-1} \circ \operatorname{ker}(\varphi) \circ c \subseteq \operatorname{ker}(\varphi)$ oder $\operatorname{ker}(\varphi) \circ c \subseteq c \circ \operatorname{ker}(\varphi)$. Vertauscht man nun die Rollen von $c$ und $c^{-1}$, so erhält man auch $c \circ \operatorname{ker}(\varphi) \subseteq \operatorname{ker}(\varphi) \circ c$ und schließlich $c \circ \operatorname{ker}(\varphi)=\operatorname{ker}(\varphi) \circ c$. Also ist $\operatorname{ker}(\varphi)$ Normalteiler von $G$. Der Nachweis der Eigenschaft, dass $\varphi(G)$ eine Untergruppe von $H$ ist, sei dem Leser überlassen (vergleiche mit Übungsaufgabe 2.36). Ein wichtiger Satz der Gruppentheorie ist der Homomorphiesatz. Satz 2.58 (Homomorphiesatz) Sei $\varphi: G \rightarrow H$ ein Gruppenhomomorphismus. Dann ist die Faktorgruppe $G / \operatorname{ker}(\varphi)$ zum Bild $\varphi(G)$ isomorph: $$ G / \operatorname{ker}(\varphi) \cong \varphi(G) $$ Die Nebenklasse $a \circ \operatorname{ker}(\varphi) \in G / \operatorname{ker}(\varphi)$ entspricht dem Element $\varphi(a) \in \varphi(G)$. Beweis. Man muss sich zunächst überlegen, dass die Abbildung $\psi: G / \operatorname{ker}(\varphi) \rightarrow \varphi(G)$ mit $a \circ \operatorname{ker}(\varphi) \mapsto \varphi(a)$ wohldefiniert ist. Ist nämlich $a \circ \operatorname{ker}(\varphi)=b \circ \operatorname{ker}(\varphi)$, d.h. gibt es $c, d \in \operatorname{ker}(\varphi)$ mit $a \circ c=b \circ d$, so folgt $\varphi(a)=\varphi(a) \star e_{H}=\varphi(a \circ c)=\varphi(b \circ d)=\varphi(b) \star e_{H}=\varphi(b)$. Die Abbildung $\psi$ ist surjektiv, da jedes Element $\varphi(a) \in \varphi(G)$ als Bild von $a \circ \operatorname{ker}(\varphi)$ auftritt. Die Abbildung $\psi$ ist auch injektiv. Ist nämlich $\varphi(a)=\varphi(b)$, so folgt $\varphi\left(a \circ b^{-1}\right)=e_{H}$, also $a \circ b^{-1} \in \operatorname{ker}(\varphi)$. Das wiederum impliziert $a \in b \circ \operatorname{ker}(\varphi)$ und $a \circ \operatorname{ker}(\varphi) \subseteq b \circ \operatorname{ker}(\varphi)$. Vertauscht man nun die Rollen von $a$ und $b$, so erhält man auch die umgekehrte Inklusion und schließlich Gleichheit: $a \circ \operatorname{ker}(\varphi)=b \circ \operatorname{ker}(\varphi)$. Die Homomorphieeigenschaft $\psi((a \circ \operatorname{ker}(\varphi)) \circ(b \circ \operatorname{ker}(\varphi)))=\Psi(a \circ \operatorname{ker}(\varphi)) \star \Psi(b \circ \operatorname{ker}(\varphi))$ ist nichts anderes als $\varphi(a \circ b)=\varphi(a) \star \varphi(b)$. Damit ist alles gezeigt. Beispiel 2.59 Sei $G=\mathbb{Z}$ die Gruppe der ganzen Zahlen mit der Addition und $H=$ $\left\{1, \zeta_{m}, \zeta_{m}^{2}, \ldots, \zeta_{m}^{m-1}\right\}$ die endliche (multiplikative) zyklische Gruppe der $m$-ten Einheitswurzeln $\left(\zeta_{m}=e^{2 \pi i / m}\right)$. Dann ist $\varphi: G \rightarrow H, n \mapsto \zeta_{m}^{n}$ ein surjektiver Homomorphismus mit $\operatorname{ker}(\varphi)=m \mathbb{Z}$, da $\varphi(n)=\zeta_{m}^{n}=e^{2 \pi i n / m}=1$ genau dann gilt, wenn $n / m$ eine ganze Zahl, also $n$ ein ganzzahliges Vielfaches von $m$ ist. Nach dem Homomorphiesatz gilt daher $\mathbb{Z}_{m}=\mathbb{Z} / m \mathbb{Z} \cong H=\left\langle\zeta_{m}\right\rangle$. Die Restklasse $\bar{a}$ entspricht der $a$-ten Potenz $\zeta_{m}^{a}$. Beispiel 2.60 Wir betrachten wieder die symmetrische Gruppe $\mathbf{S}_{n}$ aller Permutationen der Zahlen $\{1,2, \ldots, n\}$, also aller bijektiven Funktionen $\pi:\{1,2, \ldots, n\} \rightarrow\{1,2, \ldots, n\}$. Wir definieren nun das Signum (bzw. Vorzeichen) von $\pi$ durch $$ \operatorname{sgn}(\pi)=\prod_{1 \leq i4$. Man zeige, dass dann entweder $G$ oder $G^{\kappa}$ einen Kreis enthält. ( $G^{\kappa}$ ist der komplementäre Graph zu $G$, d.h., $G^{\kappa}$ enthält dieselben Knoten wie $G$ und alle Kanten $v w$ zwischen Knoten $v, w \in V(G), v \neq w$, die nicht in $E(G)$ enthalten sind.) 2.21 Man zeige, dass jeder Baum ein paarer Graph ist. (Ein ungerichteter Graph $G$ ist ein paarer oder bipartiter Graph, wenn die Knotenmenge $V(G)$ in zwei disjunkte, nichtleere Teilmengen $V_{1}, V_{2}$ zerlegt werden kann, so dass es nur Kanten $\left(v_{1}, v_{2}\right) \in E(G)$ mit $v_{1} \in V_{1}$ und $v_{2} \in V_{2}$ gibt.) 2.22 Man zeige, dass ein ungerichteter schlichter Graph $G$ genau dann ein paarer Graph ist, wenn jeder Kreis in $G$ gerade Länge hat. 2.23 Man bestimme die Komponenten des starken Zusammenhangs des gerichteten Graphen aus Abb. 2.19 . ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-099.jpg?height=308&width=1224&top_left_y=558&top_left_x=354) Abbildung 2.19 Gerichteter Graph und Netzwerk 2.24 Man beweise, dass es in einem Baum $T$ mit $|E(T)| \geq 2$ immer wenigstens zwei Endknoten, also Knoten mit Knotengrad 1 gibt. 2.25 Sei $G$ ein einfacher, ungerichteter Graph. Dann wird der line graph $G^{l}$ zu $G$ folgendermaßen definiert: $V\left(G^{l}\right)=E(G)$, und ef $\in E\left(G^{l}\right)$ genau dann, wenn im Graphen $G$ die Kanten $e$ und $f$ einen gemeinsamen Knoten haben. Man zeige: Ist $G$ ein einfacher, ungerichteter Euler'scher Graph (in dem Sinn, dass eine geschlossene Euler'sche Linie existiert), so ist der line graph $G^{l}$ Hamilton'sch und Euler'sch. 2.26 Gegeben seien ein zusammenhängender bewerteter Graph $G$ mit $V(G)=\{a, b, c, d, e, f, g, h$, $i, j, k\}$ und Kantenbewertungen $$ \begin{aligned} & w(a b)=3, w(a c)=2, w(a d)=7, w(a e)=2, w(b d)=4, w(b f)=8, w(b k)=6, w(b l)=1 \\ & w(c f)=2, w(c k)=5, w(d e)=1, w(d f)=6, w(d g)=9, w(d h)=6, w(d j)=1, w(e f)=2 \\ & w(e i)=1, w(f g)=2, w(g h)=4, w(f k)=6, w(g i)=6, w(h k)=7 \end{aligned} $$ (a) Man gebe drei verschiedene Gerüste von $G$ an. (b) Man bestimme ein Minimalgerüst von $G$ und dessen Gesamtlänge. 2.27 Man bestimme im Netzwerk aus Abb. 2.13 mit Hilfe des Kruskal-Algorithmus einen maximalen spannenden Baum. 2.28 Bestimmen Sie mit dem Algorithmus von Dijkstra einen kürzesten Weg zwischen den Knoten $x$ und $y$ des Netzwerkes aus Abb. 2.19. 2.29 Gegeben seien die folgenden binären Operationen o in der Menge $A$. Welche sind assoziativ, welche kommutativ? (a) $A=\mathbb{N}, a \circ b=2^{a \cdot b}$, (b) $A=\mathbb{Q}, a \circ b=a b+1$, (c) $A=\mathbb{R}, a \circ b=|a+b|$, (d) $A \neq \emptyset, a \circ b=a$. 2.30 Man zeige, dass $(\mathbb{Z}, \bullet)$ mit der Operation $a \bullet b=a+b-a b$ eine Halbgruppe ist. Gibt es ein neutrales Element? Wenn ja, welche Elemente haben Inverse? 2.31 Untersuchen Sie, ob die Menge $A$ mit der binären Operation o eine Halbgruppe, ein Monoid bzw. eine Gruppe ist: (a) $A=\{0,1,2\}, m \circ n=\min (m+n, 2)$, (b) $A=\{z \in \mathbb{C}|| z \mid=2\}, z_{1} \circ z_{2}=\frac{z_{1} z_{2}}{2}$, (c) $A=\mathbf{P}(M), B \circ C=B \cup C$, (d) $A=\mathbf{P}(M), B \circ C=B \triangle C$, (e) $A=\mathbb{Q} \backslash\{1\}, a \circ b=a+b-a b$, (f) $A=\mathbb{N}, a \circ b=\max \{a, b\}$. 2.32 Man zeige: Gilt für ein Element $a$ einer Gruppe $(G, *)$, dass $a * a=a$, dann ist $a$ das neutrale Element von $G$. 2.33 Es sei $U$ eine Untergruppe der Gruppe $G$. Man zeige, dass die Relation $a \sim b \Longleftrightarrow a \circ U=b \circ U$ eine Äquivalenzrelation auf $G$ ist und dass die Äquivalenzklassen von $\sim$ die Linksnebenklassen von $U$ in $G$ sind. 2.34 Man bestimme alle Untergruppen einer zyklischen Gruppe $G$ der Ordnung 6, d. h. von $G=$ $\left\{e, a, a^{2}, a^{3}, a^{4}, a^{5}\right\}$. $2.35 \mathbb{Z}_{m}$ bezeichnet die Restklassen in $\mathbb{Z}$ modulo $m$. (a) Man bestimme alle Untergruppen von $\left(\mathbb{Z}_{18},+\right)$. (b) Man zeige, dass die von $\overline{3}$ erzeugte Untergruppe $U$ von $\left(\mathbb{Z}_{18},+\right)$ ein Normalteiler von $\left(\mathbb{Z}_{18},+\right)$ ist, und bestimme die Gruppentafel der Faktorgruppe $\mathbb{Z}_{18} / U$. (c) Man bestimme die ,primen " Restklassen modulo 18, d. h. alle Restklassen a mit $\operatorname{ggT}(a, 18)=1$. Man zeige, dass die Menge $\mathbb{Z}_{18}^{*}$ dieser primen Restklassen bezüglich der Restklassenmultiplikation eine Gruppe bildet. (d) Sei $\left(\mathbb{Z}_{18}^{*}, \cdot\right)$ die eben betrachtete Gruppe. Man bestimme die vom Element $\overline{7}$ erzeugte Untergruppe $U^{*}$ sowie deren Nebenklassen in $\mathbb{Z}_{18}^{*}$. 2.36 Sei $\varphi: G \rightarrow H$ ein Gruppenhomomorphismus. Man zeige, dass $\varphi(G)$ eine Untergruppe von $H$ ist. 2.37 Seien $\varphi: G \rightarrow H$ und $\psi: H \rightarrow K$ Gruppenhomomorphismen. Man zeige, dass dann $\psi \circ \varphi$ : $G \rightarrow K$ auch ein Gruppenhomomorphismus ist. 2.38 Man untersuche, ob die folgenden Strukturen Ringe, Integritätsringe bzw. Körper sind: (a) $M=\{0,1\}$ mit der Addition modulo 2 und dem Produkt $a \cdot b=0$ für alle $a, b \in M$. (b) $M=\{0,1,2\}$ mit der Addition modulo 3 und dem Produkt $a \cdot b=1$ für alle $a, b \in M$. (c) $M=\mathbb{Q}[\sqrt{5}]=\{a+b \sqrt{5} \mid a, b \in \mathbb{Q}\}$ mit der Addition und Multiplikation aus $\mathbb{R}$. (d) $M=\{0,1\}$ mit der Addition $0+0=0,0+1=1+0=1,1+1=1$ und der gewöhnlichen Multiplikation. 2.39 Beweisen Sie, dass die angegebene Identität in einem Ring $R$ für alle $a, b \in R$ gilt (dabei bezeichnet $-c$ das additive Inverse $\mathrm{zu} c$ ): (a) $(-a) \cdot b=-(a \cdot b)$, (b) $a \cdot(-b)=-(a \cdot b)$, (c) $(-a) \cdot(-b)=a \cdot b$. 2.40 Sei $(R,+, \cdot)$ ein Ring. Man zeige, dass dann auch $R \times R$ mit den Operationen $$ (a, b)+(c, d)=(a+c, b+d) \text { und }(a, b) \cdot(c, d)=(a \cdot c, b \cdot d) $$ ein Ring ist. 2.41 Man beweise Satz 2.70. 2.42 Man zeige, dass die folgenden algebraischen Strukturen Verbände sind. Welche sind außerdem distributiv, und welche sind Boole'sche Algebren? (a) $(\mathbb{R}, \min , \max )$, (b) $(\mathbb{N}, \operatorname{ggT}, \operatorname{kgV})$, (c) $(\mathbf{P}(A), \cap, \cup)$. (d) $(\{U \mid U \leq G\}, \cap,\langle\cdot \cup \cdot\rangle), G$ Gruppe. ## Kapitel 3 ## Lineare Algebra Das Rechnen mit Vektoren und Matrizen ist ein unverzichtbares Hilfsmittel in fast allen exakten Wissenschaften. So werden z.B. in der Physik gerichtete Größen (Kraft, Feldstärke, Geschwindigkeit, etc.) als Vektoren dargestellt. Weiters wird in der analytischen Geometrie die Vektorrechnung als Hilfsmittel verwendet, um geometrische Objekte (Geraden, Ebenen) rechnerisch zu erfassen, u.v.a. mehr. Lineare Gleichungssysteme treten etwa in fast jedem Anwendungsbereich auf. Die Lineare Algebra ist jener mathematische Teil, der alle diese Objekte von einem gemeinsamen Blickwinkel beschreibt. Beispiel 3.1 Wir beginnen mit der Berechnung eines einfachen elektrischen Netzwerkes mit 4 Widerständen und 2 Spannungsquellen, das in Abb. 3.1 dargestellt ist. Wir interessieren uns für ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-101.jpg?height=508&width=914&top_left_y=1519&top_left_x=506) Abbildung 3.1 Elektrisches Netzwerk die Stromverteilung $i_{1}, i_{2}, i_{3}$. Aus den Kirchhoff'schen Gesetzen ${ }^{1}$ und dem Ohm'schen Gesetz ${ }^{2}$ ergeben sich die folgenden Beziehungen: $$ \begin{aligned} R_{2} i_{1}+R_{1}\left(i_{1}+i_{2}+i_{3}\right) & =10 \mathrm{~V} \\ R_{3} i_{2}-R_{2} i_{1} & =0 \mathrm{~V} \\ R_{4} i_{3}-R_{3} i_{2} & =2 \mathrm{~V} . \end{aligned} $$[^21] Wir erhalten also ein so genanntes lineares Gleichungssystem in den unbekannten Strömen $i_{1}, i_{2}, i_{3}$. Setzten wir nun konkret $R_{1}=1.5 \Omega, R_{2}=R_{3}=4 \Omega$ und $R_{4}=3 \Omega$, so erhält man (jetzt ohne Einheiten) $$ \begin{aligned} 5.5 i_{1}+1.5 i_{2}+1.5 i_{3} & =10 \\ -4 i_{1}+4 i_{2} & =0 \\ -4 i_{2}+3 i_{3} & =2 \end{aligned} $$ Aus der zweiten Gleichung folgt $i_{1}=i_{2}$ und aus der dritten $i_{3}=2 / 3+4 / 3 i_{2}$. Setzt man diese Beziehungen in die erste Gleichung ein, so verbleibt dort nur mehr $i_{2}$ als einzige Unbekannte und ermittelt sich zu $i_{2}=1 \mathrm{~A}$. Daraus erhält man dann direkt $i_{1}=1 \mathrm{~A}$ und $i_{3}=2 \mathrm{~A}$. Die Spannung am Widerstand $R_{1}$ beträgt daher $R_{1}\left(i_{1}+i_{2}+i_{3}\right)=6 \mathrm{~V}$, an den Widerständen $R_{2}$ und $R_{3}$ beträgt sie $R_{2} i_{1}=R_{3} i_{2}=4 \mathrm{~V}$ und am Widerstand $R_{4}$ schließlich $R_{4} i_{3}=6 \mathrm{~V}$. Die hier gewählte Vorgangsweise zur Lösung dieses Gleichungssystems ist noch ziemlich unsystematisch. Wir werden später sehen, wie man i. Allg. günstig (und auch systematisch) vorgehen kann. Insbesondere empfiehlt es sich, die unbekannten Größen $i_{1}, i_{2}, i_{3}$ zu einem Vektor $\left(i_{1}, i_{2}, i_{3}\right)$ zusammenzufassen. Entsprechend fasst man die Koeffizienten auf der linken Seite zu einer $3 \times 3$-Matrix zusammen und kann das lineare Gleichungssystem in Matrizenform prägnant formulieren: $$ \left(\begin{array}{rrr} 5.5 & 1.5 & 1.5 \\ -4 & 4 & 0 \\ 0 & -4 & 3 \end{array}\right) \cdot\left(\begin{array}{c} i_{1} \\ i_{2} \\ i_{3} \end{array}\right)=\left(\begin{array}{r} 10 \\ 0 \\ 2 \end{array}\right) $$ Wir werden daher zunächst Vektoren und Matrizen genauer studieren. ### 3.1 Vektoren ## 1. Vektorräume Ein (Spalten-)Vektor $\boldsymbol{x}$ im $n$-dimensionalen (reellen) Raum $\mathbb{R}^{n}$ hat die Form $$ \boldsymbol{x}=\left(\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right) $$ mit $n$ Eintragungen (bzw. Koordinaten) von reellen Zahlen $x_{1}, x_{2}, \ldots, x_{n} \in \mathbb{R}$. Etwas allgemeiner betrachtet man für einen gegebenen Körper $K$ (z.B. $K=\mathbb{C}, K=\mathbb{Z}_{2}$ ) den $n$-dimensionalen Raum $K^{n}$ von Vektoren $x$ mit Eintragungen $x_{1}, x_{2}, \ldots, x_{n} \in K$. Der Körper $K$ heißt auch Skalarkörper, und die Elemente aus $K$ heißen Skalare. So beschreiben z.B. $$ \mathbb{R}^{2}=\left\{\boldsymbol{x}=\left(\begin{array}{c} x_{1} \\ x_{2} \end{array}\right) \mid x_{1}, x_{2} \in \mathbb{R}\right\} \quad \text { und } \quad \mathbb{R}^{3}=\left\{\boldsymbol{x}=\left(\begin{array}{c} x_{1} \\ x_{2} \\ x_{3} \end{array}\right) \mid x_{1}, x_{2}, x_{3} \in \mathbb{R}\right\} $$ die Ebene und den 3-dimensionalen Anschauungsraum. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-103.jpg?height=366&width=1236&top_left_y=474&top_left_x=347) Abbildung 3.2 Vektor und Vektoraddition in der Ebene Zwei Vektoren $\boldsymbol{x}, \boldsymbol{y} \in K^{n}$ werden koordinatenweise addiert: $$ \boldsymbol{x}+\boldsymbol{y}=\left(\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right)+\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right)=\left(\begin{array}{c} x_{1}+y_{1} \\ x_{2}+y_{2} \\ \vdots \\ x_{n}+y_{n} \end{array}\right) $$ Geometrisch entspricht die Vektoraddition der aus der Physik bekannten Parallelogrammregel für die Addition von Kräften (vergleiche mit Abb. 3.2). Weiters können Vektoren mit einem beliebigen Faktor $\lambda \in K$ (also einem Skalar) multipliziert werden: $$ \lambda \cdot \boldsymbol{x}=\lambda \cdot\left(\begin{array}{c} x_{1} \\ x_{2} \\ \vdots \\ x_{n} \end{array}\right)=\left(\begin{array}{c} \lambda x_{1} \\ \lambda x_{2} \\ \vdots \\ \lambda x_{n} \end{array}\right) $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-103.jpg?height=383&width=643&top_left_y=1795&top_left_x=644) Abbildung 3.3 Skalarmultiplikation Spezielle Vektoren sind der Nullvektor $\mathbf{0}$ und der additiv inverse Vektor $-\boldsymbol{x}$ : $$ \mathbf{0}=\left(\begin{array}{c} 0 \\ 0 \\ \vdots \\ 0 \end{array}\right), \quad-\boldsymbol{x}=(-1) \cdot \boldsymbol{x}=\left(\begin{array}{c} -x_{1} \\ -x_{2} \\ \vdots \\ -x_{n} \end{array}\right) $$ Mit diesen Begriffsbildungen ist es leicht nachzurechnen, dass die algebraische Struktur $\left(K^{n},+\right)$ eine abelsche Gruppe bildet. Das neutrale Element der Addition ist dabei der Nullvektor 0 , und das additiv inverse Element von $\boldsymbol{x}$ ist $-\boldsymbol{x}$. Außerdem erfült die Skalarmultiplikation in $K^{n}$ noch weitere Rechenregeln (nämlich (i)(iv) in der folgenden Defintion 3.2). $K^{n}$ bildet daher einen so genannten Vektorraum, der gleich allgemein definiert wird. Definition 3.2 Sei $K$ ein Körper und $(V,+)$ eine abelsche Gruppe. Weiters werde jedem $\lambda \in K$ und $x \in V$ ein Produkt $\lambda \cdot x \in V$ zugeordnet. Die algebraische Struktur $(V,+, K)$ heißt Vektorraum oder linearer Raum über $K$, wenn die folgenden Eigenschaften (für alle $\lambda, \mu \in K$ und $\boldsymbol{x}, \boldsymbol{y} \in V$ ) erfüllt sind: (i) $\lambda \cdot(\boldsymbol{x}+\boldsymbol{y})=\lambda \cdot \boldsymbol{x}+\lambda \cdot \boldsymbol{y}$ (ii) $(\lambda+\mu) \cdot \boldsymbol{x}=\lambda \cdot \boldsymbol{x}+\mu \cdot \boldsymbol{x}$ (iii) $(\lambda \mu) \cdot x=\lambda \cdot(\mu \cdot x)$, (iv) $1 \cdot \boldsymbol{x}=\boldsymbol{x}$. Wie gesagt, ist insbesondere $K^{n}$ ein Vektorraum über $K$. Der eigentliche Grund, warum der Begriff „Vektorraum" eigens ausgezeichnet wird, ist dadurch gegeben, dass diese Struktur in der Mathematik an vielen verschiedenen Stellen auftritt. In diesem Kapitel beschränken wir uns auf Teilmengen von $K^{n}$. Beispiel 3.3 Es sei $V=\mathbb{R}^{2}$ die Ebene und $$ W=\left\{\boldsymbol{x}=\left(\begin{array}{l} x_{1} \\ x_{2} \end{array}\right) \in \mathbb{R}^{2} \mid x_{1}=x_{2}\right\} $$ die so genannte erste Mediane (siehe Abb. 3.4). Man erkennt sofort, dass $W$ die Eigenschaften ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-104.jpg?height=425&width=669&top_left_y=1746&top_left_x=531) Abbildung 3.4 Erste Mediane $W$ und dazu parallele Gerade eines Vektorraums hat. Man muss im Wesentlichen nur nachrechnen, dass man in $W$ uneingeschränkt addieren und mit Skalaren multiplizieren darf. (Alle Rechenregeln vererben sich von $V=\mathbb{R}^{2}$.) Sind $\boldsymbol{x}$ und $\boldsymbol{y}$ in $W$, also $x_{1}=x_{2}$ und $y_{1}=y_{2}$, dann gilt auch $x_{1}+y_{1}=x_{2}+y_{2}$ und $\lambda x_{1}=\lambda x_{2}$. Daher sind $\boldsymbol{x}+\boldsymbol{y}$ und $\lambda \cdot \boldsymbol{x}$ in $W$ enthalten. Beispiel 3.4 Es sei nun $V=\mathbb{R}^{3}$ und $U=\left\{\boldsymbol{x} \in \mathbb{R}^{3} \mid x_{1}+x_{2}+x_{3}=0\right\}$. Geometrisch ist $U$ eine Ebene durch den Ursprung (siehe Abb. 3.5). Auch in $U$ kann man uneingeschränkt addieren ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-105.jpg?height=466&width=649&top_left_y=486&top_left_x=613) Abbildung 3.5 Unterraum im $\mathbb{R}^{3}$ und mit Skalaren multiplizieren, ohne dass man $U$ verlässt. Sind $\boldsymbol{x}$ und $\boldsymbol{y}$ in $U$, so folgt aus $x_{1}+x_{2}+x_{3}=0$ und $y_{1}+y_{2}+y_{3}=0$ auch $\left(x_{1}+y_{1}\right)+\left(x_{2}+y_{2}\right)+\left(x_{3}+y_{3}\right)=0$. Daher ist $\boldsymbol{x}+\boldsymbol{y}$ in $U$. Entsprechend ist $\lambda x_{1}+\lambda x_{2}+\lambda x_{3}=0$ und daher $\lambda \cdot \boldsymbol{x}$ ebenfalls in $U$. Die Teilmenge $U$ bildet also einen Vektorraum. Diese beiden Beispiele zeigen, dass gewisse Teilmengen (Geraden und Ebenen, die den Nullvektor 0 enthalten) von $\mathbb{R}^{2}$ bzw. $\mathbb{R}^{3}$ auch Vektorräume sind. Sie bilden so genannte Unteroder Teilräume. Definition 3.5 Sei $(V,+, K)$ ein Vektorraum und $U$ eine nichtleere Teilmenge von $V$. Bildet $(U,+, K)$ wieder einen Vektorraum, dann heißt $U$ Unterraum oder Teilraum von $V$. Wie in den Beispielen 3.3 und 3.4 bereits angedeutet, muss man zur Überprüfung, ob eine nichtleere Teilmenge $U$ von $V$ einen Unterraum bildet, nur untersuchen, ob zu je zwei Vektoren $\boldsymbol{x}, \boldsymbol{y} \in U$ und $\lambda \in K$ auch $\boldsymbol{x}+\boldsymbol{y}$ und $\lambda \cdot \boldsymbol{x}$ in $U$ liegen (siehe Übungsaufgabe 3.4). Als vereinfachte Schreibweise verwendet man $U \leq V$ für die Eigenschaft, dass $U$ Unterraum von $V$ ist. Man beachte, dass der ganze Raum $V$ und die Menge $\{0\}$, die nur aus dem Nullvektor besteht, immer Unterräume von $V$ sind: $$ V \leq V \quad \text { und } \quad\{\mathbf{0}\} \leq V $$ In den Beispielen 3.3 und 3.4 wurden Unterräume durch die Beziehungen $x_{1}=x_{2}$ bzw. durch $x_{1}+x_{2}+x_{3}=0$, also durch so genannte lineare Gleichungen, beschrieben. Es stellt sich daher in natürlicher Weise die Frage, welche Menge etwa durch die Gleichung $x_{1}=x_{2}+4$ in $\mathbb{R}^{2}$ oder $x_{1}+x_{2}+x_{3}=5$ in $\mathbb{R}^{3}$ beschrieben wird. Die Antwort ist überraschend einfach. Es sind verschobene Unterräume, also Nebenklassen, die auch Nebenräume genannt werden (vergleiche mit Abb. 3.4): $$ \left\{\boldsymbol{x} \in \mathbb{R}^{2} \mid x_{1}=x_{2}+4\right\}=\left(\begin{array}{l} 4 \\ 0 \end{array}\right)+W $$ und $$ \left\{\boldsymbol{x} \in \mathbb{R}^{3} \mid x_{1}+x_{2}+x_{3}=5\right\}=\left(\begin{array}{l} 5 \\ 0 \\ 0 \end{array}\right)+U $$ Definition 3.6 Sei $U$ ein Unterraum eines Vektorraums $V$ und $x_{0}$ ein Vektor aus $V$. Die Menge $$ N=\boldsymbol{x}_{0}+U=\left\{\boldsymbol{x}_{0}+\boldsymbol{u} \mid \boldsymbol{u} \in U\right\} $$ heißt Nebenraum von $U$. Wir werden später sehen, dass die Lösungsmenge eines linearen Gleichungssystems immer einen Nebenraum bildet. Unter- und Nebenräume können aber nicht nur durch lineare Gleichungen (oder lineare Gleichungssysteme) beschrieben werden. Es sei nun $v \in \mathbb{R}^{3}$ ein (vom Nullvektor verschiedener) Vektor. Dann bilden die skalaren Vielfachen von $\boldsymbol{v}$, d.h. $$ [\boldsymbol{v}]=\{\lambda \cdot \boldsymbol{v} \mid \lambda \in \mathbb{R}\} $$ eine Gerade, die vom Vektor $\boldsymbol{v}$,,aufgespannt" wird (siehe Abb. 3.6). Wegen $\lambda_{1} \cdot \boldsymbol{v}+\lambda_{2} \cdot \boldsymbol{v}=$ $\left(\lambda_{1}+\lambda_{2}\right) \cdot \boldsymbol{v}$ und $\lambda \cdot\left(\lambda_{1} \cdot \boldsymbol{v}\right)=\left(\lambda \lambda_{1}\right) \cdot \boldsymbol{v}$ ist diese Gerade ein Unterraum von $V$. Die Menge $[\boldsymbol{v}]$ ist übrigens der (bezüglich der mengentheoretischen Inklusion) kleinste Unterraum von $V$, der den Vektor $v$ enthält, man bezeichnet ihn auch als den von $v$ erzeugten (oder aufgespannten) Unterraum. Verschiebt man diese (durch den Ursprung gehende) Gerade um einen Vektor $\boldsymbol{x}_{0}$, so erhält man eine allgemeine Gerade $$ g=\boldsymbol{x}_{0}+[\boldsymbol{v}]=\left\{\boldsymbol{x}=\boldsymbol{x}_{0}+\lambda \cdot \boldsymbol{v} \mid \lambda \in \mathbb{R}\right\} $$ Sie geht durch die Spitze des Vektors $\boldsymbol{x}_{0}$ und ist parallel zur ursprünglichen Geraden $[\boldsymbol{v}]$. Der Vektor $x_{0}$ wird in diesem Zusammenhang auch Ortsvektor genannt, und $v$ heißt Richtungsvektor. Die Darstellung der Vektoren auf $g$ in der Form $\boldsymbol{x}=\boldsymbol{x}_{0}+\lambda \cdot \boldsymbol{v}$ ist eine Parameterdarstellung von $g$ (siehe Abb. 3.4). In ähnlicher Weise kann man auch eine Ebene $$ \varepsilon=\left\{\boldsymbol{x}=\boldsymbol{x}_{0}+\lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2} \mid \lambda_{1}, \lambda_{2} \in \mathbb{R}\right\} $$ in Parameterdarstellung angeben. Dabei ist $\boldsymbol{x}_{0}$ wieder ein Ortsvektor. Die Vektoren $\boldsymbol{v}_{1}$ und $\boldsymbol{v}_{2}$ spannen einen Unterraum $$ \left[\boldsymbol{v}_{1}, \boldsymbol{v}_{2}\right]=\left\{\lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2} \mid \lambda_{1}, \lambda_{2} \in \mathbb{R}\right\} $$ auf, und zwar eine Ebene, welche die Vektoren $\boldsymbol{v}_{1}$ und $\boldsymbol{v}_{2}$ enthält ( $\boldsymbol{v}_{1}$ und $\boldsymbol{v}_{2}$ müssen dabei verschieden vom Nullvektor sein, und $\boldsymbol{v}_{2}$ darf kein Vielfaches von $\boldsymbol{v}_{1}$ sein, siehe Abb. 3.6). Man beachte, dass $\left[\boldsymbol{v}_{1}, \boldsymbol{v}_{2}\right]$ der (bezüglich der mengentheoretischen Inklusion) kleinste Unterraum von $U$ ist, der $\boldsymbol{v}_{1}$ und $\boldsymbol{v}_{2}$ enthält. Diese einfachen Beispiele zeigen, dass man geometrische Objekte (wie Geraden und Ebenen) mit Hilfe von Nebenräumen beschreiben kann. Dies ist die Grundlage der analytischen Geometrie. Punkte können übrigens auch durch Nebenräume beschrieben werden. Sie werden als Nebenräume des Unterraums $\{0\}$ interpretiert. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-107.jpg?height=520&width=1230&top_left_y=338&top_left_x=354) Abbildung 3.6 Von Vektoren erzeugte Unterräume im $\mathbb{R}^{3}$ Bei der Beschreibung einer Geraden bzw. Ebene wurden Vielfache $\lambda \cdot v$ eines Vektors bzw. Summen $\lambda_{1} \cdot v_{1}+\lambda_{2} \cdot v_{2}$ von Vielfachen von zwei Vektoren verwendet. Solche Objekte spielen in der linearen Algebra eine wichtige Rolle. Definition 3.7 Es seien $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}$ Elemente eines Vektorraums $V$ (über dem Körper $K$ ) und $\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n} \in K$. Dann heißt die Summe $$ \lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2}+\cdots+\lambda_{n} \cdot \boldsymbol{v}_{n}=\sum_{i=1}^{n} \lambda_{i} \cdot \boldsymbol{v}_{i} $$ Linearkombination der Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}$. Die Skalare $\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n} \in K$ heißen Koeffizienten der Linearkombination. Eine Linearkombination heißt trivial, wenn alle Koeffizienten $\lambda_{i}=0$ sind $(1 \leq i \leq n)$. Andernfalls heißt sie nichttrivial. Die lineare Hülle $[M]$ einer nichtleeren Teilmenge $M$ von $V$ ist die Menge aller Vektoren, die durch Linearkombinationen von (endlich vielen) Vektoren aus $M$ gebildet werden können. Weiters setzt $\operatorname{man}[\emptyset]=\{0\}$. Beispielsweise ist $[\boldsymbol{v}]=\{\lambda \cdot \boldsymbol{v} \mid \lambda \in K\}$ die lineare Hülle eines Vektors $\boldsymbol{v}$ und $\left[\boldsymbol{v}_{1}, \boldsymbol{v}_{2}\right]=$ $\left\{\lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2} \mid \lambda_{1}, \lambda_{2} \in K\right\}$ die lineare Hülle von zwei Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{2} \cdot{ }^{3}$ Satz 3.8 Sei $M$ eine Teilmenge eines Vektorraums $V$. Dann ist die lineare Hülle $[M]$ ein Unterraum von $V$, und zwar der (bezüglich der mengentheoretischen Inklusion) kleinste Unterraum, der alle Vektoren von $M$ enthält. Beweis. Ist $M=\emptyset$, so ist $[M]=\{0\}$ ein Unterraum von $V$. Andernfalls beobachtet man, dass die Summe von zwei Linearkombinationen, aber auch ein skalares Vielfaches einer Linearkombination wieder eine Linearkombination von Vektoren aus $M$ ist. Damit ist die lineare Hülle $[M]$ ein Unterraum. Weiters muss ein Unterraum, der alle Vektoren von $M$ enthält, auch alle Linearkombinationen von Vektoren aus $M$ enthalten. Demnach ist die lineare Hülle $[M]$ der kleinste Unterraum, der alle Vektoren aus $M$ enthält.[^22] ## 2. Linare Unabhängigkeit und Basen Wir haben oben gesehen, dass zwei Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}(\neq \mathbf{0})$ genau dann eine Ebene aufspannen, wenn $\boldsymbol{v}_{2}$ kein Vielfaches von $\boldsymbol{v}_{1}$ ist, bzw. wenn $\boldsymbol{v}_{2} \notin\left[\boldsymbol{v}_{1}\right]$. Mann nent diese Eigenschaft auch linear unabhängig. Dieser Begriff ist ein zentraler Begriff der linearen Algebra. Definition 3.9 Eine Menge $M$ von Vektoren heißt linear unabhängig, wenn kein Vektor aus $M$ als Linearkombination der anderen Vektoren aus $M$ dargestellt werden kann, also für alle $v \in M$ gilt $$ v \notin[M \backslash\{\boldsymbol{v}\}] . $$ Andererseits heißt eine Menge $M$ von Vektoren linear abhängig, wenn es möglich ist, einen Vektor aus $M$ als Linearkombination von anderen Vektoren aus $M$ darzustellen, wenn es also einen Vektor $v \in M$ gibt mit $$ \boldsymbol{v} \in[M \backslash\{\boldsymbol{v}\}] $$ Anstelle von Mengen von Vektoren betrachtet man in der linearen Algebra auch „Listen von Vektoren " $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}$ (die nicht unbedingt paarweise verschieden sein müssen) und sagt, dass eine Liste von Vektoren linear unabhängig ist, wenn es nicht möglich ist, einen dieser Vektoren als Linearkombination der anderen darzustellen. Entsprechend sagt man, dass eine Liste von Vektoren linear abhängig ist, wenn einer dieser Vektoren als Linearkombination der anderen darstellbar ist, also wenn sie nicht linear unabhängig sind. Man beachte, dass eine Liste von Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}$ genau dann linear unabhängig ist, wenn alle Vektoren voneinander verschieden sind und die Menge $M=\left\{\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}\right\}$ linear unabhängig ist. Man unterscheidet daher nicht streng zwischen linear unabhängigen Mengen und linear unabhängigen Listen. Bei linear abhängigen Listen muss man vorsichtiger sein. Hier ist z.B. die Liste der Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{1}$ (mit $\boldsymbol{v}_{1} \neq \mathbf{0}$ ) linear abhängig, aber die dazu gehörige Menge $M=\left\{\boldsymbol{v}_{1}\right\}$ linear unabhängig. Nur wenn die Vektoren in der Liste paarweise verschieden sind, ist die Liste genau dann linear abhängig, wenn die Menge dieser Vektoren linear abhängig ist. Beispiel 3.10 Die Vektoren (bzw. die Menge der Vektoren) $$ \boldsymbol{e}_{1}=\left(\begin{array}{c} 1 \\ 0 \\ 0 \\ \vdots \\ 0 \end{array}\right), \boldsymbol{e}_{2}=\left(\begin{array}{c} 0 \\ 1 \\ 0 \\ \vdots \\ 0 \end{array}\right), \ldots, \boldsymbol{e}_{n}=\left(\begin{array}{c} 0 \\ 0 \\ 0 \\ \vdots \\ 1 \end{array}\right) \in K^{n} $$ sind (ist) linear unabhängig. Beispielsweise ist bei jeder Linearkombination von $e_{2}, e_{3}, \ldots, e_{n}$ die erste Koordinate 0 , also kann $\boldsymbol{e}_{1}$ nicht als Linearkombination von $\boldsymbol{e}_{2}, \boldsymbol{e}_{3}, \ldots, \boldsymbol{e}_{n}$ dargestellt werden. Die Vektoren $\boldsymbol{e}_{1}, \boldsymbol{e}_{2}, \ldots, \boldsymbol{e}_{n}$ bilden auch die (so genannte) kanonische Basis $E=$ $\left\{\boldsymbol{e}_{1}, \boldsymbol{e}_{2}, \ldots, \boldsymbol{e}_{n}\right\}$ von $K^{n}$. Beispiel 3.11 Die drei Vektoren (und auch die Menge der drei Vektoren) $$ \boldsymbol{v}_{1}=\left(\begin{array}{l} 1 \\ 3 \\ 4 \end{array}\right), \boldsymbol{v}_{2}=\left(\begin{array}{l} 1 \\ 2 \\ 2 \end{array}\right), \quad \boldsymbol{v}_{3}=\left(\begin{array}{r} -1 \\ 0 \\ 2 \end{array}\right) $$ sind (ist) linear abhängig. Es gilt nämlich $$ \boldsymbol{v}_{3}=2 \cdot \boldsymbol{v}_{1}-3 \cdot \boldsymbol{v}_{2} $$ Die beiden Beispiele vermitteln den Eindruck, dass es ziemlich umständlich ist, zu überprüfen, ob eine Menge oder Liste von Vektoren linear unabhängig ist oder nicht. Tatsächlich kann man dies relativ einfach überprüfen. Die drei Vektoren im Beispiel 3.11 sind linear abhängig, es gilt ja $\boldsymbol{v}_{3}=2 \cdot \boldsymbol{v}_{1}-3 \cdot \boldsymbol{v}_{2}$. Anders angeschrieben bedeutet das, dass es möglich ist, den Nullvektor als nichttriviale Linearkombination darzustellen: $$ 2 \cdot \boldsymbol{v}_{1}-3 \cdot \boldsymbol{v}_{2}-\boldsymbol{v}_{3}=\mathbf{0} $$ Diese Eigenschaft ist äquivalent zur linearen Abhängigkeit. Gibt es nämlich eine nichttriviale Linearkombination der Form $$ \lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2}+\lambda_{3} \cdot \boldsymbol{v}_{3}=\mathbf{0} $$ wobei z.B. $\lambda_{3} \neq 0$ ist, so erhält man $$ v_{3}=-\frac{\lambda_{1}}{\lambda_{3}} \cdot v_{1}-\frac{\lambda_{2}}{\lambda_{3}} \cdot v_{2} $$ Es lässt sich also einer der Vektoren als Linearkombination der anderen darstellen. Da die lineare Unabhängigkeit das Gegenteil der linearen Abhängigkeit ist, haben wir folgende alternative Beschreibung nachgewiesen. Satz 3.12 Eine Menge $M=\left\{\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}\right\}$ von Elementen eines Vektorraums $V$ ist genau dann linear unabhängig, wenn nur die triviale Linearkombination den Nullvektor darstellt: $$ \lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2}+\cdots+\lambda_{n} \cdot \boldsymbol{v}_{n}=0 \quad \Longrightarrow \quad \lambda_{1}=\lambda_{2}=\cdots=\lambda_{n}=0 . $$ $M$ ist genau dann linear abhängig, wenn es eine nichttriviale Linearkombination gibt, die den Nullvektor darstellt: $$ \exists\left(\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}\right) \neq(0,0, \ldots, 0) \text { mit } \lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2}+\cdots+\lambda_{n} \cdot \boldsymbol{v}_{n}=\mathbf{0} $$ Man beachte, dass dieser Satz wortwörtlich auch für Listen von Vektoren gilt. Beispiel 3.13 Wir möchten nochmals untersuchen, ob die drei Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \boldsymbol{v}_{3}$ bzw. die Menge $M=\left\{\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \boldsymbol{v}_{3}\right\}$ der Vektoren aus Beispiel 3.11 linear unabhängig oder linear abhängig sind. Dazu betrachten wir $$ \lambda_{1} \cdot\left(\begin{array}{l} 1 \\ 3 \\ 4 \end{array}\right)+\lambda_{2} \cdot\left(\begin{array}{l} 1 \\ 2 \\ 2 \end{array}\right)+\lambda_{3} \cdot\left(\begin{array}{r} -1 \\ 0 \\ 2 \end{array}\right)=\left(\begin{array}{l} 0 \\ 0 \\ 0 \end{array}\right) $$ Anders angeschrieben ist dies ein lineares Gleichungssystem: $$ \begin{aligned} & 1 \lambda_{1}+1 \lambda_{2}-1 \lambda_{3}=0 \\ & 3 \lambda_{1}+2 \lambda_{2}+0 \lambda_{3}=0 \\ & 4 \lambda_{1}+2 \lambda_{2}+2 \lambda_{3}=0 \end{aligned} $$ Dieses Gleichungssystem hat eine nichttriviale Lösung $\lambda_{1}=2, \lambda_{2}=-3, \lambda_{3}=-1$. Die Vektoren sind also (wie wir bereits aus Beispiel 3.11 wissen) linear abhängig. Beispiel 3.14 Die drei Vektoren $$ \boldsymbol{v}_{1}=\left(\begin{array}{r} 1 \\ -2 \\ 3 \\ 0 \end{array}\right), \boldsymbol{v}_{2}=\left(\begin{array}{r} 0 \\ 3 \\ -2 \\ 1 \end{array}\right), \boldsymbol{v}_{3}=\left(\begin{array}{r} 0 \\ 0 \\ 2 \\ -5 \end{array}\right) $$ sind linear unabhängig. Betrachtet man nämlich in der Linearkombination $\lambda_{1} \cdot v_{1}+\lambda_{2} \cdot v_{2}+$ $\lambda_{3} \cdot \boldsymbol{v}_{3}=0$ die erste Koordinate, so folgt sofort $\lambda_{1}=0$. Im nächsten Schritt folgt aus $\lambda_{2} \cdot \boldsymbol{v}_{2}+$ $\lambda_{3} \cdot \boldsymbol{v}_{3}=0$ durch Betrachtung der zweiten Koordinate $\lambda_{2}=0$ und damit auch $\lambda_{3}=0$. Fasst man diese drei Vektoren zu eine Matrix $$ \left(\begin{array}{rrr} 1 & 0 & 0 \\ -2 & 3 & 0 \\ 3 & -2 & 2 \\ 0 & 1 & -5 \end{array}\right) $$ zusammen (vergleiche mit Definition 3.20), dann bildet diese eine so genannte Halbdiagonalform, d.h., alle Eintragungen oberhalb (bzw. unterhalb) der Diagonale ${ }^{4}$ sind 0. Offensichtlich sind in einer solchen Situation, wo zusätzlich die Diagonalelemente nicht verschwinden, die (Spalten-)Vektoren immer linear unabhängig. Nun wollen wir Linearkombinationen von linear unabhängigen Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}$ betrachten. Ist etwa der Vektor $x$ in der linearen Hülle dieser Vektoren enthalten, also $$ \boldsymbol{x}=\lambda_{1} \cdot \boldsymbol{v}_{1}+\lambda_{2} \cdot \boldsymbol{v}_{2}+\cdots+\lambda_{n} \cdot \boldsymbol{v}_{n} $$ so sind die Koeffizienten $\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}$ eindeutig bestimmt. Wäre es nämlich möglich, $\boldsymbol{x}$ in der Form $$ \boldsymbol{x}=\mu_{1} \cdot \boldsymbol{v}_{\mathbf{1}}+\mu_{2} \cdot \boldsymbol{v}_{2}+\cdots+\mu_{n} \cdot \boldsymbol{v}_{n} $$ mit möglicherweise anderen Koeffizienten $\mu_{1}, \mu_{2}, \ldots, \mu_{n}$ zu schreiben, so erhalten wir nach Differenzbildung $$ \boldsymbol{x}-\boldsymbol{x}=\left(\lambda_{1}-\mu_{1}\right) \cdot \boldsymbol{v}_{1}+\left(\lambda_{2}-\mu_{2}\right) \cdot \boldsymbol{v}_{2}+\cdots+\left(\lambda_{n}-\mu_{n}\right) \cdot \boldsymbol{v}_{n}=\mathbf{0} $$ also eine nichttriviale Linearkombiation von $v_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}$, die den Nullvektor darstellt. Dies ist aber wegen der vorausgesetzten linearen Unabhängigkeit nicht möglich. Diese Überlegungen führen uns zu einem der wichtigsten Begriffe im Zusammenhang von Vektorräumen, zum Begriff einer Basis. Definition 3.15 Eine Teilmenge $B$ eines Vektorraums $V$ heißt Basis von $V$, wenn sie linear unabhängig ist und ihre lineare Hülle $[B]$ gleich $V$ ist. Jeder Vektor $\boldsymbol{x}$ aus $V$ lässt sich eindeutig als Linearkombination von Vektoren der Basis darstellen. Die Koeffizienten dieser Linearkombination heißen Koordinaten von $\boldsymbol{x}$ bezüglich der Basis $B$. Eine wichtige Eigenschaft von Vektorräumen ist, dass jede Basis gleich viele Element hat. Dies wird mit Hilfe der folgenden Eigenschaft nachgewiesen:[^23] Satz 3.16 (Austauschlemma) Es sei $M=\left\{\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \ldots, \boldsymbol{v}_{n}\right\}$ eine Menge von Vektoren und $\boldsymbol{a}=$ $\mu_{1} \cdot \boldsymbol{v}_{1}+\cdots+\mu_{n} \cdot \boldsymbol{v}_{n}$ eine Linearkombination dieser Vektoren. Weiter sei $M^{\prime}=\left(M \backslash\left\{\boldsymbol{v}_{j}\right\}\right) \cup$ $\{\boldsymbol{a}\}=\left\{\boldsymbol{v}_{1}, \ldots, \boldsymbol{v}_{j-1}, \boldsymbol{a}, \boldsymbol{v}_{j+1}, \ldots, \boldsymbol{v}_{n}\right\}$ für ein $j$ mit $\mu_{j} \neq 0$. Dann ist $M$ genau dann linear unabhängig, wenn $M^{\prime}$ linear unabhängig ist, und es gilt immer $\left[M^{\prime}\right]=[M]$. Beweis. Wir betrachten eine Linearkombination der Vektoren aus $M^{\prime}$ : $$ \begin{aligned} & \lambda_{1} \cdot \boldsymbol{v}_{1}+\cdots+\lambda_{j-1} \cdot \boldsymbol{v}_{j-1}+\lambda_{j} \cdot \boldsymbol{a}+\lambda_{j+1} \cdot \boldsymbol{v}_{j+1}+\cdots+\lambda_{n} \cdot \boldsymbol{v}_{n} \\ & =\lambda_{1} \cdot \boldsymbol{v}_{1}+\cdots+\lambda_{j-1} \cdot \boldsymbol{v}_{j-1}+\lambda_{j} \cdot\left(\mu_{1} \cdot \boldsymbol{v}_{1}+\cdots+\mu_{n} \cdot \boldsymbol{v}_{n}\right)+\lambda_{j+1} \cdot \boldsymbol{v}_{j+1}+\cdots+\lambda_{n} \cdot \boldsymbol{v}_{n} \\ & =\left(\lambda_{1}+\lambda_{j} \mu_{1}\right) \cdot \boldsymbol{v}_{1}+\cdots+\left(\lambda_{j-1}+\lambda_{j} \mu_{j-1}\right) \cdot \boldsymbol{v}_{j-1}+\lambda_{j} \mu_{j} \cdot \boldsymbol{v}_{j} \\ & \quad+\left(\lambda_{j+1}+\lambda_{j} \mu_{j+1}\right) \cdot \boldsymbol{v}_{j+1}+\cdots+\left(\lambda_{n}+\lambda_{j} \mu_{n}\right) \cdot \boldsymbol{v}_{n} \end{aligned} $$ Setzt man nun voraus, dass $M$ linear unabhängig ist, und nimmt man an, dass diese Linearkombination der Vektoren aus $M^{\prime}$ den Nullvektor darstellt, so folgt zunächst (wegen $\mu_{j} \neq 0$ ), dass $\lambda_{j}=0$ ist, also $$ \lambda_{1} \cdot \boldsymbol{v}_{1}+\cdots+\lambda_{j-1} \cdot \boldsymbol{v}_{j-1}+\lambda_{j+1} \cdot \boldsymbol{v}_{j+1}+\cdots+\lambda_{n} \cdot \boldsymbol{v}_{n}=\mathbf{0} $$ Daraus folgt aber auch $\lambda_{1}=\cdots=\lambda_{j-1}=\lambda_{j+1}=\cdots=\lambda_{n}=0$ und schließlich, dass $M^{\prime}$ linear unabhängig ist. Man beachte nun, dass $\boldsymbol{v}_{j}$ als Linearkombination $$ \boldsymbol{v}_{j}=-\frac{\mu_{1}}{\mu_{j}} \cdot \boldsymbol{v}_{1}-\cdots-\frac{\mu_{j-1}}{\mu_{j}} \cdot \boldsymbol{v}_{j-1}+\frac{1}{\mu_{j}} \cdot \boldsymbol{a}-\frac{\mu_{j+1}}{\mu_{j}} \cdot \boldsymbol{v}_{j+1}-\cdots-\frac{\mu_{n}}{\mu_{j}} \cdot \boldsymbol{v}_{n} $$ der Vektoren aus $M^{\prime}$ dargestellt werden kann, wobei der Koeffizient $1 / \mu_{j} \neq 0$ ist. Aus denselben Überlegungen wie vorhin folgt nun, dass $M$ linear unabhängig sein muss, wenn man voraussetzt, dass $M^{\prime}$ linear unabhängig ist. Weiters folgt aus der obigen Darstellung (3.1), dass in jedem Fall $\left[M^{\prime}\right] \subseteq[M]$ ist, da jede Linearkombination von Vektoren aus $M^{\prime}$ als Linearkombination von Vektoren aus $M$ dargestellt werden kann. Wegen (3.2) gilt auch die umgekehrte Inklusion, also insgesamt $\left[M^{\prime}\right]=[M]$. Wir nehmen nun an, dass $B=\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}, \ldots, \boldsymbol{b}_{n}\right\}$ eine (endliche) Basis eines Vektorraums $V$ ist, und $C=\left\{c_{1}, c_{2}\right\}$ sei eine linear unabhängige Menge. Wir wollen jetzt versuchen, nicht nur einen Vektor aus $B$ (wie in Satz 3.16) auszutauschen, sondern zwei. (Aus Gründen der Einfachheit betrachten wir zunächst nur zwei Elemente.) Wir gehen schrittweise vor. Wegen $\boldsymbol{c}_{1} \neq 0$ sind in der Darstellung von $c_{1}$ als Linearkombination der Vektoren aus $B$ nicht alle Koeffizienten 0. Wir nehmen o.B.d.A. an, der Koeffizient von $\boldsymbol{b}_{1}$ wäre ungleich 0. Dann folgt aus dem Austauschlemma, dass $B^{\prime}=\left\{\boldsymbol{c}_{1}, \boldsymbol{b}_{2}, \ldots, \boldsymbol{b}_{n}\right\}$ wieder eine Basis von $V$ ist. Im zweiten Schritt wollen wir $c_{2}$ gegen einen Vektor aus $B^{\prime}$ austauschen. Dazu betrachten wir jene Linearkombination von Vektoren aus $B^{\prime}$, die $\boldsymbol{c}_{2}$ darstellt. Angenommen, alle Koeffizienten der Vektoren $\boldsymbol{b}_{2}, \ldots, \boldsymbol{b}_{n}$ wären 0 , dann wäre $\boldsymbol{c}_{2}$ ein Vielfaches von $\boldsymbol{c}_{1}$. Dies ist jedoch ausgeschlossen, da wir vorausgesetzt haben, dass die Vektoren $\boldsymbol{c}_{1}, \boldsymbol{c}_{2}$ linear unabhängig sind. Wir können daher (wieder o.B.d.A.) annehmen, dass der Koeffizient von $b_{2}$ von 0 verschieden ist, und es folgt aus dem Austauschlemma, dass $B^{\prime \prime}=\left\{\boldsymbol{c}_{1}, \boldsymbol{c}_{2}, \boldsymbol{b}_{3}, \ldots, \boldsymbol{b}_{n}\right\}=\left(B \backslash\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right\}\right) \cup C$ eine Basis ist. Dieselbe Überlegung funktioniert für jede linear unabhängige Menge $C$. Es gibt in $B$ eine Teilmenge $D$ mit $|D|=|C|$, so dass $(B \backslash D) \cup C$ wieder eine Basis ist. Insbesondere kann $C$ nicht unendlich sein, und es muss $|C| \leq|B|$ gelten. Wendet man diese Überlegung für eine Basis $C$ an und vertauscht man in einem zweiten Schritt die Rollen von $B$ und $C$, so folgt auch $|B| \leq|C|$ und schließlich $|B|=|C|$. Wir haben daher - wie angekündigt - nachgewiesen, dass zwei (endliche) Basen desselben Vektorraums immer gleich viele Elemente haben. Dies begründet den Begriff der Dimension. Definition 3.17 Besitzt ein Vektorraum $V$ eine endliche Basis $B$, so ist die Dimension $\operatorname{dim} V$ gleich der Anzahl $|B|$ der Vektoren von $B$. Besitzt $V$ keine endliche Basis, so heißt er unendlichdimensional. Beispiel 3.18 Die Vektoren $\boldsymbol{e}_{1}, \boldsymbol{e}_{2}, \ldots, \boldsymbol{e}_{n}$ aus Beispiel 3.10 sind nicht nur linear unabhängig, sondern spannen wegen $\boldsymbol{x}=\left(\begin{array}{c}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{array}\right)=x_{1} \cdot\left(\begin{array}{c}1 \\ 0 \\ \vdots \\ 0\end{array}\right)+x_{2} \cdot\left(\begin{array}{c}0 \\ 1 \\ \vdots \\ 0\end{array}\right)+\cdots+x_{n} \cdot\left(\begin{array}{c}0 \\ 0 \\ \vdots \\ 1\end{array}\right)=x_{1} \cdot \boldsymbol{e}_{1}+x_{2} \cdot \boldsymbol{e}_{2}+\cdots+x_{n} \cdot \boldsymbol{e}_{n}$ auch alle Vektoren aus $K^{n}$ auf. Sie bilden daher eine Basis, die so genannte kanonische Basis $E=\left\{\boldsymbol{e}_{1}, \boldsymbol{e}_{2}, \ldots, \boldsymbol{e}_{n}\right\}$ von $K^{n}$. Die (üblichen) Koordinaten $x_{1}, x_{2}, \ldots, x_{n}$ eines Vektors $\boldsymbol{x} \in K^{n}$ sind gleichzeitig die Koordinaten bezüglich $E$. Insbesondere gilt $\operatorname{dim} K^{n}=n$. Beispiel 3.19 Die Polynome $p(x)=a_{0}+a_{1} x+\cdots+a_{n} x^{n}$ mit reellen Koeffizienten $a_{j} \in \mathbb{R}$ bilden einen Vektorraum über $\mathbb{R}$. Offensichtlich ist die Menge $B=\left\{1, x, x^{2}, x^{3}, \ldots\right\}$ der Monome eine Basis der Polynome. Damit ist $(\mathbb{R}[x],+, \mathbb{R})$ ein unendlichdimensionaler Vektorraum. Im Folgenden wollen wir uns auf endlichdimensionale Vektorräume beschränken. Es sei nun $V$ ein allgemeiner Vektorraum (über dem Körper $K$ ) der Dimension $n$ und $B=$ $\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}, \ldots, \boldsymbol{b}_{n}\right\}$ eine Basis von $V$. Jeder Vektor $\boldsymbol{x} \in V$ lässt sich eindeutig als Linearkombination der Basisvektoren darstellen: $$ \boldsymbol{x}=\lambda_{1} \cdot \boldsymbol{b}_{1}+\lambda_{2} \cdot \boldsymbol{b}_{2}+\cdots+\lambda_{n} \cdot \boldsymbol{b}_{n} $$ Man nennt die Abbildung $\Phi_{B}: V \rightarrow K^{n}$, die einem Vektor $\boldsymbol{x} \in V$ die Koordinaten $$ \Phi_{B}(\boldsymbol{x})=\left(\begin{array}{c} \lambda_{1} \\ \lambda_{2} \\ \vdots \\ \lambda_{n} \end{array}\right) $$ zuordnet, die Koordinatenabbildung bezüglich der Basis $B$. Wegen der Eindeutigkeit der Darstellung als Linearkombination einer Basis ist die Koordinatenabbildung $\Phi_{B}$ bijektiv und erfült die Eigenschaften $$ \Phi_{B}(\boldsymbol{x}+\boldsymbol{y})=\Phi_{B}(\boldsymbol{x})+\Phi_{B}(\boldsymbol{y}) \text { und } \Phi(\lambda \cdot \boldsymbol{x})=\lambda \cdot \Phi_{B}(\boldsymbol{x}) $$ für alle $\boldsymbol{x}, \boldsymbol{y} \in V$ und $\lambda \in K$. Man kann daher auf der Ebene der Koordinaten alle Rechnungen in $V$ auch im Vektorraum $K^{n}$ durchführen. $V$ und $K^{n}$ haben daher dieselbe Struktur, man nennt sie auch isomorph. Der Vektorraum $K^{n}$ ist daher in diesem Sinn der „einzige“ Vektorraum der Dimension $n$. Dies rechtfertig auch die eingangs gewählte Beschränkung auf den $K^{n}$. Abschließend bemerken wir noch, dass die Dimension von Teilräumen $U \leq V$ nie größer sein kann als die von $V$ : $$ U \leq V \quad \Longrightarrow \quad \operatorname{dim} U \leq \operatorname{dim} V $$ Für den trivialen Nullraum gilt $\operatorname{dim}\{0\}=0$. ### 3.2 Matrizen ## 1. Rechnen mit Matrizen Matrizen sind grob gesprochen rechteckige Schemata (oder Tabellen) mit Eintragungen. Sie sind uns schon an verschiedenen Stellen begegnet, z.B. als Adjazenzmatrizen von Graphen oder als Koeffizentenmatrix des linearen Gleichungssystems aus dem einleitenden Beispiel 3.1. Definition 3.20 Unter einer $m \times n$-Matrix $A=\left(a_{i j}\right)$ mit Koeffizienten aus einem Körper $K$ versteht man ein rechteckiges Schema $$ A=\left(\begin{array}{cccc} a_{11} & a_{12} & \cdots & a_{1 n} \\ a_{21} & a_{22} & \cdots & a_{2 n} \\ \vdots & \vdots & & \vdots \\ a_{m 1} & a_{m 2} & \cdots & a_{m n} \end{array}\right) $$ aus $m$ Zeilen und $n$ Spalten mit Eintragungen $a_{i j} \in K$. Die Menge aller $m \times n$-Matrizen mit Eintragungen aus $K$ wird mit $K^{m \times n}$ bezeichnet. Eine Matrix $A \in K^{n \times n}$ mit gleicher Spaltenund Zeilenanzahl heißt quadratisch. Beispielsweise ist $$ A_{1}=\left(\begin{array}{lll} 1 & 5 & 2 \\ 3 & 2 & 1 \\ 0 & 1 & 2 \end{array}\right) \quad \text { bzw. } \quad A_{2}=\left(\begin{array}{ll} 1 & 2 \\ 5 & 7 \\ 0 & 2 \end{array}\right) $$ eine (quadratische) $3 \times 3$-Matrix und eine (nicht quadratische) $3 \times 2$-Matrix. Übrigens können die Spaltenvektoren als einspaltige Matrizen aus $K^{m \times 1}$ gesehen werden (wofür wir einfachheitshalber auch $K^{m}$ schreiben). Entsprechend bezeichnet man einzeilige Matrizen aus $K^{1 \times n}$ als Zeilenvektoren. Wir werden eine $m \times n$-Matrix auch als „Aufreihung“ ihrer Spalten $a_{1}, a_{2}, \ldots, a_{n}$ betrachten: $$ A=\left(\begin{array}{llll} a_{1} & a_{2} & \cdots & a_{n} \end{array}\right) . $$ Definition 3.21 Ist $A \in K^{m \times n}$ eine $m \times n$-Matrix, so bezeichnen wir mit $A^{T}$ die zu $A$ transponierte Matrix. Sie ist eine $n \times m$-Matrix und geht aus $A$ dadurch hervor, dass Zeilen und Spalten vertauscht werden, d.h., die erste Spalte von $A$ ist die erste Zeile von $A^{T}$, usw. Eine quadratische Matrix $A=\left(a_{i j}\right) \in K^{n \times n}$ heißt symmetrisch, wenn $$ A^{T}=A $$ ist, d.h., wenn $a_{i j}=a_{j i}$ für alle $1 \leq i, j \leq n$ gilt. Beispielsweise ist $$ A_{2}^{T}=\left(\begin{array}{ll} 1 & 2 \\ 5 & 7 \\ 0 & 2 \end{array}\right)^{T}=\left(\begin{array}{lll} 1 & 5 & 0 \\ 2 & 7 & 2 \end{array}\right) $$ und die Matrix $$ A_{3}=\left(\begin{array}{rrr} 1 & 0 & 2 \\ 0 & -2 & 1 \\ 2 & 1 & 3 \end{array}\right) $$ ist symmetrisch. Mit Matrizen kann man wie mit Vektoren rechnen. So wird die Summe $A+B$ von zwei Matrizen $A=\left(a_{i j}\right), B=\left(b_{i j}\right) \in K^{m \times n}$ elementweise gebildet: $A+B=\left(a_{i j}+b_{i j}\right)$. Beispielsweise ist $$ \left(\begin{array}{ll} 1 & 2 \\ 5 & 7 \\ 0 & 2 \end{array}\right)+\left(\begin{array}{rr} -2 & 1 \\ 3 & 0 \\ 1 & -2 \end{array}\right)=\left(\begin{array}{rr} -1 & 3 \\ 8 & 7 \\ 1 & 0 \end{array}\right) $$ Ebenso kann man das Vielfache $\lambda \cdot A=\left(\lambda a_{i j}\right)$ bestimmen. So ist etwa $$ 3 \cdot\left(\begin{array}{ll} 1 & 2 \\ 5 & 7 \\ 0 & 2 \end{array}\right)=\left(\begin{array}{rr} 3 & 6 \\ 15 & 21 \\ 0 & 6 \end{array}\right) $$ Man sieht sofort, dass die algebraische Struktur $\left(K^{m \times n},+, K\right)$ einen Vektorraum der Dimension $m \cdot n$ bildet. Noch interessanter ist das Produkt von Matrizen. Definition 3.22 Sind $A=\left(a_{i j}\right) \in K^{m \times n}$ und $B=\left(b_{j k}\right) \in K^{n \times q}$ zwei Matrizen, wobei die Anzahl der Spalten der ersten gleich der Anzahl der Zeilen der zweiten ist, so wird durch $$ c_{i k}=a_{i 1} b_{1 k}+a_{i 2} b_{2 k}+\cdots+a_{i n} b_{n k}=\sum_{j=1}^{n} a_{i j} b_{j k} $$ eine Matrix in $K^{m \times q}$ definiert, die als Produkt $A \cdot B=\left(c_{i k}\right)$ der Matrizen $A$ und $B$ bezeichnet wird. Wir illustrieren diese formale Definition an einem einfachen Beispiel: $$ \begin{aligned} A_{1} \cdot A_{2} & =\left(\begin{array}{lll} 1 & 5 & 2 \\ 3 & 2 & 1 \\ 0 & 1 & 2 \end{array}\right) \cdot\left(\begin{array}{ll} 1 & 2 \\ 5 & 7 \\ 0 & 2 \end{array}\right) \\ & =\left(\begin{array}{ll} 1 \cdot 1+5 \cdot 5+2 \cdot 0 & 1 \cdot 2+5 \cdot 7+2 \cdot 2 \\ 3 \cdot 1+2 \cdot 5+1 \cdot 0 & 3 \cdot 2+2 \cdot 7+1 \cdot 2 \\ 0 \cdot 1+1 \cdot 5+2 \cdot 0 & 0 \cdot 2+1 \cdot 7+2 \cdot 2 \end{array}\right)=\left(\begin{array}{cc} 26 & 41 \\ 13 & 22 \\ 5 & 11 \end{array}\right) . \end{aligned} $$ Man beachte, dass das Element $c_{i k}$ durch ein so genanntes Skalarprodukt der $i$-ten Zeile von $A$ und der $k$-ten Spalte von $B$ gebildet wird. Ein Skalarprodukt von einem Zeilenvektor $\boldsymbol{x}$ und einem Spaltenvektor $y$ ist dabei durch $$ \boldsymbol{x} \cdot \boldsymbol{y}=\left(\begin{array}{llll} x_{1} & x_{2} & \cdots & x_{n} \end{array}\right) \cdot\left(\begin{array}{c} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{array}\right)=x_{1} y_{1}+x_{2} y_{2}+\cdots+x_{n} y_{n} $$ gegeben. Wir werden später dieses (und noch allgemeinere) Skalarprodukt(e) genauer behandeln. Die Matrizenmultiplikation folgt, wie wir gleich sehen werden, zahlreichen Rechenregeln (siehe Satz 3.24). Allerdings sind (wenigstens) zwei gewohnte Eigenschaften nicht erfüllt. Erstens ist die Matrizenmultiplikation nicht kommutativ, d.h., i. Allg. gilt $$ A \cdot B \neq B \cdot A $$ und zweitens kann das Produkt zweier Matrizen Null ergeben, auch wenn beide Faktoren von Null verschieden sind. Beispielsweise ist $$ \left(\begin{array}{ll} 0 & 1 \\ 0 & 0 \end{array}\right) \cdot\left(\begin{array}{ll} 0 & 1 \\ 0 & 0 \end{array}\right)=\left(\begin{array}{ll} 0 & 0 \\ 0 & 0 \end{array}\right) $$ Bevor wir die schon angekündigten Eigenschaften der Matrizenmultiplikation besprechen, führen wir noch eine spezielle quadratische Matrix ein. Definition 3.23 Sei $n \geq 1$ eine ganze Zahl. Unter der $n$-dimensionalen Einheitsmatrix $I_{n} \in$ $K^{n \times n}$ versteht man die Matrix $$ I_{n}=\left(\begin{array}{cccccc} 1 & 0 & 0 & \cdots & 0 & 0 \\ 0 & 1 & 0 & \cdots & 0 & 0 \\ 0 & 0 & 1 & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & 0 & 1 & 0 \\ 0 & 0 & \cdots & 0 & 0 & 1 \end{array}\right) $$ d.h., die Spalten von $I_{n}$ sind die Vektoren $\boldsymbol{e}_{1}, \boldsymbol{e}_{2}, \ldots, \boldsymbol{e}_{n}$ der kanonische Basis. Die Einheitsmatrix hat auch die Eigenschaft, dass nur in der Diagonale Elemente stehen, die von Null verschieden sind. Allgemein betrachtet man so genannte Diagonalmatrizen $$ \operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}\right)=\left(\begin{array}{cccccc} \lambda_{1} & 0 & 0 & \cdots & 0 & 0 \\ 0 & \lambda_{2} & 0 & \cdots & 0 & 0 \\ 0 & 0 & \lambda_{3} & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & 0 & \lambda_{n-1} & 0 \\ 0 & 0 & \cdots & 0 & 0 & \lambda_{n} \end{array}\right) $$ Entsprechend spricht man von oberen bzw. unteren Dreiecksmatrizen, wenn alle Elemente unterhalb bzw. oberhalb der Diagonale 0 sind. Im folgenden Satz listen wir einige Eigenschaften von Matrizen auf. Satz 3.24 $A, B, C$ bezeichnen Matrizen, I die Einheitsmatrix (jeweils in passender Dimension) und $\lambda$ einen Skalar. Dann gelten die folgenden Rechenregeln: (i) $A \cdot I=I \cdot A=A$, (ii) $(A \cdot B) \cdot C=A \cdot(B \cdot C)$, (iii) $(A+B) \cdot C=A \cdot C+B \cdot C$, (iv) $A \cdot(B+C)=A \cdot B+A \cdot C$, (v) $(\lambda \cdot A) \cdot B=A \cdot(\lambda \cdot B)=\lambda \cdot(A \cdot B)$, (vi) $(A+B)^{T}=A^{T}+B^{T}$, (vii) $(A \cdot B)^{T}=B^{T} \cdot A^{T}$, (viii) $(\lambda \cdot A)^{T}=\lambda \cdot A^{T}$. Alle Eigenschaften sind leicht nachzurechnen. Wir greifen die zweite heraus. Ist $A=\left(a_{i j}\right)$, $B=\left(b_{j k}\right)$ und $C=\left(c_{k l}\right)$, so bestimmt sich das Element von $(A \cdot B) \cdot C$ an der Stelle $(i, l)$ durch $$ \sum_{k}\left(\sum_{j} a_{i j} b_{j k}\right) c_{k l} $$ und das entsprechende Element von $A \cdot(B \cdot C)$ durch $$ \sum_{j} a_{i j}\left(\sum_{k} b_{j k} c_{k l}\right) $$ Diese beiden Doppelsummen sind jedoch wegen der Rechengesetze für Addition und Multiplikation in $K$ gleich. ## 2. Invertierbare Matrizen Die erste Eigenschaft von Satz 3.24 besagt, dass die Einheitsmatrix ein neutrales Element der Matrizenmultiplikation ist. Dies führt uns direkt zum Begriff einer inversen Matrix. Definition 3.25 Sei $A \in K^{n \times n}$ eine quadratische Matrix. Sie heißt invertierbar oder regulär, wenn es eine Matrix $A^{-1} \in K^{n \times n}$ gibt mit $$ A \cdot A^{-1}=A^{-1} \cdot A=I_{n} $$ Die Matrix $A^{-1}$ heißt dann die zu $A$ inverse Matrix. Nicht invertierbare Matrizen werden auch als singulär bezeichnet. Satz 3.26 Es seien $A$ und $B$ zwei invertierbare Matrizen in $K^{n \times n}$. Dann sind $A \cdot B$ und $A^{T}$ ebenfalls invertierbar, und es gilt (i) $(A \cdot B)^{-1}=B^{-1} \cdot A^{-1}$, (ii) $\left(A^{T}\right)^{-1}=\left(A^{-1}\right)^{T}$. Wir werden später noch ausführlich besprechen, wie man entscheiden kann, ob eine Matrix invertierbar ist, und wie man die inverse Matrix gegebenenfalls berechnen kann. Wir geben als nächstes eine natürliche Interpretation der Matizenmultiplikation mit Hilfe von Linearkombinationen. Dazu betrachten wir zunächst die Multiplikation einer $m \times n$-Matrix $A$ und eines $n$-dimensionalen Spaltenvektors: $A \cdot \boldsymbol{x}$. Bezeichnet man mit $\boldsymbol{a}_{1}, \boldsymbol{a}_{2}, \ldots, \boldsymbol{a}_{n}$ die Spalten von $A$ und mit $x_{1}, x_{2}, \ldots, x_{n}$ die Koordinaten von $\boldsymbol{x}$, so gilt $$ A \cdot \boldsymbol{x}=\left(\begin{array}{llll} \boldsymbol{a}_{1} & \boldsymbol{a}_{2} & \cdots & \boldsymbol{a}_{n} \end{array}\right) \cdot \boldsymbol{x}=x_{1} \cdot \boldsymbol{a}_{1}+x_{2} \cdot \boldsymbol{a}_{2}+\cdots+x_{n} \cdot \boldsymbol{a}_{n} . $$ Das Produkt einer Matrix mit einem (Spalten-)Vektor ist also nichts anderes als eine Linearkombination der Spalten von $A$, wobei die Koeffizienten die Koordinaten von $\boldsymbol{x}$ sind. Daraus folgt etwa $$ A \cdot \boldsymbol{e}_{j}=\boldsymbol{a}_{j} $$ das Produkt einer Matrix $A$ mit dem $j$-ten kanonischen Basisvektor ist die $j$-te Spalte von $A$. Ist nun $B$ eine $n \times q$-Matrix mit Spalten $\boldsymbol{b}_{1}, \boldsymbol{b}_{2}, \ldots, \boldsymbol{b}_{q}$, dann ist die $j$-te Spalte des Matrizenprodukts $A \cdot B$ das Produkt von $A$ mit $\boldsymbol{b}_{j}$ : $$ A \cdot B=\left(\begin{array}{llll} A \cdot \boldsymbol{b}_{1} & A \cdot \boldsymbol{b}_{2} & \cdots & A \cdot \boldsymbol{b}_{q} \end{array}\right) . $$ Anders ausgedrückt, die Spalten von $A \cdot B$ sind Linearkombinationen der Spalten von $A$, wobei die Koeffizienten dieser Linearkombinationen in den entsprechenden Spalten von $B$ stehen. Offensichtlich kann man damit $$ A \cdot I_{n}=A \cdot\left(\begin{array}{llll} e_{1} & e_{2} & \cdots & e_{n} \end{array}\right)=\left(\begin{array}{llll} a_{1} & a_{2} & \cdots & a_{n} \end{array}\right)=A $$ direkt überprüfen. Eine andere Interpretation der Multiplikation einer Matrix mit einem Spaltenvektor beruht auf dem Zusammenhang mit linearen Gleichungssystemen (siehe Abschnitt 3.4). Ein einfaches Beispiel eines linearen Gleichungssystems ist etwa: $$ \begin{aligned} & 2 x_{1}+3 x_{2}=5 \\ & 7 x_{1}-5 x_{2}=2 \end{aligned} $$ Offensichtlich lässt sich dieses in der Form $$ \left(\begin{array}{rr} 2 & 3 \\ 7 & -5 \end{array}\right) \cdot\left(\begin{array}{l} x_{1} \\ x_{2} \end{array}\right)=\left(\begin{array}{l} 5 \\ 2 \end{array}\right) $$ schreiben. Diese Interpretationen des Matrizenprodukts können genützt werden, invertierbare Matrizen zu charakterisieren. Satz 3.27 Eine quadratische Matrix $A \in K^{n \times n}$ ist genau dann invertierbar, wenn ihre Spalten (oder Zeilen) linear unabhängig sind, also eine Basis von $K^{n}$ bilden. Beweis. Wenn eine Matrix invertierbar ist, so ist die Matrizengleichung $A \cdot X=I_{n}$ (mit der Unbekannten $X$ ) lösbar. Das bedeutet aber, dass die kanonischen Basisvektoren $e_{1}, e_{2}, \ldots, e_{n}$ - das sind die Spalten von $I_{n}$ - als Linearkombinationen der Spalten von $A$ dargestellt werden können. Das gelingt aber genau dann, wenn die Spalten von $A$ linear unabhängig sind, also eine Basis von $K^{n}$ bilden. Entsprechendes gilt für die Zeilen. Eine Matrix ist also genau dann invertierbar, wenn die lineare Hülle der Spalten von $A$ ganz $K^{n}$ ist. Die lineare Hülle der Spalten einer Matrix ist aber nicht nur bei invertierbaren Matrizen von Interesse, wie der folgende Abschnitt zeigt. ## 3. Rang einer Matrix und elementare Umformungen Definition 3.28 Der Spaltenrang $\operatorname{rg}(A)$ einer Matrix $A \in K^{m \times n}$ ist die Dimension der linearen Hülle der Spalten von $A$. Der Zeilenrang einer Matrix $A \in K^{m \times n}$ ist die Dimension der linearen Hülle der Zeilen von $A$, also der Spaltenrang von $A^{T}$. Interessanterweise stimmen Spaltenrang und Zeilenrang immer überein, wie wir im Rahmen des Beispiels 3.32 zeigen werden. Man spricht daher allgemein vom Rang einer Matrix. Satz 3.29 Für jede Matrix $A \in K^{m \times n}$ stimmen Spalten-und Zeilenrang überein, also $$ \operatorname{rg}(A)=\operatorname{rg}\left(A^{T}\right) $$ Bei einer quadratischen Matrix $A \in K^{n \times n}$ sind daher die Spalten genau dann linear unabhängig, wenn die Zeilen linear unabhängig sind. Den Rang einer Matrix kann man leicht mit Hilfe elementarer Spalten- und Zeilenumformungen ermitteln. Diese Umformungen spielen aber auch beim Lösen von linearen Gleichungssystemen (und vielen anderen Anwendungen der Matrizenrechung) eine wichtige Rolle. Definition 3.30 Sei $A \in K^{m \times n}$ eine Matrix mit den Spalten $a_{1}, \ldots, a_{n} \in K^{m}$. Die drei Operationen (i) Multiplikation einer Spalte $\boldsymbol{a}_{j}(1 \leq j \leq n)$ mit einem Skalar $\lambda \in K \backslash\{0\}$, (ii) Addieren eines Vielfachen einer Spalte $\boldsymbol{a}_{i}(1 \leq i \leq n)$ zu einer Spalte $\boldsymbol{a}_{j}(1 \leq j \leq n$, $i \neq j$ ), d.h. Ersetzen der Spalte $a_{j}$ durch $\lambda \cdot a_{i}+a_{j}$ mit $\lambda \in K$ und $i \neq j$, (iii) Vertauschen zweier Spalten $\boldsymbol{a}_{i}, \boldsymbol{a}_{j}(1 \leq i, j \leq n, i \neq j)$ heißen elementare Spaltenumformungen der Matrix $A$. Sind $\tilde{\boldsymbol{a}}_{1}, \ldots, \tilde{\boldsymbol{a}}_{m} \in K^{1 \times n}$ die Zeilen einer Matrix $A \in K^{m \times n}$, dann heißen die drei Operationen (i) Multiplikation einer Zeile $\tilde{\boldsymbol{a}}_{j}(1 \leq j \leq m)$ mit einem Skalar $\lambda \in K \backslash\{0\}$, (ii) Addieren eines Vielfachen einer Zeile $\tilde{\boldsymbol{a}}_{i}(1 \leq i \leq m)$ zu einer Zeile $\tilde{\boldsymbol{a}}_{j}(1 \leq j \leq m$, $i \neq j$ ), d.h. Ersetzen der Zeile $\tilde{\boldsymbol{a}}_{j}$ durch $\lambda \cdot \tilde{\boldsymbol{a}}_{i}+\tilde{\boldsymbol{a}}_{j}$ mit $\lambda \in K$ und $i \neq j$, (iii) Vertauschen zweier Zeilen $\tilde{\boldsymbol{a}}_{i}, \tilde{\boldsymbol{a}}_{j}(1 \leq i, j \leq m, i \neq j)$ elementare Zeilenumformungen der Matrix $A$. Satz 3.31 Sei $A^{\prime} \in K^{m \times n}$ eine Matrix, die aus der Matrix $A \in K^{m \times n}$ durch eine Folge von elementaren Spalten- und Zeilenumformungen hervorgeht, dann gilt $$ \operatorname{rg}(A)=\operatorname{rg}\left(A^{\prime}\right) $$ Eine entsprechende Aussage gilt für den Zeilenrang. Beweis. Durch Multiplikation einer Spalte mit einem Skalar $\neq 0$ bzw. durch das Vertauschen zweier Spalten bleibt die lineare Hülle der Spaltenvektoren unverändert. Weiters folgt aus dem Austauschlemma (Satz 3.16), dass auch bei Addieren eines Vielfachen einer Spalte zu einer anderen die lineare Hülle nicht verändert wird. In allen Fällen bleibt also der Spaltenrang gleich. Wir interpretieren nun die Spalten $a_{1}, \ldots, a_{n}$ von $A$ als Koordinaten von Vektoren $\boldsymbol{v}_{1}, \ldots, \boldsymbol{v}_{n}$ bezüglich einer Basis $B=\left\{\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{m}\right\}$. Man betrachte eine (elementare) Zeilenumformung der Matrix $A$, es wird also z.B. der $j$-te Zeilenvektor $\tilde{\boldsymbol{a}}_{j}$ durch $\lambda \cdot \tilde{\boldsymbol{a}}_{i}+\tilde{\boldsymbol{a}}_{j}$ ersetzt. Die entstehende Matrix wird wieder mit $A^{\prime}$ bezeichnet. Wir wenden nun die entsprechende inverse Umformung auf die Basis $B$ an, also z.B. würde der Vektor $\boldsymbol{b}_{j}$ durch $-\lambda \cdot \boldsymbol{b}_{i}+\boldsymbol{b}_{j}$ ersetzt werden. Aus dem Austauschlemma (Satz 3.16) folgt, dass die resultierende Menge $B^{\prime}$ von Vektoren wieder eine Basis ist. Außerdem sind die Koordinaten der Vektoren $\boldsymbol{v}_{1}, \ldots, \boldsymbol{v}_{n}$ bezüglich $B^{\prime}$ gerade die Spalten von $A^{\prime}$. Die lineare Hülle der Spalten von $A$ bzw. von $A^{\prime}$ entspricht daher der linearen Hülle der Vektoren $\boldsymbol{v}_{1}, \ldots, \boldsymbol{v}_{n}$. Der Spaltenrang bleibt daher bei Zeilenumformungen unverändert. Beispiel 3.32 Wir benützen Satz 3.31, um den (Spalten-)Rang einer Matrix zu bestimmen. Ziel ist es, die Matrix mit geeigneten Spalten- und Zeilenumformungen in Halbdiagonalform überzuführen, da man den Rang einer Matrix dieser Gestalt direkt ablesen kann (vergleiche mit Beispiel 3.14). Es sei $$ A=\left(\begin{array}{rrrr} 1 & 2 & -3 & 0 \\ 2 & 5 & 1 & 8 \\ -1 & -2 & 4 & 1 \\ 4 & 0 & 2 & 6 \end{array}\right) $$ Die Spalten von $A$ bezeichnen wir mit $a_{1}, a_{2}, a_{3}, a_{4}$. Wir erzeugen oberhalb bzw. rechts von der Diagonale Nullen. Dazu ersetzen wir zunächst die zweite Spalte $a_{2}$ durch $a_{2}-2 a_{1}$ und die dritte durch $a_{3}+3 a_{1}$ : $$ A^{\prime}=\left(\begin{array}{rrrr} 1 & 0 & 0 & 0 \\ 2 & 1 & 7 & 8 \\ -1 & 0 & 1 & 1 \\ 4 & -8 & 14 & 6 \end{array}\right) $$ In dieser Matrix ersetzen wir die dritte Spalte durch $\boldsymbol{a}_{3}^{\prime}-7 \boldsymbol{a}_{2}^{\prime}$ und die vierte durch $\boldsymbol{a}_{4}^{\prime}-8 \boldsymbol{a}_{2}^{\prime}$ : $$ A^{\prime \prime}=\left(\begin{array}{rrrr} 1 & 0 & 0 & 0 \\ 2 & 1 & 0 & 0 \\ -1 & 0 & 1 & 1 \\ 4 & -8 & 70 & 70 \end{array}\right) $$ Schließlich ersetzen wir hier die vierte Spalte durch $a_{4}^{\prime \prime}-a_{3}^{\prime \prime}$ und erhalten eine Matrix der Form $$ A^{\prime \prime \prime}=\left(\begin{array}{rrrr} 1 & 0 & 0 & 0 \\ 2 & 1 & 0 & 0 \\ -1 & 0 & 1 & 0 \\ 4 & -8 & 70 & 0 \end{array}\right) $$ Offensichtlich hat diese Matrix $\operatorname{rg}\left(A^{\prime \prime \prime}\right)=3$, da die ersten drei Spalten linear unabhängig sind (vergleiche mit Beispiel 3.14). Die ursprüngliche Matrix hat demnach ebenfalls $\operatorname{rg}(A)=3$, d.h., die Spalten von $A$ sind linear abhängig und spannen einen dreidimensionalen Unterraum von $K^{4 \times 1}$ auf. In diesem Beispiel sind die Diagonalelemente der ersten drei Spalten gleich 1. Wären sie von 1 verschieden (und $\neq 0$ ), so könnte man durch Multiplikation mit den jeweiligen Kehrwerten die Spalten so skalieren, dass die Diagonalelemente schließlich alle gleich 1 sind. Entscheidend für das Gelingen des gerade beschriebenen Verfahrens ist auch, dass die auftretenden Diagonalelemente von 0 verschieden sind. Angenommen, es wäre bereits im ersten Schritt $a_{11}=0$, so kann man, wenn die Matrix nicht nur aus Nullen besteht, allein durch Spalten- bzw. Zeilenvertauschen erreichen, dass das Element an der Stelle $(1,1)$ von 0 verschieden ist. Entsprechend verfährt man in den folgenden Schritten, wobei man aber immer nur mit Spalten, die weiter rechts stehen, bzw. mit Zeilen, die weiter unten stehen, tauschen darf. Ist das nicht mehr möglich, so bricht das Verfahren ab. In unserem Beispiel ist das Element der Matrix $A^{\prime \prime \prime}$ an der Stelle $(4,4)$ gleich 0. Dieser Eintrag kann nicht mehr durch Spalten- oder Zeilenvertauschungen der beschriebenen Art verändert werden. Das Verfahren wurde daher auch an dieser Stelle abgebrochen. Insgesamt kann in dieser Weise durch Spaltenumformungen (und gegebenenfalls durch Zeilenvertauschungen) immer eine Matrix der in Abb. 3.7 angegebenen Form gefunden ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-120.jpg?height=294&width=402&top_left_y=1149&top_left_x=748) Abbildung 3.7 Spaltenumformungen zur Rangbestimmung werden. ${ }^{5}$ Bisher wurden nur Nullen oberhalb bzw. rechts der Diagonale erzeugt. Man kann aber mit demselben Prinzip auch links der Diagonale Nullen erzeugen. Im konkreten Beispiel ersetzt man etwa $a_{1}^{\prime \prime \prime}$ durch $a_{1}^{\prime \prime \prime}-2 a_{2}^{\prime \prime \prime}+a_{3}^{\prime \prime \prime}$ und erhält die Matrix $$ A^{\prime \prime \prime \prime}=\left(\begin{array}{rrrr} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 90 & -8 & 70 & 0 \end{array}\right) $$ Mit geeigneten Zeilenumformungen kann die Matrix noch weiter vereinfacht werden. Subtrahiert man das 90 -fache der ersten Zeile von der vierten, usw., so erhält man die Matrix $$ A^{\prime \prime \prime \prime}=\left(\begin{array}{llll} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ 0 & 0 & 1 & 0 \\ 0 & 0 & 0 & 0 \end{array}\right) $$[^24] In dieser Matrix sind Spalten- und Zeilenrang gleich 3. Aus Satz 3.31 folgt daher, dass der Zeilenrang von $A$ gleich 3 ist. Die gerade angestellte Überlegung kann für jede Matrix $A$ durchgeführt werden. Nach geeigneten Spalten- und Zeilenumformungen entsteht eine Matrix, die sozusagen aus einer Einheitsmatrix $I_{r}$ und lauter Nullen besteht, wobei $r$ gleichzeitig Spalten- und Zeilenrang ist. Es folgt also allgemein $\operatorname{rg}(A)=\operatorname{rg}\left(A^{T}\right)$. Elementare Spaltenumformungen von $A$ können auch durch das Multiplizieren der Matrix $A$ mit geeigneten Transformationsmatrizen realisiert werden. Eine so genannte Elementarmatrix ist eine Matrix, die aus der Einheitsmatrix $I_{n}$ nach Anwendung einer elementaren Spalten- bzw. Zeilenumformung hervorgeht. So sind etwa $$ T^{\prime}=\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & \lambda \\ 0 & 0 & 1 \end{array}\right) \quad \text { und } \quad T^{\prime \prime}=\left(\begin{array}{lll} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{array}\right) $$ Elementarmatrizen. Bei $T^{\prime}$ wurde das $\lambda$-fache der 2. Spalte von $I_{3}$ zur 3 . Spalte addiert (oder das $\lambda$-fache der 3 . Zeile zur 2. Zeile addiert), und bei $T^{\prime \prime}$ wurden die ersten beiden Zeilen (oder Spalten) von $I_{3}$ vertauscht. Multipliziert man nun beispielsweise eine beliebige 3-spaltige Matrix $A$ von rechts mit der Elementarmatrix $T^{\prime}$, so entsteht eine Matrix $A^{\prime}$, die aus $A$ durch dieselben Spaltenumformungen entsteht wie $T^{\prime}$ aus $I_{3}$ : $$ A \cdot T^{\prime}=\left(\begin{array}{lll} a_{1} & a_{2} & a_{3} \end{array}\right) \cdot\left(\begin{array}{ccc} 1 & 0 & 0 \\ 0 & 1 & \lambda \\ 0 & 0 & 1 \end{array}\right)=\left(\begin{array}{lll} a_{1} & a_{2} & \lambda a_{2}+a_{3} \end{array}\right) $$ Man beachte insbesondere, dass Elementarmatrizen invertierbar sind. Beispielsweise ist $$ \left(T^{\prime}\right)^{-1}=\left(\begin{array}{lll} 1 & 0 & 0 \\ 0 & 1 & \lambda \\ 0 & 0 & 1 \end{array}\right)^{-1}=\left(\begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & -\lambda \\ 0 & 0 & 1 \end{array}\right) $$ Das Umformen einer Matrix $A$ in eine Matrix $A^{\prime}$ mittels elementarer Spaltenumformungen entpricht also der Multiplikation mit einer invertierbaren Matrix $T$, $$ A^{\prime}=A \cdot T $$ wobei $T$ Produkt geeigneter Elementarmatrizen ist. Entsprechendes gilt natürlich auch für Zeilenumformungen, die einer Multiplikation mit einer invertierbaren Matrix $\tilde{T}$ von links entsprechen: $A^{\prime \prime}=\tilde{T} \cdot A$. Diese Eigenschaft kann auch zur Berechnung der inversen Matrix $A^{-1}$ verwendet werden. Ist $A$ invertierbar, dann sind nach Satz 3.27 die Spalten linear unabhängig. Es ist daher allein durch Spaltenumformungen möglich, $A$ in die Einheitsmatrix $A^{\prime}=I_{n}$ umzuformen, also $A$. $T=I_{n}$. Die Matrix $T$ ist daher gleich der inversen Matrix $A^{-1}$. Aus der obigen Überlegung folgt, dass $T$ auch als jene Matrix gesehen werden kann, die aus der Einheitsmatrix dadurch hervorgeht, dass man darauf dieselben Spaltenumformungen wie auf $A$ ausführt. Dies kann folgendermaßen explizit durchgeführt werden. Beispiel 3.33 Es soll die inverse Matrix $A^{-1}$ von $$ A=\left(\begin{array}{lll} 1 & 2 & 0 \\ 0 & 2 & 1 \\ 3 & 5 & 0 \end{array}\right) $$ bestimmt werden. Durch elementare Spaltenumformungen erhält man $$ \begin{aligned} \left(\begin{array}{lll} 1 & 2 & 0 \\ 0 & 2 & 1 \\ 3 & 5 & 0 \\ \hline 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right) & \rightarrow\left(\begin{array}{rrr} 1 & 0 & 0 \\ 0 & 2 & 1 \\ 3 & -1 & 0 \\ \hline 1 & -2 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{array}\right) \rightarrow\left(\begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & 2 \\ 3 & 0 & -1 \\ \hline 1 & 0 & -2 \\ 0 & 0 & 1 \\ 0 & 1 & 0 \end{array}\right) \rightarrow\left(\begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 3 & 0 & -1 \\ \hline 1 & 0 & -2 \\ 0 & 0 & 1 \\ 0 & 1 & -2 \end{array}\right) \\ & \rightarrow\left(\begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 3 & 0 & 1 \\ \hline 1 & 0 & 2 \\ 0 & 0 & -1 \\ 0 & 1 & 2 \end{array}\right) \rightarrow\left(\begin{array}{rrr} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \\ -5 & 0 & 2 \\ 3 & 0 & -1 \\ -6 & 1 & 2 \end{array}\right) . \end{aligned} $$ Die inverse Matrix $A^{-1}$ ist also $$ A^{-1}=\left(\begin{array}{rrr} -5 & 0 & 2 \\ 3 & 0 & -1 \\ -6 & 1 & 2 \end{array}\right) $$ In ganz analoger Weise kann man mit der Matrix $$ \left(\begin{array}{lll|lll} 1 & 2 & 0 & 1 & 0 & 0 \\ 0 & 2 & 1 & 0 & 1 & 0 \\ 3 & 5 & 0 & 0 & 0 & 1 \end{array}\right) $$ beginnen und mit Hilfe von Zeilenumformungen die linke Hälfte in die Einheitsmatrix überführen. Dann steht auf der rechten Seite wieder die inverse Matrix $A^{-1}$. ### 3.3 Lineare Abbildungen Wir betrachten zunächst eine Matrix $A \in K^{m \times n}$ und die Zuordnung $$ \boldsymbol{x} \in K^{n} \mapsto f(\boldsymbol{x})=A \cdot \boldsymbol{x} \in K^{m} $$ Diese Abbildung $f: K^{n} \rightarrow K^{m}$ hat folgende zwei Eigenschaften: (i) $f(\boldsymbol{x}+\boldsymbol{y})=A \cdot(\boldsymbol{x}+\boldsymbol{y})=A \cdot \boldsymbol{x}+A \cdot \boldsymbol{y}=f(\boldsymbol{x})+f(\boldsymbol{y})$, (ii) $f(\lambda \cdot x)=A \cdot(\lambda \cdot x)=\lambda \cdot(A \cdot x)=\lambda \cdot f(\boldsymbol{x})$. Abbildungen, die diese Eigenschaften haben, werden als linear bezeichnet und treten in der einen oder anderen Form in vielen Bereichen der Mathematik auf. Definition 3.34 Eine Abbildung $f: V \rightarrow W$ zwischen zwei Vektorräumen $V$ und $W$ (über demselben Körper $K$ ) ist linear, wenn sie die folgenden beiden Eigenschaften (für $\boldsymbol{x}, \boldsymbol{y} \in V$ und $\lambda \in K)$ hat: (i) $f(\boldsymbol{x}+\boldsymbol{y})=f(\boldsymbol{x})+f(\boldsymbol{y})$ (ii) $f(\lambda \cdot \boldsymbol{x})=\lambda \cdot f(\boldsymbol{x})$. Beispielsweise sind Drehungen und Spiegelungen, aber auch Projektionen linear. Eine einfache Eigenschaft linearer Abbildungen ist, dass Linearkombinationen auf Linearkombinationen abgebildet werden: $$ f\left(\lambda_{1} \cdot \boldsymbol{x}_{1}+\lambda_{2} \cdot \boldsymbol{x}_{2}+\cdots+\lambda_{k} \cdot \boldsymbol{x}_{k}\right)=\lambda_{1} \cdot f\left(\boldsymbol{x}_{1}\right)+\lambda_{2} \cdot f\left(\boldsymbol{x}_{2}\right)+\cdots+\lambda_{k} \cdot f\left(\boldsymbol{x}_{k}\right) . $$ Dies führt sofort zu folgender Beobachtung. Satz 3.35 (Fortsetzungssatz) Es sei $V$ ein n-dimensionaler Vektorraum und die Menge $B=$ $\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}, \ldots, \boldsymbol{b}_{n}\right\}$ eine Basis von $V$. Weiters sei $W$ ein Vektorraum, $f: V \rightarrow W$ linear, und $\boldsymbol{c}_{j}=f\left(\boldsymbol{b}_{j}\right), 1 \leq j \leq n$, bezeichnen die Bilder der Basisvektoren. Ist $\boldsymbol{x}=x_{1} \cdot \boldsymbol{b}_{1}+x_{2} \cdot \boldsymbol{b}_{2}+\cdots+x_{n} \cdot \boldsymbol{b}_{n}$, d.h., hat $\boldsymbol{x}$ die Koordinaten $x_{1}, x_{2}, \ldots, x_{n} \in K$, so gilt $$ f(\boldsymbol{x})=x_{1} \cdot f\left(\boldsymbol{b}_{1}\right)+x_{2} \cdot f\left(\boldsymbol{b}_{2}\right)+\cdots+x_{n} \cdot f\left(\boldsymbol{b}_{n}\right)=x_{1} \cdot \boldsymbol{c}_{1}+x_{2} \cdot \boldsymbol{c}_{2}+\cdots+x_{n} \cdot \boldsymbol{c}_{n} $$ Umgekehrt vermittelt diese Formel bei beliebiger Wahl von $c_{j} \in W$ stets eine lineare Abbildung $f: V \rightarrow W$. Um eine lineare Abbildung $f: V \rightarrow W$ zu charakterisieren, ist es also ausreichend, die Bilder einer Basis zu kennen. Alles Weitere ergibt sich aus der Linearität. Dieses Prinzip ist bei linearen Abbildungen der Form $f(\boldsymbol{x})=A \cdot \boldsymbol{x}$ noch deutlicher zu sehen. Hier geht man von der kanonischen Basis $E=\left\{e_{1}, e_{2}, \ldots, e_{n}\right\}$ aus und bildet $$ f\left(e_{j}\right)=A \cdot e_{j}=a_{j} $$ Das Bild des $j$-ten kanonischen Basisvektors ist also die $j$-te Spalte von $A$. Umgekehrt kann einer linearen Abbildung eine Matrix zugeordnet werden, indem man die Bilder der kanonischen Basis bestimmt und zu einer Matrix zusammenfasst. Ist also $f: K^{n} \rightarrow$ $K^{m}$ eine lineare Abbildung und $$ A=\left(\begin{array}{llll} f\left(\boldsymbol{e}_{1}\right) & f\left(\boldsymbol{e}_{2}\right) & \cdots & f\left(\boldsymbol{e}_{n}\right) \end{array}\right) $$ so gilt für alle $\boldsymbol{x} \in K^{n}$ $$ f(x)=A \cdot x . $$ Wir hatten früher schon beobachtet, dass das Produkt einer Matrix $A$ mit einem Vektor $\boldsymbol{x}$ nichts anderes ist als die Linearkombination der Spalten von $A$, wobei die Koeffizienten die Koordinaten von $\boldsymbol{x}$ sind. Dies entspricht hier genau der Beobachtung von Satz 3.35. ## Beispiel 3.36 (a) Sei $f: \mathbb{R}^{2} \rightarrow \mathbb{R}^{2}$ die Drehung um den Winkel $\varphi$ gegen den Uhrzeigersinn. Dann ist $$ A=\left(\begin{array}{ll} f\left(\boldsymbol{e}_{1}\right) & f\left(\boldsymbol{e}_{2}\right) \end{array}\right)=\left(\begin{array}{rr} \cos (\varphi) & -\sin (\varphi) \\ \sin (\varphi) & \cos (\varphi) \end{array}\right) $$ die dazu gehörige Matrix, d.h., $A \cdot x$ ist der um den Winkel $\varphi$ gedrehte Vekotor $x$ (vergleiche mit Abb. 3.8). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-124.jpg?height=297&width=427&top_left_y=806&top_left_x=705) Abbildung 3.8 Drehung um den Winkel $\varphi$ (b) Die Matrix $S=\left(\begin{array}{rr}1 & 0 \\ 0 & -1\end{array}\right)$ entspricht der Spiegelung an der $x_{1}$-Achse. (c) Die Matrix $P=\left(\begin{array}{ll}1 / \sqrt{2} & 1 / \sqrt{2} \\ 1 / \sqrt{2} & 1 / \sqrt{2}\end{array}\right)$ projiziert auf die erste Mediane. Offensichtlich ist die Hintereinanderausführung $h=g \circ f$ zweier linearer Abbildungen $f$ und $g$ wieder eine lineare Abbildung. Ist insbesonder $f(\boldsymbol{x})=A \cdot \boldsymbol{x}$ und $g(\boldsymbol{y})=B \cdot \boldsymbol{y}$, so ist $$ h(\boldsymbol{x})=g(f(\boldsymbol{x}))=g(A \cdot \boldsymbol{x})=B \cdot(A \cdot \boldsymbol{x})=(B \cdot A) \cdot \boldsymbol{x}=C \cdot \boldsymbol{x} $$ jene lineare Abbildung, die durch das Produkt $C=B \cdot A$ der beiden Matrizen $B$ und $A$ gebildet wird. Das Matrizenprodukt entspricht daher der Hintereinanderausführung von linearen Abbildungen. Der Koordinatenwechsel zwischen zwei verschiedenen Basen $B=\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}, \ldots, \boldsymbol{b}_{n}\right\}$ und $C=\left\{c_{1}, c_{2}, \ldots, c_{n}\right\}$ eines $n$-dimensionalen Vektorraums $V$, also die Frage, wie man die Koordinaten $\Phi_{B}(\boldsymbol{x})$ in die Koordinaten $\Phi_{C}(\boldsymbol{x})$ umrechnet, kann ebenfalls mit Hilfe einer Matrizenmultiplikation gelöst werden. Formal geschieht der Koordinatenwechsel einfach durch die lineare Abbildung $\Phi_{C} \circ \Phi_{B}^{-1}: K^{n} \rightarrow K^{n}$. Diese kann aber durch eine Matrix $$ T_{B, C}=\left(\begin{array}{llll} \Phi_{C}\left(\boldsymbol{b}_{1}\right) & \Phi_{C}\left(\boldsymbol{b}_{2}\right) & \cdots & \Phi_{C}\left(\boldsymbol{b}_{n}\right) \end{array}\right) $$ mit den Spalten $\left(\Phi_{C} \circ \Phi_{B}^{-1}\right)\left(\boldsymbol{e}_{j}\right)=\Phi_{C}\left(\boldsymbol{b}_{j}\right)$ realisiert werden. Es gilt daher $$ T_{B, C} \cdot \Phi_{B}(\boldsymbol{x})=\Phi_{C}(\boldsymbol{x}) . $$ Abschließend definieren wir zwei wichtige Kenngrößen von linearen Abbildungen. Definition 3.37 Es sei $f: V \rightarrow W$ eine lineare Abbildung. Die Mengen $$ \operatorname{ker}(f)=\{\boldsymbol{x} \in V: f(\boldsymbol{x})=\mathbf{0}\} \quad \text { und } \quad f(V)=\{f(\boldsymbol{x}): \boldsymbol{x} \in V\} $$ heißen Kern und Bild von $f$. Die Dimension des Kerns und des Bilds sind der Defekt und der Rang von $f$ : $$ \operatorname{def}(f)=\operatorname{dim}(\operatorname{ker}(f)) \quad \text { und } \quad \operatorname{rg}(f)=\operatorname{dim}(f(V)) $$ Es ist leicht zu sehen, dass $\operatorname{ker}(f)$ und $f(V)$ Teilräume von $V$ bzw. $W$ sind, Defekt und Rang sind daher immer wohldefiniert. Außerdem entspricht der Rang einer linearen Abbildung der Form $f(\boldsymbol{x})=A \cdot \boldsymbol{x}$ genau dem Rang der Matrix $A$, da die Spalten von $A$ die Bilder der kanonischen Basisvektoren sind und daher alle möglichen Bildvektoren aufspannen: $$ \operatorname{rg}(A)=\operatorname{rg}(f) $$ Rang und Defekt einer linearen Abbildung erfüllen eine einfache Beziehung (siehe Übungsaufgabe 3.16). Satz 3.38 (Rangformel) Es sei $V$ ein endlichdimensionaler Vektorraum und $f: V \rightarrow W$ eine lineare Abbildung. Dann gilt $$ \operatorname{rg}(f)+\operatorname{def}(f)=\operatorname{dim} V $$ Beispiel 3.39 Eine lineare Abbildung $f: \mathbb{R}^{2} \rightarrow \mathbb{R}^{2}$ sei durch Angabe der zugehörigen Matrix $$ A=\left(\begin{array}{ll} 1 & 2 \\ 2 & 4 \end{array}\right) $$ gegeben. Der Raum $\operatorname{ker}(f)$ bestimmt sich durch die Gleichung $f(\boldsymbol{x})=A \cdot \boldsymbol{x}=\mathbf{0}$, und $f\left(\mathbb{R}^{2}\right)$ ist die lineare Hülle der Spalten von $A$. Nach kurzer Rechnung erhält man $$ \operatorname{ker}(f)=\left[\left(\begin{array}{r} 2 \\ -1 \end{array}\right)\right] \text { und } f\left(\mathbb{R}^{2}\right)=\left[\left(\begin{array}{l} 1 \\ 2 \end{array}\right)\right] $$ Beide Räume haben Dimension 1, also $\operatorname{def}(f)=\operatorname{rg}(f)=1$. Offensichtlich ist die Rangformel erfüllt: $1+1=2$. Beispiel 3.40 Eine wichtige Anwendung der linearen Algebra ist die Codierungstheorie, insbesondere bei fehlerkorrigierenden Codes. Ein $(n, k)$-Linearcode (mit $k \leq n$ ) über einem endlichen Körper $F$ mit $|F|=q$ Elementen ist eine injektive lineare Abbildung $f: F^{k} \rightarrow F^{n}$, die üblicherweise durch Angabe einer Generatormatrix $G \in F^{k \times n} \operatorname{mit} \operatorname{rg}(G)=k$ definiert wird: ${ }^{6}$ $$ f: F^{k} \rightarrow F^{n}, \quad \boldsymbol{a}=a_{1} a_{2} \cdots a_{k} \mapsto \boldsymbol{c}=c_{1} c_{2} \cdots c_{n}=\boldsymbol{a} \cdot G . $$ Die Menge der Codewörter $C=f\left(F^{k}\right)$ ist dann ein $k$-dimensionaler Unterraum von $F^{n}$, es werden also nur $|C|=q^{k}$ von $\left|F^{n}\right|=q^{n}$ möglichen Wörtern ,verwendet.“ Die Zeilen von[^25]$G$ sind übrigens auch Codewörter, sie bilden sogar eine Basis aller Codewörter. Treten etwa beim Übertragen (oder Speichern) Fehler auf, so wird üblicherweise ein Codewort $c \in C$ so verändert, dass das Resultat $\tilde{\boldsymbol{c}}$ nicht mehr in $C$ liegt. Man trachtet daher bei der Konstruktion so eines Codes danach, dass sich je zwei Codewörter an möglichst vielen Stellen unterscheiden, so dass Fehler an wenigen Stellen nicht nur erkannt, sondern auch korrigiert werden können. Bevor wir das an einem konkreten Beispiel demonstrieren, führen wir noch einen Begriff ein. Zu einer Generatormatrix $G$ gibt es immer eine so genannte Kontrollmatrix $H \in F^{(n-k) \times n}$ vom Rang $\operatorname{rg}(H)=n-k$ mit der Beziehung $G \cdot H^{T}=(0)$. (Die Spalten von $H^{T}$ können als Basis des Kerns der linearen Abbildung $\boldsymbol{x} \mapsto G \cdot \boldsymbol{x}$ interpretiert werden. Wegen der Rangformel hat der Kern die Dimension $n-\operatorname{rg}(G)=n-k$. Beispielsweise sind $$ G=\left(\begin{array}{lllll} 1 & 0 & 1 & 1 & 0 \\ 0 & 1 & 1 & 0 & 1 \end{array}\right) \text { und } H=\left(\begin{array}{lllll} 1 & 1 & 1 & 0 & 0 \\ 1 & 0 & 0 & 1 & 0 \\ 0 & 1 & 0 & 0 & 1 \end{array}\right) $$ Generator- und Kontrollmatrix eines ( 5,2 )-Linearcodes über $\mathbb{Z}_{2}$. Der Code $C$ besteht in diesem Beispiel aus $q^{k}=2^{2}=4$ Elementen, nämlich aus den Wörtern $$ C=\{00000,10110,01101,11011\} $$ der linearen Hülle der Zeilen von $G$. Man beachte, dass sich je zwei Codewörter an wenigstens drei Stellen unterscheiden. Man kann daher Fehler, die an maximal zwei Stellen auftreten, erkennen und Fehler an einer Stelle sogar eindeutig korrigieren. Zur systematischen Fehlerkorrektur betrachtet man die so genannten Syndrome $S_{H}(v)=$ $\boldsymbol{v} \cdot H^{T}$. Nach Konstruktion gilt $S_{H}(\boldsymbol{v})=\mathbf{0}$ genau dann, wenn $\boldsymbol{v} \in C$ ist. Man kann also durch Berechnung des Syndroms entscheiden, ob das übertragene (oder gespeicherte) Wort $v \in K^{n}$ ein Codewort ist oder nicht. Weiters entspricht jedem möglichen Syndrom genau ein Nebenraum $w+C$ von $C$ in $F^{n}$. Beispielsweise haben alle Wörter des Nebenraums $N=$ $01000+C=\{01000,11110,00101,10011\}$ das Syndrom $S_{H}(01000)=101$. Man beachte, dass sich alle Wörter aus $N$ genau an einer Stelle - nämlich an der zweiten - von einem Codewort in $C$ unterscheiden. Man wird daher, falls ein Wort $\boldsymbol{w}$ aus $N$ empfangen wird, es an der zweiten Stelle zu korrigieren. Formal geschieht dies folgendermaßen. Empfängt man ein Wort $\boldsymbol{w}$ mit Syndrom $S_{H}(\boldsymbol{w})=101$, so korrigiert man es zu $\boldsymbol{w}-01000$ und erhält ein Codewort. D.h., zu jedem möglichem Syndrom $s \in F^{n-k}$ ermittelt man (ein für alle mal) ein Korrekturwort $\tilde{\boldsymbol{w}}=\tilde{\boldsymbol{w}}(\boldsymbol{s})$. Ist nun das Syndrom von $w \in F^{n}$ gleich $S_{H}(\boldsymbol{w})=\boldsymbol{w} \cdot H^{T}=\boldsymbol{s}$, so korrigiert man $w$ zu $c=w-\tilde{w}(s) \in C$. Für unser Beispiel könnte das Korrekturschema folgendermaßen aussehen: | $s$ | 000 | 001 | 010 | 011 | 100 | 101 | 110 | 111 | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | $\tilde{\boldsymbol{w}}(\boldsymbol{s})$ | 00000 | 00001 | 00010 | 00011 | 00100 | 01000 | 10000 | 01010 | Das Korrekturschema ist nur zum Teil eindeutig, bei den Syndromen 011 und 111 gibt es mehrere mögliche Korrekturwörter mit einer minimalen Zahl von Koordinaten 1. ### 3.4 Lineare Gleichungssysteme ## 1. Lösbarkeit von linearen Gleichungssystemen Lineare Gleichungssysteme spielen - wie einleitend erwähnt - in vielen Anwendungsbereichen der Mathematik eine große Rolle. In Beispiel 3.1 wurde z.B. ein elektrisches Netzwerk berechnet. Wir werden im folgenden zeigen, wie man lineare Gleichungssysteme mit Methoden der linearen Algebra systematisch behandeln kann. Definition 3.41 Seien $m, n \geq 1$ ganze Zahlen und $K$ ein Körper. Weiters seien Elemente $a_{i j} \in K(1 \leq i \leq m, 1 \leq j \leq n)$ und $b_{i} \in K(1 \leq i \leq m)$ gegeben. Dann heißt ein System der Form $$ \begin{array}{cccc} a_{11} x_{1}+\cdots+a_{1 n} x_{n} & = & b_{1} \\ a_{21} x_{1}+\cdots+a_{2 n} x_{n} & = & b_{2} \\ \vdots & \vdots & \vdots & \vdots \\ a_{m 1} x_{1}+\cdots+a_{m n} x_{n} & = & b_{m} \end{array} $$ lineares Gleichungssystem in den Unbekannten $x_{1}, x_{2} \ldots, x_{n} \in K$. Sind alle $b_{1}=b_{2}=$ $\cdots=b_{m}=0$, so heißt das lineare Gleichungssystem homogen, sonst inhomogen. Es besteht nun die Aufgabe, ein lineares Gleichungssystem vollständig zu lösen, d.h. alle $n$-Tupel $\left(x_{1}, x_{2}, \ldots, x_{n}\right) \in K^{n}$ anzugeben, die das obige Gleichungssystem erfüllen. Fasst man die Koeffizienten $a_{i j}$ zu einer Matrix $A=\left(a_{i j}\right) \in K^{m \times n}$ zusammen und entsprechend auch die rechte Seite $b_{1}, b_{2}, \ldots, b_{m}$ zu einem Spaltenvektor $\boldsymbol{b} \in K^{m}$ sowie die Unbekannten $x_{1}, x_{2}, \ldots, x_{n}$ zu einem Spaltenvektor $\boldsymbol{x} \in K^{n}$, so lässt sich ein lineares Gleichungssystem folgendermaßen darstellen: $$ A \cdot \boldsymbol{x}=\boldsymbol{b} . $$ Das bedeutet aber, dass es genau dann eine Lösung $x$ gibt, wenn $b$ Linearkombination der Spalten von $A$ ist. Daraus ergibt sich das folgende Lösbarkeitskriterium. Satz 3.42 (Satz von Kronecker-Capelli) Sei $A \in K^{m \times n}$ und $\boldsymbol{b} \in K^{m}$. Dann ist das lineare Gleichungssystem $A \boldsymbol{x}=\boldsymbol{b}$ genau dann lösbar, wenn $$ \operatorname{rg}(A)=\operatorname{rg}(A \boldsymbol{b}) $$ Die Matrix $(A b)$ bezeichnet man auch als erweiterte Systemmatrix des linearen Gleichungssystems $A \cdot \boldsymbol{x}=\boldsymbol{b}$. Um alle Lösungen eines linearen Gleichungssystems beschreiben zu können, verwenden wir die Interpretation der Matrizenmultiplikation als lineare Abbildung: $f(\boldsymbol{x})=A \cdot \boldsymbol{x}$. Wir setzen voraus, dass das lineare Gleichungssystem $f(\boldsymbol{x})=A \cdot \boldsymbol{x}=\boldsymbol{b}$ eine Lösung $\boldsymbol{x}_{0}$ hat. Ist nun $\boldsymbol{x}$ irgend eine andere Lösung, so folgt aus $f\left(\boldsymbol{x}_{0}\right)=f(\boldsymbol{x})=\boldsymbol{b}$ auch $$ f\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)=A \cdot\left(\boldsymbol{x}-\boldsymbol{x}_{0}\right)=0 $$ Daher liegt $\boldsymbol{x}-\boldsymbol{x}_{0}$ im Kern von $f$, und alle Lösungen $L$ des linearen Gleichungssystem können durch $$ L=\boldsymbol{x}_{0}+\operatorname{ker}(f), $$ also durch einen Nebenraum des Kerns von $f$ beschrieben werden. Aus der Rangformel (Satz 3.38) folgt $\operatorname{dim}(\operatorname{ker}(f))=n-\operatorname{rg}(f)=n-\operatorname{rg}(A)$. Daher kann man die Lösungsmenge $L$ auch folgendermaßen angeben: Satz 3.43 Sei $A \in K^{m \times n}$ und $\boldsymbol{b} \in K^{m}$. Ist das lineare Gleichungssystem $A \boldsymbol{x}=\boldsymbol{b}$ lösbar, so gibt es $s=n-\operatorname{rg}(A)$ linear unabhängige Vektoren $x_{1}, \ldots, x_{s} \in \operatorname{ker}(f) \subseteq K^{n}$, d.h. Lösungen des homogenen linearen Gleichungssystems $A \cdot \boldsymbol{x}=\mathbf{0}$, so dass alle Lösungen von $A \cdot \boldsymbol{x}=\boldsymbol{b}$ durch die Menge $$ \left\{x_{0}+t_{1} \boldsymbol{x}_{1}+\cdots+t_{s} x_{s} \mid t_{1}, \ldots, t_{s} \in K\right\} $$ gegeben sind, wobei $\boldsymbol{x}_{0}$ eine beliebige, aber fest gewählte Lösung von $A \cdot \boldsymbol{x}=\boldsymbol{b}$ ist. Man beachte, dass die Vektoren $\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{s}$, die ja eine Basis des Kerns von $f$, also Lösungen des homogenen linearen Gleichungssystems $A \cdot \boldsymbol{x}=\boldsymbol{0}$ sind, nicht von der rechten Seite $\boldsymbol{b}$ abhängen. Diese müssen jedenfalls bestimmt werden. $\mathrm{Zu}$ jeder rechten Seite $\boldsymbol{b}$ reicht es dann, noch eine Lösung $\boldsymbol{x}_{0}$ des inhomogenen linearen Gleichungssystems $A \cdot \boldsymbol{x}=\boldsymbol{b}$ zu finden. Die Gesamtlösung $L$ wird dann aus $\boldsymbol{x}_{0}$ und Linearkombinationen von $\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{s}$ zusammengesetzt. Aus der Interpretation eines linearen Gleichungssystems $A \cdot \boldsymbol{x}=\boldsymbol{b}$ in der Form $f(\boldsymbol{x})=\boldsymbol{b}$ ergibt sich auch der nächste Satz. Satz 3.44 Sei $A \in K^{m \times n}, f(\boldsymbol{x})=A \cdot \boldsymbol{x}$ und $\boldsymbol{b} \in K^{m}$. Ist $f$ surjektiv, d.h. $\operatorname{rg}(f)=\operatorname{rg}(A)=m$, so ist das lineare Gleichungssystem $A \cdot \boldsymbol{x}=\boldsymbol{b}$ für alle rechten Seiten $\boldsymbol{b} \in K^{m}$ lösbar. Ist $f$ injektiv, d.h. $\operatorname{rg}(f)=\operatorname{rg}(A)=n$, so ist $\operatorname{ker}(f)=\{0\}$, und das lineare Gleichungssystem $A \cdot \boldsymbol{x}=\boldsymbol{b}$ hat höchstens eine Lösung. Ein wichtiger Spezielfall ist jener, wo die Matrix $A \in K^{n \times n}$ quadratisch ist. Ist $A$ zusätzlich regulär, also invertierbar, so ist das lineare Gleichungssystem $A \cdot \boldsymbol{x}=\boldsymbol{b}$ für jede rechte Seite $b \in K^{n}$ eindeutig lösbar, und die Lösung ist gegeben durch $$ \boldsymbol{x}=A^{-1} \cdot \boldsymbol{b} $$ Insbesondere ist für $\boldsymbol{b}=\mathbf{0}$ (also in einem homgenen System) die Lösung $\boldsymbol{x}=A^{-1} \cdot \mathbf{0}=\mathbf{0}$. Übrigens hat ein homogenes System $A \cdot \boldsymbol{x}=0$ immer den Nullvektor als Lösung. Nur wenn $A$ invertierbar ist, ist der Nullvektor die einzige Lösung. Anders ausgedrückt bedeutet das, dass ein System $A \cdot \boldsymbol{x}=\mathbf{0}$ mit quadratischer Matrix $A$ genau dann eine Lösung $\boldsymbol{x} \neq \mathbf{0}$ hat, wenn $A$ singulär, also nicht invertiertbar, ist. Das Lösen eines linearen Gleichungssystems ist besonders einfach, wenn die Matrix $A$ von spezieller Gestalt ist. Satz 3.45 Sei $A \in K^{m \times n}(n \geq m)$ eine Matrix der Gestalt $$ A=\left(\begin{array}{ccccccc} 1 & 0 & \cdots & 0 & a_{1, m+1} & \cdots & a_{1, n} \\ 0 & 1 & \cdots & 0 & a_{2, m+1} & \cdots & a_{2, n} \\ \vdots & \ddots & \ddots & \vdots & \vdots & \vdots & \vdots \\ 0 & \cdots & 0 & 1 & a_{m, m+1} & \cdots & a_{m, n} \end{array}\right)=\left(I_{m} A^{\prime}\right) $$ (mit $A^{\prime} \in K^{m \times(n-m)}$ ), so sind alle Lösungen $x=\left(x_{1}, \ldots, x_{n}\right)^{T} \in K^{n}$ des Gleichungssystems $A \boldsymbol{x}=\boldsymbol{b}\left(\right.$ mit $\left.\boldsymbol{b} \in K^{m}\right)$ gegeben durch $$ \boldsymbol{x}=\left(\begin{array}{c} \boldsymbol{b} \\ 0 \end{array}\right)+\left(\begin{array}{c} -A^{\prime} \\ I_{n-m} \end{array}\right)\left(\begin{array}{c} t_{1} \\ \vdots \\ t_{n-m} \end{array}\right) $$ bzw. $$ \left(\begin{array}{c} x_{1} \\ \vdots \\ x_{m} \\ x_{m+1} \\ \vdots \\ x_{n} \end{array}\right)=\left(\begin{array}{c} \boldsymbol{b} \\ \mathbf{0} \end{array}\right)+t_{1}\left(\begin{array}{c} -\boldsymbol{a}_{m+1} \\ \boldsymbol{e}_{1} \end{array}\right)+t_{2}\left(\begin{array}{c} -\boldsymbol{a}_{m+2} \\ \boldsymbol{e}_{2} \end{array}\right)+\cdots+t_{n-m}\left(\begin{array}{c} -\boldsymbol{a}_{n} \\ \boldsymbol{e}_{n-m} \end{array}\right) $$ mit $t_{1}, t_{2}, \ldots, t_{n-m} \in K$. Dabei bezeichnen $a_{m+1}, \ldots, a_{n}$ die Spalten von $A^{\prime}, 0$ den Nullvektor in $K^{n-m}$ und $e_{1}, \ldots, e_{n-m}$ die Vektoren der kanonischen Basis von $K^{n-m}$. Beweis. Die Formel (3.7) ist offensichtlich, wenn man das Gleichungssystem in der Koordinatenschreibweise (3.5) betrachtet und $t_{1}=x_{m+1}, \ldots, t_{n-m}=x_{n}$ setzt. Die übrigen Koordinaten $x_{1}, \ldots, x_{m}$ ergeben sich dann direkt: $x_{i}=b_{i}-x_{m+1} a_{i, m+1}-\cdots-x_{n} a_{i, n}=$ $b_{i}-t_{1} a_{i, m+1}-\cdots-t_{n-m} a_{i, n}$ (für $1 \leq i \leq m$ ). Das gerade angegeben Verfahren funktioniert auch, wenn die Matrix $A \in K^{m \times n}(n \geq m)$ eine so genannte Dreiecksgestalt mit nichtverschwindender Diagonale hat: $$ A=\left(\begin{array}{ccccccc} a_{1,1} & a_{1,2} & \cdots & a_{1, m} & a_{1, m+1} & \cdots & a_{1, n} \\ 0 & a_{2,2} & \cdots & a_{2, m} & a_{2, m+1} & \cdots & a_{2, n} \\ \vdots & \ddots & \ddots & \vdots & \vdots & \vdots & \vdots \\ 0 & \cdots & 0 & a_{m, m} & a_{m, m+1} & \cdots & a_{m, n} \end{array}\right) $$ mit $a_{1,1} \neq 0, a_{2,2} \neq 0, \ldots, a_{m, m} \neq 0$. Wie vorhin setzen wir $x_{m+1}=t_{1}, \ldots, x_{n}=t_{n-m}$. Dann ermittelt man $$ \begin{aligned} x_{m} & =a_{m, m}^{-1}\left(b_{m}-t_{1} a_{m, m+1}-\cdots-t_{n-m} a_{m, n}\right) \\ & =b_{m}^{\prime}+t_{1} a_{1, m}^{\prime}+\cdots+t_{n-m} a_{n-m, m}^{\prime} . \end{aligned} $$ Mit dieser Kenntnis errechnet man als nächstes $$ \begin{aligned} x_{m-1} & =a_{m-1, m-1}^{-1}\left(b_{m-1}-a_{m-1, m} x_{m}-t_{1} a_{m-1, m+1}-\cdots t_{n-m} a_{m-1, n}\right) \\ & =b_{m-1}^{\prime}+t_{1} a_{1, m-1}^{\prime}+\cdots+t_{n-m} a_{n-m, m-1}^{\prime} \end{aligned} $$ und danach rekursiv $x_{m-2}, x_{m-3}, \ldots, x_{1}$. Die Lösungen haben daher wieder die Form (3.7). Wir illustrieren dieses Verfahren an einem kleinen Beispiel. Beispiel 3.46 Wir betrachten das lineare Gleichungssystem $$ \left(\begin{array}{rrr} 2 & 3 & -1 \\ 0 & 1 & 2 \end{array}\right) \cdot\left(\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right)=\left(\begin{array}{l} 4 \\ 3 \end{array}\right) \text { bzw. } \begin{array}{r} 2 x_{1}+3 x_{2}-x_{3}=4 \\ x_{2}+2 x_{3}=3 . \end{array} $$ Setzt man $x_{3}=t$, so folgt aus der 2. Gleichung $x_{2}=3-2 x_{3}=3-2 t$ und schließlich aus der 1. Gleichung $2 x_{1}=4-3 x_{2}+x_{3}=4-3(3-2 t)+t$ bzw. $x_{1}=-\frac{5}{2}+\frac{7}{2} t$. Insgesamt also $$ \left(\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right)=\left(\begin{array}{r} -\frac{5}{2} \\ 3 \\ 0 \end{array}\right)+t\left(\begin{array}{r} \frac{7}{2} \\ -2 \\ 1 \end{array}\right) $$ ## 2. Gauß'sches Eliminationsverfahren Das nächste Ziel ist es, ein beliebiges Gleichungssystem $A \cdot \boldsymbol{x}=\boldsymbol{b}$ in ein System überzuführen, wo die Koeffizientenmatrix $A$ von der Form (3.6) oder (3.8) ist. Dies wird (im Wesentlichen) durch Zeilenumformungen der erweiterten Systemmatrix $(A \boldsymbol{b})$ erreicht. Man rechnet also nicht mit dem Gleichungssystem, sondern nur mit den Koeffizienten, die in $(A b)$ zusammengefasst werden. Elementare Zeilenumformungen von $(A \boldsymbol{b})$ haben eine direkte Interpretation im dazu gehörigen Gleichungssystem (3.5). Die Multiplikation der $i$-ten Zeile mit einem Skalar $\lambda \neq 0$ entspricht der Multiplikation der $i$-ten Gleichung mit $\lambda$, usw. Wir erinnern nun daran, dass eine elementare Zeilenumformung der Multiplikation mit einer invertierbaren Matrix $U \in K^{m \times m}$ von links entspricht. Das lineare Gleichungssystem $A \cdot \boldsymbol{x}=\boldsymbol{b}$ wird also durch das System $(U A) \cdot \boldsymbol{x}=U \boldsymbol{b}$ ersetzt. Offensichtlich gilt $A \cdot \boldsymbol{x}=\boldsymbol{b}$ genau dann, wenn $(U A) \cdot \boldsymbol{x}=U \boldsymbol{b}$ gilt. Eine elementare Zeilenumformung auf $\left(\begin{array}{l}A \\ b\end{array}\right)$ verändert daher die Lösungen nicht. Man kann weiters Spalten von $A$ vertauschen. Dies entspricht einfach einer Umnummerierung der Unbekannten $x_{1}, x_{2}, \ldots, x_{n}$. Wie wir bereits bemerkt haben, kann man mit Hilfe von elementaren Zeilenumformungen (und Spaltenvertauschungen) jede erweiterte Matrix $(A \boldsymbol{b})$ in die Form (3.6) bzw. (3.8) bringen. (Man vergleiche mit Beispiel 3.32, wo eine entsprechende Überlegung mit Spaltenumformungen gemacht wurde, und mit der anschließenden Bemerkung.) Zusammengefasst erhält man damit ein Verfahren zum Lösen eines linearen Gleichungssystems, das Gauß'sche Eliminationsverfahren. Wir illustrieren die gerade angestellten Überlegungen an einem Beispiel. Beispiel 3.47 Es soll das lineare Gleichungssystem $$ \begin{aligned} x_{1}+2 x_{2}-2 x_{3}+3 x_{4} & =3 \\ 2 x_{1}+5 x_{2}+x_{4} & =4 \\ 3 x_{1}+8 x_{2}+2 x_{3}-x_{4} & =5 \\ x_{1}+4 x_{2}+6 x_{3}-7 x_{4} & =-1 \end{aligned} $$ über einem Körper $K$ vollständig gelöst werden. Die Koeffizientenmatrix $A$ und die rechte Seite $b$ sind $$ A=\left(\begin{array}{rrrr} 1 & 2 & -2 & 3 \\ 2 & 5 & 0 & 1 \\ 3 & 8 & 2 & -1 \\ 1 & 4 & 6 & -7 \end{array}\right) \quad \text { und } \quad \boldsymbol{b}=\left(\begin{array}{r} 3 \\ 4 \\ 5 \\ -1 \end{array}\right) $$ Durch elementare Zeilenumformungen der erweiterten Matrix $(A b)$ erhält man eine Matrix der Form (3.8): $$ \left(\begin{array}{rrrr|r} 1 & 2 & -2 & 3 & 3 \\ 2 & 5 & 0 & 1 & 4 \\ 3 & 8 & 2 & -1 & 5 \\ 1 & 4 & 6 & -7 & -1 \end{array}\right) \rightarrow\left(\begin{array}{rrrr|r} 1 & 2 & -2 & 3 & 3 \\ 0 & 1 & 4 & -5 & -2 \\ 0 & 2 & 8 & -10 & -4 \\ 0 & 2 & 8 & -10 & -4 \end{array}\right) \rightarrow\left(\begin{array}{rrrr|r} 1 & 2 & -2 & 3 & 3 \\ 0 & 1 & 4 & -5 & -2 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \end{array}\right) . $$ Im ersten Schritt wird das (-2)-fache der ersten Zeile zur zweiten Zeile addiert, etc. Ziel ist es, in der jeweiligen Spalte unterhalb des Diagonalelements „Nullen zu erzeugen“. (Man kann die entsprechenden Rechnungen auch im Gleichungssystem (3.9) durchführen. Im ersten Schritt wird dabei in der 2., 3. und 4. Gleichung die Unbekannte $x_{1}$,eliminiert.") Das ursprüngliche lineare Gleichungssystem ist daher äquivalent zu $$ \begin{aligned} & x_{1}+2 x_{2}-2 x_{3}+3 x_{4}=3 \\ & x_{2}+4 x_{3}-5 x_{4}=-2 \end{aligned} $$ und wegen das Satzes von Kronecker-Capelli (Satz 3.42) auch lösbar. Setzt man $x_{3}=t_{1}$ und $x_{4}=t_{2}$, so errechnet man $$ \begin{aligned} x_{2} & =-2-4 x_{3}+5 x_{4} \\ & =-2-4 t_{1}+5 t_{2} \\ x_{1} & =3-2 x_{2}+2 x_{3}-3 x_{4} \\ & =7+10 t_{1}-13 t_{2} . \end{aligned} $$ Alle Lösungen sind daher durch $$ \left(\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \\ x_{4} \end{array}\right)=\left(\begin{array}{r} 7 \\ -2 \\ 0 \\ 0 \end{array}\right)+t_{1}\left(\begin{array}{r} 10 \\ -4 \\ 1 \\ 0 \end{array}\right)+t_{2}\left(\begin{array}{r} -13 \\ 5 \\ 0 \\ 1 \end{array}\right) $$ mit $t_{1}, t_{2} \in K$ gegeben. Selbstverständlich hätte man mit einer weiteren Zeilenumformung auch zu einer Matrix der Form (3.6) umformen können: $$ \left(\begin{array}{rrrr|r} 1 & 2 & -2 & 3 & 3 \\ 0 & 1 & 4 & -5 & -2 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \end{array}\right) \rightarrow\left(\begin{array}{rrrr|r} 1 & 0 & -10 & 13 & 7 \\ 0 & 1 & 4 & -5 & -2 \\ 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 \end{array}\right) . $$ Die Lösung (3.10) erhält man dann ohne weitere Rechung aus Satz 3.45. Wir formulieren nun das Gauß'sche Eliminationsverfahren. Es sei also $A \cdot \boldsymbol{x}=\boldsymbol{b}$ $\left(A \in K^{m \times n}, \boldsymbol{b} \in K^{m}\right)$ ein lineares Gleichungssystem, wobei wir voraussetzen, dass $A$ nicht die Nullmatrix ist. ${ }^{7}$ Man bildet die erweiterte Systemmatrix $(A \boldsymbol{b})$ und führt folgende Zeilenumformungen durch: (i) Durch etwaiges Zeilenvertauschen in ( $A \boldsymbol{b})$ bzw. Spaltenvertauschen in $A$ erreicht man, dass $a_{11} \neq 0$ ist. ${ }^{8}$ Danach ersetzt man die $j$-te Zeile $\left(\tilde{\boldsymbol{a}}_{j} b_{j}\right)$ von $(A \boldsymbol{b})$ (für $2 \leq j \leq m$ ) durch $\left(\tilde{\boldsymbol{a}}_{j} b_{j}\right)-a_{11}^{-1} a_{j 1}\left(\tilde{\boldsymbol{a}}_{1} b_{j}\right)$ und erhält eine Matrix der Form ${ }^{9}$ $$ \left(\begin{array}{cccc|c} a_{11} & a_{12} & \cdots & a_{1 n} & b_{1} \\ 0 & a_{22} & \cdots & a_{2 n} & b_{2} \\ \vdots & \vdots & & \vdots & \vdots \\ 0 & a_{m 2} & \cdots & a_{m n} & b_{m} \end{array}\right) $$ d.h., in der ersten Spalte ist nur das erste Element $a_{11}$ ungleich 0 .[^26](ii) Daraufhin betrachtet man die Untermatrix $$ \left(\begin{array}{ccc|c} a_{22} & \cdots & a_{2 n} & b_{2} \\ a_{32} & \cdots & a_{3 n} & b_{3} \\ \vdots & & \vdots & \vdots \\ a_{m 2} & \cdots & a_{m n} & b_{m} \end{array}\right)=\left(\begin{array}{ll} A^{\prime} & \left.b^{\prime}\right) \end{array}\right. $$ und wendet darauf dasselbe Verfahren an wie in (i) auf $(A \boldsymbol{b}) .{ }^{10}$ Man beachte, dass diese Matrix einem linearen Gleichungssystem entspricht, in dem die Unbekannte $x_{1}$ nicht mehr vorkommt. Sie wurde eliminiert. Dies erklärt auch den Namen „Eliminationsverfahren". Insgesamt erhält man dabei eine Matrix der Gestalt $$ \left(\begin{array}{ccccc|c} a_{11} & a_{12} & a_{13} & \cdots & a_{1 n} & b_{1} \\ 0 & a_{22} & a_{23} & \cdots & a_{2 n} & b_{2} \\ 0 & 0 & a_{33} & \cdots & a_{2 n} & b_{2} \\ \vdots & \vdots & \vdots & & \vdots & \vdots \\ 0 & 0 & a_{m 3} & \cdots & a_{m n} & b_{m} \end{array}\right) $$ mit $a_{11} \neq 0$ und $a_{22} \neq 0$. (iii) Das soeben beschriebene Verfahren wird so lange wie möglich iterativ fortgesetzt. Man gewinnt schließlich eine Matrix der Form $$ \left(\begin{array}{ccccccc|c} a_{11} & a_{12} & \cdots & a_{1 r} & a_{1, r+1} & \cdots & a_{1 n} & b_{1} \\ 0 & a_{22} & \cdots & a_{2 r} & a_{2, r+1} & \cdots & a_{2 n} & b_{2} \\ \vdots & \ddots & \ddots & \vdots & \vdots & & \vdots & \vdots \\ 0 & \cdots & 0 & a_{r r} & a_{r, r+1} & \cdots & a_{r n} & b_{r} \\ 0 & \cdots & 0 & 0 & 0 & \cdots & 0 & b_{r+1} \\ \vdots & & \vdots & \vdots & \vdots & & \vdots & \vdots \\ 0 & \cdots & 0 & 0 & 0 & \cdots & 0 & b_{m} \end{array}\right)=\left(A^{*} b^{*}\right) $$ mit $a_{11} \neq 0, a_{22} \neq 0, \ldots, a_{r r} \neq 0$. Dabei ist $r$ der Rang der Matrix $A$. Diese Transformation wurde durch sukzessive elementare Zeilenumformungen der ursprünglichen erweiterten Matrix ( $A \boldsymbol{b}$ ) (und gegebenenfalls durch Spaltenvertauschungen von $A$ ) gewonnen. Es gibt daher eine reguläre Matrix $U \in K^{m \times m}$ (und eine Spaltentransformationsmatrix $T \in K^{n \times n}$, die nur Spalten vertauscht), so dass ${ }^{11}$ $$ A^{*}=U A T \quad \text { und } \quad \boldsymbol{b}^{*}=U \boldsymbol{b} \text {. } $$[^27] Weiters können wir alle vollständigen Nullzeilen von $\left(A^{*} b^{*}\right)$ weglassen, ohne die Lösung zu verändern, d.h., wir streichen alle Zeilen mit Index $j(r\operatorname{rg}\left(A^{*}\right)$ und somit das ursprüngliche lineare Gleichungssystem $A \boldsymbol{x}=b$ unlösbar. Diese Situation entspricht dem ersten Bild der Abb. 3.9. 2. Ist nach dem Streichen der Nullzeilen $r=n$, so gibt es eine eindeutige Lösung. Die Unbekannte $x_{n}$ kann direkt bestimmt werden, darauf $x_{n-1}$ usw. Dieser Fall entspricht dem mittleren Bild von Abb. 3.9. 3. Ist nach dem Streichen der Nullzeilen $r0 $$ gilt, und $G$ heißt negativ definit, wenn für alle Vektoren $x \in \mathbb{R}^{n} \backslash\{0\}$ $$ x^{T} \cdot G \cdot x<0 $$ gilt. Symmetrische Matrizen, die weder positiv noch negativ definit sind, heißen indefinit. Beispielsweise sind Diagonalmatrizen mit positiven Diagonalelementen positiv definit (und mit negativen Diagonalelementen negativ definit). Aus dem Spektralsatz folgt sofort, dass eine symmetrische Matrix $G$ genau dann positiv (negativ) definit ist, wenn alle Eigenwerte positiv (negativ) sind. Ein anderes Kriterium ist das Hauptminorenkriterium, das wir ohne Beweis angeben. Satz 3.80 (Hauptminorenkriterium) Eine symmetrische Matrix $G=\left(g_{i j}\right) \in \mathbb{R}^{n \times n}$ ist genau dann positiv definit, wenn alle Hauptminoren $$ M_{k}=\left|\begin{array}{ccc} g_{11} & \cdots & g_{1 k} \\ \vdots & & \vdots \\ g_{k 1} & \cdots & g_{k k} \end{array}\right| \quad(1 \leq k \leq n) $$ positiv sind. $G$ ist genau dann negativ definit, wenn $M_{k}$ für gerades $k$ positiv und für ungerades $k$ negativ ist. Eine $2 \times 2$-Matrix ist daher genau dann positiv definit, falls $$ g_{11}>0 \quad \text { und } \quad g_{11} g_{22}-g_{12}^{2}>0 $$ und genau dann negativ definit, falls $$ g_{11}<0 \text { und } \quad g_{11} g_{22}-g_{12}^{2}>0 $$ Wir werden das Hauptminorenkriterium u.a. dafür nützen, um den Charakter relativer Extrema von differenzierbaren Funktionen in mehreren Veränderlichen zu bestimmen (siehe Kapitel 6). Mit Hilfe positiv definiter Matrizen kann man allgemeine Skalarprodukte definieren. Definition 3.81 Sei $G \in \mathbb{R}^{n \times n}$ eine positiv definite Matrix. Dann ist durch $$ \langle\boldsymbol{x}, \boldsymbol{y}\rangle_{G}=\boldsymbol{x}^{T} \cdot G \cdot \boldsymbol{y} $$ das Skalarprodukt von $\boldsymbol{x}$ und $\boldsymbol{y} \in \mathbb{R}^{n}$ bezüglich $G$ definiert. Man beachte, dass dieses Skalarprodukt $\langle\boldsymbol{x}, \boldsymbol{y}\rangle_{G}$ dieselben Eigenschaften hat wie das gewöhnliche Skalarprodukt. Es ist übrigens ein Spezialfall des allgemeinen Skalarprodukts, wenn man für $G$ die Einheitsmatrix $I_{n}$ verwendet: $$ \langle\boldsymbol{x}, \boldsymbol{y}\rangle=\boldsymbol{x}^{T} \cdot \boldsymbol{y}=\langle\boldsymbol{x}, \boldsymbol{y}\rangle_{I_{n}} $$ Insbesondere gelten die Cauchy-Schwarz'sche Ungleichung und die Dreiecksungleichung auch im allgemeinen Fall. ## 3.8 Übungsaufgaben 3.1 Bildet $\mathbb{R}^{2}$ mit den angegebenen Operationen einen Vektorraum über $\mathbb{R}$ ? (a) $\left(x_{1}, x_{2}\right)+\left(y_{1}, y_{2}\right)=\left(x_{1}+y_{1}, 0\right), \lambda\left(x_{1}, x_{2}\right)=\left(\lambda x_{1}, 0\right)$ (b) $\left(x_{1}, x_{2}\right)+\left(y_{1}, y_{2}\right)=\left(x_{1}+y_{2}, x_{2}+y_{1}\right), \lambda\left(x_{1}, x_{2}\right)=\left(\lambda x_{1}, \lambda x_{2}\right)$ (c) $\left(x_{1}, x_{2}\right)+\left(y_{1}, y_{2}\right)=\left(x_{1}+y_{1}, 0\right), \lambda\left(x_{1}, x_{2}\right)=\left(\lambda x_{1}, x_{2}\right)$ 3.2 Man zeige, dass die folgenden Eigenschaften in jedem Vektorraum $(V,+, K)$ gelten: (a) $\lambda \cdot \mathbf{0}=\mathbf{0}$ (b) $0 \cdot \boldsymbol{v}=\mathbf{0}$ (c) $(-\lambda) \cdot \boldsymbol{v}=-(\lambda \cdot \boldsymbol{v})$ (d) $\lambda \cdot(-v)=-(\lambda \cdot v)$ 3.3 Untersuchen Sie, ob $W$ Teilraum des Vektorraums $V=\mathbb{R}^{3}$ über $\mathbb{R}$ ist, und beschreiben Sie die Menge $W$ geometrisch: (a) $W=\{(x, y, z) \in V \mid x=2 y\}$ (c) $W=\{(x, y, z) \mid x+y+z \leq 0\}$ (b) $W=\{(x, y, z) \in V \mid y=-z\}$ (d) $W=\{(x, y, z) \in V \mid x y=0\}$ 3.4 Es sei $U$ eine nichtleere Teilmenge eines Vektorraums $V$ mit der Eigenschaft, dass für je zwei Vektoren $\boldsymbol{x}, \boldsymbol{y} \in U$ auch $\boldsymbol{x}+\boldsymbol{y}$ und $\lambda \cdot \boldsymbol{x}$ (für $\lambda \in K$ ) in $U$ liegen. Man zeige, dass $U$ dann einen Unterraum von $V$ bildet. 3.5 Es sei $V$ der Vektorraum aller Funktionen $f: \mathbb{R} \rightarrow \mathbb{R}$ über $K=\mathbb{R}$. Untersuchen Sie, ob $W$ Teilraum von $V$ ist: (a) $W$ ist die Menge aller ungeraden Funktionen in $V$, d. h. aller Funktionen $f$, für die gilt $f(x)=$ $-f(-x)$. (b) $W$ ist die Menge aller geraden Funktionen in $V$, d. h. aller Funktionen $f$, für die gilt $f(x)=$ $f(-x)$. 3.6 Sei $U$ Teilraum eines endlichdimensionalen Vektorraums $V$ mit $\operatorname{dim} U=\operatorname{dim} V$. Was kann über $U$ ausgesagt werden? 3.7 Man zeige, dass die Vektoren $\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \boldsymbol{v}_{3}$ eines Vektorraumes genau dann linear unabhängig sind, wenn $\boldsymbol{v}_{1}+\boldsymbol{v}_{2}, \boldsymbol{v}_{2}+\boldsymbol{v}_{3}, \boldsymbol{v}_{3}$ linear unabhängig sind. 3.8 Man zeige, dass die Vektoren $\boldsymbol{b}_{1}=\left(\begin{array}{l}2 \\ 1\end{array}\right), \boldsymbol{b}_{2}=\left(\begin{array}{l}5 \\ 2\end{array}\right)$ eine Basis von $\mathbb{R}^{2}$ bilden. Wie lauten die Koordinaten eines Vektors $\boldsymbol{x}=\left(\begin{array}{l}x_{1} \\ x_{2}\end{array}\right)$ bezüglich der Basis $B=\left\{\boldsymbol{b}_{1}, \boldsymbol{b}_{2}\right\}$ ? 3.9 Man zeige, dass $B=\left\{(1,2,4)^{T},(2,4,1)^{T},(4,2,1)^{T}\right\}$ eine Basis von $\mathbb{R}^{3}$ ist. 3.10 Für die Matrizen $$ A=\left(\begin{array}{rrr} -1 & 3 & 2 \\ -2 & 4 & 6 \\ 1 & -2 & 2 \end{array}\right), \quad B=\left(\begin{array}{rrr} -1 & 3 & 2 \\ 2 & -4 & 6 \\ 1 & -2 & 2 \end{array}\right) $$ bestimme man $\operatorname{rg}(A), \operatorname{rg}(B)$ sowie die Produkte $A \cdot B$ und $B \cdot A$. 3.11 Bestimmen Sie die inverse Matrix $A^{-1}$ und die Matrix $A^{3}$ zur Matrix (a) $A=\left(\begin{array}{rrr}-1 & 3 & 2 \\ -2 & 4 & 6 \\ 1 & -2 & 2\end{array}\right)$, (b) $A=\left(\begin{array}{rrr}1 & 3 & 2 \\ 2 & 4 & 6 \\ -1 & -2 & 2\end{array}\right)$. 3.12 Man zeige für $\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n} \neq 0$ : $$ \operatorname{diag}\left(\lambda_{1}, \lambda_{2}, \ldots, \lambda_{n}\right)^{-1}=\operatorname{diag}\left(\lambda_{1}^{-1}, \lambda_{2}^{-1}, \ldots, \lambda_{n}^{-1}\right) $$ 3.13 Sei $A(G)$ die Adjazenzmatrix eines Graphen (siehe Defintion 2.18). Man zeige, dass die Eintragungen $a_{i j}^{[k]}$ der Potenzen $A(G)^{k}=\left(a_{i j}^{[k]}\right)_{1 \leq i, j \leq n}$ die Anzahlen der Kantenfolgen der Länge $k$ von $v_{i}$ nach $v_{j}$ sind. 3.14 Sei $n \geq 1$. Bestimmen Sie den Rang der folgenden Matrix über $\mathbb{R}$ : $$ \left(\begin{array}{ccccc} 2 & 5 & 8 & \ldots & 3 n-1 \\ 5 & 8 & 11 & \ldots & 3 n+2 \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 3 n-1 & 3 n+2 & 3 n+5 & \ldots & 6 n-4 \end{array}\right) $$ 3.15 Sei $f: \mathbb{R}^{2} \rightarrow \mathbb{R}^{2}$ die lineare Abbildung mit (a) $f\left(\begin{array}{l}1 \\ 0\end{array}\right)=f\left(\begin{array}{l}2 \\ 3\end{array}\right)=\left(\begin{array}{c}1 \\ -2\end{array}\right)$, (b) $f\left(\begin{array}{l}1 \\ 1\end{array}\right)=\left(\begin{array}{l}1 \\ 0\end{array}\right), f\left(\begin{array}{l}2 \\ 1\end{array}\right)=\left(\begin{array}{l}0 \\ 1\end{array}\right)$. Bestimmen Sie $\operatorname{ker}(f)$ sowie $f\left(\mathbb{R}^{2}\right)$ und verifizieren Sie die Beziehung $\operatorname{rg}(f)+\operatorname{def}(f)=\operatorname{dim} \mathbb{R}^{2}$. Bestimmen Sie weiters jene Matrix $A \in \mathbb{R}^{2 \times 2}$ mit $f(\boldsymbol{x})=A \cdot \boldsymbol{x}$. 3.16 Man beweise die Rangformel $\operatorname{rg}(f)+\operatorname{def}(f)=\operatorname{dim} V$ (Satz 3.38). 3.17 Ein Produzent verarbeitet die Rohstoffe $R_{1}, R_{2}, R_{3}$, welche bei einem von zwei Lieferanten $L_{1}$, $L_{2}$ bezogen werden sollen. Der Verbrauch der Rohstoffe während vier Wochen eines Monats sowie die Rohstoffpreise der Lieferanten sind in nachstehender Tabelle angegeben: | Woche / Rohstoff | $R_{1}$ | $R_{2}$ | $R_{3}$ | | :---: | :---: | :---: | :---: | | 1. Woche | 8 | 4 | 12 | | 2. Woche | 10 | 6 | 5 | | 3. Woche | 7 | 8 | 5 | | 4. Woche | 11 | 7 | 9 | | Rohstoff / Lieferant | $L_{1}$ | $L_{2}$ | | :---: | :---: | :---: | | $R_{1}$ | 8 | 4 | | $R_{2}$ | 10 | 6 | | $R_{3}$ | 7 | 8 | Man vergleiche die Rohstoffkosten für alle vier Wochen. Soll der Produzent beim Lieferanten $L_{1}$ oder $L_{2}$ bestellen? 3.18 Bestimmen Sie mit dem Gauß'schen Eliminationsverfahren die Lösung des Gleichungssystems über dem Körper $K$ : $3 x_{1}+x_{2}-2 x_{3}+x_{4}=2$ (a) $x_{1}+x_{2}-x_{3}-x_{4}=1$ $5 x_{1}+x_{2}-3 x_{3}+3 x_{4}=1$ $K=\mathbb{R}$, $K=\mathbb{Z}_{2}$, (b) $\begin{aligned}-3 x_{1}+x_{2}+2 x_{3}+x_{4} & =2 \\ -x_{1}+x_{2}+x_{3}-x_{4} & =1 \\ -5 x_{1}+x_{2}+3 x_{3}+3 x_{4} & =1\end{aligned}$ $K=\mathbb{R}$, $2 x_{1}+x_{2}+x_{3}=1$ (c) $\begin{aligned} x_{1} & +x_{3}=1 \\ 7 x_{1} & +x_{3}=7\end{aligned}$ $K=\mathbb{Q}$ $K=\mathbb{Z}_{3}$ (d) $\begin{aligned} 2 x_{1}+x_{2}+x_{3} & =0 \\ x_{1}+x_{3} & =1 \\ 4 x_{1}+x_{3} & =4\end{aligned}$ $K=\mathbb{Z}_{2}$, $2 x_{1}+5 x_{2}-2 x_{3}=5$ (e) $3 x_{1}+x_{3}=4$ $-x_{2}+2 x_{3}=1$ $K=\mathbb{Q}$ $K=\mathbb{Z}$ $x_{1}+2 x_{2}-x_{3}+x_{4}=2$ (f) $3 x_{1}+x_{2}-2 x_{3}+4 x_{4}=2 \quad K=\mathbb{C}$, $\begin{array}{rlr}-x_{1}+4 x_{2}+3 x_{3}-3 x_{4} & =2 \\ 2 x_{1}+4 x_{2}+x_{4} & =1 & K=\mathbb{Z}_{7} .\end{array}$ 3.19 Man berechne die folgenden Determinanten: (a) $\left|\begin{array}{rrrr}2 & 4 & -1 & 3 \\ 1 & 2 & 0 & -1 \\ 1 & 2 & 7 & 4 \\ 4 & 5 & 6 & 6\end{array}\right| \quad$ (b) $\left|\begin{array}{rrrr}1 & 3 & -1 & 5 \\ 2 & 7 & 0 & 2 \\ -1 & -2 & 4 & 0 \\ 0 & 2 & 1 & -3\end{array}\right|$ 3.20 Man überprüfe für die Matrizen aus Übungsaufgabe $3.10 \operatorname{die}$ Formel $\operatorname{det}(A \cdot B)=\operatorname{det}(A) \cdot \operatorname{det}(B)$. 3.21 Für welche $x \in \mathbb{Q}$ ist die Matrix $A$ singulär? (a) $A=\left(\begin{array}{rrr}x & 2 & 2 \\ 1 & 1 & x \\ 1 & x & -1\end{array}\right)$ (b) $A=\left(\begin{array}{rrr}3 & x & 1 \\ 0 & 1 & x \\ x & -1 & 0\end{array}\right)$ 3.22 Über welchem Körper $\mathbb{Z}_{p}$ ( $p$ Primzahl) ist die Matrix $A$ singulär? (a) $A=\left(\begin{array}{ccc}\overline{6} & \overline{3} & \overline{7} \\ \overline{8} & \overline{5} & \overline{9} \\ \overline{9} & \overline{3} & \overline{10}\end{array}\right)$ (b) $A=\left(\begin{array}{lll}\overline{2} & \overline{2} & \overline{0} \\ \overline{4} & \overline{1} & \overline{1} \\ \overline{0} & \overline{1} & \overline{2}\end{array}\right)$ 3.23 Man bestimme für die Matrizen aus Übungsaufgabe 3.11 die inversen Matrizen mit Hilfe von Satz 3.59. 3.24 Man löse das lineare Gleichungssystem aus Übungsaufgabe 3.18 (e) für $K=\mathbb{R}$ mit Hilfe der Cramer'schen Regel. 3.25 Man bestimme die Eigenwerte der Matrix $A$ : (a) $A=\left(\begin{array}{rr}3 & -1 \\ -1 & 3\end{array}\right)$ (b) $A=\left(\begin{array}{rr}1 & -1 \\ -1 & 1\end{array}\right)$ (c) $A=\left(\begin{array}{ccc}0 & \frac{1}{2} & \frac{1}{2} \\ \frac{1}{2} & 0 & \frac{1}{2} \\ \frac{1}{2} & \frac{1}{2} & 0\end{array}\right)$ (d) $A=\left(\begin{array}{rrr}5 & -8 & 10 \\ -8 & 11 & 2 \\ 10 & 2 & 2\end{array}\right)$ 3.26 Für die Vektoren $\boldsymbol{x}=(1,2,3)^{T}, \boldsymbol{y}=(3,-1,2)^{T}$ und $\boldsymbol{z}=(2,2,1)^{T}$ berechne man (a) die Längen von $\boldsymbol{x}, \boldsymbol{y}$ und $\boldsymbol{z}$, (b) den Winkel $\varphi$ zwischen $\boldsymbol{x}$ und $\boldsymbol{y}$, (c) das Volumen des von $\boldsymbol{x}, \boldsymbol{y}$ und $z$ aufgespannten Parallelepipeds. 3.27 Für $a \in \mathbb{Z}$ ist eine (so genannte) quadratische Form $q_{a}: \mathbb{R}^{2} \rightarrow \mathbb{R}$ durch $q_{a}(x, y)=3 x^{2}+$ $a x y+2 x z+2 y^{2}+2 y z+2 z^{2}$ gegeben. Man bestimme eine symmetrische Matrix $G_{a} \in \mathbb{R}^{2 \times 2}$ mit $q_{a}(x, y)=(x, y) \cdot G_{a} \cdot(x, y)^{T}$. Weiters bestimme man ein $a \in \mathbb{Z}$, so dass $G_{a}$ (und somit auch die quadratische Form $q_{a}$ ) positiv definit ist. ## Kapitel 4 ## Folgen, Reihen und Funktionen Der Grenzwertbegriff, d.h. der Übergang vom Endlichen zum Unendlichen, ist in der Mathematik von zentraler Bedeutung. Viele physikalische Zusammenhänge lassen sich einfacher verstehen, wenn statt diskreter Objekte kontinuierliche verwendet werden. Anfänge der Bildung von Grenzwerten finden sich bereits in der Antike, z.B. bei den Babyloniern (Approximation irrationaler Zahlen im Zusammenhang mit dem Lösen von quadratischen Gleichungen) und etwas später bei den Griechen (Exhaustionsmethode, d.h. Approximation krummlinig begrenzter Bereiche durch Vielecke). Der Umgang mit Grenzwerten blieb jedoch bis ins 19. Jahrhundert sehr intuitiv. Erst in der zweiten Hälfte des 19. Jahrhunderts gelang es Weierstraß, den Grenzwertbegriff mathematisch exakt zu fassen. In den folgenden Abschnitten werden wir diesen Begriff für Folgen, Reihen und Funktionen entwickeln. Er dient als Grundlage eines der leistungsfähigsten Werkzeuge der Mathematik, nämlich der Differential- und Integralrechnung, die wir im nächsten Kapitel kennenlernen werden. ### 4.1 Folgen reeller Zahlen ## 1. Definition und Grenzwert Beispiel 4.1 Betrachten wir die Zahlen $a_{0}=3, a_{1}=3.1, a_{2}=3.14, a_{3}=3.141, a_{4}=3.1415$, $a_{5}=3.14159, a_{6}=3.141592, \ldots$ Allgemein sei $a_{n}$ die Dezimalentwicklung von $\pi$ bis zur $n$-ten Nachkommastelle. Je größer $n$ ist, desto besser wird $\pi$ von $a_{n}$ approximiert, d.h., der Abstand $\left|a_{n}-\pi\right|$ wird mit wachsendem $n$ immer kleiner. Dabei wird $\pi$ sogar beliebig genau approximiert: Legt man zu Beginn eine erlaubte Abweichung fest (z.B. höchstens $10^{-m}$ ), so wird diese Vorgabe von allen $a_{n}$ mit hinreichend großem Index (in diesem Fall $n \geq m$ ) auch erfüllt. Dies ist die Grundidee des Grenzwertbegriffs. Definition 4.2 Unter einer reellen Folge versteht man eine Anordnung von reellen Zahlen $a_{0}, a_{1}, a_{2}, \ldots$ Eine andere Schreibweise ist $\left(a_{n}\right)_{n \geq 0}$. Folgen können auch als Funktionen $a: \mathbb{N} \rightarrow \mathbb{R}$ aufgefasst werden. In diesem Fall gilt $a(n)=a_{n}$. Die Zahlen $a_{n}$, aus denen die Folge aufgebaut ist, nennt man die Glieder der Folge, und $n$ heißt Index des Folgenglieds $a_{n}$. Bei Bedarf kann der Index auch mit 1 oder einer anderen natürlichen Zahl $k$ beginnen, d.h. man betrachtet dann Folgen der Gestalt $\left(a_{n}\right)_{n \geq 1}$ bzw. $\left(a_{n}\right)_{n \geq k}$. Natürlich kann man Folgen nicht nur über $\mathbb{R}$ betrachten, sondern über beliebigen Mengen $X$, d.h., $a_{n} \in X$ für alle $n \in \mathbb{N}$. Wir werden später etwa Folgen über $\mathbb{C}$ benötigen. Da die Theorie aber völlig analog ist, werden wir uns in diesem Kapitel weitgehend auf reelle Folgen beschränken. Beispiel 4.3 Im Folgenden geben wir einige Beispiele für Folgen. (a) $a_{n}=\frac{1}{n^{2}}, n \geq 1: 1, \frac{1}{4}, \frac{1}{9}, \frac{1}{16}, \ldots$ (b) Mit $a_{n}=2$ erhalten wir die Folge 2, 2, 2,2, ... Diese Folge ist eine konstante Folge. (c) Die arithmetischen Folgen sind durch $a_{n}=a_{0}+d n$ gegeben. Die Differenz von je zwei aufeinander folgenden Gliedern ist konstant, d.h., die Gleichung $a_{n}-a_{n-1}=d$ ist für alle $n \geq 1$ erfüllt. Beispiel: $1,3,5,7,9, \ldots$. (d) Geometrische Folgen sind Folgen der Form $a_{n}=a_{0} q^{n}$, d.h., der Quotient von je zwei aufeinander folgenden Gliedern ist konstant, also $\frac{a_{n}}{a_{n-1}}=q$. Beispiel: $1,3,9,27,81$, . (e) Folgen können auch rekursiv definiert werden, d.h., das $n$-te Folgenglied ist durch eine Funktion der vorher gehenden Folgenglieder bestimmt. Z.B. beschreibt $a_{0}=1, a_{1}=1$, $a_{n}=a_{n-1}+a_{n-2}$ die Folge $1,1,2,3,5,8,13,21, \ldots$ Bevor wir nun den Grenzwertbegriff für Folgen definieren, führen wir noch einige Sprechweisen ein. Man sagt, eine Aussage gilt für fast alle $n \in \mathbb{N}$, wenn sie für alle bis auf endlich viele Ausnahmen gilt. Weiters bezeichnen wir das Intervall $$ U_{\varepsilon}(a)=(a-\varepsilon, a+\varepsilon)=\{x \in \mathbb{R}|| x-a \mid<\varepsilon\} $$ als $\varepsilon$-Umgebung von $a$. Definition 4.4 Eine reelle Zahl $a$ heißt Grenzwert (oder Limes) der Folge $\left(a_{n}\right)_{n \geq 0}$, falls in jeder $\varepsilon$-Umgebung von $a$ fast alle Folgenglieder $a_{n}$ liegen, d.h., falls $$ \forall \varepsilon>0 \quad \exists N(\varepsilon) \in \mathbb{N} \quad \forall n>N(\varepsilon):\left|a_{n}-a\right|<\varepsilon $$ gilt. Eine Folge $\left(a_{n}\right)_{n \geq 0}$ heißt konvergent, falls sie einen Grenzwert $a$ besitzt (siehe auch Abb. 4.1). In diesem Falle konvergiert die Folge gegen $a$, und man schreibt $$ \lim _{n \rightarrow \infty} a_{n}=a \text { oder } a_{n} \longrightarrow a $$ Besitzt die Folge $\left(a_{n}\right)_{n \geq 0}$ keinen Grenzwert, so heißt sie divergent. Eine Folge, die 0 als Grenzwert besitzt, nennt man auch Nullfolge. Eine Folge $\left(a_{n}\right)_{n \geq 0}$, deren Glieder beliebig groß werden, d.h., für die gilt $$ \forall K>0 \exists N(K) \in \mathbb{N} \forall n>N(K): a_{n}>K, $$ heißt uneigentlich konvergent, und man schreibt $\lim _{n \rightarrow \infty} a_{n}=\infty$. Analog definiert man $\lim _{n \rightarrow \infty} a_{n}=-\infty$ und nennt solche Folgen ebenfalls uneigentlich konvergent. Der Wert $+\infty$ bzw. $-\infty$ wird dann als uneigentlicher Grenzwert bezeichnet. Wenn in jeder $\varepsilon$-Umgebung von $a$ unendlich viele Folgenglieder liegen, so ist $a$ ein Häufungspunkt von $\left(a_{n}\right)_{n \geq 0}$. Analog zum uneigentlichen Grenzwert werden uneigentliche Häufungspunkte definiert. Der größte Häufungspunkt (uneigentliche mit eingeschlossen) heißt Limes superior (man schreibt: $\lim \sup _{n \rightarrow \infty} a_{n}$ ), der kleinste Häufungspunkt Limes inferior $\left(\lim \inf _{n \rightarrow \infty} a_{n}\right)$. Eine Zahl $a$ ist somit Grenzwert einer Folge, wenn folgendes gilt: Gibt man einen Abstand $\varepsilon>0$ vor, so lässt sich ein Index $N$ derart finden, dass ab diesem $N$ alle Folgenglieder einen Abstand von $a$ haben, der kleiner als $\varepsilon$ ist. So ein $N$ muss es für jedes $\varepsilon$ geben, egal wie klein $\varepsilon$ gewählt war. Findet man eine $\varepsilon$-Umgebung von $a$, die unendlich viele Folgenglieder nicht enthält, so kann $a$ nicht Grenzwert der Folge sein. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-150.jpg?height=103&width=930&top_left_y=925&top_left_x=445) Abbildung 4.1 Konvergenz von Folgen Für einen Häufungspunkt $a$ ist hingegen nur verlangt, dass bei beliebig aber fest vorgegebenem Abstand $\varepsilon$ unendlich viele Folgenglieder diesen Abstand von $a$ unterschreiten. Die Anzahl der Folgenglieder mit größerem Abstand kann endlich, aber auch unendlich sein. Der Limes superior und der Limes inferior existieren im Gegensatz zum Grenzwert (siehe Beispiel 4.5) für jede Folge (eigentlich oder uneigentlich). Wie man leicht sieht, ist jeder Grenzwert einer Folge $\left(a_{n}\right)_{n \geq 0}$ auch ein Häufungspunkt dieser Folge. Die Umkehrung ist aber nicht richtig. Falls $a$ und $b$ zwei verschiedene Häufungspunkte von $\left(a_{n}\right)_{n \geq 0}$ sind (vgl. dazu Beispiel 4.5b), so gilt für $\varepsilon<\frac{1}{2}|a-b|$, dass $U_{\varepsilon}(a) \cap U_{\varepsilon}(b)=\emptyset$. Daher können nicht fast alle $a_{n}$ sowohl in $U_{\varepsilon}(a)$ als auch in $U_{\varepsilon}(b)$ liegen. Aus dieser Überlegung folgt auch die Eindeutigkeit des Grenzwerts: Da in jeder Umgebung des Grenzwerts fast alle Folgenglieder liegen, kann eine konvergente Folge nur einen Häufungspunkt besitzen. Im Falle der Konvergenz gilt also $\lim _{n \rightarrow \infty} a_{n}=\lim \sup _{n \rightarrow \infty} a_{n}=\liminf _{n \rightarrow \infty} a_{n}$. ## Beispiel 4.5 (a) Gegeben sei die Folge $\left(\frac{1}{n^{2}}\right)_{n>1}=\left(1, \frac{1}{4}, \frac{1}{9}, \frac{1}{16}, \ldots\right)$ und ein $\varepsilon>0$. Dann gilt $0N(\varepsilon)=\frac{1}{\sqrt{\varepsilon}}$, Somit ist 0 Grenzwert dieser Folge. (b) Sei $a_{n}=(-1)^{n}$, also $\left(a_{n}\right)=(1,-1,1,-1,1,-1, \ldots)$. Diese Folge ist divergent. Es liegen jeweils unendlich viele Folgenglieder in jeder $\varepsilon$-Umgebung $U_{\varepsilon}(1)$ und $U_{\varepsilon}(-1)$. Also sind -1 und 1 Häufungspunkte der Folge. Daher besitzt diese Folge keinen Grenzwert. (c) Die Folge $a_{n}=\left(n^{2}\right)_{n \in \mathbb{N}}=(0,1,4,9,16, \ldots)$ ist uneigentlich konvergent gegen $+\infty$, da für jede beliebig vorgegebene Zahl $K>0$ eine Quadratzahl existiert, die größer als $K$ ist. ## 2. Monotonie und Beschränktheit Wir wollen nun einige Begriffe zur qualitativen Beschreibung von Folgen vorstellen. Definition 4.6 Eine Folge $\left(a_{n}\right)_{n \geq 0}$ heißt monoton fallend, wenn $a_{n+1} \leq a_{n}$ für alle $n \in \mathbb{N}$. Gilt sogar die strikte Ungleichung $a_{n+1}a_{n}$ für alle $n \in \mathbb{N}$, so heißt die Folge monoton wachsend bzw. streng monoton wachsend. Beispiel 4.7 Die Folge $\left(\frac{1}{n^{2}}\right)_{n \geq 1}$ ist streng monoton fallend, da wegen $(n+1)^{2}>n^{2}$ die Ungleichung $\frac{1}{(n+1)^{2}}<\frac{1}{n^{2}}$ gilt. Konstante Folgen sind sowohl monoton fallend als auch monoton wachsend, jedoch in keinem Sinne streng monoton. Definition 4.8 Eine Folge $\left(a_{n}\right)_{n \geq 0}$ heißt nach oben beschränkt, wenn es eine reelle Zahl $S$ gibt, so dass $a_{n} \leq S$ für alle $n \in \mathbb{N}$. Jede solche Zahl $S$ heißt obere Schranke von $\left(a_{n}\right)_{n \geq 0}$. Die kleinste obere Schranke wird das Supremum genannt. Das Supremum $\sup a_{n}$ ist somit jene reelle Zahl $S_{0}$, welche die folgenden Bedingungen erfüllt: (i) Es gilt $a_{n} \leq S_{0}$ für alle $n \in \mathbb{N}$. (ii) Aus $a_{n} \leq S$ für alle $n \in \mathbb{N}$ folgt $S_{0} \leq S$. Analog definiert man Beschränktheit nach unten und untere Schranken. Die größte untere Schranke wird Infimum genannt und inf $a_{n}$ geschrieben. Falls die Folge nicht nach oben bzw. unten beschränkt ist, setzt man $\sup a_{n}=\infty$ bzw. inf $a_{n}=-\infty$. In analoger Weise lassen sich Schranken (und infolge dessen auch Supremum und Infimum) für Mengen von reellen Zahlen definieren. Sei $M \subseteq \mathbb{R}$. Da reelle Zahlen Dezimalentwicklungen besitzen, haben alle $x \in \mathbb{R}$ die Form $x_{0} . x_{1} x_{2} \ldots$ mit $x_{0} \in \mathbb{Z}$ und $x_{i} \in\{0,1, \ldots, 9\}$ für $i \geq 1$. Falls $M$ nach oben beschränkt und nicht leer ist, so lässt sich das Supremum auf folgende Weise finden. Zunächst bestimmt man die kleinste ganze Zahl, die eine obere Schranke von $M$ ist, und nent diese $a_{0}$. Danach sucht man die kleinste Zahl der Form $x=x_{0} \cdot x_{1}$, die eine obere Schranke von $M$ ist, und nent diese $a_{1}$. Das Verfahren setzt man sukzessive für alle Dezimalstellen fort. So erhält man eine monoton fallende Folge von oberen Schranken von $M$. Es lässt sich zeigen, dass diese Folge konvergiert. Der Grenzwert ist das Supremum von $M$ und wird mit sup $M$ bezeichnet. Analog bestimmt man das Infimum einer nach unten beschränkten (nicht leeren) Menge $M, \inf M$. Falls $M$ nicht nach oben bzw. unten beschränkt ist, setzt man $\sup M=\infty$ bzw. $\inf M=-\infty$. Das Supremum (Infimum) einer Folge ist aber nichts anderes als das Supremum (Infimum) der Menge ihrer Folgenglieder. Die obigen Betrachtungen können wir im folgenden Satz zusammenfassen. Satz 4.9 (Vollständigkeitssatz für die reellen Zahlen) Jede nach oben (unten) beschränkte nicht leere Teilmenge von $\mathbb{R}$ besitzt ein Supremum (Infimum). Jede nach oben (unten) beschränkte reelle Folge besitzt ein Supremum (Infimum). Beispiel 4.10 Betrachten wir wieder die Folge $\left(\frac{1}{n^{2}}\right)_{n \geq 1}$. Da die Folge streng monoton fällt, ist das erste Folgenglied $a_{1}=1$ das größte und daher eine obere Schranke: es gilt $a_{n} \leq 1$ für alle $n \geq 1$. Offensichtlich ist 1 auch das Supremum der Folge. Sei $S>0$. Dann gibt es ein $n \in \mathbb{N}$ derart, dass $a_{n}0$. Dann liegen fast alle $a_{n}$ in $U_{\varepsilon}(a)$. Die Folgenglieder mit $a_{n} \notin U_{\varepsilon}(a)$ seien $a_{n_{1}}, a_{n_{2}}, \ldots, a_{n_{k}}$. Sei $\bar{\varepsilon}>\max _{i=1, \ldots, k}\left|a-a_{n_{i}}\right|$ (bzw. $\bar{\varepsilon}=\varepsilon$ im Fall $k=0$ ). Dann gilt insbesondere $\bar{\varepsilon} \geq \varepsilon$, und daher liegen alle Folgenglieder in $U_{\bar{\varepsilon}}(a)$. Die Intervallgrenzen $a-\bar{\varepsilon}$ bzw. $a+\bar{\varepsilon}$ sind dann untere bzw. obere Schranke von $\left(a_{n}\right)_{n \geq 0}$. Satz 4.12 (Hauptsatz über monotone Folgen) Eine monotone Folge ist genau dann konvergent, wenn sie beschränkt ist. Beweis. O.B.d.A. sei $\left(a_{n}\right)_{n \geq 0}$ eine monoton wachsende Folge. Aus der Konvergenz folgt nach dem vorigen Satz die Beschränktheit. Wir müssen daher nur noch zeigen, dass Beschränktheit hinreichend für Konvergenz ist. Nach Satz 4.9 besitzt $\left(a_{n}\right)_{n \geq 0}$ ein Supremum. Sei $a=\sup a_{n}$ und $\varepsilon>0$. Da $a-\varepsilon$ keine obere Schranke von $\left(a_{n}\right)_{n \geq 0}$ ist, existiert ein $N(\varepsilon)$ mit $a_{N(\varepsilon)}>a-\varepsilon$. Aufgrund der Monotonie muss $a_{n}>a-\varepsilon$ auch für alle $n>N(\varepsilon)$ gelten. Daher liegen fast alle $a_{n}$ in $U_{\varepsilon}(a) . \mathrm{Da} \varepsilon$ beliebig gewählt werden kann, gilt $\lim _{n \rightarrow \infty} a_{n}=a$. Beispiel 4.13 Arithmetische Folgen: $a_{n}=a_{0}+n d$. Es ist leicht zu sehen, dass $\left(a_{n}\right)_{n \geq 0}$ nur für $d=0$ konvergent ist. In diesem Fall ist $\left(a_{n}\right)_{n \geq 0}$ eine konstante Folge und $\lim _{n \rightarrow \infty} a_{n}=a_{0}$. Im Fall $d \neq 0$ ist $\left(a_{n}\right)_{n \geq 0}$ uneigentlich konvergent gegen $\pm \infty$, wobei das Vorzeichen mit jenem von $d$ übereinstimmt. ## 3. Rechnen mit Grenzwerten Wir stellen nun einige Rechenregeln für konvergente Folgen vor. Satz 4.14 Seien $\left(a_{n}\right)_{n \geq 0}$ und $\left(b_{n}\right)_{n \geq 0}$ konvergente Folgen mit $\lim _{n \rightarrow \infty} a_{n}=a$ und $\lim _{n \rightarrow \infty} b_{n}=b$. Dann gilt (i) $\lim _{n \rightarrow \infty}\left(a_{n} \pm b_{n}\right)=a \pm b$, (ii) $\lim _{n \rightarrow \infty}\left(\lambda a_{n}\right)=\lambda a$ für $\lambda \in \mathbb{R}$, (iii) $\lim _{n \rightarrow \infty}\left(a_{n} b_{n}\right)=a b$, (iv) $\lim _{n \rightarrow \infty} \frac{a_{n}}{b_{n}}=\frac{a}{b}$ falls $b_{n} \neq 0$, für alle $n \in \mathbb{N}$, und $b \neq 0$. Beweis. Wir begnügen uns mit dem Beweis der ersten Identität und überlassen den Rest als Übungsaufgabe. Es gelte also $a_{n} \rightarrow a$ und $b_{n} \rightarrow b$. Für gegebenes $\varepsilon>0$ gibt es daher $N_{1}$ und $N_{2}$, so dass $\left|a_{n}-a\right|<\varepsilon / 2$ für $n>N_{1}$ und $\left|b_{n}-b\right|<\varepsilon / 2$ für $n>N_{2}$ gilt. Daraus folgt, dass $\left|a_{n} \pm b_{n}-(a \pm b)\right| \leq\left|a_{n}-a\right|+\left|b_{n}-b\right| \leq \varepsilon$ für alle $n>\max \left(N_{1}, N_{2}\right)$. $\mathrm{Zu}$ bemerken ist, dass die ersten beiden Rechenregeln aus Satz 4.14 implizieren, dass die Menge $F$ aller konvergenten Folgen zusammen mit der Folgenaddition und der Multiplikation mit einem Skalar aus $\mathbb{R}$ einen Vektorraum bildet. Diese beiden Rechenregeln zeigen nämlich, dass man in $F$ uneingeschränkt addieren und multiplizieren kann. Daher ist $F$ ein Unterraum des Vektorraums aller Funktionen $f: \mathbb{N} \rightarrow \mathbb{R}$. Vorsicht ist geboten beim Rechnen mit uneigentlichen Grenzwerten. Die Rechenregeln für konvergente Folgen lassen sich nicht übertragen, da die rechten Seiten der obigen Gleichungen nicht definiert sind. Die Addition und die Multiplikation sind ja für unendliche Größen nicht erklärt. Beispiel 4.15 (Uneigentlich konvergente Folgen) Betrachten wir die Folgen $a_{n}=n$ und $b_{n}=$ $n+c_{n}, c_{n} \geq 0$. Beide Folgen sind uneigentlich konvergent gegen $+\infty$. Über die Differenz $a_{n}-b_{n}=c_{n}$ kann jedoch a priori keine Aussage gemacht werden. Ihr Verhalten hängt von der Folge $c_{n}$ ab. Ähnlich verhält es sich bei Quotienten zweier uneigentlich konvergenten Folgen oder bei Quotienten zweier Nullfolgen: Es gilt beispielsweise $$ \frac{n}{n^{2}} \rightarrow 0, \quad \frac{n^{2}}{n} \rightarrow \infty, \quad \frac{2 n}{n} \rightarrow 2 $$ Diese Beispiele zeigen, dass man Ausdrücken wie $\infty-\infty, \frac{\infty}{\infty}$ oder $\frac{0}{0}$ keinen sinnvollen Wert zuweisen kann. Solche Ausdrücke heißen auch unbestimmte Formen. Wir werden uns in Abschnitt 5.2 näher damit befassen. Auch $1^{\infty}, \infty^{0}$ und $0^{0}$ zählen zu den unbestimmten Formen (siehe Beispiel 4.19). Die im vorigen Satz beschriebenen Rechenregeln für Grenzwerte sind mit bestimmten Einschränkungen dennoch auch für uneigentliche Grenzwerte gültig. Satz 4.16 Sei $\left(a_{n}\right)_{n \geq 0}$ eine uneigentlich konvergente Folge und $\lambda \in \mathbb{R}$. Es gelte $\lim _{n \rightarrow \infty} a_{n}=\infty$ und $\lim _{n \rightarrow \infty} b_{n}=b$. Dann gilt (i) $\lim _{n \rightarrow \infty}\left(a_{n}+b_{n}\right)=\infty$, falls $b \in \mathbb{R}$ oder $b=\infty$, (ii) $\lim _{n \rightarrow \infty}\left(\lambda a_{n}\right)=\left\{\begin{aligned} \infty, & \text { falls } \lambda>0, \\ -\infty, & \text { falls } \lambda<0,\end{aligned}\right.$ (iii) $\lim _{n \rightarrow \infty}\left(a_{n} b_{n}\right)=\infty$, falls $b>0$, (iv) $\lim _{n \rightarrow \infty} \frac{b_{n}}{a_{n}}=0$, falls $b \in \mathbb{R}$. Beispiel 4.17 $a_{n}=\frac{n^{2}+n-1}{3 n^{2}-11}$. Bei dieser Folge sind Zähler und Nenner uneigentlich konvergente Folgen, so dass die Sätze 4.14 und 4.16 nicht direkt anwendbar sind. Herausheben der höchsten Potenz und anschließendes Kürzen macht aber Satz 4.14 anwendbar und liefert $$ \lim _{n \rightarrow \infty} a_{n}=\lim _{n \rightarrow \infty} \frac{1+\frac{1}{n}-\frac{1}{n^{2}}}{3-\frac{11}{n^{2}}}=\frac{1+0-0}{3-0}=\frac{1}{3} $$ Beispiel 4.18 Für die geometrische Folge $a_{n}=q^{n}$ gilt $$ \lim _{n \rightarrow \infty} q^{n}= \begin{cases}0 & \text { falls }|q|<1 \\ 1 & \text { falls } q=1 \\ \infty & \text { falls } q>1\end{cases} $$ Um das zu zeigen, sei zunächst $q=1+p>1$. Dann gilt $$ q^{n}=(1+p)^{n}=1+n p+\left(\begin{array}{l} n \\ 2 \end{array}\right) p^{2}+\cdots+\left(\begin{array}{l} n \\ n \end{array}\right) p^{n} \geq 1+n p \rightarrow \infty $$ (vgl. dazu auch Satz 4.20). Für $01$ und daher $\frac{1}{q^{n}} \rightarrow \infty$. Daraus folgt aber $q^{n} \rightarrow 0$, denn setzt man in Satz $4.16 a_{n}=\frac{1}{q^{n}}$ und $b_{n}=1$, so folgt $q^{n}=\frac{b_{n}}{a_{n}} \rightarrow 0$. Der Fall $-11+n x . $$ Beweis. Für $x=-1$ ist die Ungleichung trivial. Sei also $x>-1$. Wir führen den Beweis mit vollständiger Induktion. Für $n=2$ haben wir $(1+x)^{2}=1+2 x+x^{2}>1+2 x$, da $x^{2}>0$. Es gelte also $(1+x)^{n}>1+n x$. Multiplikation mit $1+x$ liefert $$ (1+x)^{n+1}>(1+n x)(1+x)=1+(n+1) x+n x^{2}>1+(n+1) x $$ wie behauptet. Beispiel 4.21 (Fortsetzung von 4.19) Mit Hilfe der Bernoulli'schen Ungleichung lässt sich zeigen, dass $\left(1+\frac{1}{n}\right)^{n}$ eine monoton wachsende Folge ist. Es gilt $$ \begin{aligned} \frac{\left(1+\frac{1}{n+1}\right)^{n+1}}{\left(1+\frac{1}{n}\right)^{n}} & =\left(1+\frac{1}{n}\right)\left(\frac{1+\frac{1}{n+1}}{1+\frac{1}{n}}\right)^{n+1}=\left(1+\frac{1}{n}\right)\left(1-\frac{1}{(n+1)^{2}}\right)^{n+1} \\ & >\left(1+\frac{1}{n}\right)\left(1-\frac{1}{n+1}\right)=\frac{n+1}{n} \cdot \frac{n}{n+1}=1 \end{aligned} $$ Daraus folgt, dass $\left(1+\frac{1}{n}\right)^{n}$ streng monoton wächst. Weiters erhalten wir mit Hilfe des binomischen Lehrsatzes $$ \begin{aligned} \left(1+\frac{1}{n}\right)^{n} & =1+\left(\begin{array}{l} n \\ 1 \end{array}\right) \frac{1}{n}+\left(\begin{array}{l} n \\ 2 \end{array}\right) \frac{1}{n^{2}}+\left(\begin{array}{l} n \\ 3 \end{array}\right) \frac{1}{n^{3}}+\cdots+\left(\begin{array}{l} n \\ n \end{array}\right) \frac{1}{n^{n}} \\ & <1+1+\frac{1}{2}+\frac{1}{2^{2}}+\cdots+\frac{1}{2^{n-1}}<3 . \end{aligned} $$ Die Folge ist daher nicht nur monoton wachsend, sondern überdies noch nach oben beschränkt und daher nach Satz 4.12 konvergent. Den Grenzwert $e=2,7182818 \ldots$ nennt man die Euler'sche Zahl. ## 4. Konvergenzuntersuchungen Wir haben mit Satz 4.12 bereits ein Konvergenzkriterium für monotone Folgen kennengelernt. Wir untersuchen nun die Konvergenz von allgemeinen Folgen und beginnen mit einer einfachen hinreichenden Bedingung für Konvergenz. Satz 4.22 (Sandwich-Theorem) Seien $\left(a_{n}\right)_{n \geq 0}$ und $\left(b_{n}\right)_{n \geq 0}$ konvergente Folgen, deren Grenzwerte übereinstimmen, also $\lim _{n \rightarrow \infty} a_{n}=\lim _{n \rightarrow \infty} b_{n}=a$. Sei $\left(c_{n}\right)_{n \geq 0}$ eine Folge mit $a_{n} \leq$ $c_{n} \leq b_{n}$ für fast alle $n \in \mathbb{N}$. Dann folgt die Konvergenz von $\left(c_{n}\right)_{n \geq 0}$, und es gilt $\lim _{n \rightarrow \infty} c_{n}=a$. Beweis. Für $\varepsilon>0$ gilt $a_{n} \in U_{\varepsilon}(a)$, falls $n>N_{1}$, und $b_{n} \in U_{\varepsilon}(a)$, falls $n>N_{2}$. Daraus folgt $c_{n} \in U_{\varepsilon}(a)$, falls $n>\max \left(N_{1}, N_{2}\right)$. Beispiel 4.23 Sei $\alpha>0$. Gilt für eine Folge $\frac{1}{n^{\alpha}} \leq a_{n} \leq n^{\alpha}$, dann folgt $\lim \sqrt[n]{a_{n}}=1$. Zum Beweis benützen wir $\sqrt[n]{n} \rightarrow 1$ (siehe Übungsaufgaben). Daraus folgt $\lim _{n \rightarrow \infty} \frac{1}{\sqrt[n]{n^{\alpha}}}=$ $\lim _{n \rightarrow \infty} \sqrt[n]{n^{\alpha}}=1$. Anwendung des Sandwich-Theorems liefert nun die Behauptung. Definition 4.24 Seien $\left(a_{n}\right)_{n \geq 0}$ eine Folge reeller Zahlen und $n_{0}0$ (z.B. $\varepsilon_{0}=1, \varepsilon_{n}=1 / n$ für $n \geq 1$ ) vor. Dann gibt es in $U_{\varepsilon_{0}}(a)$ unendlich viele Folgenglieder von $\left(a_{n}\right)_{n \geq 0}$. Wir wählen eines aus, beispielsweise $a_{n_{0}}$. Danach wählen wir ein $a_{n_{1}} \in U_{\varepsilon_{1}}(a)$ mit $n_{1}>n_{0}$, usw. Dann ist $\left(a_{n_{k}}\right)_{k \in \mathbb{N}}$ eine gegen $a$ konvergente Teilfolge von $\left(a_{n}\right)_{n \geq 0}$. Denn bei Vorgabe eines $\varepsilon>0$ gibt es ein $k_{0}$, so dass $\varepsilon \geq \varepsilon_{k_{0}} \geq \varepsilon_{k_{0}+1} \geq \cdots>0$. Für alle $k \geq k_{0}$ gilt daher $\left|a_{n_{k}}-a\right|<\varepsilon$. Sei umgekehrt eine konvergente Teilfolge gegeben. Dann ist ihr Grenzwert $a$ ein Häufungspunkt $\operatorname{von}\left(a_{n}\right)_{n \geq 0}$, denn in jeder $\varepsilon$-Umgebung von $a$ liegen fast alle Glieder der Teilfolge, also insbesondere unendlich viele Folgenglieder von $\left(a_{n}\right)_{n \geq 0}$. Satz 4.27 (Satz von Bolzano-Weierstraß) Jede beschränkte Folge $\left(a_{n}\right)_{n \geq 0}$ enthält einen Häufungspunkt. Beweis. Die Aussage des Satzes ist nach Satz 4.26 äquivalent zur Existenz einer konvergenten Teilfolge. Aufgrund der Beschränktheit von $\left(a_{n}\right)_{n \geq 0}$ und des Hauptsatzes über monotone Folgen genügt es, die Existenz einer monotonen Teilfolge nachzuweisen. Sei $b_{n}=\sup \left(a_{n+1}, a_{n+2}, \ldots\right)$. Dann ist $\left(b_{n}\right)_{n \geq 0}$ eine monoton fallende Folge. Sei $M=$ $\left\{k \in \mathbb{N} \mid b_{k}k$ für alle $k \in M$. Dann ist $a_{n_{1}}$ nicht größer als alle nachfolgenden Folgenglieder, weil sonst $n_{1}$ ja in $M$ enthalten wäre. Es gibt also ein mindestens ebenso großes Folgenglied $a_{n_{2}}$ mit $n_{2}>n_{1}$. Da auch $n_{2} \notin M$, muss $a_{n_{3}}$ mit $n_{3}>n_{2}$ und $a_{n_{3}} \geq a_{n_{2}}$ existieren. Diesen Prozess setzen wir ad infinitum fort und erhalten auf diese Art eine monoton wachsende Teilfolge von $\left(a_{n}\right)_{n \geq 0}$. Definition 4.28 Eine reelle Folge heißt Cauchyfolge, wenn für alle $\varepsilon>0$ ein $N(\varepsilon)$ existiert, so dass $\left|a_{n}-a_{m}\right|<\varepsilon$ für alle $n, m>N(\varepsilon)$. Anschaulich bedeutet dies, dass Cauchyfolgen genau jene Folgen sind, für welche die Glieder mit großem Index nahe beieinander liegen. ## Satz 4.29 (Cauchykriterium) Eine reelle Folge $\left(a_{n}\right)_{n \geq 0}$ ist genau dann konvergent, wenn sie eine Cauchyfolge ist. Bemerkung: Man beachte, dass das Cauchykriterium in $\mathbb{Q}$ nicht gilt. Nehmen wir irgend eine Folge rationaler Zahlen, die gegen eine irrationale Zahl konvergiert, z.B. die durch die Dezimalentwicklung von $\sqrt{2}$ bestimmte Folge $(1,1.4,1.41,1.414,1.4142, \ldots)$. Diese Folge ist in $\mathbb{R}$ konvergent und daher nach dem obigen Kriterium eine Cauchyfolge (was übrigens auch direkt leicht zu sehen ist). Da der Grenzwert aber keine rationale Zahl ist, ist diese Folge in $\mathbb{Q}$ nicht konvergent. ${ }^{1}$[^28] Beweis. Sei $\left(a_{n}\right)_{n \geq 0}$ konvergent und $\varepsilon>0$. Den Grenzwert von $\left(a_{n}\right)_{n \geq 0}$ nennen wir $a$. Dann existiert $N(\varepsilon)$ derart, dass $\left|a_{n}-a\right|N(\varepsilon)$. Seien nun $n, m>N(\varepsilon)$. Dann gilt $\left|a_{n}-a_{m}\right|=\left|a_{n}-a-\left(a_{m}-a\right)\right| \leq\left|a_{n}-a\right|+\left|a_{m}-a\right|<\varepsilon+\varepsilon=2 \varepsilon$. Die Folge $\left(a_{n}\right)_{n \geq 0}$ ist daher eine Cauchyfolge. Umkehrung: Gelte für ein $\varepsilon>0$, dass $\left|a_{n}-a_{m}\right|<\varepsilon$ für alle $n, m>N(\varepsilon)$. Dann ist $\left(a_{n}\right)_{n \geq 0}$ beschränkt, denn für $m>N=N(\varepsilon)$ folgt aus $\left|a_{m}\right|-\left|a_{N+1}\right| \leq\left|a_{m}-a_{N+1}\right|<\varepsilon$, dass $\left|a_{m}\right|<\left|a_{N+1}\right|+\varepsilon$. Somit ist die Folge $\left(\left|a_{N+1}\right|,\left|a_{N+2}\right|, \ldots\right)$ durch $\left|a_{N+1}\right|+\varepsilon$ nach oben beschränkt. Folglich ist $S=\max \left(\left|a_{0}\right|,\left|a_{1}\right|, \ldots,\left|a_{N}\right|,\left|a_{N+1}\right|+\varepsilon\right)$ eine obere Schranke von $\left(\left|a_{n}\right|\right)_{\mathbf{n} \in \mathbb{N}}$. Die Folge $\left(a_{n}\right)_{n \geq 0}$ ist daher durch $S$ nach oben und durch $-S$ nach unten beschränkt. Nach dem Satz von Bolzano-Weierstraß existiert dann ein Häufungspunkt $a$ und infolge dessen eine Teilfolge $\left(a_{n_{k}}\right)_{k \in \mathbb{N}}$ mit $a_{n_{k}} \rightarrow a$. Das bedeutet aber, dass für hinreichend große $k$, z.B. $k>K=K(\varepsilon),\left|a_{n_{k}}-a\right|<\varepsilon$ folgt. Sei nun $n>N$ und $k>\max (K, N)$, so dass also auch $n_{k}>N$ gilt. Dann folgt $\left|a_{n}-a\right| \leq\left|a_{n}-a_{n_{k}}\right|+\left|a_{n_{k}}-a\right|<2 \varepsilon$ und daher $a_{n} \rightarrow a$. Beispiel 4.30 Gegeben ist die rekursiv definierte Folge $a_{n+1}=\frac{2+a_{n}}{1+a_{n}}$ mit $a_{0}=1$. Die ersten Glieder der Folge sind $1, \frac{3}{2}, \frac{7}{5}, \frac{17}{12}, \frac{41}{29}, \ldots$ Die dadurch aufkommende Vermutung $1 \leq a_{n} \leq 2$ lässt sich leicht mit vollständiger Induktion beweisen. Sei nun $n>m$. Dann gilt $$ \begin{aligned} \left|a_{n}-a_{m}\right| & =\left|\frac{2+a_{n-1}}{1+a_{n-1}}-\frac{2+a_{m-1}}{1+a_{m-1}}\right| \\ & =\left|\frac{\left(2+a_{n-1}\right)\left(1+a_{m-1}\right)-\left(2+a_{m-1}\right)\left(1+a_{n-1}\right)}{\left(1+a_{n-1}\right)\left(1+a_{m-1}\right)}\right| \\ & =\left|\frac{a_{m-1}-a_{n-1}}{\left(1+a_{n-1}\right)\left(1+a_{m-1}\right)}\right| . \end{aligned} $$ Wegen $a_{n} \geq 1$ ist der Nenner des obigen Ausdrucks größer oder gleich 4. Daraus folgt $\left|a_{n}-a_{m}\right| \leq \frac{1}{4}\left|a_{n-1}-a_{m-1}\right|$. Iteriert man diese Vorgangsweise, so erhält man $\left|a_{n}-a_{m}\right| \leq$ $\frac{1}{4^{m}}\left|a_{0}-a_{n-m}\right| \leq \frac{1}{4^{m-1}}$, wobei die letzte Ungleichung aus der Abschätzung $a_{n} \leq 2$ und der Dreiecksungleichung folgt. Die Folge $\left(a_{n}\right)_{n \geq 0}$ ist daher eine Cauchyfolge und somit konvergent. Sei $a=\lim _{n \rightarrow \infty} a_{n}$. Führt man in der definierenden Rekursion den Grenzübergang für $n \rightarrow \infty$ durch, so ergibt sich $a=\frac{2+a}{1+a}$. Lösen dieser Gleichung unter Berücksichtung von $1 \leq a_{n} \leq 2$ ergibt $a=\sqrt{2}$. ### 4.2 Unendliche Reihen Wir wenden uns nun Folgen zu, die eine spezielle Darstellung aufweisen, so genannten Reihen. Dies sind Folgen, deren Glieder endliche Summen sind, die aus einer anderen Folge gebildet werden. Beispiel 4.31 (Dezimalentwicklungen) Reelle Zahlen lassen sich bekanntlich als Dezimalentwicklungen schreiben. Wie im vorigen Abschnitt besprochen, kann man sie aber auch als Grenzwerte von Folgen interpretieren, indem man aus der Dezimalentwicklung eine Folge konstruiert. Die Folgenglieder lassen sich auch als Summen von Zehnerpotenzen auffassen: $$ \frac{1}{9}=0,111 \cdots=\sum_{k \geq 1} \frac{1}{10^{k}}=\frac{1}{10}+\frac{1}{100}+\frac{1}{1000}+\cdots $$ Beispiel 4.32 (Zinseszinsrechnung) Es werden über einen Zeitraum gleich hohe Beträge in regelmäßigen Abständen auf ein Sparbuch eingezahlt. Wir interessieren uns für den Wert $K_{n}$ des auf dem Sparbuch liegenden Kapitals nach $n$ Einzahlungen. Sei $b$ die Höhe der Ratenzahlung, $T$ der zeitliche Abstand zwischen zwei Einzahlungen und $q$ der Verzinsungsfaktor für die Zeit $T$. Die $n$-te Einzahlung erfolgt daher zum Zeitpunkt $(n-1) T$. Folglich wird die erste Rate (Zeitpunkt 0) $n-1$ mal verzinst, die zweite Rate $n-2$ mal, usw. Wir erhalten $$ K_{n}=b q^{n-1}+b q^{n-2}+\cdots+b q+b=b\left(1+q+q^{2}+\cdots+q^{n-1}\right) $$ Die Folge $K_{n}$ besteht also (bis auf den Faktor $b$ ) aus Summen von $q$-Potenzen. Beispiel 4.33 Bereits Leibniz entdeckte die folgenden Identitäten: $$ \begin{aligned} & 1-\frac{1}{3}+\frac{1}{5}-\frac{1}{7}+\frac{1}{9}-+\ldots=\frac{\pi}{4} \\ & 1-\frac{1}{2}+\frac{1}{3}-\frac{1}{4}+\frac{1}{5}-+\ldots=\ln 2 \end{aligned} $$ ## 1. Der Begriff der unendlichen Reihe Man beachte, dass der Wert von endlichen Summen aufgrund der Kommutativität und der Assoziativität der Addition in $\mathbb{R}$ und $\mathbb{C}$ unabhängig von der Reihenfolge und der Art des Zusammenfassens von Gliedern stets wohl definiert ist. Für unendliche Summen ist das im Allgemeinen nicht der Fall. Man kann etwa zeigen, dass die Summen aus Beispiel 4.33 jeden beliebigen Wert annehmen können, wenn die Summationsreihenfolge geeignet abgeändert wird. Dies führt auf folgende Definition. Definition 4.34 Unter einer unendlichen Reihe versteht man eine (formale) unendliche Summe $\sum_{n=0}^{\infty} a_{n}$. Dabei ist $\left(a_{n}\right)_{n \geq 0}$ die Folge der Reihenglieder. Die Folge $\left(s_{n}\right)_{n \geq 0}$ mit $$ s_{n}=\sum_{k=0}^{n} a_{k} $$ heißt Folge der Partialsummen der Reihe. Unter dem Grenzwert (oder der Summe) der Reihe versteht man den Grenzwert ihrer Partialsummenfolge. Ist die Folge $\left(s_{n}\right)_{n \geq 0}$ konvergent bzw. divergent, so heißt auch die Reihe konvergent bzw. divergent. Satz 4.35 Falls die Reihe $\sum_{n \geq 0} a_{n}$ konvergiert, so ist die Folge der Reihenglieder eine Nullfolge, d.h., $a_{n} \rightarrow 0$. Beweis. Laut Voraussetzung gilt $\sum_{n \geq 0} a_{n}=\lim _{n \rightarrow \infty} s_{n}=s \in \mathbb{R}$. Die Reihenglieder lassen sich aber mit Hilfe der Partialsummenfolge durch $a_{n}=s_{n}-s_{n-1}$ beschreiben. Übergang zum Grenzwert ergibt $\lim _{n \rightarrow \infty} a_{n}=\lim _{n \rightarrow \infty} s_{n}-\lim _{n \rightarrow \infty} s_{n-1}=s-s=0$. Beispiel 4.36 Die harmonische Reihe ist definiert durch $$ \sum_{n \geq 1} \frac{1}{n}=1+\frac{1}{2}+\frac{1}{3}+\frac{1}{4}+\frac{1}{5}+\frac{1}{6}+\frac{1}{7}+\frac{1}{8}+\ldots $$ Es gilt offensichtlich $$ \begin{aligned} \sum_{n \geq 1} \frac{1}{n} & \geq 1+\frac{1}{2}+\underbrace{\left(\frac{1}{4}+\frac{1}{4}\right)}_{\frac{1}{2}}+\underbrace{\left(\frac{1}{8}+\frac{1}{8}+\frac{1}{8}+\frac{1}{8}\right)}_{\frac{1}{2}}+\ldots \\ & =1+\frac{1}{2}+\frac{1}{2}+\frac{1}{2}+\ldots \end{aligned} $$ Die Partialsummenfolge $\left(s_{n}\right)_{n \geq 0}$ ist also monoton wachsend und nach den obigen Überlegungen gilt $s_{2^{n}} \geq 1+\frac{n}{2} \rightarrow \infty$. Die harmonische Reihe ist somit divergent. Dies zeigt, dass die Umkehrung des vorigen Satzes nicht richtig ist: Aus $a_{n} \rightarrow 0$ folgt im Allgemeinen nicht die Konvergenz der Reihe $\sum_{n \geq 0} a_{n}$. Beispiel 4.37 Unter einer geometrischen Reihe versteht man eine Reihe der Form $$ \sum_{n \geq 0} q^{n}=1+q+q^{2}+q^{3}+\cdots $$ Die Partialsummenfolge $\left(s_{n}\right)_{n \geq 0}$ der geometrischen Reihe ist daher $s_{n}=1+q+q^{2}+\cdots+q^{n}$. Folglich gilt $$ \begin{array}{rlr} s_{n} & =1+q+q^{2}+\cdots+q^{n} \\ q s_{n} & =\quad q+q^{2}+\cdots+q^{n}+q^{n+1} \\ \hline(1-q) s_{n} & =1 & -q^{n+1} \end{array} $$ und für $q \neq 1$ erhalten wir $$ s_{n}=\frac{1-q^{n+1}}{1-q} $$ Im Fall $|q|<1$ folgt daraus die Konvergenz der geometrischen Reihe: $$ \sum_{n \geq 0} q^{n}=\frac{1}{1-q} $$ Für $|q| \geq 1$ ist die geometrische Reihe divergent, da die Folge der Summanden, also $\left(q^{n}\right)_{n \in \mathbb{N}}$, keine Nullfolge ist. Beispiel 4.38 Gegeben ist die Reihe $\sum_{n \geq 1} \frac{1}{n(n+1)}$. Die Partialsummenfolge ist somit $$ \begin{aligned} s_{n} & =\sum_{k=1}^{n} \frac{1}{k(k+1)}=\sum_{k=1}^{n}\left(\frac{1}{k}-\frac{1}{k+1}\right) \\ & =\left(1-\frac{1}{2}\right)+\left(\frac{1}{2}-\frac{1}{3}\right)+\left(\frac{1}{3}-\frac{1}{4}\right)+\cdots+\left(\frac{1}{n}-\frac{1}{n+1}\right) \\ & =1-\frac{1}{n+1} . \end{aligned} $$ Nach der Definition der Summe einer Reihe gilt $$ \sum_{n=1}^{\infty} \frac{1}{n(n+1)}=\lim _{n \rightarrow \infty} s_{n}=\lim _{n \rightarrow \infty}\left(1-\frac{1}{n+1}\right)=1 $$ Summen, bei denen Auslöschungen wie in (4.2) auftreten, nennt man Teleskopsummen. ## 2. Konvergenzkriterien Als nächstes wollen wir einige Kriterien für die Konvergenz von Reihen finden. Das Cauchykriterium für Folgen (Satz 4.29) lässt sich direkt auf Reihen übertragen, indem man es auf die Partialsummenfolge anwendet. Satz 4.39 (Cauchykriterium) Eine Reihe $\sum_{n \geq 0} a_{n}$ ist genau dann konvergent, wenn für alle $\varepsilon>0$ ein $N(\varepsilon)$ existiert, so dass $\left|\sum_{k=n}^{m} a_{n}\right|<\varepsilon$ für alle $m \geq n>N(\varepsilon)$. Definition 4.40 Eine Reihe $\sum_{n \geq 0} a_{n}$ heißt alternierend, wenn die Glieder $a_{n}$ abwechselnd positiv und negativ sind. Alternierende Reihen sind etwa jene aus Beispiel 4.33. Satz 4.41 (Konvergenzkriterium von Leibniz) Eine alternierende Reihe $\sum_{n \geq 0}(-1)^{n} a_{n}$, fuir die $\left(a_{n}\right)_{n \geq 0}$ eine monoton fallende Nullfolge ist, ist konvergent. Beweis. Wir betrachten die Teilfolgen $\left(s_{2 n}\right)_{n \geq 0}$ und $\left(s_{2 n+1}\right)_{n \geq 0}$ der Partialsummenfolge. Da $a_{n}$ monoton fällt, ist $$ s_{2 n+1}=\left(a_{0}-a_{1}\right)+\left(a_{2}-a_{3}\right)+\cdots+\left(a_{2 n}-a_{2 n+1}\right) $$ eine monoton wachsende Folge, da $a_{2 k}-a_{2 k+1} \geq 0$. Aus demselben Grund ist $$ s_{2 n}=a_{0}-\left(a_{1}-a_{2}\right)-\left(a_{3}-a_{4}\right)-\cdots-\left(a_{2 n-1}-a_{2 n}\right) $$ monoton fallend. Weiters gilt $0 \leq s_{2 n+1} \leq s_{2 n} \leq a_{0}$. Daraus folgt, dass $\left(s_{2 n+1}\right)_{n \geq 0}$ und $\left(s_{2 n}\right)_{n \geq 0}$ beschränkt und daher wegen Satz 4.12 konvergent sind. Sei $a=\lim _{n \rightarrow \infty} s_{2 n+1}$ und $b=\lim _{n \rightarrow \infty} s_{2 n}$. Dann gilt auch $0 \leq s_{2 n}-s_{2 n+1}=a_{2 n+1} \rightarrow 0$, also ist $a=b=\lim _{n \rightarrow \infty} s_{n}$. Beispiel 4.42 Die alternierende Reihe $\sum_{n \geq 1} \frac{(-1)^{n}}{n}$ erfüllt die Voraussetzungen von Satz 4.41, denn in diesem Fall ist $a_{n}=\frac{1}{n}$ offensichtlich eine monoton fallende Nullfolge. Daher ist die Reihe konvergent. Beispiel 4.42 illustriert den Fall, dass eine Reihe $\sum a_{n}$ konvergiert, die Reihe $\sum\left|a_{n}\right|$ der Beträge der Glieder aber divergiert. Denn $\sum\left|a_{n}\right|$ ist in diesem Fall nichts anderes als die harmonische Reihe aus Beispiel 4.36. Dies führt zu folgendem Begriff. Definition 4.43 Eine Reihe $\sum_{n \geq 0} a_{n}$ heißt absolut konvergent, wenn $\sum_{n \geq 0}\left|a_{n}\right|$ konvergent ist. Eine konvergente Reihe, welche nicht absolut konvergent ist, nennt man bedingt konvergent. Satz 4.44 Eine absolut konvergente Reihe ist auch konvergent. Beweis. Sei $\sum_{n} a_{n}$ absolut konvergent. Aus dem Cauchykriterium (Satz 4.39) folgt, dass für gegebenes $\varepsilon>0$ ein $N$ existiert, so dass für alle $m \geq n>N$ $$ \left|a_{n}\right|+\left|a_{n+1}\right|+\cdots+\left|a_{m}\right|<\varepsilon $$ Eine Anwendung der Dreiecksungleichung ergibt $$ \left|a_{n}+a_{n+1}+\cdots+a_{m}\right| \leq\left|a_{n}\right|+\left|a_{n+1}\right|+\cdots+\left|a_{m}\right|<\varepsilon, $$ und daraus folgt nach nochmaliger Anwendung von Satz 4.39 die Konvergenz von $\sum_{n} a_{n}$. Beispiel 4.45 Betrachten wir nochmals die Reihe aus Beispiel 4.42. Wir haben bereits gesehen, dass es sich um eine konvergente Reihe handelt. Die aus den Beträgen ihrer Summanden gebildete Reihe ist aber die harmonische Reihe $\sum_{n \geq 1} \frac{1}{n}$, deren Divergenz wir in Beispiel 4.36 gezeigt haben. Diese Reihe ist daher ein Beispiel einer bedingt konvergenten Reihe. Man kann zeigen, dass jede Umordnung (Änderung der Summationsreihenfolge) einer absolut konvergenten Reihe gegen denselben Grenzwert konvergiert. Man spricht daher auch von unbedingt konvergenten Reihen. Für bedingt konvergente Reihen ist dies nicht der Fall. Es gilt nämlich der folgende Satz, den wir ohne Beweis anführen. Satz 4.46 (Riemann'scher Umordnungssatz) Eine bedingt konvergente Reihe lässt sich so umordnen, dass sie gegen eine beliebige Zahl $\alpha \in \mathbb{R} \cup\{-\infty,+\infty\}$ (uneigentlich) konvergiert. Satz 4.47 (Majorantenkriterium) Seien $\sum_{n} a_{n}$ und $\sum_{n} b_{n}$ zwei Reihen mit $\left|a_{n}\right| \leq b_{n}$ für fast alle n. Falls $\sum_{n} b_{n}$ konvergent ist, so ist $\sum_{n} a_{n}$ absolut konvergent. In diesem Fall nennt man die Reihe $\sum_{n} b_{n}$ eine Majorante von $\sum_{n} a_{n}$. Beweis. Anwendung des Cauchykriteriums: Für alle $\varepsilon>0$ gibt es ein $N \in \mathbb{N}$, so dass $$ \sum_{k=n}^{m}\left|a_{k}\right| \leq \sum_{k=n}^{m} b_{k}<\varepsilon $$ für alle $m \geq n>N$. Daraus folgt die absolute Konvergenz von $\sum_{n} a_{n}$. Analog zum Konvergenzbeweis mittels Abschätzung nach oben durch konvergente Majoranten lässt sich auch ein Divergenzbeweis mittels Abschätzung nach unten durch divergente Minoranten durchführen. Man erhält Satz 4.48 (Minorantenkriterium) Seien $\sum_{n} a_{n}$ und $\sum_{n} b_{n}$ zwei Reihen, so dass $0 \leq a_{n} \leq b_{n}$ für fast alle n. Falls $\sum_{n} a_{n}$ divergent ist, so ist auch die Reihe $\sum_{n} b_{n}$ divergent. Beweis. Übungsaufgabe. Beispiel 4.49 Da $\frac{1}{n^{2}}$ eine monotone Nullfolge ist, folgt mit Hilfe des Leibnizkriteriums die Konvergenz von $\sum_{n>1} \frac{(-1)^{n}}{n^{2}}$. Wir wollen nun zeigen, dass diese Reihe auch absolut konvergent ist. Dazu benutzen wir die Abschätzung $\frac{1}{n^{2}} \leq \frac{1}{n(n-1)}$ für $n \geq 2$. Wir wissen aus Beispiel 4.38, dass $$ \sum_{n \geq 2} \frac{1}{n(n-1)}=1 $$ Die Voraussetzung des Majorantenkriteriums sind somit erfüllt, und daher konvergiert die Reihe $\sum_{n \geq 1} \frac{1}{n^{2}}$. Über den Grenzwert sagt das Majorantenkriterium nichts aus. Man kann aber zeigen, dass $$ \sum_{n \geq 1} \frac{1}{n^{2}}=\frac{\pi^{2}}{6} $$ Es gilt weiters $\frac{1}{n^{\alpha}} \leq \frac{1}{n^{2}}$ für $\alpha \geq 2$. Infolge dessen ist die Reihe $$ \sum_{n \geq 1} \frac{1}{n^{\alpha}} $$ für alle $\alpha \geq 2$ konvergent. Man kann zeigen (siehe Abschnitt 5.5), dass dies sogar für alle $\alpha>1$ gilt. Für $\alpha=1$ erhalten wir die harmonische Reihe, die bekanntlich divergent ist. Reihen der Bauart (4.3) nennt man hyperharmonische Reihen. Hyperharmonische Reihen sind also konvergent für $\alpha>1$. Für $\alpha \leq 1$ sind sie divergent, wie man durch Anwendung des Minorantenkriteriums (Abschätzung nach unten durch die harmonische Reihe) leicht sieht. Satz 4.50 (Wurzelkriterium) Falls es eine Zahl $q$ gibt, so dass $$ \sqrt[n]{\left|a_{n}\right|} \leq q<1 \text { für fast alle } n $$ dann ist $\sum_{n} a_{n}$ absolut konvergent. Falls hingegen $$ \sqrt[n]{\left|a_{n}\right|} \geq 1 \text { für unendlich viele } n $$ so ist $\sum_{n} a_{n}$ divergent. Bemerkung: Man beachte, dass die Konstante $q$ in der ersten Ungleichung wesentlich ist. Die Bedingung $$ \sqrt[n]{\left|a_{n}\right|} \leq 1 $$ reicht nicht aus, wie das folgende Beispiel zeigt: Für die divergente harmonische Reihe ist $\sqrt[n]{\left|a_{n}\right|}=1 / \sqrt[n]{n}$. D.h., die Bedingung (4.6) ist erfüllt. Ferner gilt $\sqrt[n]{n} \rightarrow 1$. Somit konvergiert auch $\sqrt[n]{\left|a_{n}\right|}$ gegen 1, also muss die Folge jede a priori vorgegebene Schranke $q<1$ überschreiten. Die Bedingung (4.4) des Wurzelkriteriums ist somit verletzt. $\mathrm{Zu}$ beachten ist aber, dass in diesem Fall auch (4.5) nicht erfüllt ist. Mit Hilfe des Wurzelkriteriums kann also nicht für jede Reihe eine Entscheidung über Konvergenz bzw. Divergenz getroffen werden. Beweis. Aus (4.4) folgt, dass $\left|a_{n}\right| \leq q^{n}$ für fast alle $n$. Daher ist die geometrische Reihe $\sum_{n \geq 0} q^{n}$ eine konvergente Majorante, woraus die absolute Konvergenz von $\sum_{n} a_{n}$ folgt. Bedingung (4.5) impliziert, dass $\left|a_{n}\right| \geq 1$ für unendlich viele $n$. Somit kann $\left(a_{n}\right)_{n \geq 0}$ keine Nullfolge sein und daher $\sum_{n} a_{n}$ nicht konvergieren. Eine leicht abgeschwächte, jedoch oft einfacher handhabbare Formulierung des Wurzelkriteriums ist die folgende. Satz 4.51 (Limesform des Wurzelkriteriums) Aus $\limsup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}<1$ folgt die absolute Konvergenz der Reihe $\sum_{n} a_{n}$ und aus $\limsup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}>1$ deren Divergenz. Im Fall $\lim \sup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}=1$ ist wieder keine Aussage über das Konvergenzverhalten der Reihe möglich. Bemerkung: Dass Satz 4.51 tatsächlich eine Abschwächung von Satz 4.50 ist, zeigt das triviale Beispiel $a_{n}=1$ für alle $n \in \mathbb{N}$. In diesem Fall ist (4.5) anwendbar, aber $\lim \sup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}=1$, weshalb Satz 4.51 keine Aussage liefert. Beweis. Es ist leicht zu sehen, dass die Aussage (4.4) äquivalent zu $\lim _{\sup _{n \rightarrow \infty}} \sqrt[n]{\left|a_{n}\right|}<1$ ist. Falls $\limsup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}>1$, so gilt sicherlich (4.5). Satz 4.52 (Quotientenkriterium) Es sei $a_{n} \neq 0$ für alle $n \in \mathbb{N}$. Falls eine Zahl $q$ existiert, so dass $$ \left|\frac{a_{n+1}}{a_{n}}\right| \leq q<1 \text { für fast alle } n $$ so ist $\sum_{n} a_{n}$ absolut konvergent. Gilt hingegen $$ \left|\frac{a_{n+1}}{a_{n}}\right| \geq 1 \text { für fast alle } n $$ so divergiert die Reihe $\sum_{n} a_{n}$. Beweis. Im ersten Fall gilt für einen Index $N$ und alle $n \geq N$ die Ungleichung $\left|a_{n+1}\right| \leq q\left|a_{n}\right|$ und daher $\left|a_{n}\right| \leq q^{n-N} a_{N}$. Daher ist die geometrische Reihe $\sum_{n}\left|a_{N}\right| q^{n-N}$ eine konvergente Majorante. Im Fall $\left|\frac{a_{n+1}}{a_{n}}\right| \geq 1$ für fast alle $n$ ist $\left|a_{n}\right|$ eine ab einem gewissen Index $N$ monoton wachsende Folge positiver Zahlen und damit sicherlich keine Nullfolge. Auch beim Quotientenkriterium kann der Fall eintreten, dass keine der beiden Bedingungen zutrifft und daher keine Aussage über das Konvergenzverhalten der Reihe gemacht werden kann. Die harmonische Reihe ist etwa ein Beispiel, wo das Quotientenkriterium versagt. Satz 4.53 (Limesform des Quotientenkriteriums) Aus $\lim \sup _{n \rightarrow \infty}\left|a_{n+1} / a_{n}\right|<1$ folgt die absolute Konvergenz der Reihe $\sum_{n} a_{n}$ und aus $\lim \inf _{n \rightarrow \infty}\left|a_{n+1} / a_{n}\right|>1$ deren Divergenz. Beweis. Übungsaufgabe. ## Beispiel 4.54 (a) Wir untersuchen die Exponentialreihe $$ \sum_{n \geq 0} \frac{x^{n}}{n !}=1+x+\frac{x^{2}}{2 !}+\frac{x^{3}}{3 !}+\ldots $$ für festes $x \in \mathbb{R}$. Es gilt $$ \left|\frac{a_{n+1}}{a_{n}}\right|=\left|\frac{\frac{x^{n+1}}{(n+1) !}}{\frac{x^{n}}{n !}}\right|=\frac{|x|}{n+1} \leq \frac{1}{2}<1 $$ für hinreichend große $n$, da $\frac{|x|}{n+1}$ eine Nullfolge ist. Das Quotientenkriterium sagt uns nun, dass $\sum_{n \geq 0} \frac{x^{n}}{n !}$ für alle $x \in \mathbb{R}$ konvergiert. (b) Gegeben sei die Reihe $\sum_{n \geq 1} \frac{n !}{n^{n}}$. Wieder führt das Quotientenkriterium zum Ziel: Wegen (4.1) gilt $$ \left|\frac{a_{n+1}}{a_{n}}\right|=\frac{(n+1) n^{n}}{(n+1)^{n+1}}=\left(1+\frac{1}{n}\right)^{-n} \leq \frac{1}{2}<1 \text { für } n \geq 1 \text {, } $$ und daher ist die Reihe konvergent. (c) Sei $a_{2 n}=\frac{1}{4^{n}}$ und $a_{2 n+1}=\frac{1}{4^{n-1}}$. Dann ist $$ \frac{a_{n+1}}{a_{n}}= \begin{cases}4 & \text { falls } n \text { gerade } \\ \frac{1}{16} & \text { falls } n \text { ungerade. }\end{cases} $$ Daher gilt $\lim \sup _{n \rightarrow \infty} a_{n+1} / a_{n}=4$ und $\lim \inf _{n \rightarrow \infty} a_{n+1} / a_{n}=1 / 16$. Das Quotientenkriterium liefert daher keine Aussage. Der Versuch mit dem Wurzelkriterium erweist sich jedoch als zielführend, denn $$ \sqrt[2 n]{\frac{1}{4^{n}}}=\frac{1}{2}, \quad \sqrt[2 n+1]{\frac{1}{4^{n-1}}}=\sqrt[2 n+1]{\frac{2^{3}}{2^{2 n+1}}}=\sqrt[2 n+1]{8} \cdot \frac{1}{2} \rightarrow \frac{1}{2} \text { für } n \rightarrow \infty, $$ und daraus folgt die Konvergenz von $\sum_{n} a_{n}$. Allgemein lässt sich zeigen, dass das Wurzelkriterium leistungsfähiger ist als das Quotientenkriterium. Letzteres ist jedoch in vielen Fällen einfacher zu handhaben. ## 3. Das Cauchyprodukt und Potenzreihen Die Tatsache, dass die Summe einer konvergenten Reihe als Grenzwert einer Folge (nämlich ihrer Partialsummenfolge) definiert ist, erlaubt es, die Rechenregeln für Grenzwerte von Folgen (Satz 4.14) direkt auf Reihen zu übertragen bzw. algebraische Operationen für Reihen zu definieren. Aufgrund der Vektorraumeigenschaft des Raums der konvergenten Folgen können konvergente Reihen addiert und mit Skalaren multipliziert werden. Für konvergente Reihen $\sum_{n} a_{n}$ und $\sum_{n} b_{n}$ gilt demnach $$ \sum_{n}\left(a_{n}+b_{n}\right)=\sum_{n} a_{n}+\sum_{n} b_{n}, \quad \text { und } \quad \sum_{n}\left(\lambda a_{n}\right)=\lambda \sum_{n} a_{n} \quad \text { für } \lambda \in \mathbb{R} . $$ Das Produkt von Reihen lässt sich nicht so direkt bilden. Betrachtet man die Partialsummenfolgen so ergibt sich $$ \begin{aligned} \left(a_{0}+a_{1}+\cdots+a_{n}\right)\left(b_{0}+b_{1}+\cdots+b_{n}\right) & =\sum_{i=0}^{n} \sum_{j=0}^{n} a_{i} b_{j} \\ & =\sum_{k=0}^{2 n} \sum_{\ell=\max (0, k-n)}^{\min (k, n)} a_{\ell} b_{k-\ell} . \end{aligned} $$ Die letzte Umformung erhalten wir durch Umordnen gemäß dem folgenden Schema (die Diagonalen bilden jeweils die inneren Summen): ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-164.jpg?height=518&width=732&top_left_y=2052&top_left_x=555) Dies legt die folgende Definition nahe. Definition 4.55 Seien $\sum_{n>0} a_{n}$ und $\sum_{n>0} b_{n}$ zwei Reihen. Unter dem Cauchyprodukt dieser beiden Reihen versteht man die Reihe $\sum_{n \geq 0}\left(\sum_{k=0}^{n} a_{k} b_{n-k}\right)$. Satz 4.56 Falls $\sum_{n \geq 0} a_{n}=a$ und $\sum_{n \geq 0} b_{n}=b$ und beide Reihen absolut konvergieren, dann ist auch deren Cauchyprodukt absolut konvergent, und es gilt $\sum_{n \geq 0}\left(\sum_{k=0}^{n} a_{k} b_{n-k}\right)=a b$. Ohne Beweis. Im Gegensatz zur Addition von Reihen reicht die Konvergenz alleine nicht für die Konvergenz des Cauchyproduktes aus. Wenn das Cauchyprodukt zweier konvergenter Reihen ebenfalls konvergiert, so ist seine Summe jedoch stets gleich dem Produkt der beiden einzelnen Summen. Das Cauchyprodukt wird z.B. zur Multiplikation von Potenzreihen benutzt. Potenzreihen sind eine sehr wichtige Klasse von Reihen, die uns in den nächsten Abschnitten noch öfter begegnen werden. Vorab begnügen wir uns aber mit ein paar Grundlagen. Definition 4.57 Unter einer Potenzreihe versteht man eine Reihe der Bauart $\sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n}$. Die Faktoren $a_{n}$ heißen die Koeffizienten der Potenzreihe, $x_{0}$ ist der Entwicklungspunkt oder die Anschlussstelle. Das Cauchyprodukt von Potenzreihen entspricht dem Ausmultiplizieren und dem anschließenden Ordnen nach Potenzen bei Polynomen, denn es gilt $$ \begin{aligned} \sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n} \sum_{n \geq 0} b_{n}\left(x-x_{0}\right)^{n} & =\sum_{n \geq 0}\left(\sum_{k=0}^{n} a_{k}\left(x-x_{0}\right)^{k} b_{n-k}\left(x-x_{0}\right)^{n-k}\right) \\ & =\sum_{n \geq 0}\left(\sum_{k=0}^{n} a_{k} b_{n-k}\right)\left(x-x_{0}\right)^{n} . \end{aligned} $$ Wie man anhand der obigen Definition sieht, hängen Potenzreihen von einer Unbestimmten $x$ ab und erinnern in ihrer Gestalt sehr stark an Polynome. Es handelt sich tatsächlich um mathematisch sehr einfach handhabbare Funktionen (natürlich nur, falls sie konvergent sind), weshalb sie auch zur Darstellung komplizierterer Funktionen verwendet werden. Bemerkung: Bisher haben wir nur Folgen und Reihen über $\mathbb{R}$ behandelt. Bei Potenzreihen können wir $x, x_{0}$ und die Koeffizienten $a_{n}$ auch aus $\mathbb{C}$ wählen. Die Resultate dieses Abschnitts sind nämlich auch in $\mathbb{C}$ in unveränderter Form gültig. ## Beispiel 4.58 (a) Wir betrachten die Reihe $\sum_{n \geq 0} x^{n}$, eine Potenzreihe mit Anschlussstelle 0 und allen Koeffizienten gleich 1. Diese Reihe ist bekanntlich eine geometrische Reihe. Sie konvergiert für alle $x \in \mathbb{C}$ mit $|x|<1$ und divergiert für $|x| \geq 1$. Ihr Konvergenzbereich ist somit das Innere des Einheitskreises der Gauß'schen Zahlenebene. (b) Die binomische Reihe ist definiert durch $\sum_{n \geq 0}\left(\begin{array}{l}\alpha \\ n\end{array}\right) x^{n}$ für $\alpha \in \mathbb{R}$, wobei $$ \left(\begin{array}{l} \alpha \\ n \end{array}\right)=\frac{\alpha(\alpha-1)(\alpha-2) \cdots(\alpha-n+1)}{n !} $$ Das Quotientenkriterium (in Limesform) liefert für $a_{n}=\left(\begin{array}{l}\alpha \\ n\end{array}\right) x^{n}$ und $\alpha \notin \mathbb{N}$ : $$ \frac{a_{n+1}}{a_{n}}=\frac{\left(\begin{array}{c} \alpha \\ n+1 \end{array}\right) x}{\left(\begin{array}{c} \alpha \\ n \end{array}\right)}=\frac{(\alpha-n) x}{n+1} \rightarrow-x \text { für } n \rightarrow \infty . $$ Im Fall $\alpha \notin \mathbb{N}$ ist diese Reihe daher für $|x|<1$ konvergent und für $|x|>1$ divergent. Wie im vorigen Beispiel ist auch hier der Rand des Konvergenzbereichs ein Kreis. Für $\alpha \in \mathbb{N}$ besteht die Reihe nur aus endlich vielen Gliedern und konvergiert daher trivialerweise in ganz $\mathbb{C}$. Aus dem binomischen Lehrsatz erhalten wir in diesem Fall $$ \sum_{n \geq 0}\left(\begin{array}{l} \alpha \\ n \end{array}\right) x^{n}=(1+x)^{\alpha} $$ In Kapitel 5 werden wir sehen, dass dies auch für $\alpha \notin \mathbb{N}$ zutrifft. Satz 4.59 Sei $\sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n}$ eine Potenzreihe. Dann existiert ein $R$ mit $0 \leq R \leq \infty$, so dass die Reihe für alle $x \in \mathbb{C}$ mit $\left|x-x_{0}\right|R$ divergent ist. Der Konvergenzbereich der Potenzreihe ist somit ein Kreis in der Gauß'schen Zahlenebene mit dem Radius $R$. Die Zahl $R$ heißt Konvergenzradius der Reihe und kann mit der Formel $$ R=\frac{1}{\limsup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}} $$ berechnet werden. Bemerkung: 1. Falls $\limsup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}=\infty$, so ist $R=0$ zu setzen. Die Potenzreihe kon- ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-166.jpg?height=64&width=1579&top_left_y=1488&top_left_x=154) gebiet ist dann die gesamte Gauß'sche Zahlenebene. 2. Wie bereits in einigen voran gehenden Beispielen (4.54a, 4.58) kann der Konvergenzradius in vielen Fällen sehr einfach (auch) mit dem Quotientenkriterium in Limesform berechnet werden. Beweis. Setzen wir $$ R=\frac{1}{\limsup _{n \rightarrow \infty} \sqrt[n]{\left|a_{n}\right|}} $$ und betrachten zunächst den Fall $\left|x-x_{0}\right|R$ argumentiert man analog. Eine einfache Folgerung aus diesem Satz ist, dass eine Potenzreihe in jeder konzentrischen abgeschlossenen Kreisscheibe, die innerhalb des Konvergenzkreises liegt, eine geometrische Reihe als Majorante besitzt. Satz 4.60 Sei $\sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n}$ eine Potenzreihe mit dem Konvergenzradius $R$. Sei weiters $00$ und $00$ gibt, so dass $$ \left|\frac{a_{n}}{b_{n}}\right| \leq C \text { für alle } n \in \mathbb{N} $$ gilt, (ii) $a_{n}=o\left(b_{n}\right)$ für $n \rightarrow \infty$ (gesprochen: „, $a_{n}$ ist ein klein $\mathrm{O}$ von $b_{n}{ }^{*}$ ), falls $\lim _{n \rightarrow \infty} a_{n} / b_{n}=$ 0 gilt. (iii) $a_{n} \sim b_{n}$ (gesprochen: , $a_{n}$ ist asymptotisch gleich $b_{n}$ "), falls $\lim _{n \rightarrow \infty} a_{n} / b_{n}=1$ gilt. Bemerkung: Es genügt in (i), die Ungleichung für fast alle $n \in \mathbb{N}$ zu fordern. Denn da es dann nur endlich viele Ausnahmen gibt, kann man durch Wahl einer entsprechend größeren Konstanten die Gültigkeit der Ungleichung für alle $n \geq 0$ erreichen. Weiters beachte man, dass durch die obige Definition nicht der isolierte Ausdruck $O\left(b_{n}\right)$ definiert wird, sondern nur die Bedeutung der Formel $a_{n}=O\left(b_{n}\right)$ als ganzes. Offensichtlich kann man keine formale Definition für $O\left(b_{n}\right)$ so angeben, dass $a_{n}=O\left(b_{n}\right)$ äquivalent zur Existenz einer Konstanten $C$ mit $\left|\frac{a_{n}}{b_{n}}\right| \leq C$ ist. Der Grund liegt darin, dass hier das Gleichheitszeichen „=" nicht in der üblichen Bedeutung verwendet wird. Für $n \rightarrow \infty$ gilt beispielsweise, dass jede Folge, die durch $C n^{2}$ beschränkt ist, auch durch $C^{\prime} n^{3}$ beschränkt ist, da $n^{3}$ ja noch schneller wächst. Jede Folge $a_{n}$ mit $a_{n}=O\left(n^{2}\right)$ erfüllt also auch $a_{n}=O\left(n^{3}\right)$. Umgekehrt sind Folgen $a_{n}$ mit $a_{n}=O\left(n^{3}\right)$ nicht notwendigerweise durch einen Ausdruck der Form $C n^{2}$ beschränkt, wie das Beispiel $a_{n}=n^{3}$ sofort zeigt. In der mathematischen Literatur werden die LandauSymbole auch als Stellvertreter für konkrete Folgen oder Funktionen verwendet, d.h., mit $O(n)$ ist eine durch $C n$ beschränkte Folge gemeint. Konkret ist die folgende Schreibweise üblich: Die „Gleichung" $O\left(n^{2}\right)=O\left(n^{3}\right)$ ist eine wahre Aussage, $O\left(n^{3}\right)=O\left(n^{2}\right)$ ist hingegen falsch. Beispiel 4.63 Es folgen einige Beispiele zur Landau'schen Notation. (a) $\frac{n(n-1)}{2}=\frac{n^{2}-n}{2}=O\left(n^{2}\right)$, da $\frac{n(n-1)}{2}0$ gemeint. Der Algorithmus Bubblesort hat beispielsweise eine mittlere Laufzeit von $O\left(n^{2}\right)$, Quicksort (siehe Kapitel 7) dagegen eine mittlere Laufzeit von $O(n \log n)$. ### 4.4 Elementare Funktionen In diesem Abschnitt beschäftigen wir uns mit Funktionen $f: D \rightarrow \mathbb{R}$, deren Definitionsbereich $D$ in $\mathbb{R}$ liegt. ## 1. Beispiele und einfache Eigenschaften ## Beispiel 4.64 (a) Polynomfunktionen sind Funktionen $f: \mathbb{R} \rightarrow \mathbb{R}$ der Gestalt $$ f(x)=a_{n} x^{n}+a_{n-1} x^{n-1}+\cdots+a_{1} x+a_{0} $$ mit $a_{0}, \ldots, a_{n} \in \mathbb{R}$, d.h., die Abbildungsvorschrift ist ein Polynom vom Grad $n$ mit reellen Koeffizienten. Die Graphen einiger Beispiele finden sich in Abb. 4.2. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-169.jpg?height=446&width=1466&top_left_y=1728&top_left_x=243) Abbildung 4.2 Polynomfunktionen: links: $f(x)=2 x+3$, Mitte: $f(x)=x^{2}$, rechts: $f(x)=x^{3}$ (b) Rationale Funktionen sind Funktionen $f: D \rightarrow \mathbb{R}$ der Form $f(x)=\frac{p(x)}{q(x)}$, wobei $p(x)$ und $q(x)$ Polynomfunktionen sind und $D=\mathbb{R} \backslash\{x \in \mathbb{R} \mid q(x)=0\}$. Zum Beispiel ist $f(x)=\frac{x}{x^{2}-4}$ (siehe Abb. 4.3, links) eine rationale Funktion mit dem Definitionsbereich $\mathbb{R} \backslash\{-2,2\}$. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-170.jpg?height=469&width=1479&top_left_y=298&top_left_x=215) Abbildung 4.3 Rationale Funktionen: links: $f(x)=\frac{x}{x^{2}-4}$, Mitte: $f(x)=\frac{(x+2)\left(x^{2}-3\right)}{x^{2}-4}$, rechts: $f(x)=\frac{x^{3}-3}{x^{3}-3 x+1}$ Definition 4.65 Sei $f: D \rightarrow \mathbb{R}$ eine Funktion und $I \subset D$ ein Intervall. Dann heißt $f$ auf $I$ streng monoton wachsend, falls für $x, y \in I$ mit $xf(y)$ folgt. Bemerkung: Man beachte, dass aus der Bedingung $x1$. Alle $x \in M$ erfüllen daher $x^{n}y$ gelten, dann folgt für $\varepsilon>0$ aus der Bernoulli'schen Ungleichung (Satz 4.20) $$ (m-\varepsilon)^{n}=m^{n}\left(1-\frac{\varepsilon}{m}\right)^{n} \geq m^{n}\left(1-\frac{n}{m} \varepsilon\right)=m^{n}-\varepsilon \cdot n m^{n-1} . $$ Falls $\varepsilon$ hinreichend klein ist, gilt $m^{n}-\varepsilon \cdot n m^{n-1}>y$. Also ist dann $(m-\varepsilon)^{n}>y$, somit $m-\varepsilon$ eine obere Schranke von $M$, und wir erhalten nochmals einen Widerspruch. Es muss also $f_{n}(m)=m^{n}=y$ gelten. Aus Satz 4.67 folgt, dass die Funktion $f_{n}$ eine Umkehrfunktion $f_{n}^{-1}: \mathbb{R}^{+} \rightarrow \mathbb{R}^{+}$besitzt. Auf diese Art lässt sich das Potenzieren mit rationalen Exponenten erklären: Sei $n \in \mathbb{N}$. Wir setzen zunächst $x^{-n}=\left(\frac{1}{x}\right)^{n}$, womit die Potenz für alle ganzzahligen Exponenten definiert ist. Für $n \in \mathbb{N} \backslash\{0\}$ und rationale Zahlen $p / q$ mit $p \in \mathbb{Z}$ und $q \in \mathbb{N} \backslash\{0\}$ definieren wir $$ x^{\frac{1}{n}}=f_{n}^{-1}(x), \quad x^{\frac{p}{q}}=\left(x^{\frac{1}{q}}\right)^{p} $$ Die Zahl $x^{\frac{1}{n}}$ wird die $n$-te Wurzel von $x$ genannt und oft als $\sqrt[n]{x}$ geschrieben. Aus dieser Definition erhält man leicht die bekannten Rechenregeln $x^{r} x^{s}=x^{r+s}, x^{r} / x^{s}=$ $x^{r-s},\left(x^{r}\right)^{s}=x^{r s}$ und $(x y)^{r}=x^{r} y^{r}$ für rationale Zahlen $r, s$. Weiters erhalten wir unmittelbar die folgenden Monotonieeigenschaften. Satz 4.68 Seien $x, y>0$ und $r \in \mathbb{Q}^{+}$. Dann ist $x0$ und $r, s \in \mathbb{Q}$ mit $r1$ (bzw. $x^{r}>x^{s}$, falls $x<1)$. Beweis. O.B.d.A. sei $x>1$. Dann folgt aus Satz 4.68, dass $x^{s} / x^{r}=x^{s-r}>1^{s-r}=1$ und daraus direkt die Behauptung. Die Erweiterung des Potenzierens auf irrationale Exponenten ist nicht ganz so einfach. Es genügt, sich hier auf positive Zahlen zu beschränken, da man mit der Regel $x^{-n}=\left(\frac{1}{x}\right)^{n}$ dann auch die Potenzen für negative irrationale Zahlen definieren kann. Jede reelle Zahl $\alpha>0$ lässt sich durch die Folge $\left(a_{n}\right)_{n \geq 0}$ von rationalen Zahlen, die man durch Abbrechen der Dezimalentwicklung von $\alpha$ nach $n$ Stellen erhält, approximieren. Dann ist $\left(a_{n}\right)_{n \geq 0}$ monoton wachsend und $a_{n} \rightarrow \alpha$. Ebenso ist wegen Satz 4.69 die Folge $x^{a_{n}}$ für $x>1$ monoton wachsend und beschränkt durch $x^{K}$, wobei $K \in \mathbb{Q}$ eine beliebige obere Schranke von $a_{n}$ ist. Daher ist $x^{a_{n}}$ konvergent. Nun könnten wir $x^{\alpha}$ definieren als $\lim _{n \rightarrow \infty} x^{b_{n}}$, für eine Folge $b_{n}$ mit $\lim _{n \rightarrow \infty} b_{n}=\alpha$. Wir müssen aber noch zeigen, dass dieser Grenzwert für allgemeine Folgen ebenfalls existiert und nicht von der Wahl der Folge abhängt. Satz 4.70 Sei $\left(a_{n}\right)_{n \geq 0}$ eine Nullfolge rationaler Zahlen und $x>0$ eine fest vorgegebene Zahl. Dann gilt $\lim _{n \rightarrow \infty} x^{a_{n}}=1$. Beweis. Der Fall $x=1$ ist trivial. Im Fall $x<1$ ist $1 / x>1$ und $x^{a_{n}}=(1 / x)^{-a_{n}}$, wobei $-a_{n}$ natürlich ebenfalls eine Nullfolge rationaler Zahlen ist. Wir können also o.B.d.A. $x>1$ annehmen. Für hinreichend große $n$ ist dann offensichtlich $x0$ beliebig vorgegebenen. Dann gibt es ein $m \in \mathbb{N}$ mit $1-\varepsilon0$ die Grenzwerte $\lim _{n \rightarrow \infty} x^{a_{n}}$ und $\lim _{n \rightarrow \infty} x^{b_{n}}$, und es gilt $\lim _{n \rightarrow \infty} x^{a_{n}}=\lim _{n \rightarrow \infty} x^{b_{n}}$. Beweis. Wir setzen $\alpha=\lim _{n \rightarrow \infty} a_{n}=\lim _{n \rightarrow \infty} b_{n}$. Sei zunächst $\left(a_{n}\right)_{n \geq 0}$ die Folge, die man durch Abbrechen der Dezimalentwicklung von $\alpha$ nach $n$ Stellen erhält. Offensichtlich ist $b_{n}-a_{n}$ eine Nullfolge. Daher ist $1=\lim _{n \rightarrow \infty} x^{b_{n}-a_{n}}$. Nach den obigen Überlegungen ist jedenfalls $x^{a_{n}}$ konvergent, und damit gilt $$ \lim _{n \rightarrow \infty} x^{b_{n}}=\lim _{n \rightarrow \infty} x^{b_{n}-a_{n}} \cdot \lim _{n \rightarrow \infty} x^{a_{n}}=\lim _{n \rightarrow \infty} x^{a_{n}}, $$ woraus unmittelbar die Behauptung folgt. Mit Hilfe dieses Satzes lässt sich nun das Potenzieren mit reellen Exponenten $\alpha$ als $x^{\alpha}=$ $\lim _{n \rightarrow \infty} x^{a_{n}}$, wobei $a_{n} \rightarrow \alpha$, erklären. Die Rechenregeln für das Potenzieren mit rationalen Exponenten übertragen sich nun unmittelbar auf das Potenzieren mit reellen Exponenten. ## 3. Exponentialfunktion und Logarithmus In diesem Abschnitt stellen wir die Exponentialfunktion vor, eine der wichtigsten Funktionen der Analysis, und ihre Umkehrfunktion, den Logarithmus. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-173.jpg?height=568&width=1135&top_left_y=282&top_left_x=154) Definition 4.72 Die natürliche Exponentialfunktion ist definiert durch $\exp (x)=e^{x}$, wobei $e$ die Euler'sche Zahl 2.71828 ... aus Beispiel 4.21 ist. Die allgemeine Exponentialfunktion lautet $f(x)=a^{x}$ mit $a \in \mathbb{R}^{+}$. Man kann die Exponentialfunktion natürlich auch mit anderen Funktionen $g(x)$ zusammensetzen und erhält dann $e^{g(x)}$. Ein besonders wichtiges Beispiel dieser Art ist die Funktion $f(x)=e^{-x^{2} / 2}$, die in der Wahrscheinlichkeitsrechnung und Statistik eine zentrale Rolle spielt und auch als Gauß'sche Glockenkurve bekannt ist (vgl. Abb 4.5). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-173.jpg?height=261&width=977&top_left_y=1348&top_left_x=463) Abbildung 4.5 Die Gauß'sche Glockenkurve $e^{-x^{2} / 2}$ Satz 4.73 Die Exponentialfunktion bildet $\mathbb{R}$ auf $\mathbb{R}^{+}$bijektiv ab. Bemerkung: In Abschnitt 4.5 werden wir den Begriff der Stetigkeit vorstellen. Die Exponentialfunktion ist eine stetige Funktion (Satz 4.78). Daher folgt der obige Satz auch unmittelbar aus dem Zwischenwertsatz (Satz 4.89). Beweis. Aus Satz 4.69 (der nach den obigen Überlegungen auch für irrationale Exponenten gilt) folgt, dass die Exponentialfunktion auf ganz $\mathbb{R}$ streng monoton wachsend und infolge dessen eine injektive Funktion ist. Zum Beweis der Surjektivität betrachtet man die Folgen $\left(e^{-n}\right)_{n \in \mathbb{N}}$ und $\left(e^{n}\right)_{n \in \mathbb{N}}$. Erstere ist eine Nullfolge, letztere konvergiert uneigentlich gegen $\infty$. Aufgrund dessen gibt es zu gegebenem $y \in \mathbb{R}^{+}$ein $n \in \mathbb{N}$ mit $e^{-n}0$ besitzt eine Umkehrfunktion, den Logarithmus zur Basis $a, f(x)=\log _{a} x$. Dabei können die allgemeine Exponentialfunktion und der allgemeine Logarithmus, wie man leicht zeigen kann, direkt auf die natürliche Exponentialfunktion bzw. den natürlichen Logarithmus zurück geführt werden. Es gilt $a^{x}=e^{x \ln a}$ gilt $\log _{a} x=\frac{\ln x}{\ln a}$. ## 4. Darstellungen der Exponentialfunktion ${ }^{2}$ Ziel dieses Abschnitts ist es, die folgenden Eigenschaften der Exponentialfunktion zu zeigen. Satz 4.74 Die natürliche Exponentialfunktion $e^{x}$ besitzt die folgenden Eigenschaften. (i) Darstellung als Grenzwert einer Folge: $$ e^{x}=\lim _{n \rightarrow \infty}\left(1+\frac{x}{n}\right)^{n} $$ (ii) Darstellung durch eine Potenzreihe: $$ e^{x}=1+x+\frac{x^{2}}{2 !}+\frac{x^{3}}{3 !}+\cdots=\sum_{n \geq 0} \frac{x^{n}}{n !} $$ (iii) Funktionalgleichung: $$ e^{x} \cdot e^{y}=e^{x+y} $$ Bemerkung: Für $x=1$ ergibt sich dann insbesondere $$ e=1+1+\frac{1}{2 !}+\frac{1}{3 !}+\ldots $$ Die Funktionalgleichung (4.9) folgt direkt aus der Definition als Potenz der Euler'schen Zahl $e$. Um die anderen Eigenschaften zu zeigen, wollen wir zunächst die Funktion $E(x)=$ $\lim _{n \rightarrow \infty}\left(1+\frac{x}{n}\right)^{n}$ (Existenz dieses Grenzwerts: Aufgabe 4.14) und ihren Zusammenhang zur Exponentialfunktion studieren. Wir wissen ja bereits aus Beispiel 4.21, dass $E(1)=e$.[^29] Satz 4.75 Für alle $x \in \mathbb{R}$ gilt $E(x) E(-x)=1$. Beweis. Es gilt einerseits $$ \left(1+\frac{x}{n}\right)^{n}\left(1-\frac{x}{n}\right)^{n}=\left(1-\frac{x^{2}}{n^{2}}\right)^{n}<1 $$ und wegen der Bernoulli'schen Ungleichung (Satz 4.20) andererseits $$ \left(1-\frac{x^{2}}{n^{2}}\right)^{n} \geq 1-\frac{x^{2}}{n} $$ Übergang zum Grenzwert für $n \rightarrow \infty$ ergibt nun die Behauptung. Satz 4.76 Es gelte $\lim _{n \rightarrow \infty} a_{n}=a$. Dann folgt $\lim _{n \rightarrow \infty}\left(1+\frac{a_{n}}{n}\right)^{n}=E(a)$. Bemerkung: Man beachte, dass daraus noch nicht $\lim _{n \rightarrow \infty} E\left(a_{n}\right)=E(a)$ folgt, denn $\lim _{n \rightarrow \infty} E\left(a_{n}\right)=\lim _{n \rightarrow \infty} \lim _{m \rightarrow \infty}\left(1+\frac{a_{n}}{m}\right)^{m}$, und wir wissen noch nicht, ob die beiden Grenzwerte vertauschbar sind. Dass das in diesem Fall tatsächlich erlaubt ist, wird weiter unten gezeigt. Beweis. Wir betrachten zunächst den Fall $a=0$. Die Bernoulli'sche Ungleichung (Satz 4.20) liefert $$ \left(1+\frac{a_{n}}{n}\right)^{n} \geq 1+a_{n} $$ und $$ \frac{1}{\left(1+\frac{a_{n}}{n}\right)^{n}}=\left(\frac{n}{n+a_{n}}\right)^{n}=\left(1-\frac{a_{n}}{n+a_{n}}\right)^{n} \geq 1-\frac{n a_{n}}{n+a_{n}} $$ für $n$ so groß, dass $a_{n} / n>-1$ und $a_{n} /\left(n+a_{n}\right)>-1$ gelten. Insgesamt ergibt sich somit $$ \frac{1}{1-\frac{n a_{n}}{n+a_{n}}} \geq\left(1+\frac{a_{n}}{n}\right)^{n} \geq 1+a_{n} $$ Da die beiden äußeren Terme wegen $a_{n} \rightarrow 0$ gegen 1 konvergieren, folgt $\lim _{n \rightarrow \infty} E\left(a_{n}\right)=1=$ $E(0)$. Sei nun $a$ beliebig. Dann gilt $$ \left(1+\frac{a_{n}}{n}\right)^{n}\left(1-\frac{a}{n}\right)^{n}=\left(1+\frac{a_{n}-a-\frac{a_{n} a}{n}}{n}\right)^{n} . $$ Da $\lim _{n \rightarrow \infty}\left(1-\frac{a}{n}\right)^{n}=E(-a)$ und $a_{n}-a-\frac{a_{n} a}{n}$ eine Nullfolge ist, folgt aus Satz 4.75 die Behauptung. Satz 4.77 $E(x)$ erfült die gleiche Funktionalgleichung wie die Exponentialfunktion, d.h., für alle reellen Zahlen $x$, y gilt $E(x) E(y)=E(x+y)$. Beweis. Wir haben $$ E(x) E(y)=\lim _{n \rightarrow \infty}\left(1+\frac{x}{n}\right)^{n}\left(1+\frac{y}{n}\right)^{n}=\lim _{n \rightarrow \infty}\left(1+\frac{x+y+\frac{x y}{n}}{n}\right)^{n}=E(x+y), $$ wobei die letzte Gleichung aus $x+y+\frac{x y}{n} \rightarrow x+y$ folgt. Als Folgerung dieses Satzes und der Gleichung $E(1)=e$ ist $e^{x}=E(x)$ für $x \in \mathbb{Q}$. Weiters folgt auch die strikte Monotonie der Funktion $E(x)$. Denn für $a1$. Setzt man dies in die Funktionalgleichung $E(b)=E(a) E(b-a)$ ein, so erhält man $E(a)0 \\ -1 & \text { falls } x<0 \end{aligned}\right. $$ Hier ist eine stetige Fortsetzung der Funktion an der Stelle $x_{0}=0$ offenbar nicht möglich, da der Grenzwert $\lim _{x \rightarrow 0} g(x)$ davon abhängt, von welcher Seite wir uns der Stelle $x_{0}$ nähern. Die einseitigen Grenzwerte sind $\lim _{x \rightarrow 0-} g(x)=-1$ und $\lim _{x \rightarrow 0+} g(x)=1$. Die obigen Betrachtungen legen den folgenden Begriff nahe. Definition 4.82 Eine Funktion $f: D \rightarrow \mathbb{R}$ mit $D \subseteq \mathbb{R}$ besitzt an der Stelle $x_{0}$ den Grenzwert $c(c \in \mathbb{R})$, wenn für jede Folge $\left(x_{n}\right)_{n>1}\left(x_{n} \in D\right)$ mit $x_{n} \neq x_{0}$ und $\lim _{n \rightarrow \infty} x_{n}=x_{0}$ folgt, dass $\lim _{n \rightarrow \infty} f\left(x_{n}\right)=c$. Falls aus $x_{n} \rightarrow \infty$ folgt, dass $f\left(x_{n}\right) \rightarrow c$, dann ist $\lim _{x \rightarrow \infty} f(x)=c$. In Fällen $c=-\infty$ und $c=+\infty$ spricht man von einem uneigentlichen Grenzwert an der Stelle $x_{0}$. Eine Funktion $f$ besitzt an der Stelle $x_{0}$ den rechtsseitigen Grenzwert $c$, wenn für jede Folge $\left(x_{n}\right)$ mit $x_{n}>x_{0}$ und $\lim _{n \rightarrow \infty} x_{n}=x_{0}$ folgt, dass $\lim _{n \rightarrow \infty} f\left(x_{n}\right)=c$. Man schreibt auch: $\lim _{x \rightarrow x_{0}+} f(x)=c$. Analog sind der linksseitige Grenzwert $\lim _{x \rightarrow x_{0}-} f(x)$ sowie uneigentliche einseitige Grenzwerte definiert. ## Beispiel 4.83 (Grenzwerte von Funktionen) (a) Gesucht ist $\lim _{x \rightarrow 1} \frac{3 x+1}{x+1}$. Einsetzen einer beliebigen Folge $\left(x_{n}\right)$ mit $x_{n} \rightarrow 1$ ergibt: $$ \lim _{n \rightarrow \infty} \frac{3 x_{n}+1}{x_{n}+1}=\frac{\lim _{n \rightarrow \infty}\left(3 x_{n}+1\right)}{\lim _{n \rightarrow \infty}\left(x_{n}+1\right)}=\frac{4}{2}=2 . $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-181.jpg?height=464&width=1496&top_left_y=293&top_left_x=194) Abbildung 4.10 links: $\lim _{x \rightarrow \pi / 2} \sin x=1$, Mitte: $\lim _{x \rightarrow \infty} \arctan x=\frac{\pi}{2}$, rechts: einseitige Grenzwerte ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-181.jpg?height=506&width=1114&top_left_y=906&top_left_x=393) Abbildung 4.11 links: uneigentlicher Grenzwert $\lim _{x \rightarrow 0} \frac{1}{x^{2}}$, rechts: Grenzwert $\lim _{x \rightarrow 0} \sin \frac{1}{x}$ existiert nicht (b) Analog bestimmt man $$ \lim _{x \rightarrow \infty} \frac{3 x+1}{x+1}=\lim _{x \rightarrow \infty} \frac{3+\frac{1}{x}}{1+\frac{1}{x}}=\frac{3}{1}=3 $$ Man beachte, dass wir hier nicht mehr mit Folgen argumentieren müssen, sondern direkt Grenzwerte von Funktionen bestimmen können. Da Grenzwerte von Funktionen über Grenzwerte von Folgen definiert werden, sind nämlich auch alle Rechenregeln für letztere (Satz 4.14 und 4.16) direkt übertragbar. (c) Der Grenzwert $\lim _{x \rightarrow 0} \frac{\sin x}{x}$ lässt sich z.B. mit Hilfe der Reihendarstellung (siehe Abschnitt 4.4 und Beispiel 5.22 a) bestimmen: $$ \lim _{x \rightarrow 0} \frac{\sin x}{x}=\lim _{x \rightarrow 0} \frac{1}{x}\left(x-\frac{x}{3 !}+\frac{x^{5}}{5 !}-+\ldots\right)=\lim _{x \rightarrow 0}\left(1-\frac{x^{2}}{3 !}+\frac{x^{4}}{5 !}-+\ldots\right)=1 $$ Hier ist aber zu beachten, dass zwei Grenzübergänge durchgeführt werden, nämlich der Grenzwert für $x \rightarrow 0$ und das Aufsummieren der Reihe (Grenzwert der Partialsummenfolge). Das kann zu Problemen führen, da das Vertauschen zweier Grenzübergänge manchmal nicht zum selben Ergebnis führt. Man kann aber zeigen, dass man hier (ebenso wie allgemein im Konvergenzbereich jeder Potenzreihe) diese beiden Grenzübergänge uneingeschränkt vertauschen kann, was diesen Ansatz rechtfertigt. Auf völlig analoge Weise lässt sich zeigen, dass $$ \lim _{x \rightarrow 0} \frac{\cos x-1}{x}=0 $$ (d) Sei $f(x)=1 /\left(1+9 \sin \frac{1}{x}\right)$. Für $x \rightarrow \infty$ konvergiert $1 / x$ gegen 0 und daher $\sin \frac{1}{x}$ ebenso (vgl. auch Abb. 4.10, linkes Bild). Das impliziert $$ \lim _{x \rightarrow \infty} \frac{1}{1+9 \sin \frac{1}{x}}=\frac{1}{1+9 \lim _{x \rightarrow \infty} \sin \frac{1}{x}}=1 $$ Man erkent anhand der betrachteten Beispiele, dass es Funktionen gibt, deren Graph „,durchgehend gezeichnet" werden kann, d.h., dass die Funktion keine Sprünge aufweist (also links- und rechtsseitiger Grenzwert übereinstimmen) und „durchgehend definiert" (also ohne Lücken) ist. Dies führt auf folgende Definition 4.84 Eine Funktion $f: D \rightarrow \mathbb{R}$ heißt stetig an der Stelle $x_{0} \in D$, wenn $f\left(x_{0}\right)=$ $\lim _{x \rightarrow x_{0}} f(x)$. Die Funktion $f$ heißt stetig in $D$, wenn $f$ an jeder Stelle $x_{0} \in D$ stetig ist. Bemerkung: Stetigkeit bedeutet also nichts anderes, als dass man Grenzwertbildung und Funktionsauswertung miteinander vertauschen kann. Eine Funktion ist genau dann stetig an der Stelle $x_{0}$, wenn $\lim _{x \rightarrow x_{0}} f(x)=f\left(\lim _{x \rightarrow x_{0}} x\right)$ gilt. Wir haben den Grenzwert von Funktionen (und damit auch die Stetigkeit) über den Grenzwert von Folgen definiert. Im Folgenden stellen wir eine äquivalente Definition der Stetigkeit vor. Definition 4.85 Eine Funktion $f: D \rightarrow \mathbb{R}$ heißt stetig an der Stelle $x_{0} \in D$, wenn $$ \forall \varepsilon>0 \exists \delta=\delta(\varepsilon)>0:\left(\left|x-x_{0}\right|<\delta \Longrightarrow\left|f(x)-f\left(x_{0}\right)\right|<\varepsilon\right) $$ Diese Definition besagt anschaulich folgendes: Betrachten wir die Funktion $f(x)$ lokal um die Stelle $x_{0}$. Wir geben uns eine Toleranz $\varepsilon>0$ beliebig vor und erlauben der Funktion $f(x)$, sich innerhalb des Intervalls $I_{1}=\left(f\left(x_{0}\right)-\varepsilon, f\left(x_{0}\right)+\varepsilon\right)$ zu bewegen. Genau dann, wenn die Funktion stetig ist, lässt sich immer (d.h. für jedes $\varepsilon>0$ ) ein Intervall $I_{0}=\left(x_{0}-\delta, x_{0}+\delta\right.$ ) finden, so dass die Funktion das Intervall $I_{1}$ nicht verlässt, solange das Argument $x$ im Intervall $I_{0}$ bleibt (siehe Abb. 4.12). Der Funktionswert einer stetigen Funktion verändert sich also nur wenig, wenn das Argument nur wenig verändert wird. Eine wichtige Klasse von stetigen Funktionen sind die Potenzreihen. Satz 4.86 Sei $f(x)=\sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n}$ eine (reelle oder komplexe) Potenzreihe mit Entwicklungspunkt $x_{0}$. Der Konvergenzradius der Potenzreihe sei $R$. Dann ist $f$ im Konvergenzkreis $|x|N}\left(\left|a_{m} x_{n}^{m}\right|+\left|a_{m} x^{m}\right|\right) . \end{aligned} $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-183.jpg?height=605&width=674&top_left_y=272&top_left_x=595) Abbildung 4.12 Zur $\varepsilon$ - $\delta$-Definition der Stetigkeit $\mathrm{Da}\left|x_{n}\right| \leq r0$ und $00$ vor, dann gibt es ein $N$, so dass der zweite Summand kleiner $\varepsilon / 2$ ist. Da wegen $x_{n} \rightarrow x$ auch $x_{n}^{m} \rightarrow x^{m}$ gilt, ist auch der erste Summand für hinreichend große $n$ kleiner als $\varepsilon / 2$, womit das $\varepsilon-\delta$-Kriterium für $f$ (Definition 4.85) bewiesen ist. ## 2. Eigenschaften stetiger Funktionen Eine direkte Konsequenz der Stetigkeit ist die Vorzeichenbeständigkeit. Satz 4.87 Für jede stetige Funktion $f$ mit $f\left(x_{0}\right)>0$ gibt es eine $\delta$-Umgebung $U_{\delta}\left(x_{0}\right)$, so dass $f(x)>0$, für alle $x \in U_{\delta}\left(x_{0}\right)$. Für $f\left(x_{0}\right)<0$ gilt eine analoge Aussage. Beweis. Wir setzen $\varepsilon=f\left(x_{0}\right) / 2$. Dann gibt es aufgrund der Stetigkeit von $f$ ein $\delta$, so dass $\left|f(x)-f\left(x_{0}\right)\right|<\varepsilon$ für $\left|x-x_{0}\right|<\delta$. Daraus folgt $$ f(x)>f\left(x_{0}\right)-\varepsilon=\frac{f\left(x_{0}\right)}{2}>0 $$ für $\left|x-x_{0}\right|<\delta$. Satz 4.88 (Nullstellensatz von Bolzano) Sei $f:[a, b] \rightarrow \mathbb{R}$ eine auf dem ganzen Intervall $[a, b]$ stetige Funktion mit $f(a)<0$ und $f(b)>0$. Dann besitzt $f$ auf $[a, b]$ mindestens eine Nullstelle, d.h., es gibt ein $c \in[a, b]$ mit $f(c)=0$. Beweis. Zum Beweis konstruieren wir zwei Folgen $\left(a_{n}\right)_{n \geq 0}$ und $\left(b_{n}\right)_{n \geq 0}$ nach folgendem Algorithmus: Sei $a_{0}=a$ und $b_{0}=b$. Die Werte $a_{1}$ und $b_{1}$ werden in Abhängigkeit von $f_{0}=f\left(\frac{a_{0}+b_{0}}{2}\right)$ bestimmt: $f_{0}<0$ : Dann setzen wir $a_{1}=\frac{a_{0}+b_{0}}{2}$ und $b_{1}=b_{0}$. $f_{0}>0$ : Dann setzen wir $a_{1}=a_{0}$ und $b_{1}=\frac{a_{0}+b_{0}}{2}$. $f_{0}=0$ : Dann haben wir die gewünschte Nullstelle und sind fertig. Falls wir noch keine Nullstelle gefunden haben, wenden wir das obige Verfahren auf $\left[a_{1}, b_{1}\right]$ an, usw. Auf diese Weise erhält man entweder nach endlich vielen Schritten eine Nullstelle oder zwei Folgen $\left(a_{n}\right)_{n \geq 0}$ und $\left(b_{n}\right)_{n \geq 0}$. Aufgrund der Konstruktion ist offensichtlich, dass $f\left(a_{n}\right)<0$ und $f\left(b_{n}\right)>0$. Darüber hinaus sind die Folgen $\left(a_{n}\right)_{n \geq 0}$ und $\left(b_{n}\right)_{n \geq 0}$ beschränkt, erstere ist monoton wachsend und letztere monoton fallend. Wegen $\left|a_{n}-b_{n}\right|=|a-b| \cdot 2^{-n}$ konvergieren sowohl $\left(a_{n}\right)_{n \geq 0}$ als auch $\left(b_{n}\right)_{n \geq 0}$ gegen denselben Grenzwert $c$. Aus $\lim _{n \rightarrow \infty} a_{n}=\lim _{n \rightarrow \infty} b_{n}=c$ folgt nun aufgrund der Stetigkeit von $f$, dass $\lim _{n \rightarrow \infty} f\left(a_{n}\right)=\lim _{n \rightarrow \infty} f\left(b_{n}\right)=f(c)$. Wegen $f\left(a_{n}\right)<0$ muss jedoch $\lim _{n \rightarrow \infty} f\left(a_{n}\right) \leq 0$ gelten. Analog gilt $\lim _{n \rightarrow \infty} f\left(b_{n}\right) \geq 0$ und folglich $f(c)=0$. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-184.jpg?height=488&width=1402&top_left_y=1129&top_left_x=242) Abbildung 4.13 Nullstellen- und Zwischenwertsatz Satz 4.89 (Zwischenwertsatz) Sei $f:[a, b] \rightarrow \mathbb{R}$ stetig. Dann nimmt $f$ auf $[a, b]$ jeden Wert $z$ wischen $f(a)$ und $f(b)$ mindestens einmal an. Beweis. Im Fall $f(a)=f(b)$ ist nichts zu beweisen. Sei o.B.d.A. $f(a)0$. Aus Satz 4.88 folgt nun die Existenz einer Nullstelle $c$ von $g(x)$. Dieses $c$ leistet aber bereits das Gewünschte, denn $f(c)=y$ (vgl. Abb. 4.13). Satz 4.90 Sei $I \subseteq \mathbb{R}$ ein abgeschlossenes Intervall und $f: I \rightarrow \mathbb{R}$ eine stetige Funktion. Dann ist $f(I)$ ebenfalls ein abgeschlossenes Intervall. Beweis. Für $x, y \in I$ gilt nach Satz 4.89, dass alle Werte zwischen $f(x)$ und $f(y)$ in $f(I)$ liegen. $f(I)$ ist also ein Intervall. Sei $A=\sup f(I)$. Dann existiert eine Folge $\left(b_{n}\right)_{n \geq 0}$ mit $b_{n} \rightarrow A$. Wegen $b_{n} \in f(I)$ existieren $a_{n}$ mit $f\left(a_{n}\right)=b_{n}$. $\mathrm{Da}\left(a_{n}\right)_{n \geq 0}$ beschränkt ist, existiert nach Satz 4.27 eine konvergente Teilfolge $\left(a_{n_{k}}\right)_{k \geq 0}$. Sei $a=\lim _{k \rightarrow \infty} a_{n_{k}}$. Dann folgt aufgrund der Stetigkeit von $f$, dass $f(a)=A$. Analoge Argumente für inf $f(I)$ ergeben schließlich die Abgeschlossenheit von $f(I)$. Der vorige Satz beinhaltet auch Folgendes: Eine auf einem abgeschlossenen Intervall $I$ stetige Funktion nimmt auf $I$ ein Maximum und ein Minimum an. Satz 4.91 Sei $I=[a, b]$ ein Intervall und $f: I \rightarrow \mathbb{R}$ eine streng monotone und stetige Funktion. Dann existiert die Umkehrfunktion $f^{-1}: f(I) \rightarrow I$ und ist ebenfalls stetig. Beweis. O.B.d.A. sei $f$ streng monoton wachsend. Wegen des Zwischenwertsatzes (Satz 4.89) nimmt $f$ auf $I$ alle Werte zwischen $f(a)$ und $f(b)$ an, also ist $f(I)=[f(a), f(b)]$. Aufgrund der strengen Monotonie lässt sich $f$ umkehren, und $f^{-1}$ ist ebenfalls streng monoton wachsend. Sei $y \in f(I)$, wobei wir uns auf den Fall $y \neq f(a)$ und $y \neq f(b)$ beschränken. Dann gilt $x=$ $f^{-1}(y) \in(a, b)$. Die anderen Fälle ( $y$ am Rand des Intervalls) lassen sich ähnlich behandeln. Wir müssen zeigen, dass $f^{-1}$ stetig an der Stelle $y$ ist, also dass $$ \forall \varepsilon>0 \exists \delta>0:|\bar{y}-y|<\delta \Longrightarrow\left|f^{-1}(\bar{y})-x\right|<\varepsilon $$ gilt. Dazu geben wir uns $\varepsilon>0$ so vor, dass $[x-\varepsilon, x+\varepsilon] \subseteq[a, b]$. Dann gilt $f(x-\varepsilon)0$, so dass $f(x-\varepsilon)0$ ein passendes $N(\epsilon)$ angeben. (a) $a_{n}=\frac{\sin n+\cos n}{\sqrt{n}}$ (b) $a_{n}=\frac{\sin n}{\sqrt[4]{n}}$ (c) $a_{n}=\frac{n^{2}}{1+n^{2}}$ (d) $a_{n}=\frac{1+(-1)^{n}}{n^{2}}$ 4.2 Geben Sie eine Folge reeller Zahlen an, so dass die Menge ihrer Häufungspunkte gleich $\mathbb{N}, \mathbb{Z}$ bzw. $\mathbb{Q}$ ist. 4.3 Bestimmen Sie alle Häufungspunkte der Folge $a_{n}=(-1)^{n}+\cos \frac{n \pi}{2}(n \geq 0)$. 4.4 Bestimmen Sie alle Häufungspunkte der Folge $a_{n}=\sin \frac{n \pi}{2}+(-1)^{n(n+1) / 2}(n \geq 0)$. 4.5 Zeigen Sie, dass die Folge $$ a_{n}=\frac{\sin n+\cos n}{\sqrt{n}} \quad(n \geq 1) $$ nur 0 als Häufungspunkt hat. 4.6 Man untersuche die rekursiv gegebenen Folgen $\left(a_{n}\right)_{n \geq 0}$ (mit Hilfe vollständiger Induktion) auf Monotonie und Beschränktheit und bestimme gegebenenfalls den Grenzwert $\lim _{n \rightarrow \infty} a_{n}$. (a) $a_{0}=3, a_{n+1}=\sqrt{2 a_{n}-1}$ für alle $n \geq 0$. (b) $a_{0}=4, a_{n+1}=\sqrt{6 a_{n}-9}$ für alle $n \geq 0$. (c) $a_{0}=2, a_{n+1}=\sqrt{a_{n}+1}$ für alle $n \geq 0$. (d) $a_{0}=2, a_{n+1}=2 \sqrt{a_{n}-1}$ für alle $n \geq 0$. 4.7 Gegeben sei die rekursiv definierte Folge $\left(a_{n}\right)_{n \geq 0}$ mit $a_{0}=3$ und $a_{n+1}=\left(a_{n}+6 / a_{n}\right) / 2$ für alle $n \geq 0$. Man berechne die Folgenglieder $a_{n}$ für $n=0,1, \ldots, 10$, untersuche die Folge in Bezug auf Monotonie, Beschränktheit sowie Konvergenz und berechne gegebenenfalls den Grenzwert. 4.8 Zeigen Sie, dass $a_{n}=\sqrt[n]{n}-1$ eine Nullfolge ist. Hinweis: Man entwickle $n=\left(1+a_{n}\right)^{n}$ mit Hilfe des binomischen Lehrsatzes und zeige damit die Ungleichung $a_{n} \leq \sqrt{2 / n}$. 4.9 Seien $P_{1}$ und $P_{2}$ beliebige Punkte der Zahlengeraden. Man halbiere fortgesetzt die Strecke $\overline{P_{1} P_{2}}$ in $P_{3}$, die Strecke $\overline{P_{2} P_{3}}$ in $P_{4}, \overline{P_{3} P_{4}}$ in $P_{5}$, usw. und bestimme die Lage von $P_{n}$ für $n \rightarrow \infty$. 4.10 Man vervollständige den Beweis von Satz 4.14 4.11 Man untersuche nachstehende Folgen in Hinblick auf Monotonie, Beschränktheit und mögliche Grenzwerte. Ferner veranschauliche man die Folgen auf der reellen Zahlengeraden: (a) $\left(a_{n}\right)=0,1, \frac{1}{2}, 3, \frac{1}{4}, 5, \frac{1}{6}, \ldots, n, \frac{1}{n+1}, \ldots$ (b) $\left(b_{n}\right)$ mit $b_{n}=\frac{n+4}{n-1}$ für $n \geq 2$ (c) $\left(c_{n}\right)$ mit $c_{n}=(-1)^{n} \frac{n+1}{n}$ für $n \geq 1$ 4.12 Untersuchen Sie die Folge $\left(a_{n}\right)_{n>0}$ auf Konvergenz und bestimmen Sie gegebenenfalls den Grenzwert. (a) $a_{n}=\frac{2 n^{3}+2 n-3}{4 n^{3}+n^{2}+5}$ (b) $a_{n}=\frac{4 n^{2}+5 n-3}{2 n^{3}+3 n^{2}-n+7}$ (c) $a_{n}=\frac{3 n^{2}-5 n+7}{3 n^{3}-5 n+7}$ (d) $a_{n}=\frac{2 n^{3}-5 n^{2}+7}{2 n^{3}-5 n+7}$ (e) $a_{n}=\frac{2 n^{2}-5 n^{\frac{9}{4}}+7}{7 n^{3}+2 n^{-\frac{3}{2}}+1}$ (f) $a_{n}=\frac{3 n^{2}-4 n^{\frac{11}{3}}+n^{-1}}{2 n^{4}+2 n^{-\frac{3}{2}}+1}$ (g) $a_{n}=\sqrt{n+1}-\sqrt{n}$ (h) $a_{n}=\sqrt{n+\sqrt{n}}-\sqrt{n}$ (i) $a_{n}=\frac{n !}{n^{n}}$ (j) $a_{n}=\frac{\sqrt{n+2}-\sqrt{n}}{\sqrt[3]{\frac{1}{n}}}$ (k) $a_{n}=n q^{n} \quad(-11)$ (m) $a_{n}=\sqrt[n^{2}]{n^{5}+1}$ (n) $a_{n}=\sqrt[n^{2}]{n^{3}+n^{2}}$ Hinweis zu den letzten beiden Aufgaben: Benützen Sie Aufgabe 4.8. 4.13 Untersuchen Sie die Folge $\left(a_{n}\right)_{n \geq 0}$ auf Konvergenz und bestimmen Sie gegebenenfalls mit Hilfe des Sandwich-Theorems (Satz 4.22) den Grenzwert. (a) $a_{n}=\sum_{k=1}^{n} \frac{1}{n^{2}+k}$ (b) $a_{n}=\sum_{k=1}^{n} \frac{1}{(n+k)^{2}}$ (c) $a_{n}=\sum_{k=1}^{n} \frac{1}{\sqrt{n^{2}+k}}$ (d) $a_{n}=\sum_{k=1}^{n} \frac{n^{2}+k}{n^{3}+k}$ 4.14 Beweisen Sie mit Hilfe von Beispiel 4.21, dass für $\alpha \in \mathbb{R}$ gilt: $\lim _{n \rightarrow \infty}\left(1+\frac{\alpha}{n}\right)^{n}=e^{\alpha}$. 4.15 Es sei $\lim _{n \rightarrow \infty} a_{n}=a$. Man bestimme den Grenzwert der beiden Reihen $\sum_{n \geq 0}\left(a_{n+1}-a_{n}\right)$ und $\sum_{n \geq 0}\left(a_{n+2}-a_{n}\right)$. 4.16 Es sei $\lim _{n \rightarrow \infty} a_{n}=0$. Man bestimme den Grenzwert der Reihe $\sum_{n \geq 0}(-1)^{n}\left(a_{n+1}+a_{n}\right)$. 4.17 Bestimmen Sie den Grenzwert der folgenden Reihen. (a) $\sum_{n=1}^{\infty} \frac{3}{n(n+2)}$ (b) $\sum_{n=1}^{\infty} \frac{1}{n(n+1)}$ (c) $\sum_{n=1}^{\infty} \frac{n}{(n+1) !}$ (d) $\sum_{n=1}^{\infty} \frac{n+1}{(n+2) !}$ 4.18 Zeigen Sie durch Angabe eines konkreten Beispiels, dass die Monotoniebedingung in Satz 4.41 nicht notwendig ist, d.h., dass die Umkehrung des Leibnizkriteriums nicht richtig ist. 4.19 Beweisen Sie das Minorantenkriterium (Satz 4.48). 4.20 Untersuchen Sie die folgenden Reihen auf Konvergenz. (a) $\sum_{n \geq 0} \frac{3 n^{2}+1}{5 n^{3}-2}$ (b) $\sum_{n \geq 0} \frac{n-2}{2 n^{3}+5 n-3}$ (c) $\sum_{n \geq 0} \frac{n+2}{6^{n}}$ (d) $\sum_{n \geq 1} \frac{n !}{n^{n}}$ (e) $\sum_{n \geq 0} \frac{2 n^{2}+1}{n^{4}+2}$ (f) $\sum_{n \geq 0} \frac{n+3}{7 n^{2}-2 n+1}$ (g) $\sum_{n \geq 0} \frac{n-1}{3^{n}}$ (h) $\sum_{n \geq 1} \frac{n^{n-1}}{n !}$ (i) $\sum_{n \geq 0} \frac{(-1)^{n}}{\sqrt{n^{2}+2}}$ (j) $\sum_{n \geq 0} \frac{(-1)^{n}}{n^{3 / 2}+5 n}$ (k) $\sum_{n \geq 0} \frac{(-1)^{n}}{\sqrt[3]{n+2}}$ (1) $\sum_{n \geq 0} \frac{(-1)^{n}}{(n+3)^{4 / 3}}$ Hinweis: Man benütze (4.1). 4.21 Man zeige mit Hilfe des Quotientenkriteriums, dass die Folge $\left(\frac{a^{n}}{n !}\right)_{n \in \mathbb{N}}$ für alle $a \in \mathbb{R}$ eine Nullfolge ist. 4.22 Sei $a_{n} \geq 0$ und die Reihe $\sum_{n \geq 0} a_{n}$ konvergent. Man zeige, dass dann auch die Reihe $\sum_{n \geq 0} a_{n}^{2}$ konvergiert. Gilt dies auch ohne die Voraussetzung $a_{n} \geq 0$ ? (Beweis oder Gegenbeispiel!) 4.23 Für welche $x \in \mathbb{R}$ bzw. $z \in \mathbb{C}$ konvergieren die folgenden Reihen (a) $\sum_{n \geq 0}\left(\begin{array}{l}\frac{1}{2} \\ n\end{array}\right) x^{n}$ (b) $\sum_{n \geq 0}\left(\begin{array}{c}2 n \\ n\end{array}\right) x^{n}$ (c) $\sum_{n=1}^{\infty} \frac{1}{2 n-1}(x-1)^{n}$ (d) $\sum_{n=1}^{\infty} \frac{n}{n^{2}+1}(x+1)^{n}$ (e) $\sum_{n \geq 0} \frac{z^{2 n+1}}{(2 n+1) !}$ (f) $\sum_{n \geq 0} \frac{z^{2 n}}{(2 n) !}$ 4.24 Man zeige: $$ \sum_{n=0}^{\infty} \frac{a^{n}}{n !} \sum_{n=0}^{\infty} \frac{b^{n}}{n !}=\sum_{n=0}^{\infty} \frac{(a+b)^{n}}{n !}, \quad a, b \in \mathbb{R} $$ 4.25 Zeigen Sie mit Hilfe eines geeigneten Konvergenzkriteriums für Reihen, dass die Potenzreihe der Exponentialfunktion (4.8) in ganz $\mathbb{C}$ absolut konvergiert. 4.26 Man berechne unter Benützung der - aus der Euler'schen Formel (4.10) folgenden - Moivre'schen Formel $(\cos x+i \sin x)^{n}=\cos (n x)+i \sin (n x)$ den Grenzwert der Reihe: (a) $\sum_{n \geq 0} \frac{\sin \frac{n \pi}{3}}{2^{n}}$ (b) $\sum_{n \geq 0} \frac{\cos \frac{n \pi}{3}}{2^{n}}$ 4.27 Untersuchen Sie, welche $o$-, $O$ - und $\sim$-Beziehungen zwischen den Folgen $a_{n}, b_{n}$ und $c_{n}$ bestehen. (a) $a_{n}=2 n, b_{n}=\frac{n^{2}}{2}, c_{n}=\frac{3 n^{4}}{6 n^{2}+1}$. (b) $a_{n}=\frac{2}{n}, b_{n}=\frac{1}{n^{2}}, c_{n}=\frac{8 n^{2}}{4 n^{3}+1}$. 4.28 Man bestimme die Größenordnungen von (a) $2.7 n^{2}-0.5 n+1$, (b) $0.35 \cdot 2^{n}+5 n^{5}$, (c) $\sqrt{1+1.1 n^{2}}$ Ferner zeige man, dass (d) $a_{n}=O(1) \Leftrightarrow\left(a_{n}\right)$ beschränkt, und (e) $a_{n}=o(1) \Leftrightarrow\left(a_{n}\right)$ Nullfolge. 4.29 Zeigen Sie die folgenden asymptotischen Beziehungen für festes $k$ und $n \rightarrow \infty$ : (a) $\left(\begin{array}{l}n \\ k\end{array}\right) \sim \frac{n^{k}}{k !}$ (b) $\left(\begin{array}{c}n+k-1 \\ k\end{array}\right) \sim \frac{n^{k}}{k !}$ 4.30 Zeigen Sie die folgende asymptotische Beziehung für die Anzahl der Variationen ohne Wiederholungen für festes $k$ und $n \rightarrow \infty$ : $$ [n]_{k}=n(n-1) \cdots(n-k+1)=n^{k}+O\left(n^{k-1}\right) $$ 4.31 Zeigen Sie mit Hilfe der Stirling'schen Approximationsformel $n ! \sim n^{n} e^{-n} \sqrt{2 \pi n}$ (siehe Beispiel $4.63 \mathrm{~d})$ : (a) $\left(\begin{array}{c}2 n \\ n\end{array}\right) \sim \frac{4^{n}}{\sqrt{\pi n}}$ (b) $\left(\begin{array}{c}3 n \\ n\end{array}\right) \sim\left(\frac{27}{4}\right)^{n} \sqrt{\frac{3}{4 \pi n}}$ 4.32 Beweisen Sie Satz 4.68. 4.33 Zeigen Sie, dass eine Funktion $E(x)$, die $E(1)=e$ und die Funktionalgleichung aus Satz 4.77 erfüllt, für $x \in \mathbb{Q}$ mit $e^{x}$ übereinstimmen muss. 4.34 Die Abbildungen sinh, cosh $: \mathbb{R} \rightarrow \mathbb{R}$ sind definiert durch: $\sinh (x)=\frac{1}{2}\left(e^{x}-e^{-x}\right), \cosh (x)=$ $\frac{1}{2}\left(e^{x}+e^{-x}\right)$. Bestimmen Sie die Potenzreihenentwicklung von $\cosh (x)$ und $\sinh (x)$ an der Stelle $x_{0}=0$. 4.35 Beweisen Sie die Formeln $\cosh (x+y)=\cosh (x) \cosh (y)+\sinh (x) \sinh (y)$ und $\sinh (x+y)=$ $\sinh (x) \cosh (y)+\cosh (x) \sinh (y)$. 4.36 Man bestimme die Potenzreihenentwicklung von $f(x)=\left(x^{2}+1\right) \sin x$ an der Stelle $x_{0}=0$ durch Produktbildung zweier Potenzreihen. 4.37 Man bestimme die Potenzreihenentwicklung von $f(x)=\left(1-x^{2}\right) \cos x$ an der Stelle $x_{0}=0$ durch Produktbildung zweier Potenzreihen. 4.38 Die Signumfunktion ist definiert durch $$ \operatorname{sgn}(x)= \begin{cases}1 & \text { für } x>0 \\ -1 & \text { für } x<0 \\ 0 & \text { für } x=0\end{cases} $$ Zeichnen Sie den Graphen nachstehender Funktion $f(x)$ und bestimmen Sie alle Stellen, an denen $f(x)$ stetig ist. (a) $f(x)=(x-\pi / 2) \operatorname{sgn}(\cos x)$ (b) $f(x)=\left(x^{2}-1\right) \operatorname{sgn}(\sin (\pi x))$ (c) $f(x)=x \operatorname{sgn}(\sin x)$ (d) $f(x)=x \sin \left(\frac{\pi}{3} \operatorname{sgn}(x)\right)$ 4.39 Man zeige, dass die folgenden Funktionen $f(x)$ stetige Umkehrfunktionen haben, und bestimme diese: (a) $f(x)=\frac{1-x^{3}}{x^{3}}, \quad D_{f}=(1, \infty)$ (b) $f(x)=\frac{1-x^{7}}{x^{7}}, \quad D_{f}=(1, \infty)$ (c) $f(x)=(1+\sqrt{x})^{7}, \quad D_{f}=(0, \infty)$ (d) $f(x)=(1+\sqrt{x})^{5}, \quad D_{f}=(0, \infty)$ 4.40 Sei $f:[0, a] \rightarrow \mathbb{R}$ stetig, $f(0)=0, f(a)>a$ und $f(x) \neq x$ für $0x$ für $00 \\ -1 & \text { für } x_{0}<0\end{cases} $$ Interessant ist aber der Fall $x_{0}=0$. Es gilt $$ \lim _{x \rightarrow 0} \frac{|x|-|0|}{x-0}=\lim _{x \rightarrow 0} \frac{|x|}{x} $$ $\mathrm{Da} \frac{|x|}{x}$ in jeder Umgebung um $x=0$ sowohl die Werte -1 als auch 1 annimmt, kann der Grenzwert nicht existieren. Die Funktion $f(x)=|x|$ ist daher an der Stelle $x=0$ zwar stetig, jedoch nicht differenzierbar.[^32] ## 2. Eigenschaften und Ableitungsregeln Das letzte Beispiel zeigt, dass eine stetige Funktion nicht notwendigerweise auch differenzierbar sein muss. Die Umkehrung ist jedoch richtig, wie der folgende Satz zeigt. Satz 5.3 Eine Funktion, die in $x_{0}$ differenzierbar ist, ist dort auch stetig. Beweis. Sei $f(x)$ in $x_{0}$ differenzierbar. Dann gilt $$ \lim _{x \rightarrow x_{0}}\left(f(x)-f\left(x_{0}\right)\right)=\lim _{x \rightarrow x_{0}} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}}\left(x-x_{0}\right)=\underbrace{\lim _{x \rightarrow x_{0}} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}}}_{f^{\prime}\left(x_{0}\right)} \cdot \underbrace{\lim _{x \rightarrow x_{0}}\left(x-x_{0}\right)}_{0}=0 . $$ Daher ist $\lim _{x \rightarrow x_{0}} f(x)=f\left(x_{0}\right)$, d.h., $f$ ist stetig in $x_{0}$. ## Beispiel 5.4 (Ableitungen elementarer Funktionen) (a) $f(x)=\sin x$ : Mit Hilfe des Additionstheorems (4.11) für die Sinusfunktion, $\sin (x+y)=$ $\sin x \cos y+\sin y \cos x$, bekommen wir $$ \begin{aligned} f^{\prime}\left(x_{0}\right) & =\lim _{x \rightarrow x_{0}} \frac{\sin x-\sin x_{0}}{x-x_{0}}=\lim _{x \rightarrow x_{0}} \frac{\sin \left(x_{0}+\left(x-x_{0}\right)\right)-\sin x_{0}}{x-x_{0}} \\ & =\lim _{x \rightarrow x_{0}} \frac{\sin x_{0} \cos \left(x-x_{0}\right)+\sin \left(x-x_{0}\right) \cos x_{0}-\sin x_{0}}{x-x_{0}} \\ & =\sin x_{0} \underbrace{\lim _{x \rightarrow x_{0}} \frac{\cos \left(x-x_{0}\right)-1}{x-x_{0}}}_{0 \text { wegen (4.13) }}+\cos x_{0} \underbrace{\lim _{x \rightarrow x_{0}} \frac{\sin \left(x-x_{0}\right)}{x-x_{0}}}_{1 \text { wegen (4.12) }} \\ & =\cos x_{0} . \end{aligned} $$ Wir erhalten daher $(\sin x)^{\prime}=\cos x$. Analog zeigt man $(\cos x)^{\prime}=-\sin x$. (b) Differenziert man die Exponentialfunktion $f(x)=e^{x}$, so erhält man $$ f^{\prime}\left(x_{0}\right)=\lim _{x \rightarrow x_{0}} \frac{e^{x}-e^{x_{0}}}{x-x_{0}}=e^{x_{0}} \cdot \lim _{x \rightarrow x_{0}} \frac{e^{x-x_{0}}-1}{x-x_{0}} $$ Durch Einsetzen der Exponentialreihe kann man $\frac{e^{x-x_{0}}-1}{x-x_{0}}$ weiter umformen zu $$ \begin{aligned} \frac{e^{x-x_{0}}-1}{x-x_{0}} & =\frac{\left(1+\left(x-x_{0}\right)+\frac{\left(x-x_{0}\right)^{2}}{2 !}+\frac{\left(x-x_{0}\right)^{3}}{3 !}+\ldots\right)-1}{x-x_{0}} \\ & =\left(1+\frac{\left(x-x_{0}\right)}{2 !}+\frac{\left(x-x_{0}\right)^{2}}{3 !}+\ldots\right) . \end{aligned} $$ Mit Hilfe dieser Darstellung erkennt man, dass für $x>x_{0}$ die Ungleichungen $$ 1 \leq \frac{e^{x-x_{0}}-1}{x-x_{0}} \leq\left(1+\frac{\left(x-x_{0}\right)}{1 !}+\frac{\left(x-x_{0}\right)^{2}}{2 !}+\ldots\right)=e^{x-x_{0}} $$ erfüllt sind. Aufgrund der Stetigkeit von $e^{x}$ gilt $\lim _{x \rightarrow x_{0}} e^{x-x_{0}}=1$, und daraus folgt $\lim _{x \rightarrow x_{0}+} \frac{e^{x-x_{0}}-1}{x-x_{0}}=1$. Analog zeigt man $\lim _{x \rightarrow x_{0}-} \frac{e^{x-x_{0}}-1}{x-x_{0}}=1$ und erhält infolge dessen $\left(e^{x}\right)^{\prime}=e^{x}$. Um auch Ableitungen von $\ln x$ oder zusammengesetzten Funktionen wie $\tan x=\frac{\sin x}{\cos x}$ bestimmen zu können, benötigen wir ein paar Ableitungsregeln. Satz 5.5 (Ableitungsregeln) Seien $f(x)$ und $g(x)$ zwei differenzierbare Funktionen. Dann gilt (i) Für alle $c \in \mathbb{R}$ gilt: $(c f(x))^{\prime}=c f^{\prime}(x)$. (ii) $(f(x) \pm g(x))^{\prime}=f^{\prime}(x) \pm g^{\prime}(x)$. Diese Regel gemeinsam mit (i) besagt, dass die Differentiation eine lineare Abbildung ist. (iii) $(f(x) g(x))^{\prime}=f^{\prime}(x) g(x)+f(x) g^{\prime}(x) . \quad$ (Produktregel) (iv) Falls $g(x) \neq 0$, dann gilt $$ \left(\frac{f(x)}{g(x)}\right)^{\prime}=\frac{f^{\prime}(x) g(x)-f(x) g^{\prime}(x)}{g(x)^{2}} . \quad \text { (Quotientenregel) } $$ (v) Sei $F(x)=f(g(x))$ eine zusammengesetzte Funktion. Dann gilt $$ F^{\prime}(x)=f^{\prime}(g(x)) g^{\prime}(x) . \quad(\text { Kettenregel }) $$ Hier wird $f$ als äßßere Funktion, $g$ als innere Funktion bezeichnet. Die Kettenregel besagt demnach: Äußere Funktion ableiten und mit der inneren Ableitung (genauer: der Ableitung der inneren Funktion) multiplizieren. In der Leibniz'schen Schreibweise lässt sich diese Regel besonders kurz schreiben: Fasst man nämlich $g(x)$ als Argument von $f$ auf, dann erhält man $$ \frac{d f}{d x}=\frac{d f}{d g} \cdot \frac{d g}{d x} $$ (vi) Falls $f: D \rightarrow f(D)$ invertierbar ist und die Ableitung $f^{\prime}$ keine Nullstellen besitzt, dann gilt für alle $y \in f(D)$ $$ \left(f^{-1}\right)^{\prime}(y)=\frac{1}{f^{\prime}\left(f^{-1}(y)\right)} $$ In der Leibniz'schen Schreibweise ist diese Regel besonders einprägsam: Gilt $f(x)=y$, so lässt sich $f^{\prime}(x)$ als $\frac{d y}{d x}$ schreiben. Für die Umkehrfunktion gilt aber $x=f^{-1}(y)$ und bei Differentiation nach y schreibt man dann $\frac{d x}{d y}=\left(f^{-1}\right)^{\prime}(y)$. Die obige Regel lautet nun $$ \frac{d x}{d y}=\frac{1}{\frac{d y}{d x}} $$ Beweis. Die ersten beiden Gleichungen sind trivial, weshalb wir uns gleich der Produktregel zuwenden. Es gilt $$ \begin{aligned} (f \cdot g)^{\prime}\left(x_{0}\right) & =\lim _{x \rightarrow x_{0}} \frac{f(x) g(x)-f\left(x_{0}\right) g\left(x_{0}\right)}{x-x_{0}} \\ & =\lim _{x \rightarrow x_{0}} \frac{f(x) g(x)-f\left(x_{0}\right) g(x)+f\left(x_{0}\right) g(x)-f\left(x_{0}\right) g\left(x_{0}\right)}{x-x_{0}} \\ & =\lim _{x \rightarrow x_{0}} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}} g(x)+\lim _{x \rightarrow x_{0}} f\left(x_{0}\right) \frac{g(x)-g\left(x_{0}\right)}{x-x_{0}} \\ & =\underbrace{\lim _{x \rightarrow x_{0}} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}}}_{f^{\prime}\left(x_{0}\right)} \underbrace{\lim _{x \rightarrow x_{0}} g(x)}_{g\left(x_{0}\right)}+f\left(x_{0}\right) \underbrace{\lim _{x \rightarrow x_{0}} \frac{g(x)-g\left(x_{0}\right)}{x-x_{0}}}_{g^{\prime}\left(x_{0}\right)} . \end{aligned} $$ Zum Beweis der Kettenregel betrachten wir $$ \lim _{x \rightarrow x_{0}} \frac{f(g(x))-f\left(g\left(x_{0}\right)\right)}{x-x_{0}}=\lim _{x \rightarrow x_{0}} \frac{f(g(x))-f\left(g\left(x_{0}\right)\right)}{g(x)-g\left(x_{0}\right)} \lim _{x \rightarrow x_{0}} \frac{g(x)-g\left(x_{0}\right)}{x-x_{0}} . $$ Der zweite Faktor ist definitionsgemäß $g^{\prime}\left(x_{0}\right)$. Da $g$ differenzierbar und folglich auch stetig ist, folgt $\lim _{x \rightarrow x_{0}} g(x)=g\left(x_{0}\right)$. Daher ist der erste Faktor gleich $f^{\prime}\left(g\left(x_{0}\right)\right)$ wie behauptet. Zu beachten ist, dass diese Herleitung $g(x) \neq g\left(x_{0}\right)$ voraussetzt. Im Fall $g(x)=g\left(x_{0}\right)$ verschwindet aber der Differenzenquotient in (5.2), so dass diese Fälle bei der Grenzwertbildung in (5.2) keine Rolle spielen. Die Quotientenregel beweist man durch Anwendung der Produktregel auf $f(x) \frac{1}{g(x)}$, wobei auf den zweiten Faktor die Kettenregel angewendet werden muss (mit $\frac{1}{g(x)}=h(g(x))$ und $h(x)=\frac{1}{x}$, siehe auch Beispiel 5.2d). Um (vi) zu beweisen, setzen wir $f(x)=y$ und $f\left(x_{0}\right)=y_{0}$. Nun rufen wir uns in Erinnerung, dass $f$ stetig ist (wegen Satz 5.3) und daher $f^{-1}$ ebenso (wegen Satz 4.91). Somit gilt: Wenn $y$ gegen $y_{0}$ konvergiert, dann auch $x \rightarrow x_{0}$. Das impliziert $$ \lim _{y \rightarrow y_{0}} \frac{f^{-1}(y)-f^{-1}\left(y_{0}\right)}{y-y_{0}}=\lim _{x \rightarrow x_{0}} \frac{x-x_{0}}{f(x)-f\left(x_{0}\right)}=\frac{1}{f^{\prime}\left(x_{0}\right)}=\frac{1}{f^{\prime}\left(f^{-1}\left(y_{0}\right)\right)} $$ Eine Beweisführung mit Hilfe der Kettenregel (Differentiation beider Seiten der Gleichung $f\left(f^{-1}(y)\right)=y$ nach $y$ ) setzt die Differenzierbarkeit von $f^{-1}$ voraus, die man dann gesondert beweisen müsste. ## Beispiel 5.6 (Ableitungen elementarer Funktionen, Fortsetzung) (a) Aus $f(x)=x^{5}+3 x^{3}+3 x+5$ folgt nach Anwendung der Ableitungsregel (ii) und Ableiten der Potenzfunktionen $f^{\prime}(x)=5 x^{4}+9 x^{2}+3$ (b) $f(x)=\left(1+x^{2}\right) e^{x}$. Anwendung der Produktregel ergibt $f^{\prime}(x)=2 x e^{x}+\left(1+x^{2}\right) e^{x}=$ $\left(1+2 x+x^{2}\right) e^{x}=(1+x)^{2} e^{x}$ (c) $f(x)=\tan x=\frac{\sin x}{\cos x}$. Die Quotientenregel liefert $$ f^{\prime}(x)=\frac{\cos ^{2} x+\sin ^{2} x}{\cos ^{2} x}=\frac{1}{\cos ^{2} x} $$ oder $$ f^{\prime}(x)=\frac{\cos ^{2} x+\sin ^{2} x}{\cos ^{2} x}=1+\frac{\sin ^{2} x}{\cos ^{2} x}=1+\tan ^{2} x $$ (d) Der natürliche Logarithmus $f(x)=\ln x$ ist die Umkehrfunktion der Exponentialfunktion $e^{x}$. Mit Ableitungsregel (vi) und $\left(e^{x}\right)^{\prime}=e^{x}$ erhalten wir $$ (\ln x)^{\prime}=\frac{1}{e^{\ln x}}=\frac{1}{x} $$ (e) Potenzfunktionen $f(x)=x^{\alpha}$ mit $\alpha \notin \mathbb{Z}$. Hier lässt sich die Funktion umschreiben zu $f(x)=e^{\alpha \ln x}$ und nun nach der Kettenregel ableiten: $$ f^{\prime}(x)=e^{\alpha \ln x}(\alpha \ln x)^{\prime}=e^{\alpha \ln x} \cdot \frac{\alpha}{x}=x^{\alpha} \cdot \frac{\alpha}{x}=\alpha x^{\alpha-1} . $$ Die bereits bekannte Ableitungsregel für Potenzfunktionen mit ganzzahligem Exponenten ist also für alle Exponenten gültig. (f) Die Funktion $f(x)=\sin \left(\sqrt{1+x^{2}}\right)$ ist mehrfach geschachtelt. Es gilt $f(x)=$ $f_{1}\left(f_{2}\left(f_{3}(x)\right)\right)$ mit $f_{1}(x)=\sin x, f_{2}(x)=\sqrt{x}=x^{1 / 2}$ und $f_{3}(x)=1+x^{2}$. Folglich haben wir $f_{1}^{\prime}(x)=\cos x, f_{2}^{\prime}(x)=\frac{1}{2} x^{-1 / 2}=\frac{1}{2 \sqrt{x}}$ und $f_{3}^{\prime}(x)=2 x$. Die Ableitung von $f$ ermittelt man nun mit Hilfe der Kettenregel: $$ f^{\prime}(x)=f_{1}^{\prime}\left(\left(f_{2} \circ f_{3}\right)(x)\right) \cdot\left(f_{2} \circ f_{3}\right)^{\prime}(x)=f_{1}^{\prime}\left(f_{2}\left(f_{3}(x)\right)\right) \cdot f_{2}^{\prime}\left(f_{3}(x)\right) \cdot f_{3}^{\prime}(x) $$ Das ergibt $$ f^{\prime}(x)=\cos \left(\sqrt{1+x^{2}}\right) \frac{1}{2 \sqrt{1+x^{2}}} \cdot 2 x=\frac{x}{\sqrt{1+x^{2}}} \cos \left(\sqrt{1+x^{2}}\right) . $$ (g) $f(x)=\arctan x$. Setzen wir $y=f(x)$, dann folgt $x=\tan y$. Weiters gilt $$ f^{\prime}(x)=\frac{d y}{d x}=\frac{1}{\frac{d x}{d y}}=\frac{1}{1+\tan ^{2} y}=\frac{1}{1+x^{2}} $$ Bis jetzt haben wir in diesem Abschnitt nur erste Ableitungen betrachtet. Falls jedoch die Ableitung einer Funktion wiederum differenzierbar ist, so lassen sich auch höhere Ableitungen bestimmen. Definition 5.7 Eine Funktion $f(x)$ heißt an einer Stelle $x_{0} n$-mal differenzierbar, wenn die $n$-te Ableitung $f^{(n)}\left(x_{0}\right)$ existiert, die rekursiv durch $$ f^{(n)}(x)=\frac{d}{d x} f^{(n-1)}(x) \text { und } f^{(1)}(x)=f^{\prime}(x) $$ definiert ist. Ist $f^{(n)}$ auch stetig in $x_{0}$, dann heißt $f(x) n$-mal stetig differenzierbar in $x_{0}$. Falls die $n$-te Ableitung existiert, so existieren natürlich auch alle Ableitungen niedrigerer Ordnung, $f^{\prime}, f^{\prime \prime}, f^{\prime \prime \prime}, \ldots, f^{(n-1)}$. In Leibniz'scher Schreibweise werden diese Ableitungen mit $\frac{d f}{d x}, \frac{d^{2} f}{d x^{2}}$ (gesprochen: ,d zwei $f$ nach $\mathrm{d} x^{2 “)}$ ), $\frac{d^{3} f}{d x^{3}}$, usw. bezeichnet. Beispiel 5.8 Sei $f(x)=\ln x$. Dann sind die Ableitungen gegeben durch $f^{\prime}(x)=\frac{1}{x}, f^{\prime \prime}(x)=$ $-\frac{1}{x^{2}}, f^{\prime \prime \prime}(x)=\frac{2}{x^{3}}, \ldots$ Allgemein: $f^{(n)}(x)=(-1)^{n-1} \frac{(n-1) !}{x^{n}}$ für $n \geq 1$. Der Logarithmus $\ln x$ ist also für $x>0 n$-mal stetig differenzierbar (für beliebiges $n \in \mathbb{N}$ ). Beispiel 5.9 Eine differenzierbare Funktion muss keine höheren Ableitungen besitzen. Sei zum Beispiel $f(x)=x \cdot|x|$ (siehe Abb. 5.3). Man rechnet leicht nach (Übungsaufgabe), dass $f^{\prime}(x)=$ $2|x|$. Diese Funktion ist aber an der Stelle 0 nicht differenzierbar. ### 5.2 Die Taylor'sche Formel und der Mittelwertsatz ## 1. Der Mittelwertsatz Die Differentialrechnung wird auch verwendet, um qualitative Aussagen über die Gestalt des Graphen einer Funktion zu gewinnen. Obwohl man eine konkrete Funktion mit Hilfe von Formelmanipulationssystemen sehr einfach plotten kann, ist ein Verständnis des Zusammenhangs ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-199.jpg?height=510&width=1096&top_left_y=312&top_left_x=397) Abbildung 5.3 Die Funktion $f(x)=x \cdot|x|$ und ihre Ableitung $f^{\prime}(x)=2|x|$ zwischen Ableitungen und der Gestalt von Funktionsgraphen dennoch wichtig, z.B., wenn eine Funktion aus einer Klasse bestimmt werden soll, die vorgegebene Eigenschaften besitzt. Definition 5.10 Eine Funktion $f: D \rightarrow \mathbb{R}$ besitzt an der Stelle $x_{0} \in D$ ein relatives Maximum (oder lokales Maximum), wenn es eine Umgebung $U_{\varepsilon}\left(x_{0}\right)$ gibt, so dass $f(x) \leq f\left(x_{0}\right)$ für alle $x \in U_{\varepsilon}\left(x_{0}\right) \cap D$ gilt. Die Stelle $x_{0}$ heißt absolutes Maximum, wenn $f(x) \leq f\left(x_{0}\right)$ für alle $x$ in $D$ gilt. Analog sind relative und absolute Minima definiert. Minima und Maxima nent man auch Extrema oder Extremwerte von $f$. Falls eine differenzierbare Funktion ein lokales Extremum besitzt, welches nicht am Rand des Definitionsbereichs liegt, so ist die Tangente in diesem Punkt waagrecht, wie das linke Bild von Abb. 5.4 illustriert. Der folgende Satz zeigt, dass die Ableitung einer differenzierbaren Funktion $f$ tatsächlich an den Extremalstellen von $f$ verschwindet. Vorab benötigen wir noch einen Begriff. Definition 5.11 Sei $I=[a, b]$ ein abgeschlossenes Intervall. Dann nent man das offene Intervall $(a, b)$ das Innere von $I$. Dieses wird mit $I$ bezeichnet. Analog definiert man das Innere einer Menge, die Vereinigung von Intervallen ist. Die Elemente von $I$ heißen innere Punkte. Satz 5.12 Sei $f: D \rightarrow \mathbb{R}$ eine differenzierbare Funktion und $x_{0}$ ein relatives Extremum im Inneren von $D$. Dann gilt $f^{\prime}\left(x_{0}\right)=0$. Bemerkung: Man beachte, dass Satz 5.12 für Extrema am Rand des Definitionsbereichs $D$ natürlich nicht anwendbar ist, da dort die Ableitung gar nicht definiert ist (es kann ja nur der einseitige Grenzwert existieren). Bei der Suche nach absoluten Extrema muss man somit nicht nur die Punkte bestimmen, an denen die Ableitung verschwindet, sondern den Rand von $D$ gesondert untersuchen. Beweis. O.B.d.A. sei $x_{0}$ ein lokales Minimum. Es gilt also $f(x)-f\left(x_{0}\right) \geq 0$ für alle $x$ in einer Umgebung $U_{\varepsilon}\left(x_{0}\right) \subseteq D$. Aus der Differenzierbarkeit von $f(x)$ folgt, dass die einseitigen Grenzwerte für $x \rightarrow x_{0}+$ und $x \rightarrow x_{0}$ - existieren und übereinstimmen. Daher haben wir einerseits $$ f^{\prime}\left(x_{0}\right)=\lim _{x \rightarrow x_{0}+} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}} \geq 0 $$ und andererseits $$ f^{\prime}\left(x_{0}\right)=\lim _{x \rightarrow x_{0}-} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}} \leq 0, $$ woraus die Behauptung folgt. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-200.jpg?height=528&width=1310&top_left_y=568&top_left_x=307) Abbildung 5.4 links: Extrema von Funktionen, rechts: Die Umkehrung von Satz 5.12 gilt nicht. Sei nun $f(x)$ eine differenzierbare Funktion. In $x_{0}$ existiert die Tangente, deren Anstieg durch $f^{\prime}\left(x_{0}\right)$ gegeben ist. Die Funktion kann lokal, d.h. in einer Umgebung von $x_{0}$, durch ihre Tangente angenähert werden: lokal um $x_{0}$ gilt $$ f(x) \approx f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right) . $$ Der Fehler $R(x)=f(x)-f\left(x_{0}\right)-f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)$ erfüllt $R(x)=o\left(x-x_{0}\right)$ für $x \rightarrow x_{0}$, denn $$ \lim _{x \rightarrow x_{0}} \frac{R(x)}{x-x_{0}}=\lim _{x \rightarrow x_{0}} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}}-f^{\prime}\left(x_{0}\right)=0 $$ Umgekehrt gilt aber, dass eine Funktion, die durch ihre Tangente mit einem Fehler $R(x)=$ $o\left(x-x_{0}\right)$ für $x \rightarrow x_{0}$ angenähert werden kann, differenzierbar ist, da in diesem Fall der Grenzwert des Differenzenquotienten existiert. Zusammenfassend gilt also: Satz 5.13 Eine Funktion $f(x)$ ist genau dann differenzierbar in $x_{0}$, wenn sie auffolgende Weise linear approximierbar ist: $$ f(x)-f\left(x_{0}\right)=f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+R(x) \quad \text { mit } R(x)=o\left(x-x_{0}\right) \text {. } $$ Bemerkung: Man beachte den Unterschied zur Stetigkeit, wo bloß $f(x)-f\left(x_{0}\right) \rightarrow 0$ verlangt wird. Damit kommen wir zu einem zentralen Satz der Differentialrechnung, dem Mittelwertsatz. Die Ableitung beschreibt die lokale Änderung einer Funktion, der Differenzenquotient $\frac{f(b)-f(a)}{b-a}$ die mittlere Änderung im Intervall $[a, b]$, also das globale Änderungsverhalten der Funktion. Der Mittelwertsatz besagt anschaulich, dass in jedem Intervall $[a, b]$ eine Stelle existiert, wo die lokale Änderung (die Ableitung) mit der mittleren Änderung im Intervall $[a, b]$ übereinstimmt. Dieser Sachverhalt wird in Abb. 5.5 illustriert. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-201.jpg?height=530&width=607&top_left_y=293&top_left_x=662) Abbildung 5.5 Mittelwertsatz: Es gibt eine Stelle $\xi$, wo die Tangente parallel zur Geraden ist, die $(a, f(a))$ mit $(b, f(b))$ verbindet. Satz 5.14 (Mittelwertsatz der Differentialrechnung) Sei $f$ auf dem abgeschlossenen Intervall $[a, b]$ stetig und auf dem offenen Intervall $(a, b)$ differenzierbar. Dann gibt es einen Punkt $\xi \in[a, b]$, so dass $$ f^{\prime}(\xi)=\frac{f(b)-f(a)}{b-a} $$ Beweis. Falls $f$ eine lineare Funktion $f(x)=c x+d$ ist (der Graph also eine Gerade ist), dann ist die Behauptung trivial. Andernfalls ist die Funktion $$ F(x)=f(x)-\frac{f(b)-f(a)}{b-a}(x-a) $$ nicht konstant, aber offensichtlich stetig in $[a, b]$. Daher besitzt sie nach Satz 4.90 ein Maximum und ein Minimum in $[a, b]$. Wegen $F(a)=F(b)=f(a)$ muss eines dieser beiden Extrema im Inneren der Intervalls liegen. Wir nennen die entsprechende Stelle $\xi$. Aus Satz 5.12 folgt nun, dass $F^{\prime}(\xi)=0$. Anwendung der Differentiationsregeln (Satz 5.5) ergibt $$ F^{\prime}(\xi)=f^{\prime}(\xi)-\frac{f(b)-f(a)}{b-a}=0 $$ Dies ist äquivalent zur Behauptung. Der Sonderfall $f(a)=f(b)$ ist auch als Satz von Rolle ${ }^{3}$ bekannt. Satz 5.15 (Satz von Rolle) Sei $f$ stetig auf $[a, b]$ und differenzierbar auf $(a, b)$. Weiters gelte $f(a)=f(b)$. Dann gibt es ein $\xi \in(a, b)$ mit $f^{\prime}(\xi)=0$. Beweis. Die Behauptung folgt unmittelbar aus dem Mittelwertsatz. Satz 5.16 Seien $f$ und $g$ zwei auf einem Intervall I stetige und in dessen Innerem $\stackrel{\circ}{I}$ differenzierbare Funktionen mit $f^{\prime}(x)=g^{\prime}(x)$ für alle $x \in I$. Dann ist die Differenz $f(x)-g(x)$ auf $I$ konstant, d.h., $f$ und $g$ unterscheiden sich nur um eine additive Konstante.[^33] Beweis. Wir zeichnen einen Punkt $x_{0} \in I$ aus und setzen $F(x)=f(x)-g(x)$. Dann lässt sich wegen des Mittelwertsatzes für jedes $x \in I$ ein $\xi \in \stackrel{\circ}{I}$ finden, so dass $F(x)=F\left(x_{0}\right)+$ $F^{\prime}(\xi)\left(x-x_{0}\right)$. Daher folgt aus $F^{\prime}(x)=f^{\prime}(x)-g^{\prime}(x)=0$, dass $F(x)=F\left(x_{0}\right)$, also $F$ konstant ist. ## 2. Taylorreihen Die Gleichung (5.3) besagt, dass die Tangente die beste lineare Approximation der Funktion $f(x)$ in der Nähe von $x_{0}$ ist. Gibt es bessere Approximationen? Diese können dann selbstverständlich nicht mehr linear sein. Da eine Approximation einer Funktion der Vereinfachung dient, suchen wir nach möglichst einfachen Funktionen, die $f(x)$ approximieren. Lineare Funktionen, die zur Approximation (5.3) verwendet wurden, sind Polynome erster Ordnung. Die Wahl von Polynomen höherer Ordnung ist daher naheliegend. Nehmen wir der Einfachheit halber zunächst an, dass $f(x)=\sum_{k=0}^{n} b_{k} x^{k}$ selbst ein Polynom vom Grad $n$ ist. Dann lässt sich $f(x)$ für beliebiges $x_{0}$ auch in der Form $\sum_{k=0}^{n} a_{k}\left(x-x_{0}\right)^{k}$ darstellen. Die Koeffizienten $a_{k}$ gewint man zum Beispiel durch Lösen eines linearen Gleichungssystems. Eine andere Möglichkeit ist die Anwendung der Differentialrechnung. Durch fortgesetztes Differenzieren erhält man $$ \begin{aligned} f(x) & =a_{0}+a_{1}\left(x-x_{0}\right)+a_{2}\left(x-x_{0}\right)^{2}+a_{3}\left(x-x_{0}\right)^{3}+a_{4}\left(x-x_{0}\right)^{4}+\ldots \\ f^{\prime}(x) & =a_{1}+2 a_{2}\left(x-x_{0}\right)+3 a_{3}\left(x-x_{0}\right)^{2}+4 a_{4}\left(x-x_{0}\right)^{3}+\ldots \\ f^{\prime \prime}(x) & =2 a_{2}+6 a_{3}\left(x-x_{0}\right)+12 a_{4}\left(x-x_{0}\right)^{2}+\ldots \\ f^{\prime \prime \prime}(x) & =6 a_{3}+24 a_{4}\left(x-x_{0}\right)+\ldots \end{aligned} $$ woraus nach Einsetzen von $x=x_{0}$ und Umformen $$ a_{0}=f\left(x_{0}\right), \quad a_{1}=f^{\prime}\left(x_{0}\right), \quad a_{2}=\frac{f^{\prime \prime}\left(x_{0}\right)}{2}, \quad a_{3}=\frac{f^{\prime \prime \prime}\left(x_{0}\right)}{3 !}, \quad \ldots, \quad a_{n}=\frac{f^{(n)}\left(x_{0}\right)}{n !} $$ folgt. Bei Funktionen, die eine Darstellung als Potenzreihe besitzen, können wir in ähnlicher Weise vorgehen. Satz 5.17 Sei $f(x)=\sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n}$ eine Potenzreihe mit Konvergenzradius $R$. Dann ist $f(x)$ im Konvergenzbereich differenzierbar. Die Ableitung erhält man durch gliedweises Differenzieren, d.h., für alle $x$ mit $\left|x-x_{0}\right|0$ ein $N>0$ gibt, so dass $\sum_{n>N} n\left|a_{n}\right| \cdot|x|^{n}<\varepsilon / 2$. Aufgrund der Stetigkeit der Funktion $g(x)=\sum_{n \geq 0} n\left|a_{n}\right| \cdot|x|^{n}$ (siehe Satz 4.86) gilt auch $\sum_{n>N} n\left|a_{n}\right| \cdot|y|^{n}<\varepsilon$ für alle $y \in U_{\delta}(x)$ (mit $\delta$ hinreichend klein). Daher spalten wir die Summe (5.5) auf und bekommen (für $y \in U_{\delta}(x)$ ) $$ \begin{aligned} \frac{f(y)-f(x)}{y-x}= & \sum_{n=0}^{N} a_{n}\left(y^{n-1}+y^{n-2} x+\cdots+y x^{n-2}+x^{n-1}\right) \\ & +\sum_{n>N} a_{n}\left(y^{n-1}+y^{n-2} x+\cdots+y x^{n-2}+x^{n-1}\right) \end{aligned} $$ wobei $$ \left|\sum_{n>N} a_{n}\left(y^{n-1}+y^{n-2} x+\cdots+y x^{n-2}+x^{n-1}\right)\right| \leq \sum_{n>N} n a_{n} \max \left(|x|^{n},|y|^{n}\right)<\varepsilon $$ Daher liefert der Grenzübergang $y \rightarrow x$ schließlich $$ f^{\prime}(x)=\sum_{n=0}^{N} n a_{n} x^{n-1}+R_{N} $$ $\operatorname{mit}\left|R_{N}\right| \leq \varepsilon$. Bei Potenzreihen sind also Summation und Differentiation vertauschbar. Das bedeutet, dass für Funktionen $f(x)$, die eine Reihendarstellung der Form $\sum_{n>0} a_{n}\left(x-x_{0}\right)^{n}$ besitzen, die obigen Überlegungen für Polynome direkt übertragbar sind. Die Koeffizienten der Reihe können daher durch die Ableitungen von $f$ ausgedrückt werden. Wir erhalten somit den folgenden Satz. Satz 5.18 (Eindeutigkeitssatz für Potenzreihen) Besitzt die Funktion $f(x)$ in einer $\varepsilon$-Umgebung von $x_{0}$ eine Darstellung als Potenzreihe, d.h., gilt $f(x)=\sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n}$ für alle $x \in U_{\varepsilon}\left(x_{0}\right)$, so folgt $a_{n}=\frac{f^{(n)}\left(x_{0}\right)}{n !}$, für alle $n \in \mathbb{N}$. Die Potenzreihendarstellung einer Funktion ist, sofern sie existiert, eindeutig bestimmt. Ohne Beweis sei noch ein weiterer Satz über Funktionen und deren Potenzreihen angeführt. Satz 5.19 (Abel'scher Grenzwertsatz) Sei $f(x)=\sum_{n \geq 0} a_{n}\left(x-x_{0}\right)^{n}$ die Summenfunktion einer Potenzreihe mit Konvergenzradius $R$. Weiters sei $\sum_{n \geq 0} a_{n} R^{n}$ konvergent. Dann existiert der Grenzwert $\lim _{x \rightarrow R-} f(x)$, und es gilt $$ \lim _{x \rightarrow R-} f(x)=\sum_{n \geq 0} a_{n} R^{n} $$ Natürlich lassen sich nicht alle Funktionen in eine Potenzreihe entwickeln. Eine notwendige Bedingung, die so eine Funktion $f$ erfüllen muss, ist offenbar, dass $f$ unendlich oft stetig differenzierbar ist. Wir wollen aber auch andere Funktionen durch Polynome approximieren und führen daher die folgenden Begriffe ein. ## Definition 5.20 Die Reihe $$ \begin{aligned} & f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)+\frac{f^{\prime \prime}\left(x_{0}\right)}{2}\left(x-x_{0}\right)^{2}+\frac{f^{\prime \prime \prime}\left(x_{0}\right)}{3 !}\left(x-x_{0}\right)^{3}+\ldots \\ = & \sum_{n \geq 0} \frac{f^{(n)}\left(x_{0}\right)}{n !}\left(x-x_{0}\right)^{n} \end{aligned} $$ heißt Taylorreihe von $f(x)$ im Entwicklungspunkt (mit Anschlussstelle) $x_{0}$. Der Sonderfall $x_{0}=0$ wird auch McLaurinreihe genannt. Bricht man die Taylorreihe nach $n$ Gliedern ab, so erhält man $$ f(x)=\sum_{k=0}^{n} \frac{f^{(k)}\left(x_{0}\right)}{k !}\left(x-x_{0}\right)^{k}+R_{n} $$ Dies nent man die Taylor'sche Formel mit Restglied $R_{n}$. Die Summe vor dem Restglied wird Taylorpolynom $n$-ter Ordnung genannt. $R_{n}$ ist der Abbruchfehler und selbstverständlich von $n, x$ und $x_{0}$ abhängig. Ohne Beweis sei der folgende Satz angeführt. Satz 5.21 (Satz von Taylor) Sei $f$ auf dem Intervall $I=\left[x_{0}, x\right]$ (bzw. $\left.\left[x, x_{0}\right]\right) n$-mal stetig differenzierbar und im Inneren $\stackrel{\circ}{I}$ von $I(n+1)$-mal differenzierbar. Dann existiert eine Zahl $\xi \in \stackrel{\circ}{I}$, so dass $$ f(x)=\sum_{k=0}^{n} \frac{f^{(k)}\left(x_{0}\right)}{k !}\left(x-x_{0}\right)^{k}+\frac{f^{(n+1)}(\xi)}{(n+1) !}\left(x-x_{0}\right)^{n+1} $$ Der Term $R_{n}=\frac{f^{(n+1)}(\xi)}{(n+1) !}\left(x-x_{0}\right)^{n+1}$ heißt Restglied von Lagrange. Falls $f$ unendlich oft stetig differenzierbar ist, so ist auch die Taylorreihe von $f$ definiert. Die Taylorreihe stimmt genau dann mit der Funktion $f(x)$ überein, wenn $\lim _{n \rightarrow \infty} R_{n}=0$. Mit Hilfe dieses Satzes lassen sich Funktionen, die unendlich oft stetig differenzierbar sind und deren Ableitungen nicht zu schnell wachsen, beliebig genau durch Polynome approximieren. Beispiel 5.22 Beispiele für Taylorentwicklungen. (a) Gegeben sei die Funktion $f(x)=e^{x}$ mit der Anschlussstelle $x_{0}=0$. Es gilt $f^{(n)}(x)=e^{x}$ für alle $n$. Daher erhalten wir wegen $e^{0}=1$ die Exponentialreihe $$ e^{x}=1+x+\frac{1}{2 !} x^{2}+\frac{1}{3 !} x^{3}+\ldots $$ Analog lassen sich die Reihen für $\sin x$ und $\cos x$ bestimmen. Abbrechen der Exponentialreihe nach dem $n$-ten Glied führt auf das Restglied $R_{n}=\frac{e^{\xi}}{(n+1) !} x^{n+1}$ mit $0<\xix_{0}$. Daher gilt $$ f^{\prime}\left(x_{0}\right)=\lim _{x \rightarrow x_{0}+} \frac{f(x)-f\left(x_{0}\right)}{x-x_{0}} \geq 0 $$ da sowohl Zähler als auch Nenner des Differenzenquotienten positiv sind. Umkehrung: Gelte nun $f^{\prime}(x) \geq 0$ für alle $x \in I$. Wir wählen $x, y \in I$ beliebig, so dass $x0 & \text { sonst. }\end{cases} $$ Daraus ergibt sich, dass $f(x)$ auf den Intervallen $(-\infty,-2)$ und $(0, \infty)$ streng monoton wächst und dazwischen (auf dem Intervall $(-2,0)$ ) streng monoton fält (siehe Abb. 5.7). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-207.jpg?height=383&width=613&top_left_y=1143&top_left_x=634) Abbildung 5.7 Die Funktion $f(x)=x^{2} e^{x}$ Wir haben mit dem Satz 5.12 bereits eine notwendige Bedingung für relative Extrema kennengelernt. Der folgende Satz liefert eine hinreichende Bedingung. Satz 5.25 Sei $f$ zweimal stetig differenzierbar und $f^{\prime}\left(x_{0}\right)=0$. Dann gilt: $f(x)$ besitzt an der Stelle $x_{0}$ ein relatives Maximum, falls $f^{\prime \prime}\left(x_{0}\right)<0$, und ein relatives Minimum, falls $f^{\prime \prime}\left(x_{0}\right)>0$. Beweis. Sei $f^{\prime \prime}\left(x_{0}\right)<0$. Ein relatives Maximum liegt vor, wenn für $x$ in einer hinreichend kleinen $\varepsilon$-Umgebung $U_{\varepsilon}\left(x_{0}\right)$ von $x_{0}$ gilt: $f(x) \leq f\left(x_{0}\right)$. Wir approximieren $f(x)$ in $U_{\varepsilon}\left(x_{0}\right)$ mit Hilfe des Satzes von Taylor. Da $f^{\prime \prime}\left(x_{0}\right)<0$ und $f^{\prime \prime}$ stetig ist, folgt aus Satz 4.87, dass $\varepsilon$ so klein gewählt werden kann, dass $f^{\prime \prime}(\xi)<0$ für alle $\xi \in U_{\varepsilon}\left(x_{0}\right)$ gültig ist. Für $x \in U_{\varepsilon}\left(x_{0}\right)$ und $\xi$ zwischen $x_{0}$ und $x$ folgt daraus $$ f(x)=f\left(x_{0}\right)+\underbrace{f^{\prime}\left(x_{0}\right)}_{=0}\left(x-x_{0}\right)+\underbrace{\frac{f^{\prime \prime}(\xi)}{2 !}}_{<0} \underbrace{\left(x-x_{0}\right)^{2}}_{\geq 0} \leq f\left(x_{0}\right) $$ wie behauptet. Beispiel 5.26 (Fortsetzung von 5.24) Wir betrachten wieder $f(x)=x^{2} e^{x}$. Extrema dieser Funktion müssen $f^{\prime}(x)=0$ erfüllen. Wie wir oben gesehen haben, gilt dies ausschließlich für $x=0$ und $x=-2$. Diese beiden Punkte sind somit die einzigen Kandidaten für relative Extrema. Prüfen der zweiten Ableitung ergibt $$ f^{\prime \prime}(x)=\left(x^{2}+4 x+2\right) e^{x} \Longrightarrow f^{\prime \prime}(0)=2>0 \text { und } f^{\prime \prime}(-2)=-2 e^{-2}<0 $$ Daraus folgt, dass an der Stelle 0 ein relatives Minimum und bei -2 ein relatives Maximum vorliegt. Die Bedingung des vorigen Satzes ist zwar hinreichend, aber nicht notwendig. Beispielsweise besitzt die Funktion $f(x)=x^{4}$ bei $x=0$ ein Minimum, da $f(x)>0$ für alle $x \neq 0$. Es gilt aber $f^{\prime \prime}(x)=12 x^{2}$ und daher $f^{\prime \prime}(0)=0$. Auch die Funktion $g(x)=x^{3}$ erfüllt $g^{\prime}(0)=g^{\prime \prime}(0)=0$. Für alle $x, y \in \mathbb{R}$ mit $x0$ zu betrachten. Den anderen Fall behandelt man analog. Sei zunächst $n$ gerade. Dann gilt für geeignetes $\varepsilon>0$ und $x \in U_{\varepsilon}\left(x_{0}\right)$ nach dem Satz von Taylor $$ f(x)=f\left(x_{0}\right)+\underbrace{\sum_{k=1}^{n-1} \frac{f^{(k)}\left(x_{0}\right)}{k !}\left(x-x_{0}\right)^{k}}_{=0}+\underbrace{\frac{f^{(n)}(\xi)}{n !}}_{>0} \underbrace{\left(x-x_{0}\right)^{n}}_{\geq 0} \geq f\left(x_{0}\right) $$ und daher liegt in $x_{0}$ ein lokales Minimum von $f$. Nun zum Fall $n$ ungerade. Wir betrachten die Taylorentwicklung wie in (5.6). Auch in diesem Fall reduziert sich das Taylorpolynom auf $f\left(x_{0}\right)$. Im Restglied findet jedoch ein Vorzeichenwechsel statt. Für $x0$ negativ, während es im Fall $x>x_{0}$ positiv ist. Deshalb ist die Funktion $f$ lokal, also in einer Umgebung von $U_{\varepsilon}\left(x_{0}\right)$, streng monoton wachsend. ## 4. Die zweite Ableitung Ebenso wie die erste Ableitung geometrisch als Steigung interpretiert werden kann, besitzt auch die zweite Ableitung eine geometrische Deutung. Sie ist ein Maß für die Krümmung des Funktionsgraphen. Definition 5.28 Eine Funktion $f$ heißt auf einem Intervall $I$ konvex, wenn für alle $x, y \in I$ und alle $\lambda$ mit $0<\lambda<1$ gilt: $f(x+\lambda(y-x)) \leq f(x)+\lambda(f(y)-f(x))$. Gilt sogar $f(x+\lambda(y-x))0$ bzw. $f^{\prime \prime}(x)<0$. Dass die Umkehrung des zweiten Teils von Satz 5.30 nicht richtig ist, d.h., dass strikte Konvexität auf einem Intervall $I$ nicht $f^{\prime \prime}(x)>0$ für alle $x \in I$ impliziert, sieht man anhand des einfachen Beispiels $f(x)=x^{4}$. Die Ableitung $f^{\prime}(x)=4 x^{3}$ ist auf ganz $\mathbb{R}$ streng monoton und $f$ daher dort nach Satz 5.29 strikt konvex. Es ist aber $f^{\prime \prime}(0)=0$. Definition 5.31 Sei $f$ differenzierbar. Eine Stelle $x$ heißt Wendepunkt, wenn $f^{\prime}$ in $x$ ein relatives Extremum besitzt. Satz 5.32 Sei $f: D \rightarrow \mathbb{R}$ dreimal differenzierbar und $x \in D$. Falls $f^{\prime \prime}(x)=0$ und $f^{\prime \prime \prime}(x) \neq 0$, so besitzt $f$ einen Wendepunkt an der Stelle $x$. Beweis. Folgt aus Satz 5.25. Die Betrachtungen über Extrema im vorigen Abschnitt (Satz 5.27) erlauben natürlich auch hier eine Charakterisierung der Wendepunkte: Ein Punkt $x$ ist genau dann Wendepunkt von $f$, wenn $f^{\prime \prime}(x)=0$ und die erste nicht verschwindende Ableitung höherer Ordnung an der Stelle $x$ von ungerader Ordnung ist. Anschaulich sind Wendepunkte Stellen $x_{0}$, wo es einen Übergang von Konvexität zu Konkavität oder umgekehrt gibt (siehe Abb. 5.9). In diesem Fall wechselt daher der Funktionsgraph von der einen Seite der Tangente in $x_{0}$ auf die andere. Beispiel 5.33 (Fortsetzung von 5.26) Wir betrachten wieder das Beispiel $f(x)=x^{2} e^{x}$. Dreimaliges Differenzieren ergibt $f^{\prime}(x)=x(x+2) e^{x}, f^{\prime \prime}(x)=\left(x^{2}+4 x+2\right) e^{x}$ und $f^{\prime \prime \prime}(x)=$ $\left(x^{2}+6 x+6\right) e^{x}$. Mögliche Wendepunkte liegen an den Nullstellen der zweiten Ableitung, was gleich bedeutend mit den Nullstellen des Polynoms $x^{2}+4 x+2$ ist. Wir erhalten die beiden Nullstellen $x_{1}=-2-\sqrt{2}$ und $x_{2}=-2+\sqrt{2}$. Einsetzen in die dritte Ableitung zeigt $f^{\prime \prime \prime}\left(x_{i}\right) \neq 0$ für $i=1,2$. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-211.jpg?height=500&width=740&top_left_y=316&top_left_x=590) Abbildung 5.9 Wendepunkt und Wendetangente ## 5. Der verallgemeinerte Mittelwertsatz und die Regel von de l'Hospital Die Regel von de l'Hospital ${ }^{4}$ dient der Berechnung von Grenzwerten der Form $\lim _{x \rightarrow x_{0}} \frac{f(x)}{g(x)}$ mit $\lim _{x \rightarrow x_{0}} f(x)=\lim _{x \rightarrow x_{0}} g(x)=0$ oder $\lim _{x \rightarrow x_{0}} f(x)=\lim _{x \rightarrow x_{0}} g(x)=\infty$. Solche Grenzwerte liefern also bei direkter Anwendung der Rechenregeln für Grenzwerte (Satz 4.14 und Beispiel 4.83, vgl. auch Satz 4.92) eine unbestimmte Form, nämlich $\frac{0}{0}$ bzw. $\frac{\infty}{\infty}$. Auch das Auftreten anderer unbestimmter Formen, wie $0 \cdot \infty, \infty-\infty, 1^{\infty}$ oder $0^{0}$ kann auf diese Fälle zurück geführt werden. Die Grundlage für die Regel von de l'Hospital liefert die folgende Verallgemeinerung des Mittelwertsatzes. Satz 5.34 Gegeben seien zwei auf dem Intervall $[a, b]$ stetige Funktionen $f$ und $g$, die auf $(a, b)$ differenzierbar sind. Weiters gelte $g^{\prime}(x) \neq 0$ für alle $x \in(a, b)$. Dann existiert eine Zwischenstelle $\xi \in(a, b)$, so dass $$ \frac{f^{\prime}(\xi)}{g^{\prime}(\xi)}=\frac{f(b)-f(a)}{g(b)-g(a)} $$ Bemerkung: Man beachte, dass nach dem Mittelwertsatz (getrennt angewendet auf $f$ und $g$ ) folgt, dass $\xi_{1}$ und $\xi_{2}$ existieren mit $f^{\prime}\left(\xi_{1}\right)=\frac{f(b)-f(a)}{b-a}, g^{\prime}\left(\xi_{2}\right)=\frac{g(b)-g(a)}{b-a}$ und folglich $\frac{f^{\prime}\left(\xi_{1}\right)}{g^{\prime}\left(\xi_{2}\right)}=$ $\frac{f(b)-f(a)}{g(b)-g(a)}$. Satz 5.34 besagt, dass man in der letzten Gleichung ein gemeinsames $\xi=\xi_{1}=\xi_{2}$ wählen kann. Beweis. Nach dem Mittelwertsatz gibt es $\xi \in(a, b)$ mit $g^{\prime}(\xi)=\frac{g(b)-g(a)}{b-a}$. Deshalb folgt aus $g^{\prime}(x) \neq 0$ auf ganz $(a, b)$, dass $g(b)-g(a) \neq 0$ gelten muss. Daraus folgt weiters, dass die Funktion $$ F(x)=f(x)-f(a)-\frac{f(b)-f(a)}{g(b)-g(a)}(g(x)-g(a)) $$ auf $(a, b)$ differenzierbar ist. Wegen $F(a)=F(b)=0$ gibt es ein $\xi \in(a, b)$ mit $F^{\prime}(\xi)=0$. Aus $$ F^{\prime}(\xi)=f^{\prime}(\xi)-\frac{f(b)-f(a)}{g(b)-g(a)} g^{\prime}(\xi) $$ folgt schließlich die Behauptung.[^34] Wie wir bereits bei Folgen gesehen haben, lässt sich dem Ausdruck $\frac{0}{0}$ a priori kein vernünftiger Wert zuordnen. Dies verhält sich im Falle von Funktionen natürlich genauso. Zur Illustration betrachten wir die folgenden Grenzwerte, die alle auf die unbestimmte Form $\frac{0}{0}$ führen: $$ \lim _{x \rightarrow 0} \frac{\sin x}{x}=1, \quad \lim _{x \rightarrow 0} \frac{\sqrt{x}}{x}=\infty, \quad \lim _{x \rightarrow 0} \frac{x^{2}}{x}=0, \quad \lim _{x \rightarrow 0} \frac{\sin 3 x}{x}=3 $$ Satz 5.35 (Regel von de l'Hospital) Seien die Funktionen $f$ und $g$ stetig auf $[a, b]$ und differenzierbar im Inneren $(a, b)$. Weiters sei $x_{0} \in[a, b]$ und gelte $f\left(x_{0}\right)=g\left(x_{0}\right)=0$. Ferner sei vorausgesetzt, dass der Grenzwert $\lim _{x \rightarrow x_{0}} \frac{f^{\prime}(x)}{g^{\prime}(x)}$ existiert (bzw. der einseitige Grenzwert, falls $x_{0}=a$ oder $x_{0}=b$ ). Dann gilt $$ \lim _{x \rightarrow x_{0}} \frac{f(x)}{g(x)}=\lim _{x \rightarrow x_{0}} \frac{f^{\prime}(x)}{g^{\prime}(x)} $$ Beweis. Die Aussage folgt fast unmittelbar aus dem verallgemeinerten Mittelwertsatz. Es gilt $$ \frac{f(x)}{g(x)}=\frac{f(x)-f\left(x_{0}\right)}{g(x)-g\left(x_{0}\right)}=\frac{f^{\prime}(\xi)}{g^{\prime}(\xi)} $$ mit $x_{0}<\xi0$ : Anwendung von (5.8) ergibt $$ \lim _{x \rightarrow \infty} \frac{\ln x}{x^{\alpha}}=\lim _{x \rightarrow \infty} \frac{\frac{1}{x}}{\alpha x^{\alpha-1}}=\lim _{x \rightarrow \infty} \frac{1}{\alpha} \cdot x^{-\alpha}=0 . $$ Dies zeigt, dass der Logarithmus für $x \rightarrow \infty$ schwächer wächst als jede positive Potenz von $x$. (e) $\lim _{x \rightarrow 0} x^{\alpha} \ln x=\lim _{x \rightarrow 0} \frac{\ln x}{x^{-\alpha}}$ mit $\alpha>0$ : Nach (5.8) gilt $$ \lim _{x \rightarrow 0} \frac{\ln x}{x^{-\alpha}}=\lim _{x \rightarrow 0} \frac{\frac{1}{x}}{-\alpha x^{-\alpha-1}}=\lim _{x \rightarrow 0}\left(-\frac{1}{\alpha} \cdot x^{\alpha}\right)=0 . $$ Auch für $x \rightarrow 0$ ist der Logarithmus schwächer als jede positive Potenz von $x$. (f) $\lim _{x \rightarrow 1}(\ln x)^{x-1}$ : Dieser Grenzwert führt auf die unbestimmte Form $0^{0}$. Denn es gilt $(\ln x)^{x-1}=\exp ((x-1) \ln \ln x)$, und der Exponent kann nun mit der Regel von de l'Hospital behandelt werden: $$ \lim _{x \rightarrow 1}(x-1) \ln \ln x=\lim _{x \rightarrow 1} \frac{\ln \ln x}{\frac{1}{x-1}}=\lim _{x \rightarrow 1} \frac{\frac{1}{\ln x} \cdot \frac{1}{x}}{-\frac{1}{(x-1)^{2}}} $$ wobei im letzten Schritt die Kettenregel zur Anwendung kam. Nun löst man den Doppelbruch auf und erhält nach abermaliger Anwendung der Regel von de l'Hospital das Ergebnis $$ \lim _{x \rightarrow 1} \frac{-(x-1)^{2}}{x \ln x}=\lim _{x \rightarrow 1} \frac{-2(x-1)}{\ln x+x \cdot \frac{1}{x}}=\frac{0}{0+1}=0 $$ Aufgrund der Stetigkeit von $e^{x}$ gilt nun $$ \lim _{x \rightarrow 1} \exp ((x-1) \ln \ln x)=\exp \left(\lim _{x \rightarrow 1}(x-1) \ln \ln x\right)=e^{0}=1 $$ (g) Eine falsche Anwendung der Regel von de l'Hospital: Wir ,,berechnen“ $$ \lim _{x \rightarrow 1} \frac{x^{3}-x^{2}+x-1}{x^{2}+3 x-4}=\lim _{x \rightarrow 1} \frac{3 x^{2}-2 x+1}{2 x+3}=\lim _{x \rightarrow 1} \frac{6 x-2}{2}=2 $$ Der Fehler dieser Rechnung liegt darin, dass die Regel von de l'Hospital nur anwendbar ist, wenn wir beim Grenzübergang in Zähler und Nenner eine unbestimmte Form erhalten. Dies ist beim zweiten Grenzwert nicht der Fall. Denn hier können wir $x=1$ einsetzen, da ja ein Quotient stetiger Funktionen vorliegt und die Nennerfunktion keine Nullstelle hat. Die zweite Anwendung der Regel von de l'Hospital ist also hier falsch. Es gilt vielmehr $$ \lim _{x \rightarrow 1} \frac{x^{3}-x^{2}+x-1}{x^{2}+3 x-4}=\lim _{x \rightarrow 1} \frac{3 x^{2}-2 x+1}{2 x+3}=\frac{2}{5} . $$ ### 5.3 Das unbestimmte Integral Beispiel 5.37 (Gleichmäßig beschleunigte Bewegung) Unter gleichmäßig beschleunigter Bewegung versteht man eine Bewegung mit konstanter, also zeitunabhängiger Beschleunigung, wie etwa den freien Fall im Vakuum. Sei $a$ die Beschleunigung und $v=v(t)$ die Geschwindigkeit zum Zeitpunkt $t$, dann gilt $v(t)=$ at. Frage: Wie groß ist der zurückgelegte Weg $s=s(t)$ zum Zeitpunkt $t$. Die Momentangeschwindigkeit lässt sich bekanntlich durch Differentiation des Weges ermitteln: $v(t)=a t=\frac{d s}{d t}$. Wir suchen also eine Funktion $s(t)$, deren Ableitung at ist, z.B. $s(t)=\frac{a}{2} t^{2}$. Aber auch die Funktion $\frac{a}{2} t^{2}+100$ hat die Ableitung at. ## 1. Integration als Umkehrung der Differentiation Die Umkehrung der Differentiation nennt man Integration. Das Problem, vor das wir gestellt sind, ist also, aus der Kenntnis der Ableitung $f^{\prime}$ die ursprüngliche Funktion $f$ wieder zu gewinnen. Wie das vorige Beispiel zeigt, ist dieses Umkehrproblem nicht eindeutig lösbar. Definition 5.38 Sei $I$ ein Intervall und $f: I \rightarrow \mathbb{R}$. Jede Funktion $F: I \rightarrow \mathbb{R}$ mit $F^{\prime}(x)=$ $f(x)$ für alle $x \in I$ heißt Stammfunktion oder unbestimmtes Integral von $f$ und wird mit dem Symbol $$ \int f(x) d x $$ bezeichnet. Die Funktion $f$ nent man in diesem Zusammenhang den Integrand und $x$ die Integrationsvariable. Aus Satz 5.16 folgt direkt, dass die Menge der Stammfunktionen einer Funktion $f$ eine sehr einfache Struktur hat. Satz 5.39 Ist $F(x)$ eine Stammfunktion von $f$, dann sind alle Stammfunktionen von $f$ von der Gestalt $F(x)+c$ mit einer Konstanten $c$, d.h., es gilt $$ G(x)=F(x)+c \Longleftrightarrow G^{\prime}(x)=f(x) . $$ Man schreibt daher auch $\int f(x) d x=F(x)+c$. Da das unbestimmte Integral die Umkehrung der Differentiation ist, erhält man aus jeder Differentiationsregel sofort eine Integrationsregel. Insbesondere liefern die Ableitungen der elementaren Funktionen Beispiele für Grundintegrale. Beispiel 5.40 (Grundintegrale) Sei im Folgenden $c \in \mathbb{R}$ beliebig. (a) Potenzfunktionen: $$ \int x^{\alpha} d x=\frac{x^{\alpha+1}}{\alpha+1}+c \quad \text { für } \alpha \in \mathbb{R} \backslash\{-1\} \text {. } $$ Hier muss der Definitionsbereich entsprechend eingeschränkt werden, falls $\alpha \notin \mathbb{N}$. Für negative ganze Zahlen $\alpha$ muss $x=0$ ausgschlossen werden, für nicht ganzzahlige $\alpha$ zusätzlich noch $x<0$. (b) Die Funktion $x^{-1}$ : Wir wissen, dass $(\ln x)^{\prime}=\frac{1}{x}$. Der Logarithmus ist jedoch für $x \leq 0$ nicht definiert. Sei $x<0$. Dann gilt $\ln (-x)^{\prime}=\frac{1}{-x} \cdot(-1)=\frac{1}{x}$. Zusammenfassend ergibt sich demnach $$ \int \frac{d x}{x}= \begin{cases}\ln x+c_{1} & \text { für } x>0 \\ \ln (-x)+c_{2} & \text { für } x<0\end{cases} $$ Man schreibt dafür meist (etwas unkorrekt) $$ \int \frac{d x}{x}=\ln |x|+c $$ (c) Die Exponentialfunktion: $\int e^{x} d x=e^{x}+c$. (d) Winkel- und Arcusfunktionen: $$ \begin{gathered} \int \sin x d x=-\cos x+c, \quad \int \cos x d x=\sin x+c, \\ \int \frac{d x}{\cos ^{2} x}=\int\left(1+\tan ^{2} x\right) d x=\tan x+c \text { für }-\frac{\pi}{2}b, \text { und } \int_{a}^{a} f(x) d x=0 $$ Bemerkung: Das bestimmte Integral von $f$ entspricht also genau der Fläche, die der Graph mit der $x$-Achse einschließt, wobei Gebiete, die unterhalb der $x$-Achse liegen, negativ gewichtet werden. Beispiel 5.46 Eine nicht integrierbare Funktion ist die so genannte Dirichlet'sche Sprungfunktion $f:[0,1] \rightarrow \mathbb{R}$, definiert durch $$ f(x)= \begin{cases}1 & \text { falls } x \in \mathbb{Q} \\ 0 & \text { falls } x \notin \mathbb{Q}\end{cases} $$ Da jedes Teilintervall $\left[x_{i}, x_{i+1}\right]$ einer Zerlegung von $[0,1]$ sowohl rationale als auch irrationale Zahlen enthält, lassen sich sämtliche Zwischenstellen $\xi_{i}$ rational bzw. irrational wählen. Im ersteren Fall ergibt die Zwischensumme (5.12) den Wert $S_{n}=1$, während im letzteren Fall $S_{n}=0$ gilt. Somit ist $f$ nicht integrierbar. Wählt man die Zwischenstellen $\xi_{1}, \ldots, \xi_{n}$ der Riemann'schen Zwischensumme einer Funktion $f$ derart, dass $f$ dort jeweils das Maximum bzw. Minimum im entsprechenden Teilintervall annimmt, d.h., dass $f\left(\xi_{i}\right)=\max _{x \in\left[x_{i-1}, x_{i}\right]} f(x)$ bzw. $f\left(\xi_{i}\right)=\min _{x \in\left[x_{i-1}, x_{i}\right]} f(x)$ für $i=1, \ldots, n$ gilt, dann heißen die entsprechenden Zwischensummen Obersumme bzw. Untersumme. Man kann die Integrierbarkeit von $f$ mit Hilfe der Ober- und Untersummen charakterisieren, wie das folgende Kriterium zeigt, welches wir ohne Beweis angeben. Satz 5.47 (Riemann'sches Integrabilitätskriterium) Eine auf dem Intervall $[a, b]$ beschränkte Funktion $f$ ist genau dann integrierbar, wenn es zu jedem $\varepsilon>0$ eine Zerlegung $Z$ von $[a, b]$ gibt, so dass die zugehörige Obersumme $O_{Z}(f)$ und Untersumme $U_{Z}(f)$ die Ungleichung $O_{Z}(f)-U_{Z}(f)<\varepsilon$ erfuillen. Bemerkung: Die Beweisidee ist relativ einfach: Da es sich bei der Ober- und Untersumme im wesentlichen ${ }^{5}$ nur um spezielle Zwischensummen handelt, konvergieren diese $-\operatorname{sofern} f$ integrierbar ist - ebenfalls gegen das Integral $\int_{a}^{b} f(x) d x$, wenn die Feinheit der Zerlegung gegen 0 geht. Umkehrung: Da $f$ beschränkt ist, sind auch die Menge aller Obersummen und die Menge aller Untersummen beschränkt. Aus der für jede Zerlegung $Z$ geltenden Ungleichung $$ U_{Z}(f) \leq I_{*}=\sup _{\tilde{Z} \text { Zerlegung von }[a, b]} U_{\tilde{Z}}(f) \leq I^{*}=\inf _{\tilde{Z} \text { Zerlegung von }[a, b]} O_{\tilde{Z}}(f) \leq O_{Z}(f) $$ folgt unter der Voraussetzung des obigen Satzes $I_{*}=I^{*}$. Man kann darüber hinaus zeigen, dass $$ \lim _{\mathcal{F}\left(Z_{n}\right) \rightarrow 0} U_{Z_{n}}(f)=I_{*} \text { und } \lim _{\mathcal{F}\left(Z_{n}\right) \rightarrow 0} O_{Z_{n}}(f)=I^{*} $$ gilt. Da alle Zwischensummen zur Zerlegung $Z$ im Intervall $\left[U_{Z}(f), O_{Z}(f)\right]$ liegen, folgt schließlich $I_{*}=\int_{a}^{b} f(x) d x=I^{*}$. Die nächsten beiden Sätze stellen zwei große Klassen von integrierbaren Funktionen vor. ## Satz 5.48 Jede auf $[a, b]$ definierte monotone Funktion ist integrierbar. Beweis. Es genügt, den Fall einer monoton wachsenden Funktion $f \mathrm{zu}$ betrachten. Eine solche Funktion $f$ ist durch $f(a)$ nach unten und durch $f(b)$ nach oben beschränkt. Die Behauptung folgt nun direkt aus Satz 5.47: Wir geben uns eine Zerlegung $a=x_{0}0$ eine Zerlegung $Z$ mit $O_{Z}(f)-U_{Z}(f)<\varepsilon$. So eine Zerlegung erfüllt aber auch $$ \begin{aligned} O_{Z}(|f|)-U_{Z}(|f|) & \leq \sum_{k=1}^{n}\left(\bar{M}_{k}-\bar{m}_{k}\right)\left(x_{i}-x_{i-1}\right) \\ & \leq \sum_{k=1}^{n}\left(M_{k}-m_{k}\right)\left(x_{i}-x_{i-1}\right)=O_{Z}(f)-U_{Z}(f)<\varepsilon \end{aligned} $$ und daher ist nach Satz 5.47 auch $|f|$ integrierbar. Der nächste Satz listet ein paar elementare Eigenschaften von bestimmten Integralen auf. Die meisten sind anschaulich leicht zu interpretieren. Satz 5.52 Seien $f$ und $g$ integrierbar auf $[a, b]$. Dann folgt: (i) Die Funktion $f \mapsto \int_{a}^{b} f(x) d x$ ist linear, d.h., es gelten die beiden Identitäten $$ \int_{a}^{b} K f(x) d x=K \int_{a}^{b} f(x) d x $$ für alle Konstanten $K \in \mathbb{R}$, und $$ \int_{a}^{b}(f(x)+g(x)) d x=\int_{a}^{b} f(x) d x+\int_{a}^{b} g(x) d x . $$ (ii) Sei $a \leq c \leq b$, dann ist (siehe Abb. 5.11, links) $$ \int_{a}^{b} f(x) d x=\int_{a}^{c} f(x) d x+\int_{c}^{b} f(x) d x . $$ (iii) Aus $f(x) \leq g(x)$ für alle $x \in[a, b]$ folgt $\int_{a}^{b} f(x) d x \leq \int_{a}^{b} g(x) d x$. (iv) Für $a0$. Die Fläche über dem Intervall $[a, b]$ und unter der Funktion $\frac{1}{x}$ (siehe Abb 5.13 links) kann mit Hilfe der Integralrechnung einfach berechnet werden. Es gilt $\int_{a}^{b} \frac{d x}{x}=\left.\ln x\right|_{a} ^{b}=\ln b-\ln a=\ln \frac{b}{a}$. (b) Mit Hilfe des vorigen Beispiels können wir nun die folgende Abschätzung machen (siehe auch Abb 5.13): $$ \frac{1}{2}+\frac{1}{3}+\cdots+\frac{1}{n} \leq \int_{1}^{n} \frac{d x}{x}=\ln n \leq 1+\frac{1}{2}+\cdots+\frac{1}{n-1} $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-225.jpg?height=460&width=1494&top_left_y=888&top_left_x=214) Abbildung 5.13 links: $\int_{a}^{b} \frac{d x}{x}$, Mitte und rechts: linke und rechte Seite von (5.16) für $n=6$ Daraus folgt $\ln n \leq 1+\frac{1}{2}+\cdots+\frac{1}{n} \leq 1+\ln n$, also $$ 0 \leq a_{n}=1+\frac{1}{2}+\cdots+\frac{1}{n}-\ln n \leq 1 $$ Weiters gilt wegen $\ln \left(1+\frac{1}{n}\right) \geq \frac{1}{n}-\frac{1}{2 n^{2}}$ (vgl. Beispiel 5.22) $$ \begin{aligned} a_{n}-a_{n+1} & =-\frac{1}{n+1}-\ln n+\ln (n+1)=-\frac{1}{n+1}+\ln \left(1+\frac{1}{n}\right) \\ & \geq-\frac{1}{n+1}+\frac{1}{n}-\frac{1}{2 n^{2}}=\frac{1}{n^{2}+n}-\frac{1}{2 n^{2}} \\ & >0 \text { für } n \geq 2 . \end{aligned} $$ Die Folge $\left(a_{n}\right)_{n \geq 2}$ ist daher (streng) monoton fallend, nach unten durch 0 beschränkt und somit konvergent. Der Grenzwert $\lim _{n \rightarrow \infty} a_{n}=\gamma \approx 0.577216$ wird EulerMascheroni'sche Konstante genannt. Diese liefert eine asymptotische Formel für die Partialsummenfolge der harmonischen Reihe, die so genannten harmonischen Zahlen $$ H_{n}=\sum_{k=1}^{n} \frac{1}{k} \sim \ln n+\gamma $$ die in der Analyse vieler Algorithmen (z.B. Quicksort, siehe Kapitel 7, vgl. auch [9] und [17]) auftreten. (c) Wir berechnen die Fläche eines Halbkreises mit dem Radius $r=1$. Jeder Punkt $(x, y)$ des Kreises erfüllt die Gleichung $x^{2}+y^{2}=1$. Im oberen Halbkreis haben wir daher $y=\sqrt{1-x^{2}}$. Die Fläche des Halbkreises ist dann $\int_{-1}^{1} \sqrt{1-x^{2}} d x$. Dieses Integral lässt sich mit der Substitution $x=\sin t, d x=\cos t d t$ berechnen, wobei auch die Grenzen substituiert werden müssen. Für $x= \pm 1$ bekommen wir daher $t= \pm \frac{\pi}{2}$. Dies ergibt nun $$ \begin{aligned} \int_{-1}^{1} \sqrt{1-x^{2}} d x & =\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}} \sqrt{1-\sin ^{2} t} \cos t d t \\ & =\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}} \cos ^{2} t d t=\left.\left(\frac{t+\sin t \cos t}{2}\right)\right|_{-\frac{\pi}{2}} ^{\frac{\pi}{2}}=\frac{\pi}{2} \end{aligned} $$ wobei das letzte Integral mittels partieller Integration gelöst werden kann (siehe Übungsaufgaben). ### 5.5 Uneigentliche Integrale Im vorigen Abschnitt haben bei bestimmten Integralen immer zwei Voraussetzungen zugetroffen: Einerseits waren die Funktionen im Integranden stetig oder zumindest stückweise stetig und damit beschränkt. Die zweite Voraussetzung war die Beschränktheit des Integrationsbereichs: Wir haben das bestimmte Integral nur für abgeschlossene Intervalle $[a, b]$ definiert. In diesem Abschnitt betrachten wir Verallgemeinerungen des bestimmten Integrals, bei denen mindestens eine der oben genannten Voraussetzungen verletzt ist. Definition 5.58 Sei $f$ auf $[a, b)$ definiert und auf jedem Teilintervall $[a, c] \subset[a, b)$ integrierbar. Weiters sei $\lim _{x \rightarrow b} f(x)=\infty$ (bzw. $-\infty$ ). Dann nennt man das Integral $$ \int_{a}^{b} f(x) d x=\lim _{c \rightarrow b-} \int_{a}^{c} f(x) d x $$ uneigentliches Integral erster Art. Man spricht von Konvergenz bzw. Divergenz des Integrals je nachdem, ob dieser Grenzwert im eigentlichen Sinn existiert oder nicht. Eine analoge Definition gilt für Intervalle $(a, b] \operatorname{mit}_{\lim _{x \rightarrow a} f(x)= \pm \infty}$. Sei $a \in \mathbb{R}$ fest. Für eine auf jedem Intervall $[a, b] \subset[a, \infty)$ integrierbare Funktion $f$ nennt man das Integral $$ \int_{a}^{\infty} f(x) d x=\lim _{b \rightarrow \infty} \int_{a}^{b} f(x) d x $$ uneigentliches Integral zweiter Art. Auch dieses Integral kann entweder konvergent oder divergent sein, wobei - ebenso wie zuvor - im Fall der Konvergenz der Grenzwert nicht uneigentlich sein darf. Eine analoge Definition gilt für Intervalle $(-\infty, b]$. ## Beispiel 5.59 (Uneigentliche Integrale erster Art) (a) Das Integral $\int_{0}^{1} \frac{d x}{\sqrt{x}}$ (siehe Abb. 5.14, links) ist ein uneigentliches Integral erster Art, da für $x \rightarrow 0$ der Grenzwert des Integranden $\infty$ ist. Definitionsgemäß gilt $$ \int_{0}^{1} \frac{d x}{\sqrt{x}}=\lim _{c \rightarrow 0+} \int_{c}^{1} \frac{d x}{\sqrt{x}}=\left.\lim _{c \rightarrow 0+} 2 \sqrt{x}\right|_{c} ^{1}=\lim _{c \rightarrow 0+}(2-2 \sqrt{c})=2 . $$ (b) Genau so wie im vorigen Beispiel ist das Integral $\int_{0}^{1} \frac{d x}{x}$ uneigentlich an der Stelle 0 . Hier erhalten wir jedoch $$ \int_{0}^{1} \frac{d x}{x}=\lim _{c \rightarrow 0+} \int_{c}^{1} \frac{d x}{x}=\left.\lim _{c \rightarrow 0+} \ln x\right|_{c} ^{1}=+\infty $$ Dieses uneigentliche Integral ist daher divergent. (c) Ein Integral, das sich aus zwei uneigentlichen Integralen erster Art zusammensetzt, ist $\int_{-1}^{1} \frac{d x}{x^{2}}$. Hier ist der Integrand nicht am Rand des Integrationsbereichs unbeschränkt, sondern in dessen Innerem. Das Integral ist uneigentlich an der Stelle 0. Dass man dabei vorsichtig sein muss und nicht einfach die Stammfunktion an den Grenzen -1 und 1 (wo es ja keinerlei Probleme gibt) auswerten kann, zeigt die folgende nicht korrekte Rechnung: $$ \int_{-1}^{1} \frac{d x}{x^{2}}=-\left.\frac{1}{x}\right|_{-1} ^{1}=-1+(-1)=-2 $$ Dieses Ergebnis ist offensichtlich falsch, da ein Blick auf Abb. 5.14 (rechts) sofort zeigt, dass das Integral nicht negativ sein kann. Nun richtig gerechnet: $$ \begin{aligned} \int_{-1}^{1} \frac{d x}{x^{2}} & =\int_{-1}^{0} \frac{d x}{x^{2}}+\int_{0}^{1} \frac{d x}{x^{2}}=\lim _{c \rightarrow 0+} \int_{-1}^{-c} \frac{d x}{x^{2}}+\lim _{c \rightarrow 0+} \int_{c}^{1} \frac{d x}{x^{2}} \\ & =\left.\lim _{c \rightarrow 0+}\left(-\frac{1}{x}\right)\right|_{-1} ^{-c}+\left.\lim _{c \rightarrow 0+}\left(-\frac{1}{x}\right)\right|_{c} ^{1}=\lim _{c \rightarrow 0+}\left(\frac{1}{c}-1\right)+\lim _{c \rightarrow 0+}\left(-1+\frac{1}{c}\right)=\infty . \end{aligned} $$ Das uneigentliche Integral $\int_{-1}^{1} \frac{d x}{x^{2}}$ existiert daher nicht. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-227.jpg?height=460&width=1506&top_left_y=1572&top_left_x=179) Abbildung 5.14 Uneigentliche Integrale erster und zweiter Art: $\int_{0}^{1} \frac{d x}{\sqrt{x}}, \int_{1}^{\infty} e^{-x} d x$ und $\int_{-1}^{1} \frac{d x}{x^{2}}$ ## Beispiel 5.60 (Uneigentliche Integrale zweiter Art) (a) Radioaktive Zerfallsprozesse können mit der Exponentialfunktion $f(x)=e^{-x}$ beschrieben werden. Die Gesamtemission ist dann das Integral über den betrachteten Zeitraum. Dies führt auf $\int_{1}^{\infty} e^{-x} d x$, ein uneigentliches Integral zweiter Art. Einsetzen in die Definition ergibt $$ \int_{1}^{\infty} e^{-x} d x=\lim _{c \rightarrow \infty} \int_{1}^{c} e^{-x} d x=\left.\lim _{c \rightarrow \infty}\left(-e^{-x}\right)\right|_{1} ^{c}=\lim _{c \rightarrow \infty}\left(-e^{-c}+e^{-1}\right)=\frac{1}{e} $$ (b) Die Gammafunktion $\Gamma(x)$ ist für $x>0$ durch $$ \Gamma(x)=\int_{0}^{\infty} e^{-t} t^{x-1} d t $$ definiert. Dieses Integral ist uneigentlich bei $t=\infty$ und für $x<1$ auch bei $t=0$. Damit die Gammafunktion sinnvoll definiert ist, muss das Integral konvergieren. Da die Exponentialfunktion schneller wächst als jede Potenz, gibt es für jedes $x$ eine Konstante $C_{x}$, so dass $e^{-t} \leq t^{-x-1}$, also $e^{-t} \cdot t^{x-1} \leq t^{-2}$ für alle $t>C_{x}$. Daraus folgt $$ \begin{aligned} \int_{0}^{\infty} e^{-t} t^{x-1} d t & =\int_{0}^{C_{x}} e^{-t} t^{x-1} d t+\int_{C_{x}}^{\infty} e^{-t} t^{x-1} d t \\ & \leq \int_{0}^{C_{x}} e^{-t} t^{x-1} d t+\int_{C_{x}}^{\infty} t^{-2} d t=\int_{0}^{C_{x}} e^{-t} t^{x-1} d t+\frac{1}{C_{x}} \end{aligned} $$ Die Konvergenz des Integrals folgt aus Übungsaufgabe 5.34, so dass das Integral insgesamt konvergent und $\Gamma(x)$ wohl definiert ist. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-228.jpg?height=538&width=538&top_left_y=1171&top_left_x=663) Abbildung 5.15 Der Graph der Gammafunktion $\Gamma(x)$ Mittels partieller Integration lässt sich die folgende Funktionalgleichung für die Gammafunktion herleiten. Wir verwenden die Bezeichnungsweise $\left.F(x)\right|_{0} ^{\infty}=\left.\lim _{a \rightarrow \infty} F(x)\right|_{0} ^{a}$ : $$ \begin{aligned} \Gamma(x+1) & =\int_{0}^{\infty} \underbrace{e^{-t} \cdot t^{x}}_{g^{\prime} \cdot f} d t=-\left.e^{-t} t^{x}\right|_{0} ^{\infty}+\int_{0}^{\infty} e^{-t} x t^{x-1} d t \\ & =x \int_{0}^{\infty} e^{-t} t^{x-1} d t=x \Gamma(x) \end{aligned} $$ Mit dem Startwert $$ \Gamma(1)=\int_{0}^{\infty} e^{-t} t^{0} d t=-\left.e^{-t}\right|_{0} ^{\infty}=1 $$ erhalten wir $\Gamma(2)=1 \cdot \Gamma(1)=1, \Gamma(3)=2 \cdot \Gamma(2)=2 \cdot 1, \Gamma(4)=3 \cdot \Gamma(3)=3 \cdot 2 \cdot 1$ und somit allgemein $\Gamma(n+1)=n$ ! für $n \in \mathbb{N}$. Die Gammafunktion ist daher eine Verallgemeinerung der Fakultät $n$ ! auf nicht ganzzahlige Werte von $n$. Im letzten Beispiel haben wir die Konvergenz des Integrals mit Abschätzungen durch geeignte konvergente Integrale gezeigt. Ganz allgemein gilt, ähnlich wie bei Reihen, ein Majorantenkriterium. Satz 5.61 Seien $f$ und $g$ stückweise stetige Funktionen auf $[0, \infty)$ und gelte $|f(x)| \leq g(x)$ für alle $x \geq 0$. Ist $\int_{0}^{\infty} g(x) d x$ konvergent, so ist $\int_{0}^{\infty} f(x) d x$ ebenfalls konvergent. Mit Hilfe der Theorie der uneigentlichen Integrale lässt sich ein weiteres Konvergenzkriterium für Reihen finden. Satz 5.62 (Integralkriterium) Sei $f:[1, \infty) \rightarrow \mathbb{R}$ eine nichtnegative und monoton fallende Funktion. Dann ist das uneigentliche Integral $\int_{1}^{\infty} f(x) d x$ genau dann konvergent, wenn die Reihe $\sum_{n=1}^{\infty} f(n)$ konvergiert. Beweis. Analog zu Beispiel 5.57 b (siehe Abb. 5.13) erhält man die Abschätzung $$ \sum_{k=2}^{n} f(k) \leq \int_{1}^{n} f(x) d x \leq \sum_{k=1}^{n-1} f(k) $$ und nach Grenzübergang für $n \rightarrow \infty$ die Behauptung. Beispiel 5.63 Die hyperharmonische Reihe $\sum_{n \geq 1} \frac{1}{n^{\alpha}}$ konvergiert genau dann, wenn $\alpha>1$. Für $\alpha \geq 2$ (bzw. $\alpha \leq 1$ ) haben wir die Konvergenz (bzw. Divergenz) bereits in Beispiel 4.49 gezeigt. Nach dem Integralkriterium konvergiert im Fall $\alpha>0$ die Reihe genau dann, wenn das entsprechende Integral konvergiert. Für $\alpha \neq 1$ gilt $$ \int_{1}^{\infty} \frac{d x}{x^{\alpha}}=\int_{1}^{\infty} x^{-\alpha} d x=\left.\lim _{c \rightarrow \infty} \frac{x^{1-\alpha}}{1-\alpha}\right|_{1} ^{c}= \begin{cases}\infty & \text { für } \alpha<1 \\ \frac{1}{\alpha-1} & \text { für } \alpha>1\end{cases} $$ Im Fall $\alpha=1$ liegt die harmonische Reihe vor, deren Divergenz wir bereits im vorigen Kapitel nachgewiesen haben. Man kann aber auch in diesem Fall das Integralkriterium anwenden. ## 5.6 Übungsaufgaben 5.1 Sei $n \in \mathbb{N}$ und $f(x)=1 / x^{n}$. Zeigen Sie direkt, d.h. analog zu Beispiel 5.2(d), dass $f^{\prime}(x)=$ $-n / x^{n+1}$. 5.2 Berechnen Sie $(\arcsin x)^{\prime}$ und $(\arccos x)^{\prime}$. 5.3 Berechnen Sie die Ableitung von $f(x)=x \cdot|x|$. 5.4 Untersuchen Sie, wo die Funktion $$ f(x)= \begin{cases}x^{2} \sin \frac{1}{x} & \text { falls } x \neq 0 \\ 0 & \text { falls } x=0\end{cases} $$ differenzierbar ist, und berechnen Sie die Ableitung. Ist die Funktion stetig differenzierbar? 5.5 Man berechne die ersten 4 Ableitungen der Funktion $f(x)=(x+1) /(x-1)$ und finde einen allgemeinen Ausdruck für die $n$-te Ableitung. 5.6 Untersuchen Sie, wo die Funktion $f(x)$ differenzierbar ist, und bestimmen Sie dort $f^{\prime}(x)$ : (a) $f(x)=\frac{\sqrt{x^{2}-4 x+4}}{\sqrt{x^{2}-5 x+2}}$ (b) $f(x)=\arcsin \left(\sqrt[3]{x^{2}-2}\right)$ (c) $f(x)=\frac{\sqrt{x^{2}-4 x+4}}{\sqrt{x^{2}-6 x+3}}$ (d) $f(x)=\arccos \left(\sqrt[4]{x^{2}-2}\right)$ (e) $f(x)=\sqrt{\frac{x^{2}+2 x+1}{x^{2}-4 x+3}}$ (f) $f(x)=\arctan \left(\sqrt{\frac{x+1}{x-1}}\right)$ (g) $f(x)=x^{2} e^{\sqrt{x}}$ (h) $f(x)=\ln \ln x$ (i) $f(x)=\cos x \cdot e^{-x^{2}}$ (j) $f(x)=\sqrt{e^{(x+1)^{2}}}$ (k) $f(x)=\cos \left(x e^{-x^{2}}\right)$ (l) $f(x)=\sqrt{\sin (\cos x)}$ 5.7 Zeigen Sie die Leibniz'sche Produktregel mit vollständiger Induktion: $$ (f(x) g(x))^{(n)}=\sum_{k=0}^{n}\left(\begin{array}{l} n \\ k \end{array}\right) f^{(k)}(x) g^{(n-k)}(x) $$ Bestimmen Sie damit $f^{(8)}(x)$ für $f(x)=x^{2} e^{-2 x}$. 5.8 Sei $f:[a, b] \rightarrow \mathbb{R}$ eine Funktion, die für alle $x, y \in[a, b]$ die Ungleichung $|f(x)-f(y)| \leq|x-y|^{2}$ erfüllt. Zeigen Sie, dass $f$ konstant ist. 5.9 Seien $f$ und $g$ stetig auf $[a, b]$ und differenzierbar auf $(a, b)$. Weiters gelte $0 \leq f^{\prime}(x)1)\end{array}\right.$ (b) $f(t)=\left\{\begin{array}{rr}-2 & (t \leq 1) \\ 1 & (t>1)\end{array}\right.$ 5.24 Berechnen Sie das Integral $\int_{2}^{3} x^{2} d x$ mit Hilfe von Untersummen bei äquidistanter Teilung. (Hinweis: $\sum_{k=1}^{n} k^{2}=\frac{n(n+1)(2 n+1)}{6}, \quad \sum_{k=1}^{n} k=\frac{n(n+1)}{2}$.) 5.25 Berechnen Sie $$ \lim _{n \rightarrow \infty} \frac{1}{n^{2}} \sum_{k=1}^{n} \sqrt{k(n-k)} $$ durch Interpretation als Grenzwert einer Riemannschen Zwischensumme. 5.26 Beweisen Sie Satz 5.50. 5.27 Mit Hilfe der Substitutionsregel beweise man die Integrationsregel $$ \int \frac{u^{\prime}(x)}{u(x)} d x=\ln |u(x)|+c $$ und berechne damit $\int \frac{d x}{x \ln x}$. 5.28 Berechnen Sie die folgenden unbestimmten Integrale: (a) $\int \frac{(x-3)^{2}}{x^{-7 / 2}} d x$ (b) $\int \frac{x^{4}+x^{2}-1}{(x-1)^{2}\left(x^{2}+2 x+3\right)} d x$ (c) $\int \frac{x^{6}-6 x+\sqrt{12 x}}{x^{2}} d x$ (d) $\int x^{2} \cos x d x$ (e) $\int \frac{d x}{x^{2}+2 x+9}$ (f) $\int \frac{d x}{2 \sin ^{2} x \cos ^{2} x}$ (g) $\int \frac{e^{x}}{e^{2 x}-e^{x}-6} d x$ (h) $\int \arccos x d x$ (i) $\int x(\ln x)^{2} d x$ (j) $\int \sin x(1+2 \cos x)^{4} d x$ (k) $\int \frac{\sqrt{x+1}}{x} d x$ (1) $\int\left(x^{2}+1\right) e^{-2 x} d x$ (m) $\int \frac{x^{2}+1}{x^{3}+x^{2}-x-1} d x$ (n) $\int \frac{x^{2}+3}{2 x^{2}+7} d x$ (o) $\int \frac{e^{x}-1}{e^{2 x}+1} d x$ (p) $\int \sqrt{1+7 x^{2}} d x$ (q) $\int \frac{\ln ^{2} x-2 \ln 2}{x(\ln x+1)} d x$ (r) $\int \frac{d x}{\sin x}$ 5.29 Berechnen Sie die folgenden bestimmten Integrale: (a) $\int_{1}^{2}(\sqrt[4]{x(\sqrt[3]{x \sqrt{x}})})^{5} d x$ (b) $\int_{0}^{\frac{2 \pi}{3}}\left(\sin ^{2} x+\frac{1}{\sqrt{1+x^{2}}}\right) d x$ (c) $\int_{1}^{2}\left(\frac{1}{x}-\frac{x}{1+x^{2}}\right) d x$ (d) $\int_{0}^{1} \frac{d x}{(1+x) \sqrt{x}}$ (e) $\int_{0}^{\pi / 4} \tan ^{2} x d x$ (f) $\int_{1}^{e} \frac{d x}{x \sqrt{\ln x}}$ (g) $\int_{0}^{\infty} x e^{-x} d x$ (h) $\int_{0}^{\infty} x e^{-x^{2}} d x$ (i) $\int_{0}^{\infty} \frac{e^{-\sqrt{x}}}{2 \sqrt{x}} d x$ (j) $\int_{-1}^{1} \frac{d x}{\sqrt{|x|}}$ (k) $\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}} \cos ^{2} x d x$ (1) $\int_{-\frac{\pi}{2}}^{\frac{\pi}{2}} \sin ^{2} x d x$ 5.30 Sei $f:[a, b] \rightarrow \mathbb{R}$ eine nichtnegative stetige Funktion und $x_{0} \in[a, b]$ mit $f\left(x_{0}\right)>0$. Zeigen Sie, dass dann $\int_{a}^{b} f(x) d x>0$. ### 5.31 Bestimmen Sie den Wert der Integrale $$ \int_{0}^{1} \frac{e^{-x^{2}}-1+x^{2}}{x^{4}} d x \text { und } \int_{0}^{1 / 2} \ln \frac{1}{1-x^{3}} d x $$ näherungsweise auf 3 Dezimalstellen zunächst ohne, dann mit Computer. Hinweis: Entwickeln Sie den Integranden in eine Taylorreihe. Wieviele Terme sind nötig, um die gewünschte Genauigkeit zu erzielen? 5.32 Gegeben ist eine stetige Funktion $f$ auf dem Intervall $[a, b]$. Lässt man den Graphen der Funktion um die $x$-Achse rotieren, so entsteht ein Rotationskörper. Dieser hat das Volumen $$ V=\pi \int_{a}^{b} f(x)^{2} d x $$ Berechnen Sie mit Hilfe dieser Formel das Volumen eines Kreiskegels mit Radius $r$ und Höhe $h$ sowie das Volumen einer Kugel mit Radius $r$. 5.33 Bestimmen Sie Radius und Höhe jenes Zylinders mit Volumen $V$, der die kleinste Oberfläche hat. 5.34 Für welche Werte $\alpha \in \mathbb{R}^{-}$ist das uneigentliche Integral $\int_{0}^{1} x^{\alpha} d x$ konvergent? 5.35 Berechnen Sie $\int_{1}^{\infty} \frac{1}{x \sqrt{x-1}} d x$. (Anleitung: Verwenden Sie die Substitution $u=\sqrt{x-1}$. Achtung: Das angegebene Integral ist sowohl bei $x=1$ als auch bei $x=\infty$ uneigentlich.) 5.36 Untersuchen Sie mit Hilfe des Integralkriteriums, ob die folgenden Reihen konvergieren: (a) $\sum_{n \geq 0} e^{-n^{2}}$ (b) $\sum_{n \geq 0} n e^{-n^{2}}$ (c) $\sum_{n \geq 1} \frac{1}{n \ln ^{\alpha} n}$ $(\alpha>0)$ (d) $\sum_{n \geq 1} \frac{\ln ^{\alpha} n}{n^{1+\beta}} \quad(\alpha, \beta>0)$ ## Kapitel 6 ## Differential- und Integralrechnung in mehreren Variablen In den beiden vorigen Kapiteln haben wir uns eingehend mit Funktionen, die von einer Variablen abhängen, beschäftigt. Oft hängen aber Funktionen von mehr als einer Einflussgröße ab. In diesem Kapitel wollen wir uns deshalb mit Funktionen in mehreren Variablen befassen und die Differential- und Integralrechnung auf solche Funktionen übertragen. ### 6.1 Funktionen in mehreren Variablen ## 1. Beispiele und Darstellungen Im Folgenden betrachten wir Funktionen $f: D \rightarrow \mathbb{R}$ mit einem Definitionsbereich $D \subseteq \mathbb{R}^{n}$. ## Beispiel 6.1 (a) Der Gesamtwiderstand $R_{\text {Ges }}$ in einem Wechselstromkreis hängt vom Ohm'schen Widerstand $R$, dem kapazitiven Widerstand $R_{C}$ und dem induktiven Widerstand $R_{L}$ wie folgt $a b$ : $$ R_{\mathrm{Ges}}=\sqrt{R^{2}+\left(R_{C}-R_{L}\right)^{2}} $$ (b) Lineare Funktionen in zwei Variablen sind gegeben durch $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$ mit $f(x, y)=$ $a x+b y$, wobei $a, b \in \mathbb{R}$. Sie beschreiben Ebenen durch den Ursprung ${ }^{1}$ im $^{\mathbb{R}^{3}}$. Allgemein ist eine lineare Funktion über $\mathbb{R}^{n}$ von der Form $f: \mathbb{R}^{n} \rightarrow \mathbb{R}$ mit $f\left(x_{1}, x_{2}, \ldots, x_{n}\right)=$ $\sum_{i=1}^{n} a_{i} x_{i}$ und reellen Konstanten $a_{1}, \ldots, a_{n}$. Geometrisch ist der Funktionsgraph eine so genannte Hyperebene im $\mathbb{R}^{n+1}$, die durch den Ursprung geht, also ein $n$-dimensionaler Unterraum. (c) Polynomfunktionen in mehreren Variablen sind Funktionen $f: \mathbb{R}^{n} \rightarrow \mathbb{R}$ der Bauart $$ f\left(x_{1}, \ldots, x_{n}\right)=\sum_{i_{1}=0}^{k_{1}} \sum_{i_{2}=0}^{k_{2}} \cdots \sum_{i_{n}=0}^{k_{n}} a_{i_{1}, i_{2}, \ldots, i_{n}} x_{1}^{i_{1}} x_{2}^{i_{2}} \cdots x_{n}^{i_{n}} $$[^36]mit $a_{i_{1}, i_{2}, \ldots, i_{n}} \in \mathbb{R}$. Der Grad einer Polynomfunktion ist definiert als Exponent der höchsten auftretenden Potenz, wobei die Exponenten der einzelnen Variablen addiert werden, also als $\max \left\{i_{1}+\cdots+i_{n} \mid a_{i_{1}, i_{2}, \ldots, i_{n}} \neq 0\right\}$. (d) Elementare Funktionen in mehreren Variablen sind analog zu elementaren Funktionen in einer Variablen definiert. Funktionen in zwei Variablen mit einem Definitionsbereich $D \subseteq \mathbb{R}^{2}$ lassen sich auf verschiedene Arten veranschaulichen. Eine Möglichkeit ist die Darstellung als Fläche im dreidimensionalen Raum. Der Graph einer Funktion $f(x, y)$ ist die Punktmenge $\{(x, y, f(x, y)) \mid(x, y) \in D\}$ (siehe Abb. 6.1 für einige Beispiele von Graphen elementarer Funktionen in zwei Variablen). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-235.jpg?height=492&width=1456&top_left_y=781&top_left_x=214) Abbildung 6.1 Funktionen $f(x, y)=5 x^{2}+7 y^{2}+2, g(x, y)=\frac{\sin \left(\sqrt{x^{2}+y^{2}}\right)}{\sqrt{x^{2}+y^{2}}}, h(x, y)=e^{-x^{2}+y}$ Eine andere Möglichkeit der Darstellung von Funktionen in zwei Variablen sind Niveaulinien (Isohypsen). Wie die Höhenschichtlinien in Landkarten beschreiben sie jeweils eine Punktmenge, auf der die Funktion einen vorgegebenen konstanten Wert hat. Die Niveaulinie zum Niveau $c$ der Funktion $f(x, y)$ ist also die Menge $\{(x, y) \in D \mid f(x, y)=c\}$ (siehe dazu Abb. 6.2). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-235.jpg?height=696&width=1434&top_left_y=1722&top_left_x=260) Abbildung 6.2 Graph und Niveaulinien der Funktion $f(x, y)=\sin (x+y)+x^{2}$ (e) Die Werte der Funktionen in den voran gegangenen Beispielen liegen alle in $\mathbb{R}$. Solche Funktionen nennt man auch skalarwertig oder Skalarfelder. Vektorwertige Funktionen sind hingegen Funktionen, deren Definitions- bzw. Bildbereich Teilmenge von $\mathbb{R}^{n}$ bzw. von $\mathbb{R}^{m}$ ist. Vektorwertige Funktionen mit $n=m$ nennt man auch Vektorfelder. Ein Beispiel für eine vektorwertige Funktion (siehe Abb. 6.3) ist $$ f: \mathbb{R}^{2} \rightarrow \mathbb{R}^{2}, \quad(x, y) \mapsto\left(\begin{array}{c} f_{1}(x, y) \\ f_{2}(x, y) \end{array}\right)=\left(\begin{array}{c} x^{2}+y^{2} \\ \sin (x y)+e^{y} \end{array}\right) $$ Solche Funktionen treten zum Beispiel bei der Beschreibung von Strömungen auf (jedem Ort im $\mathbb{R}^{3}$ wird eine Geschwindigkeit zugeordnet, die selbst wieder als Vektor des $\mathbb{R}^{3}$ dargestellt ist), ebenso bei Magnet- oder Gravitationsfeldern, etc. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-236.jpg?height=524&width=879&top_left_y=920&top_left_x=526) Abbildung 6.3 Das Vektorfeld aus Gleichung (6.1) (f) Quadratische Formen sind Funktionen $q: \mathbb{R}^{n} \rightarrow \mathbb{R}$ der Bauart $q(\mathbf{x})=\mathbf{x}^{T} A \mathbf{x}$, wobei $A$ eine symmetrische $n \times n$-Matrix ist, d.h. $A^{T}=A$. Für $A=\left(a_{i j}\right)_{i, j=1, \ldots, n}$ gilt $q(\mathbf{x})=\sum_{i=1}^{n} \sum_{j=1}^{n} a_{i j} x_{i} x_{j}$. Z.B. ist die durch die Matrix $A=\left(\begin{array}{rr}4 & -5 \\ -5 & 9\end{array}\right)$ bestimmte quadratische Form $$ q(x, y)=(x, y)\left(\begin{array}{rr} 4 & -5 \\ -5 & 9 \end{array}\right)\left(\begin{array}{l} x \\ y \end{array}\right)=4 x^{2}-10 x y+9 y^{2} $$ Diese quadratische Form lässt sich auch als Summe zweier Quadrate, nämlich als $q(x, y)=\left(2 x-\frac{5}{2} y\right)^{2}+\frac{11}{4} y^{2}$ schreiben und nimmt daher mit Ausnahme der Stelle $(x, y)=(0,0)$ nur positive Werte an. Quadratische Formen mit dieser Eigenschaft (und ebenso die entsprechenden Matrizen) heißen positiv definit (siehe Abschnitt 3.7). Analog heißt $q$ negativ definit, falls $q(x, y)<0$ für alle $(x, y) \neq(0,0)$. Falls die Ungleichung nicht strikt gilt, also $q(x, y) \geq 0$ bzw. $q(x, y) \leq 0$ für alle $(x, y) \in \mathbb{R}^{2}$, so spricht man von positiv bzw. negativ semidefiniten quadratischen Formen. Formen, die nicht semidefinit (und daher auch nicht definit) sind, nennt man indefinit. Ein einfaches Kriterium zur Feststellung der Definitheit einer Matrix ist das in Abschnitt 3.7 genannte Hauptminorenkriterium. ## 2. Grenzwert und Stetigkeit Um die Differential- und Integralrechnung für Funktionen in mehreren Variablen entwickeln zu können, müssen wir die Begriffe aus der Theorie der Funktionen in einer Variablen übertragen. Von zentraler Bedeutung ist zunächst der Begriff der Stetigkeit, der wiederum auf dem Grenzwertbegriff beruht. An die Stelle der Intervalle in $\mathbb{R}$ treten $n$-dimensionale Kugeln in $\mathbb{R}^{n}$ : Definition 6.2 Unter einer $\varepsilon$-Umgebung des Punktes $\mathbf{x}_{0} \in \mathbb{R}^{n}$ versteht man die Menge $$ U_{\varepsilon}\left(\mathrm{x}_{0}\right)=\left\{\mathrm{x} \in \mathbb{R}^{n} \mid\left\|\mathrm{x}-\mathrm{x}_{0}\right\|<\varepsilon\right\} $$ also die Menge aller Vektoren in $\mathbb{R}^{n}$, deren Abstand von $\mathbf{x}_{0}$ kleiner als $\varepsilon$ ist. Diese Menge ist für $n=1$ ein Intervall, für $n=2$ eine Kreisscheibe und für $n=3$ eine Kugel. Damit lässt sich nun die Stetigkeit analog zum Fall $n=1$ definieren. Man muss lediglich den Abstand $\left|x-x_{0}\right|$ zweier Elemente des Definitionsbereichs an den höher dimensionalen Fall anpassen. Dies führt auf folgende Definition. Definition 6.3 Sei $D \subseteq \mathbb{R}^{n}$ und $f: D \rightarrow \mathbb{R}$. Unter dem Grenzwert $\lim _{\mathbf{x} \rightarrow \mathrm{x}_{0}} f(\mathbf{x})$ versteht man jene Zahl $c$, die folgende Eigenschaft besitzt: Für alle $\varepsilon>0$ existiert ein $\delta>0$, so dass für alle $\mathbf{x} \in D$ mit $0<\left\|\mathbf{x}-\mathbf{x}_{0}\right\|<\delta$ die Ungleichung $|f(\mathbf{x})-c|<\varepsilon$ gilt. Die Funktion $f$ heißt stetig an der Stelle $\mathbf{x}_{0} \in D$, falls $\lim _{\mathbf{x} \rightarrow \mathbf{x}_{0}} f(\mathbf{x})=f\left(\mathbf{x}_{0}\right)$, und stetig auf $D$, wenn $f$ an jeder Stelle $\mathbf{x}_{0} \in D$ stetig ist. Für vektorwertige Funktionen $\mathrm{f}(\mathbf{x})=\left(f_{1}(\mathbf{x}), \ldots, f_{m}(\mathbf{x})\right)$ verwendet man die gleiche Idee. In der obigen Definition ist nur $|f(\mathbf{x})-c|<\varepsilon$ durch $\|\mathbf{f}(\mathbf{x})-\mathbf{c}\|<\varepsilon$ zu ersetzen. Die Stetigkeit von $\mathbf{f}$ ist übrigens gleichbedeutend damit, dass alle Koordinatenfunktionen $f_{i}(\mathbf{x}), i=1, \ldots, m$ stetig sind. Funktionen in zwei Variablen lassen sich als Flächen im dreidimensionalen Raum veranschaulichen (siehe Beispiel 6.1d und Abb. 6.1). Unstetigkeitsstellen lassen sich dabei z.B. als Risse oder Unendlichkeitsstellen so einer Funktionsfläche deuten. Es können aber auch andere Phänomene auftreten. Die Funktion $$ f(x, y)= \begin{cases}\frac{2 x y}{x^{2}+y^{2}} & (x, y) \neq(0,0) \\ 0 & (x, y)=(0,0)\end{cases} $$ ist an der Stelle $(0,0)$ unstetig. Denn der Funktionswert ist dort 0, aber der Grenzwert $\lim _{(x, y) \rightarrow(0,0)} f(x, y)$ existiert nicht. Auf der Geraden $x=y$ gilt nämlich $f(x, y)=1$, auf der Geraden $x=-y$ jedoch $f(x, y)=-1$ (vgl. dazu Abb. 6.4). Somit sind in jeder Umgebung des Ursprungs sowohl Punkte, wo der Funktionswert gleich 1 ist, als auch solche mit Funktionswert gleich -1 . Auch im Mehrdimensionalen lässt sich Stetigkeit mit Hilfe von Folgen untersuchen. Definition 6.4 Sei $D \subseteq \mathbb{R}^{n}$. Eine Folge $\left(\mathbf{x}_{n}\right)_{\mathbf{n} \in \mathbb{N}}$ mit $\mathbf{x}_{n} \in D$ heißt konvergent gegen den Grenzwert $\mathbf{x} \in D$, wenn für alle $\varepsilon>0$ ein $N$ existiert, so dass $\left\|\mathbf{x}_{n}-\mathbf{x}\right\|<\varepsilon$ für alle $n>N$. Satz 6.5 Eine Funktion $f: D \rightarrow \mathbb{R}$ mit $D \subseteq \mathbb{R}^{n}$ ist genau dann stetig an der Stelle $\mathbf{x} \in D$, wenn $\lim _{n \rightarrow \infty} f\left(\mathbf{x}_{n}\right)=f(\mathbf{x})$ für jede Folge $\left(\mathbf{x}_{n}\right)_{n \in \mathbb{N}}$ mit $\mathbf{x}_{n} \in D$ und $\lim _{n \rightarrow \infty} \mathbf{x}_{n}=\mathbf{x}$. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-238.jpg?height=438&width=1498&top_left_y=286&top_left_x=236) Abbildung 6.4 Links: Eine stetige Funktion. Bei vorgegebener Toleranz ( $\varepsilon$-Umgebung $U$ ) bezüglich der $z$ Koordinate in einem Punkt $\left(x_{0}, y_{0}, f\left(x_{0}, y_{0}\right)\right.$ lässt sich immer eine Kreisscheibe $K\left(x_{0}, y_{0}\right)$ mit Mittelpunkt $\left(x_{0}, y_{0}\right)$ finden, so dass $f(x, y)$ für alle $(x, y) \in K\left(x_{0}, y_{0}\right)$ in $U$ liegt. Mitte: Funktion mit Unstetigkeitsstellen. Entlang des „Risses“ ist die Funktion unstetig. Rechts: Die in (6.2) definierte Funktion ist im Ursprung nicht stetig. Der Satz von der Vorzeichenbeständigkeit ist direkt auf Funktionen in mehreren Variablen übertragbar: Stetige Funktionen ändern lokal ihr Vorzeichen nicht (außer in der Umgebung von Nullstellen). Die Regeln aus Satz 4.92 gelten sinngemäß auch für Funktionen in mehreren Variablen. Das Analogon zur Existenz von Maxima und Minima auf Intervallen gilt ebenso. Um es formulieren zu können, benötigen wir jedoch noch einen Begriff. Die folgende Definition stellt Verallgemeinerungen von offenen und abgeschlossenen Intervallen zur Verfügung, die wir auch später benötigen werden. Definition 6.6 Eine Menge $D \subseteq \mathbb{R}^{n}$ heißt offen, wenn aus $\mathrm{x} \in D$ folgt, dass es eine Umgebung $U_{\varepsilon}(x)$ gibt mit $U_{\varepsilon}(x) \subseteq D$. Die Menge $D \subseteq \mathbb{R}^{n}$ heißt abgeschlossen, wenn der Grenzwert jeder konvergenten Folge, deren Glieder in $D$ liegen, selbst wieder in $D$ liegt. Eine abgeschlossene und beschränkte Menge $D \subseteq \mathbb{R}^{n}$ nennt man kompakt. ## Beispiel 6.7 (a) Offene Intervalle $(a, b)$ sind nach obiger Definition offene Mengen in $\mathbb{R}$. Denn jeder Punkt $c \in(a, b)$ liegt in der Umgebung $\left(\frac{a+c}{2}, \frac{b+c}{2}\right)$, die selbst zur Gänze in $(a, b)$ liegt. Analog sind Kreisscheiben ohne Rand offene Mengen im $\mathbb{R}^{2}$. Sie sind aber keine offenen Mengen $\operatorname{im} \mathbb{R}^{3}$, da die Umgebungen im $\mathbb{R}^{3}$ Kugeln sind und daher niemals Teilmengen von Kreisscheiben sein können. Ob eine Menge offen ist oder nicht, hängt also nicht von der Menge selbst ab, sondern von der Struktur der Umgebungen des Raumes. ${ }^{2}$ In Vektorräumen wie $\mathbb{R}^{n}$ ist diese Struktur durch die Art der Abstandsmessung (also durch das Skalarprodukt, siehe Abschnitt 3.7) bestimmt. (b) Abgeschlossene Intervalle $[a, b]$ sowie Kreisscheiben oder Kugeln inklusive Rand sind jeweils abgeschlossene, ja sogar kompakte Mengen von $\mathbb{R}, \mathbb{R}^{2}$ bzw. $\mathbb{R}^{3}$. (c) Die Menge $\mathbb{R}$ ist eine sowohl offene als auch abgeschlossene Teilmenge von sich selbst.[^37] Stetige Funktionen in einer Variablen nehmen nach Satz 4.90 auf jedem abgeschlossenen Intervall ein Maximum und ein Minimum an. Für stetige Funktionen in mehreren Variablen gilt ein analoger Satz, den wir ohne Beweis anführen. Satz 6.8 Sei $D \subseteq \mathbb{R}^{n}$ eine kompakte Menge und $f: D \rightarrow \mathbb{R}$ eine stetige Funktion. Dann ist $f$ auf $D$ beschränkt und nimmt auf $D$ ein Maximum und ein Minimum an. ## 3. Partielle Ableitungen Wir wollen nun die Differentialrechnung von Funktionen in mehreren Variablen entwickeln. Funktionen in mehr als zwei Variablen verhalten sich völlig analog zu jenen in nur zwei Variablen. Deshalb werden wir uns im Folgenden der Einfachheit halber auf Funktionen in zwei Variablen beschränken. Wir haben die Ableitung einer Funktion in einer Variablen untersucht, um ihr Änderungsverhalten, also den Anstieg des Funktionsgraphen in einem Punkt zu studieren. Dieser Anstieg ist gleichbedeutend mit dem Anstieg der Tangente, die an Stellen, wo die Funktion differenzierbar ist, eindeutig bestimmt ist. Für Funktionen in zwei Variablen bilden die Funktionsgraphen Flächen im $\mathbb{R}^{3}$. Ein Maß für das Änderungsverhalten der Funktion ist daher die Steilheit dieser Fläche in einem gegebenen Punkt. Wenn wir uns auf einem Punkt der Fläche befinden, so ist der Anstieg von der Richtung, in der wir uns bewegen, abhängig. Falls die Fläche aber so beschaffen ist, dass in dem Punkt eine eindeutig bestimmte Tangentialebene existiert, so bestimmt diese den Anstieg in jeder Richtung und somit das Änderungsverhalten der Funktion. Die Tangentialebene lässt sich bestimmen, indem man die Anstiege in $x$ - und in $y$-Richtung bestimmt (siehe Abb. 6.5). Diese Anstiege sind aber genau die Ableitungen jener Funktionen in einer Variablen, die man erhält, wenn man eine Variable festhält, also die Funktionen $x \mapsto f(x, y)$ und $y \mapsto f(x, y)$ betrachtet. Definition 6.9 Sei $D \subseteq \mathbb{R}^{2}$ eine offene Menge, $f: D \rightarrow \mathbb{R}^{2}$ und $\left(x_{0}, y_{0}\right) \in D$. Dann heißt $f$ in $\left(x_{0}, y_{0}\right)$ partiell nach $x$ differenzierbar, falls der Grenzwert $$ f_{x}\left(x_{0}, y_{0}\right)=\frac{\partial f}{\partial x}\left(x_{0}, y_{0}\right)=\lim _{x \rightarrow x_{0}} \frac{f\left(x, y_{0}\right)-f\left(x_{0}, y_{0}\right)}{x-x_{0}} $$ existiert, und partiell nach $y$ differenzierbar, falls der Grenzwert $$ f_{y}\left(x_{0}, y_{0}\right)=\frac{\partial f}{\partial y}\left(x_{0}, y_{0}\right)=\lim _{y \rightarrow y_{0}} \frac{f\left(x_{0}, y\right)-f\left(x_{0}, y_{0}\right)}{y-y_{0}} $$ existiert. Die beiden Grenzwerte $f_{x}\left(x_{0}, y_{0}\right)$ und $f_{y}\left(x_{0}, y_{0}\right)$ werden partielle Ableitungen von $f$ nach $x$ bzw. $y$ genannt. Die Funktion $f$ heißt partiell differenzierbar, wenn beide partiellen Ableitungen existieren, und stetig partiell differenzierbar, wenn beide partiellen Ableitungen überdies noch stetig sind. Beispiel 6.10 Die Funktion $f(x, y)=x^{3}+2 x^{2} y-y^{3}+\sin \left(x^{2}+y\right)+1$ ist in ganz $\mathbb{R}^{2}$ partiell differenzierbar. Die partiellen Ableitungen $f_{x}(x, y)=3 x^{2}+4 x y+2 x \cos \left(x^{2}+y\right)$ und $f_{y}(x, y)=$ $2 x^{2}-3 y^{2}+\cos \left(x^{2}+y\right)$ sind ebenfalls partiell differenzierbar. Daher können wir auch partielle ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-240.jpg?height=613&width=480&top_left_y=254&top_left_x=703) Abbildung 6.5 Die partiellen Ableitungen einer Funktion $f(x, y)$ im Punkt $\left(x_{0}, y_{0}\right)$ Ableitungen höherer Ordnung bilden. Die partiellen Ableitungen zweiter Ordnung sind $$ \begin{aligned} \frac{\partial^{2} f}{\partial x^{2}}(x, y) & =f_{x x}(x, y)=6 x+4 y+2 \cos \left(x^{2}+y\right)-4 x^{2} \sin \left(x^{2}+y\right), \\ \frac{\partial^{2} f}{\partial x \partial y}(x, y) & =f_{x y}(x, y)=4 x-2 x \sin \left(x^{2}+y\right), \\ \frac{\partial^{2} f}{\partial y \partial x}(x, y) & =f_{y x}(x, y)=4 x-2 x \sin \left(x^{2}+y\right), \\ \frac{\partial^{2} f}{\partial y^{2}}(x, y) & =f_{y y}(x, y)=-6 y-\sin \left(x^{2}+y\right) . \end{aligned} $$ Wie wir oben bereits festgestellt haben, legen die partiellen Ableitungen die Tangentialebene $\tau\left(x_{0}, y_{0}\right)$ im Punkt $\left(x_{0}, y_{0}\right)$ fest, falls diese existiert. In diesem Fall ist $\tau\left(x_{0}, y_{0}\right)$ dann durch die Parameterdarstellung $$ \left(\begin{array}{l} x \\ y \\ z \end{array}\right)=\left(\begin{array}{c} x_{0} \\ y_{0} \\ f\left(x_{0}, y_{0}\right) \end{array}\right)+\lambda\left(\begin{array}{c} 1 \\ 0 \\ f_{x}\left(x_{0}, y_{0}\right) \end{array}\right)+\mu\left(\begin{array}{c} 0 \\ 1 \\ f_{y}\left(x_{0}, y_{0}\right) \end{array}\right) $$ bestimmt, woraus sich durch einfache Umformungen als alternative Darstellung die Gleichung $$ z=f\left(x_{0}, y_{0}\right)+f_{x}\left(x_{0}, y_{0}\right)\left(x-x_{0}\right)+f_{y}\left(x_{0}, y_{0}\right)\left(y-y_{0}\right) $$ ergibt. Dass die Tangentialebene nicht existieren muss, selbst wenn die partiellen Ableitungen existieren, zeigt das Beispiel der Funktion aus (6.2) (siehe Abb. 6.4, rechtes Bild). Es gilt nämlich $$ f_{x}(0,0)=\lim _{x \rightarrow 0} \frac{f(x, 0)-f(0,0)}{x-0}=\lim _{x \rightarrow 0} \frac{0-0}{x}=0 $$ und analog $f_{y}(0,0)=0$. Die Funktion ist aber bei $(0,0)$ nicht einmal stetig. Geometrisch bedeutet das, dass die Tangenten in $x$ - und $y$-Richtung existieren, nicht aber die Tangentialebene. Die $x$ - und $y$-Achse sind in diesem Fall genau die Nullstellenmenge der Funktion. Im obigen Beispiel fällt auf, dass die gemischten partiellen Ableitungen zweiter Ordnung, $f_{x y}$ und $f_{y x}$ übereinstimmen. Das muss nicht immer so sein, wie das Beispiel der Funktion $$ f(x, y)= \begin{cases}\frac{x y\left(x^{2}-y^{2}\right)}{x^{2}+y^{2}} & \text { für }(x, y) \neq(0,0) \\ 0 & \text { für }(x, y)=(0,0)\end{cases} $$ zeigt. Man kann nachrechnen, dass $f_{x y}(0,0)=-1$ und $f_{y x}(0,0)=1$ ist. Der folgende Satz zeigt, dass so etwas nicht auftreten kann, falls die zweiten partiellen Ableitungen in einer offenen Menge existieren und stetig sind. Satz 6.11 (Satz von Schwarz) Sei $D \subseteq \mathbb{R}^{2}$ eine offene Menge und $f: D \rightarrow \mathbb{R}$ eine Funktion, deren partielle Ableitungen $f_{x y}$ und $f_{y x}$ in D existieren und stetig sind. Dann gilt $f_{x y}=f_{y x}$. Ist $f$ m-mal stetig partiell differenzierbar in $D$, so sind alle partiellen Ableitungen bis zur Ordnung $m$ unabhängig von der Reihenfolge der Differentiationen. Beweis. Sei $\left(x_{0}, y_{0}\right) \in D$. Da $D$ offen ist, können wir $t>0$ so wählen, dass das gesamte Quadrat $\left\{\left(x_{0}+s_{1}, y_{0}+s_{2}\right)|0 \leq| s_{i} \mid \leq t, i=1,2\right\}$ in $D$ liegt. Wir betrachten nun die Funktionen $$ g_{1}(x)=f\left(x, y_{0}+t\right)-f\left(x, y_{0}\right), \quad g_{2}(y)=f\left(x_{0}+t, y\right)-f\left(x_{0}, y\right) $$ Diese Funktionen sind differenzierbar, denn $f$ ist partiell differenzierbar, und daher ist $g_{1}^{\prime}(x)=$ $f_{x}\left(x, y_{0}+t\right)-f_{x}\left(x, y_{0}\right)$ und $g_{2}^{\prime}(y)=f_{y}\left(x_{0}+t, y\right)-f_{y}\left(x_{0}, y\right)$. Nun betrachten wir die (in einer Umgebung von 0 definierte) Funktion $$ \begin{aligned} h(t) & =g_{1}\left(x_{0}+t\right)-g_{1}\left(x_{0}\right) \\ & =f\left(x_{0}+t, y_{0}+t\right)-f\left(x_{0}+t, y_{0}\right)-f\left(x_{0}, y_{0}+t\right)+f\left(x_{0}, y_{0}\right)=g_{2}\left(y_{0}+t\right)-g_{2}\left(y_{0}\right) \end{aligned} $$ Aufgrund der Differenzierbarkeit von $g_{1}$ können wir den Mittelwertsatz anwenden und ein $\xi_{1} \in\left(x_{0}, x_{0}+t\right)$ finden, so dass $$ g_{1}\left(x_{0}+t\right)-g_{1}\left(x_{0}\right)=g_{1}^{\prime}\left(\xi_{1}\right) t=\left(f_{x}\left(\xi_{1}, y_{0}+t\right)-f_{x}\left(\xi_{1}, y_{0}\right)\right) t=f_{x y}\left(\xi_{1}, \eta_{1}\right) t^{2} $$ wobei die Existenz der Konstanten $\eta_{1} \in\left(y_{0}, y_{0}+t\right)$ aus abermaliger Anwendung des Mittelwertsatzes folgt. Nun können wir mit $g_{2}$ analog verfahren und erhalten $h(t)=f_{y x}\left(\xi_{2}, \eta_{2}\right)$ mit $\xi_{2} \in\left(x_{0}, x_{0}+t\right)$ und $\eta_{2} \in\left(y_{0}, y_{0}+t\right)$. Führen wir den Grenzübergang $t \rightarrow 0$ durch, dann folgt $\xi_{i} \rightarrow x_{0}$ und $\eta_{i} \rightarrow y_{0}$, und wegen der Stetigkeit von $f_{x y}$ und $f_{y x}$ erhalten wir schließlich $f_{x y}\left(x_{0}, y_{0}\right)=f_{y x}\left(x_{0}, y_{0}\right)$. Der zweite Teil der Behauptung ergibt sich durch mehrfache Anwendung des Satzes. Im Falle von vektorwertigen Funktionen wird partielle Differenzierbarkeit über die Koordinatenfunktionen auf den skalarwertigen Fall zurück geführt. Definition 6.12 Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge und $\mathbf{f}: D \rightarrow \mathbb{R}^{m}$. Die vektorwertige Funktion $\mathbf{f}$ heißt partiell differenzierbar, wenn sämtliche Koordinatenfunktionen $f_{1}, \ldots, f_{m}$ partiell differenzierbar sind. Die partielle Ableitung ist dann durch $$ \frac{\partial \mathbf{f}}{\partial x_{k}}=\left(\begin{array}{c} \frac{\partial f_{1}}{\partial x_{k}} \\ \vdots \\ \frac{\partial f_{m}}{\partial x_{k}} \end{array}\right) \quad \text { für } k=1, \ldots, n $$ definiert. ### 6.2 Differentialrechnung in mehreren Variablen Da die Existenz der partiellen Ableitungen einer Funktion nicht einmal deren Stetigkeit garantiert, ist partielles Differenzieren allein sicher kein brauchbares Werkzeug, um die Änderung des Funktionswertes zu studieren. Wir werden daher im folgenden Abschnitt einen umfassenderen Ableitungsbegriff entwickeln. ## 1. Die totale Ableitung Am Beginn von Kapitel 5 haben wir bereits die Bedeutung der Tangente als lineare Approximation einer Funktion erwähnt. Eine differenzierbare Funktion $f(x)$ verhält sich in der Nähe einer Stelle $x_{0}$ ungefähr so wie ihre Tangente, nämlich die Gerade $t(x)=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)$. „Ungefähr" bedeutet in diesem Kontext, dass der Fehler für $x \rightarrow x_{0}$ die Größenordnung $o\left(\left|x-x_{0}\right|\right)$ hat. Überträgt man diese Überlegungen auf den Fall von Funktionen in zwei Variablen, so heißt das, dass diese sich lokal wie ihre Tangentialebenen verhalten müssen. Der Fehler muss verhältnismäßig klein sein. Die lokale Änderung der Funktion ist dann eine lineare Abbildung $A: \mathbb{R}^{2} \rightarrow \mathbb{R}$ und lässt sich daher als Matrix schreiben. Diese Vorgangsweise können wir auch auf den allgemeinen Fall $\mathbf{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ anwenden. Definition 6.13 Sei $D \subseteq \mathbb{R}^{n}$ offen. Eine Funktion $f: D \rightarrow \mathbb{R}^{m}$ heißt im Punkt $x_{0} \in D$ total differenzierbar, falls eine lineare Abbildung $\mathbf{f}^{\prime}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ existiert, so dass $$ \mathbf{f}(\mathbf{x})=\mathbf{f}\left(\mathbf{x}_{0}\right)+\mathbf{f}^{\prime}\left(\mathbf{x}-\mathbf{x}_{0}\right)+\mathbf{R}(\mathbf{x}) $$ gilt und der Rest $\mathbf{R}(\mathbf{x})$ die Bedingung $$ \lim _{x \rightarrow x_{0}} \frac{\|\mathbf{R}(x)\|}{\left\|x-x_{0}\right\|}=0 $$ erfüllt. Die lineare Abbildung $\mathrm{f}^{\prime}$ heißt Ableitung von $\mathrm{f}$ im Punkt $\mathrm{x}_{0}$, die dazu gehörige Matrix $A$ heißt Jacobi-Matrix oder Funktionalmatrix. Setzen wir $\mathbf{x}=\left(x_{1}, \ldots, x_{n}\right)$ und $\mathbf{x}_{0}=$ $\left(x_{0,1}, \ldots, x_{0, n}\right)$, so können wir die obige Gleichung ausführlicher schreiben als $$ \left(\begin{array}{c} f_{1}\left(x_{1}, \ldots, x_{n}\right) \\ \vdots \\ f_{m}\left(x_{1}, \ldots, x_{n}\right) \end{array}\right)=\left(\begin{array}{c} f_{1}\left(x_{0,1}, \ldots, x_{0, n}\right) \\ \vdots \\ f_{m}\left(x_{0,1}, \ldots, x_{0, n}\right) \end{array}\right)+A\left(\begin{array}{c} x_{1}-x_{0,1} \\ \vdots \\ x_{m}-x_{0, n} \end{array}\right)+\mathbf{R}\left(x_{1}, \ldots, x_{n}\right) $$ Bemerkung: Man beachte, dass die Bedingung (6.3) äquivalent zu $$ \lim _{x \rightarrow x_{0}} \frac{R(x)}{\left\|x-x_{0}\right\|}=0 $$ ist, wobei der Grenzwert koordinatenweise zu verstehen ist. Wir werden im Folgenden sowohl von (6.3) als auch von (6.5) Gebrauch machen. Wir wollen uns nun überlegen, was diese Definition im konkreten Fall von skalaren Funktionen bedeutet. Sei $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$ total differenzierbar im Punkt $\mathbf{x}_{0}=\left(x_{0}, y_{0}\right)$. Dann gibt es eine $1 \times 2$-Matrix $A=(a, b) \mathrm{mit}$ $$ f(x, y)=f\left(x_{0}, y_{0}\right)+(a, b)\left(\begin{array}{l} x-x_{0} \\ y-y_{0} \end{array}\right)+R(x, y) $$ Daraus folgt insbesondere $$ f\left(x, y_{0}\right)=f\left(x_{0}, y_{0}\right)+(a, b)\left(\begin{array}{c} x-x_{0} \\ 0 \end{array}\right)+R\left(x, y_{0}\right)=f\left(x_{0}, y_{0}\right)+a\left(x-x_{0}\right)+R\left(x, y_{0}\right) $$ Da $\lim _{x \rightarrow x_{0}} \frac{R\left(x, y_{0}\right)}{x-x_{0}}=0$ ist, folgt $$ a=\lim _{x \rightarrow x_{0}} \frac{f\left(x, y_{0}\right)-f\left(x_{0}, y_{0}\right)}{x-x_{0}}=f_{x}\left(x_{0}, y_{0}\right) $$ In analoger Weise schließen wir $b=f_{y}\left(x_{0}, y_{0}\right)$. Offensichtlich lassen sich diese Argumente auch auf Funktionen in $n$ Variablen übertragen. Wir haben damit gezeigt, dass jede total differenzierbare, skalarwertige Funktion auch partiell differenzierbar ist. Definition 6.14 Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge und $f: D \rightarrow \mathbb{R}$ eine total differenzierbare Funktion. Dann heißt der Vektor $$ \operatorname{grad} f=\left(\begin{array}{c} f_{x_{1}} \\ \vdots \\ f_{x_{n}} \end{array}\right) $$ ## Gradient von $f$. Nach den obigen Betrachtungen und der Tatsache, dass wir bei skalaren Funktion die einzeilige Matrix $A$ in (6.4) auch als Spaltenvektor schreiben können, wenn wir statt dem Matrizenprodukt das Skalarprodukt verwenden, ergibt sich der folgende Satz. Satz 6.15 Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge und $f: D \rightarrow \mathbb{R}$ eine total differenzierbare Funktion. Dann ist die Matrix der Ableitung von $f$ gleich dem Gradienten von $f$. Für $\mathbf{x}, \mathbf{x}_{0} \in D$ gilt also $$ f(\mathbf{x})=f\left(\mathbf{x}_{0}\right)+\operatorname{grad} f\left(\mathbf{x}_{0}\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)+R(\mathbf{x}) $$ mit $\lim _{\mathbf{x} \rightarrow \mathbf{x}_{0}} R(\mathbf{x}) /\left\|\mathbf{x}-\mathbf{x}_{0}\right\|=0$. Bemerkung: In Leibniz'scher Schreibweise haben wir im eindimensionalen Fall die Ableitung als $\frac{d f}{d x}$ geschrieben. Die Beziehung zwischen der Ableitung und ihrer Funktion lässt sich dann auch als $d f=f^{\prime}\left(x_{0}\right) d x$ schreiben. Interpretiert man $d x$ als Änderung des Arguments $x$, dann heißt das, dass die zugehörige Änderung von $f$ umso besser durch $d f=f^{\prime}\left(x_{0}\right) d x$ approximiert wird, je kleiner $d x$ ist. Auch für das Rechnen mit Funktionen in mehreren Variablen lässt sich die Leibniz'sche Notation anwenden. Setzen wir $$ d \mathbf{x}=\left(\begin{array}{c} d x_{1} \\ \vdots \\ d x_{n} \end{array}\right) $$ dann übersetzt sich (6.4) (mit $m=1$ ) in $$ d f=\operatorname{grad} f\left(\mathbf{x}_{0}\right) d \mathbf{x}=f_{x_{1}}\left(\mathbf{x}_{0}\right) d x_{1}+\cdots+f_{x_{n}}\left(\mathbf{x}_{0}\right) d x_{n} $$ Der Ausdruck $d f$ wird das vollständige Differential von $f$ an der Stelle $\mathbf{x}_{0}$ genannt. Das vollständige Differential ist eine Approximation der Änderung von $f$, die umso besser ist, je kleiner $\|d \mathbf{x}\|$ ist. Beispiel 6.16 (Volumsänderung eines Kegelstumpfs) Ein Kegelstumpf ist durch den Radius $R=6$ der Grundfläche, den Radius $r=4$ der Deckfläche und die Höhe $h=10$ gegebenen. Wie ändert sich das Volumen $V=\frac{\pi h}{3}\left(r^{2}+r R+R^{2}\right)$ bei Änderung der Größen $R, r$ und $h$ ? Die Änderung wird näherungsweise durch das vollständige Differential $$ \begin{aligned} d V & =\operatorname{grad} V d \mathbf{x}=\left(\begin{array}{l} V_{R} \\ V_{r} \\ V_{h} \end{array}\right) \cdot\left(\begin{array}{c} d R \\ d r \\ d h \end{array}\right)=V_{R} d R+V_{r} d r+V_{h} d h \\ & =\frac{\pi}{3}\left(h(r+2 R) d R+h(2 r+R) d r+\left(r^{2}+r R+R^{2}\right) d h\right) \end{aligned} $$ angegeben. Eine Änderung der Angabe auf $R=5.7, r=4.1$ und $h=10.2$ bewirkt eine näherungsweise Änderung des Volumens $V \approx 795.87$ um $$ \frac{160 \pi}{3} \cdot(-0.3)+\frac{140 \pi}{3} \cdot 0.1+\frac{76 \pi}{3} \cdot 0.2 \approx-19.7 $$ also um etwa $2.5 \%$. Im Gegensatz zur partiellen Differenzierbarkeit folgt aus der totalen Differenzierbarkeit sehr wohl die Stetigkeit. Satz 6.17 Jede total differenzierbare (skalar-oder vektorwertige) Funktion ist auch stetig. Beweis. Durchführen des Grenzübergangs in (6.4) unter Berücksichtigung der Linearität (insbesondere der Stetigkeit und $A \cdot \mathbf{0}=0$ ) und der Bedingung für den Rest $\mathbf{R}(\mathrm{x})$ führt unmittelbar auf die Behauptung. Satz 6.18 Ist eine vektorwertige Funktion total differenzierbar, so sind es auch alle Koordinatenfunktionen. Die Einträge der Jacobi-Matrix A sind die partiellen Ableitungen der Koordinatenfunktionen, d.h., für $\mathrm{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ gilt $$ A=\frac{\partial \mathbf{f}}{\partial \mathbf{x}}=\left(\begin{array}{ccc} \frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}} & \cdots & \frac{\partial f_{m}}{\partial x_{n}} \end{array}\right) $$ Folgerung: Jede total differenzierbare Funktion ist auch partiell differenzierbar: Beweis. Sei $A=\left(a_{i j}\right)_{i=1, \ldots, m ; j=1, \ldots, n}$ die Jacobi-Matrix von $\mathrm{f}$. Die $i$-te Zeile von (6.4) lautet dann $$ f_{i}(\mathbf{x})-f_{i}\left(\mathbf{x}_{0}\right)=\sum_{j=1}^{n} a_{i j}\left(x_{j}-x_{0, j}\right)+R_{i}(\mathbf{x}) $$ Da $\mathbf{R}(\mathbf{x})$ die Bedingung (6.3) erfüllt, muss das auch für $R_{i}(\mathbf{x})$ zutreffen. Daraus folgt aber bereits die erste Behauptung: $f_{i}(\mathbf{x})$ ist total differenzierbar. Die zweite Behauptung, die konkrete Gestalt der Jacobi-Matrix, ist nun eine unmittelbare Folgerung von Satz 6.15. ## 2. Ableitungsregeln Die einfachste Ableitungsregel, die Summenregel, überträgt sich direkt auf den mehrdimensionalen Fall, denn man muss nur die beiden Gleichungen der Form (6.4), die f und $g$ entsprechen, addieren. Dann addieren sich natürlich auch die zu den Ableitungen $\mathbf{f}^{\prime}$ und $\mathbf{g}^{\prime}$ gehörigen Matrizen. Es gilt also $(\mathbf{f}+\mathbf{g})^{\prime}=\mathbf{f}^{\prime}+\mathbf{g}^{\prime}$ (Summenregel). Auch die Produktregel und die Kettenregel lassen sich übertragen. Satz 6.19 (Produktregel) Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge. Weiters seien $f, g$ zwei total differenzierbare, skalarwertige Funktionen. Dann gilt für die Funktion $h(\mathbf{x})=f(\mathbf{x}) g(\mathbf{x})$ die Gleichung $$ \operatorname{grad} h\left(\mathbf{x}_{0}\right)=f\left(\mathbf{x}_{0}\right) \cdot \operatorname{grad} g\left(\mathbf{x}_{0}\right)+g\left(\mathbf{x}_{0}\right) \cdot \operatorname{grad} f\left(\mathbf{x}_{0}\right) . $$ Beweis. Es gilt nach Satz 6.15 $$ \begin{aligned} h(\mathbf{x})-h\left(\mathbf{x}_{0}\right)= & f(\mathbf{x}) g(\mathbf{x})-f\left(\mathbf{x}_{0}\right) g\left(\mathbf{x}_{0}\right) \\ = & \left(f\left(\mathbf{x}_{0}\right)+\operatorname{grad} f\left(\mathbf{x}_{0}\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)+R_{1}(\mathbf{x})\right) \\ & \cdot\left(g\left(\mathbf{x}_{0}\right)+\operatorname{grad} g\left(\mathbf{x}_{0}\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)+R_{2}(\mathbf{x})\right)-f\left(\mathbf{x}_{0}\right) g\left(\mathbf{x}_{0}\right) \\ = & \left(f\left(\mathbf{x}_{0}\right) \cdot \operatorname{grad} g\left(\mathbf{x}_{0}\right)+g\left(\mathbf{x}_{0}\right) \cdot \operatorname{grad} f\left(\mathbf{x}_{0}\right)\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)+R(\mathbf{x}) \end{aligned} $$ mit $$ \begin{aligned} R(\mathbf{x})= & R_{1}(\mathbf{x})\left(g\left(\mathbf{x}_{0}\right)+\operatorname{grad} g\left(\mathbf{x}_{0}\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)\right)+R_{2}(\mathbf{x})\left(f\left(\mathbf{x}_{0}\right)+\operatorname{grad} f\left(\mathbf{x}_{0}\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)\right) \\ & +\left(\operatorname{grad} f\left(\mathbf{x}_{0}\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)\right)\left(\operatorname{grad} g\left(\mathbf{x}_{0}\right) \cdot\left(\mathbf{x}-\mathbf{x}_{0}\right)\right)+R_{1}(\mathbf{x}) R_{2}(\mathbf{x}) . \end{aligned} $$ Unter Berücksichtigung von $\lim _{\mathbf{x} \rightarrow \mathrm{x}_{0}} R_{1}(\mathbf{x}) /\left\|\mathbf{x}-\mathbf{x}_{0}\right\|=0$ und $\lim _{\mathrm{x} \rightarrow \mathrm{x}_{0}} R_{2}(\mathbf{x}) /\left\|\mathrm{x}-\mathbf{x}_{0}\right\|=0$ ist leicht nachzurechnen, dass $\lim _{\mathrm{x} \rightarrow \mathrm{x}_{0}} R(\mathrm{x}) /\left\|\mathrm{x}-\mathrm{x}_{0}\right\|=0$. Daraus folgt die Behauptung. Satz 6.20 (Kettenregel) Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge, $f: D \rightarrow \mathbb{R}$ und $\mathrm{g}: \mathbb{R} \rightarrow \mathbb{R}^{n}$ mit $\mathbf{g}(x)=\left(g_{1}(x), \ldots, g_{n}(x)\right)$ und $\mathbf{g}(\mathbb{R}) \subseteq D$. Weiters sei $F(x)=f(\mathbf{g}(x))$. Dann gilt $$ F^{\prime}(x)=\sum_{i=1}^{n} f_{x_{i}}\left(g_{1}(x), \ldots, g_{n}(x)\right) g_{i}^{\prime}(x) $$ In Leibniz'scher Notation: $$ \frac{d F}{d x}=\sum_{i=1}^{n} \frac{\partial f}{\partial g_{i}} \cdot \frac{d g_{i}}{d x} $$ Die Zusammensetzung zweier vektorwertiger Funktionen $\mathrm{f}: R^{m} \rightarrow \mathbb{R}^{p}$ und $\mathrm{g}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ ist durch $(\mathbf{f} \circ \mathbf{g})(\mathbf{x})=\mathbf{f}\left(g_{1}(\mathbf{x}), \ldots, g_{m}(\mathbf{x})\right)$ definiert, wobei $\mathbf{g}(\mathbf{x})=\left(g_{1}(\mathbf{x}), \ldots, g_{m}(\mathbf{x})\right)$. Für die entsprechenden Jacobi-Matrizen gilt $$ \frac{\partial(\mathbf{f} \circ \mathbf{g})}{\partial \mathbf{x}}\left(\mathbf{x}_{0}\right)=\frac{\partial \mathbf{f}}{\partial \mathbf{g}}\left(\mathbf{g}\left(\mathbf{x}_{0}\right)\right) \cdot \frac{\partial \mathbf{g}}{\partial \mathbf{x}}\left(\mathbf{x}_{0}\right) $$ Folgerung: Falls $f: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$ total differenzierbar und bijektiv ist, dann ist die JacobiMatrix der Umkehrfunktion gleich der Inversen der Jacobi-Matrix von $f$, also $$ \frac{\partial \mathbf{f}^{-1}}{\partial \mathbf{x}}\left(\mathbf{y}_{0}\right)=\left(\frac{\partial \mathbf{f}}{\partial \mathbf{x}}\left(\mathbf{x}_{0}\right)\right)^{-1} $$ mit $\mathbf{y}_{0}=\mathbf{f}\left(\mathbf{x}_{0}\right)$. Beweis. Sei $A=\frac{\partial \mathbf{f}}{\partial \mathbf{x}}\left(\mathbf{g}\left(\mathbf{x}_{0}\right)\right)$ und $B=\frac{\partial \mathbf{g}}{\partial \mathbf{x}}\left(\mathbf{x}_{0}\right)$. Weiters sind die im Folgenden benötigten Vektoren $\mathbf{x}, \mathbf{f}(\mathbf{x})$, usw. als Spaltenvektoren aufzufassen. Dann gilt $$ \begin{aligned} \mathbf{f}(\mathbf{g}(\mathbf{x})) & =\mathbf{f}\left(\mathbf{g}\left(\mathbf{x}_{0}\right)\right)+A\left(\mathbf{g}(\mathbf{x})-\mathbf{g}\left(\mathbf{x}_{0}\right)\right)+\mathbf{R}_{1}(\mathbf{g}(\mathbf{x})) \\ \mathrm{g}(\mathbf{x}) & =\mathbf{g}\left(\mathbf{x}_{0}\right)+B\left(\mathbf{x}-\mathbf{x}_{0}\right)+\mathbf{R}_{2}(\mathbf{x}) \end{aligned} $$ wobei $\lim _{\mathbf{x} \rightarrow \mathbf{x}_{0}} \frac{\left\|\mathbf{R}_{1}(\mathbf{g}(\mathbf{x}))\right\|}{\left\|\mathbf{g}(\mathbf{x})-\mathbf{g}\left(\mathbf{x}_{0}\right)\right\|}=\lim _{\mathbf{x} \rightarrow \mathbf{x}_{0}} \frac{\| \mathbf{R}_{2}(\mathbf{x} \|}{\left\|\mathbf{x}-\mathbf{x}_{0}\right\|}=0$. Aus (6.6) und (6.7) folgt $$ \begin{aligned} \mathbf{f}(\mathbf{g}(\mathbf{x}))-\mathbf{f}\left(\mathbf{g}\left(\mathbf{x}_{0}\right)\right) & =A\left(\mathbf{g}(\mathbf{x})-\mathbf{g}\left(\mathbf{x}_{0}\right)\right)+\mathbf{R}_{1}(\mathbf{g}(\mathbf{x})) \\ & =A\left(B\left(\mathbf{x}-\mathbf{x}_{0}\right)+\mathbf{R}_{2}(\mathbf{x})\right)+\mathbf{R}_{1}(\mathbf{g}(\mathbf{x})) \\ & =A B\left(\mathbf{x}-\mathbf{x}_{0}\right)+\mathbf{R}(\mathbf{x}) \end{aligned} $$ mit $\mathbf{R}(\mathbf{x})=A \mathbf{R}_{2}(\mathbf{x})+\mathbf{R}_{1}(\mathbf{g}(\mathbf{x}))$. Da $\left\|A\left(\mathbf{x}-\mathbf{x}_{0}\right)\right\| /\left\|\mathbf{x}-\mathbf{x}_{0}\right\|$ durch den größten Eigenwert von $A$ beschränkt ist, gilt $$ \begin{aligned} \lim _{\mathbf{x} \rightarrow \mathrm{x}_{0}} \frac{\mathbf{R}(\mathbf{x})}{\left\|\mathbf{x}-\mathbf{x}_{0}\right\|} & =\lim _{\mathbf{x} \rightarrow \mathbf{x}_{0}}\left(A \cdot \frac{\mathbf{R}_{2}(\mathbf{x})}{\left\|\mathbf{x}-\mathbf{x}_{0}\right\|}+\frac{\mathbf{R}_{1}(\mathbf{g}(\mathbf{x}))}{\left\|\mathbf{g}(\mathbf{x})-\mathbf{g}\left(\mathbf{x}_{0}\right)\right\|} \cdot \frac{\left\|\mathbf{g}(\mathbf{x})-\mathbf{g}\left(\mathbf{x}_{0}\right)\right\|}{\left\|\mathbf{x}-\mathbf{x}_{0}\right\|}\right) \\ & =\lim _{\mathbf{x} \rightarrow \mathbf{x}_{0}}\left(A \cdot \frac{\mathbf{R}_{2}(\mathbf{x})}{\left\|\mathbf{x}-\mathbf{x}_{0}\right\|}+\frac{\mathbf{R}_{1}(\mathbf{g}(\mathbf{x}))}{\left\|\mathbf{g}(\mathbf{x})-\mathbf{g}\left(\mathbf{x}_{0}\right)\right\|} \cdot \frac{\left\|B\left(\mathbf{x}-\mathbf{x}_{0}\right)+\mathbf{R}_{2}(\mathbf{x})\right\|}{\left\|\mathbf{x}-\mathbf{x}_{0}\right\|}\right)=\mathbf{0} \end{aligned} $$ und daher ist die Jacobi-Matrix von $\mathbf{f} \circ \mathbf{g}$ gleich $A B$. Beispiel 6.21 Wir betrachten eine Funktion $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$. Wie lässt sich die Änderung der Funktion beschreiben, wenn wir nicht in kartesischen, sondern in Polarkoordinaten rechnen. Die Transformation auf Polarkoordinaten geschieht mittels der Substitution $x=r \cos \varphi$ und $y=r \sin \varphi$. Aus der Funktion $f$ entsteht dann die Funktion $F(r, \varphi)=f(r \cos \varphi, r \sin \varphi)$. Die partiellen Ableitungen von $F$ ergeben sich nun aus der Kettenregel gemäß $$ \begin{aligned} & F_{r}=f_{x} \cos \varphi+f_{y} \sin \varphi \\ & F_{\varphi}=-f_{x} r \sin \varphi+f_{y} r \cos \varphi \end{aligned} $$ und nach Lösen dieses Gleichungssystems (in den Variablen $f_{x}$ und $f_{y}$ ) folgt $$ \begin{aligned} f_{x} & =F_{r} \cos \varphi-\frac{1}{r} F_{\varphi} \sin \varphi, \\ f_{y} & =F_{r} \sin \varphi+\frac{1}{r} F_{\varphi} \cos \varphi . \end{aligned} $$ Oft sind Funktionen implizit durch eine Gleichung $F(x, y)=0$ gegeben. Zum Beispiel kann der Einheitskreis durch die Gleichung $x^{2}+y^{2}-1=0$ beschrieben werden. Bei implizit gegebenen Funktionen stellt sich natürlich die Frage nach der Lösbarkeit so einer Gleichung. Gesucht ist eine reellwertige Funktion $y(x)$ mit $F(x, y(x))=0$. Diese Frage wird durch den folgenden Satz geklärt. Satz 6.22 (Hauptsatz über implizite Funktionen) Seien $D \subseteq \mathbb{R}^{2}$ eine offene Menge und $F: D \rightarrow \mathbb{R}$ eine stetig differenzierbare Funktion. Weiters sei $F\left(x_{0}, y_{0}\right)=0$ und $F_{y}\left(x_{0}, y_{0}\right) \neq 0$. Dann gibt es eine Umgebung $U$ von $\left(x_{0}, y_{0}\right)$, so dass die Gleichung $F(x, y)=0$ in $U$ eine eindeutig bestimmte stetige Lösung $y(x)$ hat. Die Funktion $y(x)$ ist darüber hinaus stetig differenzierbar und erfüllt $$ y^{\prime}(x)=-\frac{F_{x}(x, y(x))}{F_{y}(x, y(x))} $$ Der Beweis dieses Satzes würde den Rahmen unseres Buches sprengen, aber die Gleichung für $y^{\prime}(x)$ ist leicht zu zeigen. Man muss nur die definierende Gleichung nach der Kettenregel differenzieren. Aus $F(x, y(x))=0$ folgt $$ \frac{d}{d x} F(x, y(x))=F_{x}(x, y(x))+F_{y}(x, y(x)) y^{\prime}(x)=0 $$ und damit $y^{\prime}(x)=-\frac{F_{x}(x, y(x))}{F_{y}(x, y(x))}$. ## Beispiel 6.23 (a) Der Kreis mit Radius $r$ und Mittelpunkt $(0,0)$ wird durch die Gleichung $F(x, y)=$ $x^{2}+y^{2}-r^{2}=0$ beschrieben. Die Lösungen dieser Gleichung sind $y_{1}(x)=\sqrt{r^{2}-x^{2}}$ und $y_{2}(x)=-\sqrt{r^{2}-x^{2}}$. Die partiellen Ableitungen von $F$ sind $F_{x}(x, y)=2 x$ und $F_{y}(x, y)=2 y$, und daher ist $F_{y}(x, y)=0$ genau für $y=0$. Wenn $\left(x_{0}, y_{0}\right)$ ein Punkt dieses Kreises ist, der nicht auf der $x$-Achse liegt (also $y_{0} \neq 0$ und daher $F_{y}\left(x_{0}, y_{0}\right) \neq 0$ ), dann sind die Voraussetzungen des Hauptsatzes über implizite Funktionen erfüllt. Daher geht durch so einen Punkt nur eine der beiden Lösungen der Kreisgleichung. Der Anstieg der Tangente an den Kreis im Punkt $\left(x_{0}, y_{0}\right)$ ist dann gemäß (6.8) $y^{\prime}\left(x_{0}\right)=-x_{0} / y\left(x_{0}\right)$. An den Schnittpunkten des Kreises mit der $x$-Achse sind die Voraussetzungen von Satz 6.22 verletzt. Es gehen auch tatsächlich beide Lösungen $y_{1}(x)$ und $y_{2}(x)$ durch diese beiden Punkte. (b) Die Lösung $y(x)$ der Gleichung $F(x, y)=e^{x y}+x+y=0$ ist keine elementare Funktion. Die Lösungskurve ist in Abb. 6.6 dargestellt. Es gilt $F_{x}(x, y)=y e^{x y}+1$ und $F_{y}(x, y)=x e^{x y}+1$. Obwohl die Lösungsfunktion nicht explizit durch einfache Funktionen ausgedrückt werden kann, ist es möglich, die Tangente an die Lösungsfunktion im Punkt $\left(x_{0}, y_{0}\right)$ explizit anzugeben. Die Tangentengleichung ist nämlich durch $y=y_{0}+y^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)$ gegeben, wobei man aus dem Hauptsatz die Darstellung $$ F_{x}\left(x_{0}, y_{0}\right)\left(x-x_{0}\right)+F_{y}\left(x_{0}, y_{0}\right)\left(y-y_{0}\right)=0 $$ konkret also $$ \left(y e^{x y}+1\right)\left(x-x_{0}\right)+\left(x e^{x y}+1\right)\left(y-y_{0}\right)=0 $$ erhält. ## 3. Die Richtungsableitung Die partiellen Ableitungen einer Funktion $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$ geben den Anstieg der Funktion entlang der durch die Koordinatenachsen bestimmten Richtungen an. Sie sind also die Ableitungen von $f$ in Richtung der Koordinatenachsen. Nun wollen wir entlang beliebiger Richtungen differenzieren. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-248.jpg?height=463&width=447&top_left_y=287&top_left_x=709) Abbildung 6.6 Die durch $e^{x y}+x+y=0$ bestimmte ebene Kurve Definition 6.24 Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge, $f: D \rightarrow \mathbb{R}$ eine skalarwertige Funktion und $v \in \mathbb{R}^{n}$ ein normierter Vektor, d.h. $\|v\|=1$. Unter der Richtungsableitung von $f$ an der Stelle $\mathrm{x} \in D$ nach $v$ versteht man den Grenzwert $$ \frac{\partial f}{\partial \boldsymbol{v}}(\mathbf{x})=\lim _{t \rightarrow 0} \frac{f(\mathbf{x}+t \boldsymbol{v})-f(\mathbf{x})}{t} $$ Satz 6.25 Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge, $f: D \rightarrow \mathbb{R}$ eine an der Stelle $\mathbf{x}=\left(x_{1}, \ldots, x_{n}\right) \in D$ total differenzierbare Funktion und $\boldsymbol{v}=\left(v_{1}, \ldots, v_{n}\right) \in \mathbb{R}^{n}$ ein beliebiger normierter Vektor: Dann existiert die Richtungsableitung nach $v$, und es gilt $$ \frac{\partial f}{\partial \boldsymbol{v}}(\mathbf{x})=f_{x_{1}}(\mathbf{x}) v_{1}+\cdots+f_{x_{n}}(\mathbf{x}) v_{n}=\operatorname{grad} f(\mathbf{x}) \cdot \boldsymbol{v} $$ Beweis. Da $f$ total differenzierbar ist, gilt $$ \begin{aligned} \frac{f(\mathbf{x}+t \boldsymbol{v})-f(\mathbf{x})}{t} & =\frac{f_{x_{1}}(\mathbf{x}) t v_{1}+\cdots+f_{x_{n}}(\mathbf{x}) t v_{n}+R(\mathbf{x}+t \boldsymbol{v})}{t} \\ & =f_{x_{1}}(\mathbf{x}) v_{1}+\cdots+f_{x_{n}}(\mathbf{x}) v_{n}+\frac{R(\mathbf{x}+t \boldsymbol{v})}{t} \end{aligned} $$ Aus $t=\|\mathbf{x}+t \boldsymbol{v}-\mathbf{x}\|$ und (6.3) folgt $\lim _{t \rightarrow 0} \frac{R(\mathbf{x}+t \boldsymbol{v})}{t}=0$. Nach Grenzübergang für $t \rightarrow 0$ erhält man nun die Behauptung. Beispiel 6.26 Seien $D$ und $f$ wie im vorigen Satz und $v=\mathbf{e}_{k}=(0, \ldots, 0,1,0, \ldots, 0)$ der $k$-te kanonische Einheitsvektor. Die Richtungsableitung von $f$ nach $\mathbf{e}_{k}$ ist dann nach Satz 6.25 genau die partielle Ableitung $f_{x_{k}}$. Wir wollen uns nun der folgenden Frage zuwenden: In welcher Richtung wächst bzw. fällt eine Funktion $f$ am stärksten? Es genügt, sich auf einen der beiden Fälle zu beschränken, denn die Existenz der Richtungsableitung nach $\boldsymbol{v}$ impliziert, dass die Funktion $g(t)=f(\mathbf{x}+t \boldsymbol{v})$ an der Stelle $t=0$ differenzierbar und daher linear approximierbar ist. Daher ändert die Richtungsableitung ihr Vorzeichen, wenn wir $v$ durch $-v$ ersetzen. Wenn $f$ in Richtung $v$ am stärkste ansteigt, so ist die Richtung des stärksten Abstiegs genau $-v$. Satz 6.27 Seien D, $f$ und $\mathrm{x}$ wie in Satz 6.25. Dann ist die Richtung des größten Anstiegs genau die Richtung des Gradienten grad $f$. Der Wert des größten Anstiegs ist $\|\operatorname{grad} f\|$. Im Fall $\operatorname{grad} f=0$ sind alle Richtungsableitungen gleich 0. Beweis. Wir suchen jenen Vektor $v$, für den die zugehörige Richtungsableitung am größten ist. Nach dem vorigen Satz ist die Richtungsableitung nach $v$ gleich $\operatorname{grad} f \cdot v$, und diese wird genau dann maximal, wenn $v$ und $\operatorname{grad} f$ dieselbe Richtung haben. In diesem Fall gilt $\operatorname{grad} f \cdot \boldsymbol{v}=$ $\|\operatorname{grad} f\|$. Falls $\operatorname{grad} f=0$, dann gilt für jeden Vektor $v$ natürlich $\operatorname{grad} f \cdot v=0$. Bemerkung: Es besteht ein einfacher Zusammenhang zwischen den Niveaulinien einer Funktion $f$, also jenen Kurven, entlang derer der Funktionswert konstant ist, und dem Gradienten von $f$. Es gilt: Falls $\operatorname{grad} f(\mathbf{x}) \neq 0$, dann steht $\operatorname{grad} f(\mathbf{x})$ normal auf die Niveaulinie, auf der $\mathbf{x}$ liegt. Beispiel 6.28 Sei $f(x, y, z)=e^{-x y} z^{2}$ und $\mathrm{x}_{0}=\left(x_{0}, y_{0}, z_{0}\right)=(2,-\ln 2,3)$. Die Änderungen in Richtung der Koordinatenachsen sind durch die partiellen Ableitungen $f_{x}(x, y, z)=$ $-y z^{2} e^{-x y}, f_{y}(x, y, z)=-x z^{2} e^{-x y}$ und $f_{z}(x, y, z)=2 z e^{-x y}$ gegeben. Die entsprechenden Anstiege an der Stelle $\mathrm{x}_{0}$ sind $36 \ln 2 \approx 24.953,-72$ und 24 . Die Änderung in Richtung des Einheitsvektors $\frac{1}{3}\left(\begin{array}{c}2 \\ -1 \\ 2\end{array}\right)$ ist gegeben durch $$ \operatorname{grad} f \cdot \frac{1}{3}\left(\begin{array}{c} 2 \\ -1 \\ 2 \end{array}\right)=\left(\begin{array}{c} 36 \ln 2 \\ -72 \\ 24 \end{array}\right) \cdot \frac{1}{3}\left(\begin{array}{c} 2 \\ -1 \\ 2 \end{array}\right)=24 \ln 2+40 \approx 56.636 $$ Die Richtung des maximalen Anstiegs ist $\left(\begin{array}{c}36 \ln 2 \\ -72 \\ 24\end{array}\right)$ und dessen Wert beträgt $$ \left\|\left(\begin{array}{c} 36 \ln 2 \\ -72 \\ 24 \end{array}\right)\right\|=\sqrt{36^{2} \ln ^{2} 2+72^{2}+24^{2}} \approx 79.892 . $$ ## 4. Taylorentwicklung Wir beschränken uns hier wieder auf den zweidimensionalen Fall. Sei $D \subseteq \mathbb{R}^{2}$ eine offene Menge und $f: D \rightarrow \mathbb{R}$ eine für die folgenden Betrachtungen hinreichend oft stetig differenzierbare Funktion. Die Jacobi-Matrix von $f$ an der Stelle $\left(x_{0}, y_{0}\right) \in D$ ist die lineare Approximation von $f$. Die Funktion $f$ wird lokal durch eine Ebene, die Tangentialebene, angenähert. Für Funktionen in einer Variablen haben wir in Abschnitt 5.2 Approximationen höherer Ordnung betrachtet. Dies führte uns auf Taylorpolynome und -reihen. Wir wollen nun diese Idee auf Funktionen in zwei Variablen verallgemeinern. Dazu wählen wir $\left(x_{0}, y_{0}\right)$ als Entwicklungspunkt und einen weiteren Punkt $(x, y)=\left(x_{0}+h, y_{0}+k\right)$. Wir betrachten nun $f$ auf der Verbindungsstrecke von $\left(x_{0}, y_{0}\right)$ nach $(x, y)$ und führen daher die Hilfsfunktion $F(t)=f\left(x_{0}+t h, y_{0}+t k\right)$ ein. Diese Funktion entwickeln wir nun in eine Taylorreihe um die Anschlussstelle $t_{0}=0$ : $$ F(0)+F^{\prime}(0) t+\frac{F^{\prime \prime}(0)}{2} t^{2}+\frac{F^{\prime \prime \prime}(0)}{3 !} t^{3}+\cdots $$ Aus dem Satz von Taylor folgt dann für $t=1$ $$ f(x, y)=F(1)=F(0)+F^{\prime}(0)+\frac{F^{\prime \prime}(0)}{2}+\frac{F^{\prime \prime \prime}(0)}{3 !}+\cdots+\frac{F^{(n)}(0)}{n !}+\frac{F^{(n+1)}(\xi)}{(n+1) !} $$ mit $0<\xi<1$. Die in der Taylor'schen Formel auftretenden Ableitungen können nun aus $F(t)=f\left(x_{0}+t h, y_{0}+t k\right)$ mit Hilfe der Kettenregel berechnet werden. Wir erhalten $$ F^{\prime}(0)=f_{x}\left(x_{0}, y_{0}\right) h+f_{y}\left(x_{0}, y_{0}\right) k $$ Das entspricht genau der ersten Näherung aus Satz 6.15 durch die Jacobi-Matrix (vgl. auch (6.4) für den allgemeineren Fall vektorwertiger Funktionen). Nochmaliges Ableiten mittels Kettenregel unter Verwendung des Satzes von Schwarz ergibt $$ \begin{aligned} F^{\prime \prime}(0) & =\left[\frac{d}{d t} f_{x}\left(x_{0}+t h, y_{0}+t k\right) h+\frac{d}{d t} f_{y}\left(x_{0}+t h, y_{0}+t k\right) k\right]_{t=0} \\ & =f_{x x}\left(x_{0}, y_{0}\right) h^{2}+2 f_{x y}\left(x_{0}, y_{0}\right) h k+f_{y y}\left(x_{0}, y_{0}\right) k^{2} \end{aligned} $$ und $$ F^{\prime \prime \prime}(0)=f_{x x x}\left(x_{0}, y_{0}\right) h^{3}+3 f_{x x y}\left(x_{0}, y_{0}\right) h^{2} k+3 f_{x y y}\left(x_{0}, y_{0}\right) h k^{2}+f_{y y y}\left(x_{0}, y_{0}\right) k^{3} . $$ Man beachte, dass die partiellen Ableitungen nach $x$ und nach $y$ auch als lineare Funktionen des Vektorraums der (unendlich oft) differenzierbaren Funktionen in sich selbst aufgefasst werden können. Diese Funktionen werden auch Differentialoperatoren genannt. Wir bezeichnen sie mit $D_{x}=\frac{\partial}{\partial x}$ und $D_{y}=\frac{\partial}{\partial y}$. Beim Rechnen mit Operatoren sind folgende Konventionen üblich: Die Hintereinanderausführung von Operatoren wird als Produkt oder als Potenz, wenn derselbe Operator mehrfach angewendet wird, geschrieben. Konstante Faktoren ${ }^{3}$ in Produkten sind als entsprechende Vielfache des identischen Operators (d.i. jener Operator, der jede Funktion auf sich selbst abbildet) zu verstehen. Damit können wir die beiden vorigen Gleichungen nun wie folgt aufschreiben $$ F^{\prime \prime}(0)=h^{2} D_{x}^{2} f\left(x_{0}, y_{0}\right)+2 h k D_{x} D_{y} f\left(x_{0}, y_{0}\right)+k^{2} D_{y}^{2} f\left(x_{0}, y_{0}\right)=\left(h D_{x}+k D_{y}\right)^{2} f\left(x_{0}, y_{0}\right) $$ und analog $F^{\prime \prime \prime}(0)=\left(h D_{x}+k D_{y}\right)^{3} f\left(x_{0}, y_{0}\right)$. Das Muster, nach dem diese Ableitungen aufgebaut sind, ist nun leicht erkennbar. Mit vollständiger Induktion kann schließlich der Satz von Taylor gezeigt werden.[^38] Satz 6.29 (Satz von Taylor für reellwertige Funktionen in zwei Variablen) Sei $D \subseteq \mathbb{R}^{2} e i$ ne offene Menge und $f: D \rightarrow \mathbb{R}$ eine auf $D n+1$-mal stetig differenzierbare Funktion. Weiters seien $\left(x_{0}, y_{0}\right)$ und $(x, y)=\left(x_{0}+t h, y_{0}+t k\right)$ zwei Punkte in $D$, deren Verbindungsstrecke zur Gänze in D liegt. Dann gibt es ein $\xi \in(0,1)$, so dass $$ f(x, y)=f\left(x_{0}, y_{0}\right)+\sum_{\ell=1}^{n} \frac{\left(h D_{x}+k D_{y}\right)^{\ell} f\left(x_{0}, y_{0}\right)}{\ell !}+\frac{\left(h D_{x}+k D_{y}\right)^{n+1} f\left(x_{0}+\xi h, y_{0}+\xi k\right)}{(n+1) !} $$ Ist $f$ unendlich oft stetig differenzierbar, so ist die Taylorreihe von $f$ durch $$ f\left(x_{0}, y_{0}\right)+\sum_{\ell=1}^{\infty} \frac{1}{\ell !}\left(h D_{x}+k D_{y}\right)^{\ell} f\left(x_{0}, y_{0}\right) $$ definiert. Sie konvergiert genau dann gegen $f(x, y)$, wenn die Folge der Restglieder eine Nullfolge ist, d.h. $\lim _{n \rightarrow \infty} \frac{1}{n !}\left(h D_{x}+k D_{y}\right)^{n} f\left(x_{0}+\xi_{n} h, y_{0}+\xi_{n} k\right)=0$. ## Beispiel 6.30 (a) Falls man beispielsweise quadratische Approximationen einer Funktion sucht, so muss man die Ableitungen bis zur Ordnung zwei bestimmen, um das Taylorpolynom zweiter Ordnung festzulegen. Dieses besitzt auch die Darstellung $$ f\left(x_{0}, y_{0}\right)+(h, k) \operatorname{grad} f\left(x_{0}, y_{0}\right)+\frac{1}{2 !}(h, k)\left(\begin{array}{ll} f_{x x}\left(x_{0}, y_{0}\right) & f_{x y}\left(x_{0}, y_{0}\right) \\ f_{y x}\left(x_{0}, y_{0}\right) & f_{y y}\left(x_{0}, y_{0}\right) \end{array}\right)\left(\begin{array}{l} h \\ k \end{array}\right) $$ Die hier auftretende Matrix der partiellen Ableitungen zweiter Ordnung heißt HesseMatrix. Allgemein gilt für zweimal stetig differenzierbare Funktionen in $n$ Variablen (mit den Abkürzungen $\mathbf{x}=\left(x_{1}, \ldots, x_{n}\right)$ und $\mathbf{h}=\left(h_{1}, \ldots, h_{n}\right)$ ) $$ f(\mathbf{x}+\mathbf{h})=f(\mathbf{x})+\mathbf{h} \operatorname{grad} f(\mathbf{x})+\frac{1}{2 !} \mathbf{h} \cdot H_{f}(\mathbf{x}) \cdot \mathbf{h}^{T}+R(\mathbf{x}) $$ wobei $H_{f}$ die durch $$ H_{f}=\left(\begin{array}{ccc} f_{x_{1} x_{1}}\left(x_{1}, \ldots, x_{n}\right) & \cdots & f_{x_{1} x_{n}}\left(x_{1}, \ldots, x_{n}\right) \\ \vdots & \vdots & \vdots \\ f_{x_{n} x_{1}}\left(x_{1}, \ldots, x_{n}\right) & \cdots & f_{x_{n} x_{n}}\left(x_{1}, \ldots, x_{n}\right) \end{array}\right) $$ definierte Hesse-Matrix von $f$ und $R\left(x_{1}, \ldots, x_{n}\right)$ das Restglied aus (6.9) bezeichnet. (b) Wir suchen eine quadratische Approximation der Funktion $f(x, y)=\left(x+\frac{1}{y^{2}}\right)(y-2)$ im Punkt $(0,1)$. Die ersten partiellen Ableitungen sind $$ f_{x}=y-2, \quad f_{y}=x-\frac{1}{y^{2}}+\frac{4}{y^{3}} $$ die zweiten partiellen Ableitungen lauten $$ f_{x x}=0, \quad f_{x y}=1, \quad f_{y y}=\frac{2}{y^{3}}-\frac{12}{y^{4}} $$ Daraus folgt $f(0,1)=f_{x}(0,1)=-1, f_{y}(0,1)=3, f_{x x}(0,1)=0, f_{x y}(0,1)=1$ und $f_{y y}(0,1)=-10$. Daher lautet die gesuchte Approximation $$ f(x, y) \approx-1-x+3(y-1)+x(y-1)-5(y-1)^{2} $$ ### 6.3 Bestimmung von Extrema Für Funktionen in einer Variablen haben wir im vorigen Kapitel die geometrische Bedeutung der ersten und der zweiten Ableitung untersucht. Lokale Extrema (Minima und Maxima) lassen sich durch Bestimmung der Nullstellen der ersten Ableitung aufspüren. In diesem Abschnitt wollen wir Minima und Maxima von Funktionen in mehreren Variablen untersuchen. Zunächst widmen wir uns der Untersuchung der Extrema des gesamten Funktionsgraphen. Danach betrachten wir Extrema mit Nebenbedingungen, also z.B. Extrema des Graphen entlang einer vorgegebenen Kurve. Abb. 6.7 zeigt die Funktion $\left((x-2)^{2}+y^{2}\right) e^{-x^{2}-y^{2}}$ mit der Nebenbedingung $(x-0.3)^{2}+(y-0.3)^{2}=1$. Die Nebenbedingung definiert einen Kreis $C$. Sie schneidet aus dem Funktionsgraphen den über dem Kreis $C$ liegenden Abschnitt aus. Auf der Kreislinie wird nun ein Maximum und ein Minimum angenommen. Ohne Nebenbedingung liegt das Maximum der Funktion an einer anderen Stelle, ein Minimum existiert überhaupt nicht. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-252.jpg?height=452&width=802&top_left_y=1089&top_left_x=531) Abbildung 6.7 Extremstellen einer Funktion mit Nebenbedingung ## 1. Lokale Extrema Definition 6.31 Sei $D \subseteq \mathbb{R}^{n}$ und $f: D \rightarrow \mathbb{R}$. Die Funktion $f$ besitzt an der Stelle $\mathrm{x}_{0} \in D$ ein relatives (oder lokales) Maximum (bzw. Minimum), wenn es eine Umgebung $U_{\varepsilon}\left(\mathbf{x}_{0}\right)$ gibt, so dass für alle $\mathbf{x} \in U_{\varepsilon}\left(\mathbf{x}_{0}\right) \cap D$ gilt: $f(\mathbf{x}) \leq f\left(\mathbf{x}_{0}\right)$ (bzw. $f(\mathbf{x}) \geq f\left(\mathbf{x}_{0}\right)$ ). Eine Stelle $\mathrm{x}_{0}$ heißt absolutes (oder globales) Maximum (bzw. Minimum) von $\mathrm{f}$, falls diese Ungleichung für alle $\mathrm{x} \in D$ gilt. Satz 6.32 Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge und $f: D \rightarrow \mathbb{R}$. Die Funktion $f$ habe in $\mathrm{x}$ ein relatives Extremum und sei darüber hinaus in $\mathbf{x}$ partiell differenzierbar. Dann verschwinden in $\mathbf{x}$ alle partiellen Ableitungen, d.h. $\operatorname{grad} f(\mathbf{x})=\mathbf{0}$. Beweis. Ein relatives Extremum $\mathbf{x}=\left(x_{1}, \ldots, x_{n}\right)$ von $f$ ist auch relatives Extremum der Funktionen $g_{k}(x)=f\left(x_{1}, \ldots, x_{k-1}, x, x_{k+1}, \ldots, x_{n}\right)$. Daher ist $g_{k}^{\prime}\left(x_{k}\right)=0$. Andererseits ist aber $g_{k}^{\prime}\left(x_{k}\right)=f_{x_{k}}(\mathbf{x})$, also ist $f_{x_{k}}(\mathbf{x})=0$ für alle $k$. Für total differenzierbare Funktionen ist die Aussage des Satzes auch anschaulich einleuchtend. Denn ein relatives Maximum ist ja nichts anderes als ein „Gipfel“ des Funktionsgraphen. Deshalb ist die Tangentialebene dort waagrecht. Somit sind die Anstiege in alle Richtungen, die ja durch die Richtungsableitungen beschrieben werden, gleich 0 . Die Bedingung grad $f(\mathbf{x})=\mathbf{0}$ ist nur notwendig, aber nicht hinreichend, wie das unten stehende Beispiel zeigt. Punkte mit $\operatorname{grad} f(\mathbf{x})=\mathbf{0}$ heißen stationäre Punkte. ## Beispiel 6.33 (a) Wir betrachten die Funktion $f(x, y)=x^{2}+y^{2}$. Für ein relatives Extremum müssen die Gleichungen $f_{x}(x, y)=2 x=0$ und $f_{y}(x, y)=2 y=0$ gelten. Aus diesen beiden Gleichungen folgt $x=y=0$. Im Ursprung $(0,0)$ befindet sich auch das relative Minimum dieser Funktion (siehe Abb. 6.8, linkes Bild). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-253.jpg?height=534&width=1196&top_left_y=1020&top_left_x=354) Abbildung 6.8 Links: $(0,0)$ ist relatives Minimum von $f(x, y)=x^{2}+y^{2}$. Rechts: Der Sattelpunkt $(0,0)$ von $f(x, y)=x y$ (b) Nun betrachten wir die Funktion $f(x, y)=x y$. Wegen $f_{x}(x, y)=y$ und $f_{y}(x, y)=x$ ist die einzige Stelle, die als relatives Extremum in Frage kommt, der Ursprung (0,0). Es liegen aber in jeder $\varepsilon$-Umgebung sowohl Punkte mit $f(x, y)>0$ als auch Punkte mit $f(x, y)<0$. Denn $U_{\varepsilon}(0,0)$ ist der Kreis mit Radius $\varepsilon$ und Mittelpunkt $(0,0)$. Darin liegen die Punkte $(\varepsilon / 2, \varepsilon / 2)$ mit $f(\varepsilon / 2, \varepsilon / 2)=\varepsilon^{2} / 4>0$ und $(\varepsilon / 2,-\varepsilon / 2)$ mit $f(\varepsilon / 2,-\varepsilon / 2)=$ $-\varepsilon^{2} / 4<0$. Die Bedingung $f_{x}(x, y)=0$ und $f_{y}(x, y)=0$ ist daher nur notwendig, aber nicht hinreichend für ein relatives Extremum. Wir wollen nun eine hinreichende Bedingung für relative Extrema finden. Wie kann man feststellen, ob eine Stelle $\mathbf{x}$ mit $\operatorname{grad} f(\mathbf{x})=0$ ein relatives Extremum ist, und welche Art von Extremum vorliegt? Aus der Darstellung (6.10) folgt wegen $\operatorname{grad} f(\mathbf{x})=\mathbf{0}$ $$ \begin{aligned} f(\mathbf{x}+\mathbf{h}) & =f(\mathbf{x})+\mathbf{h} \operatorname{grad} f(\mathbf{x})+\frac{1}{2 !} \mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}+O\left(\|\mathbf{h}\|^{3}\right) \\ & =f(\mathbf{x})+\frac{1}{2 !} \mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}+O\left(\|\mathbf{h}\|^{3}\right) . \end{aligned} $$ $\mathrm{Da}$ der Fehlerterm in (6.11) für (betragsmäßig) hinreichend kleine $\mathrm{h}$ vernachlässigbar gegenüber $\mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}$ ist, genügt es, das lokale Verhalten von $\mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}$ zu kennen. Wenn also $\mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}>0$ für hinreichend kleine $\mathbf{h}$, also für $0<\|\mathbf{h}\|<\varepsilon$ ist ( $\varepsilon$ klein genug), dann folgt daraus $f(\mathbf{x}+\mathbf{h})>f(\mathbf{x})$ für $0<\|\mathbf{h}\|<\varepsilon$. Somit liegt ein relatives Minimum vor. Der Term $\mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}$ ist aber eine quadratische Form (siehe Beispiel 6.1f), denn aufgrund des Satzes von Schwarz ist $H_{f}(\mathbf{x})$ eine symmetrische Matrix. Somit ist die Bedingung $\mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}>0$ gleichbedeutend damit, dass die Hesse-Matrix $H_{f}(\mathbf{x})$ positiv definit ist. In analoger Weise folgt aus der negativen Definitheit von $H_{f}(\mathbf{x})$ das Vorliegen eines lokalen Maximums. Diese Überlegungen führen somit zum folgenden Satz. Satz 6.34 Sei $D \subseteq \mathbb{R}^{n}$ eine offene Menge und $f: D \rightarrow \mathbb{R}$. Weiters sei $\mathbf{x}_{0} \in D$ ein Punkt mit grad $f\left(\mathbf{x}_{0}\right)=\mathbf{0}$. Bezeichne $H(\mathbf{x})$ die Hesse-Matrix von $f$ in $\mathbf{x}$. Falls $H\left(\mathbf{x}_{0}\right)$ negativ definit ist, so liegt bei $\mathrm{x}_{0}$ ein relatives Maximum vor. Im positiv definiten Fall liegt ein relatives Minimum vor. Ist $H\left(\mathbf{x}_{0}\right)$ indefinit, so ist an der Stelle $\mathbf{x}_{0}$ kein Extremum, sondern ein Sattelpunkt von $f$. Bemerkung: In einem relativen Minimum $\mathbf{x}$ genügt laut Definition $f(\mathbf{x}+\mathbf{h}) \geq f(\mathbf{x})$ für $\|\mathbf{h}\|<\varepsilon$. Trotzdem reicht es nicht, wenn $H_{f}(\mathbf{x})$ bloß positiv semidefinit ist. Denn falls $H_{f}(\mathbf{x})$ positiv semidefinit, aber nicht definit ist, dann könnte man $\mathbf{h}$ mit $\|\mathbf{h}\|<\varepsilon$ so wählen, dass $\mathbf{h} H_{f}(\mathbf{x}) \mathbf{h}^{T}=0$. Dann würde aber in (6.11) das Vorzeichen von $f(\mathbf{x}+\mathbf{h})-f(\mathbf{x})$ nicht durch die Hesse-Matrix sondern durch das Verhalten der Terme dritter und höherer Ordnung bestimmt. Folglich ist dann keine Aussage über das Vorhandensein eines relativen Extremums möglich. ## Beispiel 6.35 (a) Gesucht sind die relativen Extrema der Funktion $f(x, y)=x^{3}+3 x y^{2}-15 x-12 y$ (siehe Abb 6.9). Partielles Differenzieren liefert $f_{x}(x, y)=3 x^{2}+3 y^{2}-15=0$ und $f_{y}(x, y)=6 x y-12=0$. Wir erhalten das nichtlineare Gleichungssystem $$ x^{2}+y^{2}=5, \quad y=\frac{2}{x} $$ dessen Lösungen genau die stationären Punkte sind. Einsetzen der zweiten in die erste Gleichung führt auf die biquadratische Gleichung $x^{4}-5 x^{2}+4=0$, die nach der Substitution $z=x^{2}$ in die quadratische Gleichung $z^{2}-5 z+4=0$ übergeht. Das führt letztendlich auf folgende Kandidaten für relative Extrema: $(1,2),(-1,-2),(2,1)$ und $(-2,-1)$. Die Hesse-Matrix $$ H_{f}(x, y)=\left(\begin{array}{ll} f_{x x} & f_{x y} \\ f_{x y} & f_{y y} \end{array}\right)=\left(\begin{array}{ll} 6 x & 6 y \\ 6 y & 6 x \end{array}\right) $$ ist genau dann positiv definit, wenn $f_{x x}=6 x>0$ und det $H_{f}(x, y)=36\left(x^{2}-y^{2}\right)>0$, und genau dann negativ definit, wenn $6 x<0$ und $\operatorname{det} H_{f}(x, y)>0$. Wir setzen die Punkte, die wir oben bestimmt haben, der Reihe nach ein und bekommen $\operatorname{det} H_{f}(1,2)<$ 0 und det $H_{f}(-1,-2)<0$. Die Matrix ist daher indefinit, und es liegt an diesen Stellen kein relatives Extremum vor. Wegen $\operatorname{det} H_{f}(2,1)>0$ und $f_{x x}(2,1)=12>0$ ist in $(2,1)$ ein relatives Minimum von $f$. Und schließlich folgt aus $\operatorname{det} H_{f}(-2,-1)>0$ und $f_{x x}(-2,-1)=-12<0$, dass in $(-2,-1)$ ein relatives Maximum von $f$ liegt. (b) Gesucht sind die relativen Extrema der Funktion $f(x, y)=x^{2}+y^{2}-2 x y+1$. Die partiellen Ableitungen sind $f_{x}(x, y)=2 x-2 y$ und $f_{y}(x, y)=2 y-2 x$. Die Kandidaten ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-255.jpg?height=524&width=1232&top_left_y=370&top_left_x=301) Abbildung 6.9 Die Funktionen $f(x, y)=x^{3}+3 x y^{2}-15 x-12 y$ und $f(x, y)=x^{2}+y^{2}-2 x y+1$ für relative Extrema, also die stationären Punkte, sind daher alle Punkte der Form $(a, a)$. Wegen $$ \operatorname{det} H_{f}(x, y)=\left|\begin{array}{rr} 2 & -2 \\ -2 & 2 \end{array}\right|=0 $$ ist die Hesse-Matrix an keiner Stelle definit. Das Kriterium von Satz 6.34 versagt also hier. In diesem Fall lassen sich die Extrema dennoch leicht bestimmen. Denn schreibt man $f$ in der Form $f(x, y)=(x-y)^{2}+1$, so folgt sofort $f(x, y) \geq 1$ für alle $(x, y) \in \mathbb{R}^{2}$, wobei Gleichheit nur in den Punkten $(a, a)$ mit $a \in \mathbb{R}$ gilt. Damit ist jeder der oben bestimmten Kandidaten ein Minimum, ja sogar ein globales Minimum. Da $f$ nicht beschränkt ist (siehe Abb. 6.9), gibt es kein Maximum. Wir haben in diesem Abschnitt alle Sätze für Funktionen formuliert, deren Definitionsbereich eine offene Menge ist. Der Rand gehört in diesem Fall nicht zum Definitionsbereich. Falls man es mit Definitionsbereichen zu tun hat, die keine offenen Mengen sind, so muss man bei der Suche nach globalen Extrema wie folgt vorgehen. Zunächst müssen alle lokalen Extrema im Inneren des Definitionsbereichs - wie oben beschrieben - gefunden werden. Durch Vergleich der entsprechenden Funktionswerte findet man Maxima und Minima unter den lokalen Extrema. Es können jedoch auch am Rand des Definitionsbereichs Stellen mit noch größeren bzw. kleineren Funktionswerten existieren, die aber keine lokalen Extrema sind. Deshalb müssen die Funktionswerte am Rand gesondert untersucht werden (vgl. Übungsaufgabe 6.36). ## 2. Extrema mit Nebenbedingungen Beispiel 6.36 Für die Herstellung eines Produkts $D$ sind die Zwischenprodukte $A, B$ und $C$ erforderlich. Aus $x$ Einheiten von $A, y$ Einheiten von $B$ und $z$ Einheiten von $C$ lassen sich $f(x, y, z)=12 \sqrt{x y z}$ Einheiten von $D$ herstellen. Eine Einheit von $A$ kostet 3 Euro, eine Einheit des Produkts $B 2$ Euro und eine Einheit von $C 5$ Euro. Das Budget sei durch 60 Euro beschränkt. Mit dem vorhandenen Budget sollen nun möglichst viele Einheiten von $D$ produziert werden. Gesucht ist also das Maximum der Produktionsfunktion $f(x, y, z)=12 \sqrt{x y z}$ unter der Nebenbedingung ${ }^{4} 3 x+2 y+5 z-60=0$. Eine Möglichkeit, diese Aufgabe zu lösen, ist mittels Substitution einer Variablen aus der Nebenbedingung: Man setzt z.B. $z=12-3 x / 5-2 y / 5$ in $f(x, y, z)$ ein und bestimmt die Extrema der so gewonnenen Funktion in zwei Variablen. Das Problem ist damit auf eine Extremwertaufgabe ohne Nebenbedingung zurück geführt. Die im obigen Beispiel vorgeschlagene Vorgangsweise funktioniert nur, wenn sich die $\mathrm{Ne}-$ benbedingung nach einer Variablen auflösen lässt. Sie ist oft eher mühsam anzuwenden, es sei denn, die explizite Form der Nebenbedingung hat eine hinreichend einfache Gestalt. Deshalb werden wir im Folgenden eine in vielen Fällen elegantere Methode präsentieren, die Methode der Lagrange'schen Multiplikatoren. Betrachten wir eine Funktion $f(x, y)$, deren Extrema wir unter der Nebenbedingung $g(x, y)=0$ bestimmen wollen. Die Funktion $f(x, y)$ können wir durch ihre Niveaulinien veranschaulichen (Abb. 6.10). Die Nebenbedingung beschreibt eine Kurve $C$ im $\mathbb{R}^{2}$. Bezeichnen wir mit $\tilde{f}$ die Einschränkung von $f$ auf die Menge $C$. Dann sind die Extrema von $f$ unter der gegebenen Nebenbedingung nichts anderes als die Extrema von $\tilde{f}$. Jede Niveaulinie zum Niveau $c$ teilt die $(x, y)$-Ebene in zwei Gebiete, nämlich das Gebiet, auf $\operatorname{dem} f(x, y)>c$ gilt, und jenes, wo $f(x, y)\varphi(b)$ (und daher $\varphi([a, b])=[\varphi(b), \varphi(a)])$, und das bewirkt einen Vorzeichenwechsel in (5.15), was durch $\left|\varphi^{\prime}(x)\right|$ anstelle von $\varphi^{\prime}(x)$ wieder ausgeglichen wird. Eine ähnliche Regel gilt für Bereichsintegrale. Definition 6.43 Sei $\mathbf{f}\left(x_{1}, \ldots, x_{n}\right)=\left(f_{1}\left(x_{1}, \ldots, x_{n}\right), \ldots, f_{n}\left(x_{1}, \ldots, x_{n}\right)\right)$ eine vektorwertige Funktion auf $\mathbb{R}^{n}$. Die Determinante der Jabobimatrix wird als Funktionaldeterminante bezeichnet und geschrieben als $$ \frac{\partial\left(f_{1}, \ldots, f_{n}\right)}{\partial\left(x_{1}, \ldots, x_{n}\right)}=\operatorname{det}\left(\begin{array}{ccc} \frac{\partial f_{1}}{\partial x_{1}}\left(x_{1}, \ldots, x_{n}\right) & \cdots & \frac{\partial f_{1}}{\partial x_{n}}\left(x_{1}, \ldots, x_{n}\right) \\ \vdots & & \vdots \\ \frac{\partial f_{n}}{\partial x_{1}}\left(x_{1}, \ldots, x_{n}\right) & \ldots & \frac{\partial f_{n}}{\partial x_{n}}\left(x_{1}, \ldots, x_{n}\right) \end{array}\right) $$ Bemerkung: Die Funktionaldeterminante einer Funktion in einer Variablen ist nichts anderes als deren Ableitung. Satz 6.44 (Substitutionsregel für Bereichsintegrale) Gegeben seien ein Bereich $B \subseteq \mathbb{R}^{2}$ und zwei stetig differenzierbare Funktionen $\varphi(x, y)$ und $\psi(x, y)$, die den Bereich B bijektiv auf $$ B^{\prime}=\{(\varphi(x, y), \psi(x, y)) \mid(x, y) \in B\} $$ abbilden. Dann gilt $$ \iint_{B^{\prime}} f(u, v) d u d v=\iint_{B} f(\varphi(x, y), \psi(x, y))\left|\operatorname{det}\left(\begin{array}{ll} \varphi_{x}(x, y) & \varphi_{y}(x, y) \\ \psi_{x}(x, y) & \psi_{y}(x, y) \end{array}\right)\right| d x d y $$ Bemerkung: Die Forderung, dass die Abbildung $(\varphi, \psi): B \rightarrow B^{\prime}$ bijektiv sein muss, kann abgeschwächt werden. In der Tat genügt es, dass Funktionen $\varphi$ und $\psi$ existieren, die $B$ bijektiv gemäß (6.12) auf eine Menge $\tilde{B}$ abbilden, die sich von $B^{\prime}$ nur durch eine Menge unterscheidet, deren „Fläche" 0 ist. $^{5}$ ## Beispiel 6.45 (a) Mit Hilfe der Substitutionsregel lässt sich zum Beispiel die bekannte Formel für die Fläche eines Kreises schnell herleiten. Der Kreis mit Mittelpunkt $(0,0)$ und Radius $R$ entspricht dem Bereich $B=\left\{(x, y) \mid x^{2}+y^{2} \leq R^{2}\right\}$. Die Substitution $x=r \cos \varphi$, $y=r \sin \varphi$ transformiert das Rechteck $B^{\prime}=\{(r, \varphi) \mid 0 \leq r \leq R, 0 \leq \varphi \leq 2 \pi\}$ in die Kreisscheibe $B$. Damit erhalten wir $$ \iint_{x^{2}+y^{2} \leq R^{2}} d x d y=\int_{0}^{R} \int_{0}^{2 \pi}\left|\operatorname{det}\left(\begin{array}{cc} \cos \varphi & -r \sin \varphi \\ \sin \varphi & r \cos \varphi \end{array}\right)\right| d \varphi d r=\int_{0}^{R} \int_{0}^{2 \pi} r d \varphi d r=R^{2} \pi . $$[^40](b) Wir greifen noch einmal das Beispiel einer Kugel auf. Sei $K$ die Kugel in $\mathbb{R}^{3}$ mit Radius $R$ und Mittelpunkt im Ursprung. Ein Punkt im Inneren der Kugel kann, neben seinen kartesischen Koordinaten $(x, y, z)$, auch durch folgende drei Angaben eindeutig beschrieben werden: Erstens den Abstand $r$ vom Ursprung, zweitens den Winkel $\theta$, den der Vektor $(x, y, z)$ mit der $z$-Achse einschließt, und drittens den Winkel $\varphi$, den die Projektion von $(x, y, z)$ auf die $(x, y)$-Ebene mit der $x$-Achse einschließt. Diese Größen heißen Kugelkoordinaten $(r, \theta, \varphi)$. Es gelten dann die Beziehungen $$ x=r \sin \theta \cos \varphi, \quad y=r \sin \theta \sin \varphi, \quad z=r \cos \theta $$ Die Funktionaldeterminante dieses Koordinatenwechsels ist $$ \frac{\partial(x, y, z)}{\partial(r, \varphi, \vartheta)}=\operatorname{det}\left(\begin{array}{ccc} \sin \theta \cos \varphi & r \cos \theta \cos \varphi & -r \sin \theta \sin \varphi \\ \sin \theta \sin \varphi & r \cos \theta \sin \varphi & r \sin \theta \cos \varphi \\ \cos \theta & -r \sin \theta & 0 \end{array}\right)=r^{2} \sin \theta $$ Nun können wir das Volumen der Kugel auf die folgende Art berechnen: $$ \begin{aligned} V & =\iiint_{x^{2}+y^{2}+z^{2} \leq R^{2}} d x d y d z=\int_{0}^{R} \int_{0}^{\pi} \int_{0}^{2 \pi} r^{2} \sin \theta d \varphi d \theta d r \\ & =\int_{0}^{R} r^{2} \int_{0}^{\pi} \sin \theta \int_{0}^{2 \pi} d \varphi d \theta d r=\frac{4 \pi R^{3}}{3} \end{aligned} $$ (c) Das Integral $$ I=\int_{-\infty}^{\infty} e^{-x^{2} / 2} d x=\sqrt{2 \pi} $$ kann man nicht direkt berechnen, da $e^{-x^{2} / 2}$ keine elementare Stammfunktion besitzt. Es kann aber mit Hilfe der Substitutionsregel bestimmt werden. Die gleiche Substitution wie in (a) liefert $$ \begin{aligned} I^{2} & =\int_{-\infty}^{\infty} e^{-x^{2} / 2} d x \cdot \int_{-\infty}^{\infty} e^{-x^{2} / 2} d x=\iint_{\mathbb{R}^{2}} e^{-\left(x^{2}+y^{2}\right) / 2} d x d y \\ & =\int_{0}^{\infty} \int_{0}^{2 \pi} e^{-r^{2} / 2} r d \varphi d r=2 \pi \int_{0}^{\infty} e^{-r^{2} / 2} r d r \end{aligned} $$ Das verbleibende Integral kann mit der Substitution $r^{2} / 2=u$ in $\int_{0}^{\infty} e^{-u} d u=1$ übergeführt werden, woraus $I=\sqrt{2 \pi}$ folgt. Die Funktion $f(x)=\frac{1}{\sqrt{2 \pi}} e^{-x^{2} / 2}$ ist die Dichte der Normalverteilung und spielt in der Wahrscheinlichkeitsrechnung und Statistik eine große Rolle. Ihre Stammfunktion ist keine elementare Funktion und kann daher nur in der Form $$ \Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} e^{-t^{2} / 2} d t $$ dargestellt werden. Sie ist die Verteilungsfunktion der Normalverteilung. Der Wert gibt die Wahrscheinlichkeit an, dass eine standardnormalverteilte Zufallsvariable einen Wert kleiner oder gleich $x$ annimmt. ## 2. Kurven Gegeben ist eine Feder mit inhomogener Massenverteilung, aber bekannter linearer Massendichte $^{6} \rho=\rho(x, y, z)$. Gesucht ist die Masse der Feder. Da die Masse nicht konstant ist, kann man sie nicht mit der einfachen Formel Masse $=$ Volumen $\times$ Dichte berechnen, sondern als Integral. Da die lineare Massendichte bekannt ist, kann man sich die Feder als unendlich dünne Linie vorstellen. Es ergibt sich eine Kurve im Raum, die Schraubenlinie (siehe Abb 6.13) genannt wird. Die lineare Massendichte gibt nun die Massenverteilung entlang dieser Kurve an. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-263.jpg?height=252&width=522&top_left_y=812&top_left_x=660) Abbildung 6.13 Schraubenlinie Dieses Beispiel stellt uns vor folgendes Problem: Wir müssen die Kurve mathematisch beschreiben und dann ein Integral über die Massendichte mit der Kurve als Integrationsbereich berechnen. In diesem Abschnitt führen wir daher zunächst den Begriff der Kurve ein und studieren ein paar elementare Eigenschaften von Kurven. In weiterer Folge werden wir uns dann den Kurvenintegralen zuwenden. Definition 6.46 Unter einer Kurve in $\mathbb{R}^{n}$ versteht man eine stetige Abbildung c: $[a, b] \rightarrow$ $\mathbb{R}^{n}$. Die Variable wird als Parameter der Kurve bezeichnet. ## Beispiel 6.47 (a) Der Einheitskreis in $\mathbb{R}^{2}$ ist die durch $\mathbf{c}(t)=(\cos t, \sin t), 0 \leq t \leq 2 \pi$, bestimmte Kurve. Jeder Punkt der Form $(x, y)=(\cos t, \sin t)$ liegt offensichtlich auf dem Einheitskreis, da er die Gleichung $x^{2}+y^{2}=1$ erfüllt. Außerdem lassen sich die Koordinaten als Realund Imaginärteil der komplexen Zahl $e^{i t}$ auffassen, so dass auch wirklich der gesamte Einheitskreis erfasst wird, wenn $t$ das Intervall $[0,2 \pi]$ durchläuft. Auch die Kurve $\tilde{\mathbf{c}}(t)=\left(\cos t^{2}, \sin t^{2}\right), 0 \leq t \leq \sqrt{2 \pi}$ stellt den Einheitskreis dar. Zwei verschiedene Kurven können daher geometrisch dieselbe Punktmenge beschreiben. Die Parametrisierung einer Kurve ist also nicht eindeutig. Vom Standpunkt der Anwendungen besteht, abgesehen von der Abbildung an sich, noch ein weiterer Unterschied. Falls $t$ zum Beispiel als Zeit und $\mathbf{c}(t)$ bzw. $\tilde{\mathbf{c}}(t)$ als physikalischer Ort aufgefasst wird, dann wird bei $\mathbf{c}(t)$ die Kreislinie mit gleichförmiger Bewegung durchlaufen, bei $\tilde{\mathbf{c}}(t)$ hingegen nicht. (b) Die in Abb 6.13 abgebildete Schraubenlinie besitzt die Parametrisierung $$ \mathbf{c}(t)=\left(c_{1} \cos t, c_{1} \sin t, c_{2} t\right) $$[^41]mit Konstanten $c_{1}, c_{2}>0$. Bei $c_{1}<0$ würde eine rechts gewundene Schraubenlinie entstehen. Integrale sind Grenzwerte von Riemann'schen Zwischensummen und diese wiederum (mit den Funktionswerten der Zwischenstellen) gewichtete Teilintervalllängen. Das Integral ist somit das Produkt aus der Länge des Integrationsintervalls und einem mittleren Funktionswert (vgl. Mittelwertsatz der Integralrechnung). Um das Integral längs einer Kurve $\mathbf{c}:[a, b] \rightarrow \mathbb{R}^{n}$ sinnvoll definieren zu können, müssen wir daher die Länge einer Kurve verstehen. Dazu verwenden wir die gleiche Idee wie bei Riemann'schen Zwischensummen. Wir unterteilen die Kurve und approximieren sie durch einen Polygonzug (Abb 6.14), dessen Länge sich leicht berechnen lässt. Die Unterteilung von $\mathbf{c}$ entspricht einer Zerlegung von $[a, b]$, also $a=t_{0}2$ verläuft der Beweis analog). Da $\mathbf{c}$ stetig differenzierbar ist, kann der Mittelwertsatz der Differentialrechnung angewendet werden. Es existieren also $\xi_{i}$ und $\eta_{i}$ mit $$ \begin{aligned} \left\|\mathbf{c}\left(t_{i}\right)-\mathbf{c}\left(t_{i-1}\right)\right\| & =\left\|\left(\begin{array}{c} c_{1}\left(t_{i}\right)-c_{1}\left(t_{i-1}\right) \\ c_{2}\left(t_{i}\right)-c_{2}\left(t_{i-1}\right) \end{array}\right)\right\| \\ & =\left\|\left(\begin{array}{c} c_{1}^{\prime}\left(\xi_{i}\right)\left(t_{i}-t_{i-1}\right) \\ c_{2}^{\prime}\left(\eta_{i}\right)\left(t_{i}-t_{i-1}\right) \end{array}\right)\right\|=\left\|\left(\begin{array}{c} c_{1}^{\prime}\left(\xi_{i}\right) \\ c_{2}^{\prime}\left(\eta_{i}\right) \end{array}\right)\right\|\left(t_{i}-t_{i-1}\right) . \end{aligned} $$ Wir wollen nun die Bogenlänge als Grenzwert von Riemann'schen Zwischensummen auffassen. Es ist zu beachten, dass in (6.13) in jedem Teilintervall der Zerlegung zwei Zwischenstellen vorkommen. Man kann aber zeigen, dass für jede Wahl von Zwischenstellen $\tau_{i} \in\left[t_{i-1}, t_{i}\right]$ $$ \lim _{F(Z) \rightarrow 0} \sum_{i=1}^{n}\left(\left\|\left(\begin{array}{l} c_{1}^{\prime}\left(\xi_{i}\right) \\ c_{2}^{\prime}\left(\eta_{i}\right) \end{array}\right)\right\|-\left\|\left(\begin{array}{l} c_{1}^{\prime}\left(\tau_{i}\right) \\ c_{2}^{\prime}\left(\tau_{i}\right) \end{array}\right)\right\|\right)\left(t_{i}-t_{i-1}\right)=0 $$ gilt. Daraus folgt gemäß Definition 6.48 $$ L=\lim _{F(Z) \rightarrow 0} \sum_{i=1}^{n}\left\|\mathbf{c}\left(t_{i}\right)-\mathbf{c}\left(t_{i-1}\right)\right\|=\lim _{F(Z) \rightarrow 0} \sum_{i=1}^{n}\left\|\left(\begin{array}{c} c_{1}^{\prime}\left(\tau_{i}\right) \\ c_{2}^{\prime}\left(\tau_{i}\right) \end{array}\right)\right\|\left(t_{i}-t_{i-1}\right)=\int_{a}^{b}\left\|\mathbf{c}^{\prime}(t)\right\| d t . $$ Die Bogenlänge der stetig differenzierbaren Kurve bis zum Parameterwert $u$ mit $a \leq u \leq b$ ist dann $$ \ell(u)=\int_{a}^{u}\left\|\mathbf{c}^{\prime}(t)\right\| d t $$ Insbesondere gilt $\ell(b)=L$. Wählen wir eine Parametrisierung derart, dass $\mathrm{c}^{\prime}(t) \neq 0$ für alle $t \in[a, b]$, so ist die Funktion $\ell$ streng monoton wachsend und stetig differenzierbar. Sie bildet daher $[a, b]$ auf $[0, L]$ bijektiv ab und ist somit insbesondere invertierbar. Deshalb ist die Kurve $\tilde{\mathbf{c}}(s)=\mathbf{c}\left(\ell^{-1}(s)\right), s \in[0, L]$ geometrisch identisch mit der der Kurve $\mathbf{c}(t), t \in[a, b]$. Die Bogenlänge von $\tilde{\mathbf{c}}(s)$ bis zum Parameterwert $s_{0}$ mit $0 \leq s_{0} \leq L$ ist gleich der Bogenlänge von $\mathbf{c}(t)$ bis zum Parameterwert $t_{0}=\ell^{-1}\left(s_{0}\right)$. Letztere ist aber gerade $\ell\left(\ell^{-1}\left(s_{0}\right)\right)=s_{0}$. Der Parameter von $\tilde{\mathbf{c}}(s)$ gibt also genau die Bogenlänge an. Die Kurve ist nach der Bogenlänge parametrisiert. Ist die Kurve $\mathbf{c}(t)$ nach der Bogenlänge parametrisiert, so folgt durch Differentiation von (6.14) nach $u$ die Beziehung $1=\left\|\mathbf{c}^{\prime}(u)\right\|$, der „Geschwindigkeitsvektor" ist also normiert. Ist umgekehrt $\left\|\mathbf{c}^{\prime}(t)\right\|=1$ für alle $t \in[a, b]$, so vereinfacht sich die Formel (6.14) für die Bogenlänge zu $\ell(u)=\int_{0}^{u} d t=u$. Somit ist der Parameter $t$ gleich der Bogenlänge. ## Beispiel 6.51 (a) Die Einheitskreislinie ist die Kurve $\mathbf{c}(t)=(\cos t, \sin t)$ mit $0 \leq t \leq 2 \pi$. Die Länge des Kreisbogens zum Winkel $\varphi$ ist daher $$ L_{\varphi}=\int_{0}^{\varphi}\left\|\left(\begin{array}{c} -\sin t \\ \cos t \end{array}\right)\right\| d t=\int_{0}^{\varphi} 1 \cdot d t=\varphi $$ (b) Wir wollen die Bogenlänge der Schraubenlinie $\mathbf{c}(t)=(\cos t, \sin t, t)$ mit $0 \leq t \leq 2 \pi$ bestimmen. Die Kurve $(\cos t, \sin t)$ beschreibt einen Kreis. Dadurch entsteht, wenn $t$ ein Intervall der Länge $2 \pi$ durchläuft, genau eine Windung der Schraubenlinie $\mathbf{c}(t)$. Die Bogenlänge einer solchen Windung ist daher $$ L=\int_{0}^{2 \pi}\left\|\mathbf{c}^{\prime}(t)\right\| d t=\int_{0}^{2 \pi} \sqrt{(-\sin t)^{2}+(\cos t)^{2}+1^{2}} d t=2 \pi \sqrt{2} $$ (c) Die Bogenlänge des Graphen einer stetig differenzierbaren Funktion $f(x)$ mit $a \leq x \leq$ $b$ kann bestimmt werden, indem man den Graphen als Kurve mit der Parametrisierung $\mathbf{c}(t)=(t, f(t))$ auffasst. Dann ergibt sich als Bogenlänge des Graphen $$ L=\int_{a}^{b}\left\|\mathbf{c}^{\prime}(t)\right\| d t=\int_{a}^{b} \sqrt{1+f^{\prime}(t)^{2}} d t $$ Wie dieses und das vorige Beispiel sowie Formel (6.14) zeigen, ist die Bogenlänge das Integral über das Bogenelement. Geometrisch lässt sich das wie folgt interpretieren: Wenn wir ein kleines Intervall $[x, x+\Delta x]$ auf der $x$-Achse betrachten, so hat der über diesem Intervall liegende Teil des Funktionsgraphen ungefähr die Länge $\sqrt{1+f^{\prime}(x)^{2}} \cdot \Delta x$. Dies entspricht genau der linearen Approximation von $f$, denn deren Anstieg ist $f^{\prime}(x)$, und die Bogenlänge ist dann die Länge der Hypotenuse des so gebildeten Steigungsdreiecks mit den Kathetenlängen $\Delta x$ und $f^{\prime}(x) \cdot \Delta x$. (d) Mit Hilfe der geometrischen Interpretation des vorigen Beispiels lässt sich sehr einfach eine Formel zur Berechnung der Mantelflächen von Rotationskörpern begründen. Gegeje sei ein Rotationskörper, der entsteht, wenn die Kurve $f(x), a \leq x \leq b$, um die $x$-Acise rotiert. Gesucht ist die Mantelfläche M. Zerlegen wir den Körper in Scheiben der $\Delta x$, dann ist die Mantelfläche so einer Scheibe ungefähr $2 \pi f(x) \sqrt{1+f^{\prime}(x)^{2}} \Delta x$. Aufsummieren und Grenzübergang für $\Delta x \rightarrow 0$ (ähnlich dem Übergang von Riemann'schen Zwischensummen zum Integral, wir verzichten auf die formale Herleitung) ergibt $$ M=2 \pi \int_{a}^{b} f(x) \sqrt{1+f^{\prime}(x)^{2}} d x $$ Definition 6.52 Sei $\mathbf{c}:[a, b] \rightarrow \mathbb{R}^{n}$ eine Kurve und $f: \mathbb{R}^{n} \rightarrow \mathbb{R}$ eine Funktion mit der Eigenschaft, dass $g(t)=f(\mathbf{c}(t))$ stückweise stetig ist. Unter dem Kurvenintegral der skalaren Funktion $f$ längs $\mathbf{c}$ versteht man das Integral $$ \int_{a}^{b} f(\mathbf{c}(t))\left\|\mathbf{c}^{\prime}(t)\right\| d t $$ Bemerkung: Die Substitutionsregel impliziert, dass das Kurvenintegral skalarer Funktionen nicht von der Parametrisierung der Kurve abhängt. Beispiel 6.53 Zu Beginn dieses Abschnitts haben wir eine Feder mit gegebener linearer Massendichte betrachtet. Sei die Massendichte durch die Funktion $\rho(x, y, z)=x y+z^{2}$ gegeben. Die Feder entspreche der in Abb. 6.13 abgebildeten Schraubenlinie $\mathbf{c}(t)=(\cos t, \sin t, t)$ mit $20 / 2 \pi$ Windungen. Das Bogenelement dieser Schraubenlinie ist $\sqrt{2} d t$. Daher ist die Gesamtmasse der Feder durch das Integral $$ \int_{0}^{20}\left(\cos t \sin t+t^{2}\right) \sqrt{2} d t=\int_{0}^{20}\left(\frac{\sin 2 t}{2}+t^{2}\right) \sqrt{2} d t=-\frac{\cos (2 t)}{2 \sqrt{2}}+\left.\frac{t^{3} \sqrt{2}}{3}\right|_{0} ^{20} \approx 3771.83 $$ gegeben. ## 3. Krümmung ebener Kurven In Abschnitt 5.2 haben wir festgestellt, dass die zweite Ableitung ein Maß für die Krümmung des Funktionsgraphen ist. Wir wollen nun ebene Kurven, also Kurven $\mathbf{c}:[a, b] \rightarrow \mathbb{R}^{2}$, hinsichtlich ihres Krümmungsverhaltens studieren. Die Krümmung einer Kurve kann anschaulich als die Änderung der Richtung bezogen auf die Bogenlänge beschrieben werden. Wenn man sich ein kleines Stück längs der Kurve bewegt und die Richtung sich kaum ändert, so ist die Krümmung klein, die Kurve lokal ähnlich einer Geraden. Ändert sich die Richtung hingegen stark, so ist die Krümmung groß. Mathematisch fassbar wird dies, wenn man die Richtung als Winkel $\varphi(t)$, den der Tangentialvektor $\mathbf{c}^{\prime}(t)$ mit der positiven $x$-Achse einschließt, deutet. Dann gilt mit $\mathbf{c}(t)=\left(c_{1}(t), c_{2}(t)\right)$ : $$ \tan \varphi(t)=\frac{c_{2}^{\prime}(t)}{c_{1}^{\prime}(t)} $$ Die Änderung von $\varphi(t)$ bezüglich der Bogenlänge ist aber genau die Ableitung nach der Bogenlänge. Definition 6.54 Sei $\mathbf{c}(t)$ eine stetig differenzierbare ebene Kurve und $\ell(t)=s$ die Bogenlänge zum Parameterwert $t$. Dann ist die Krümmung der Kurve im Punkt $\mathrm{c}(t)$ definiert als $$ \kappa(t)=\frac{d}{d s} \varphi\left(\ell^{-1}(s)\right) $$ Ohne Beweis sei die folgende alternative Darstellung der Krümmung angeführt. Satz 6.55 Sei $\mathbf{c}(t)=\left(c_{1}(t), c_{2}(t)\right)$ eine zweimal stetig differenzierbare ebene Kurve. Dann ist die Krümmung im Punkt $\mathbf{c}(t)$ gegeben durch $$ \kappa(t)=\frac{c_{1}^{\prime}(t) c_{2}^{\prime \prime}(t)-c_{1}^{\prime \prime}(t) c_{2}^{\prime}(t)}{\left(c_{1}^{\prime}(t)^{2}+c_{2}^{\prime}(t)^{2}\right)^{3 / 2}} $$ Falls die Kurve den Graphen einer Funktion darstellt, also $\mathbf{c}(t)=(t, f(t))$, so gilt $$ \kappa(t)=\frac{f^{\prime \prime}(t)}{\left(1+f^{\prime}(t)^{2}\right)^{3 / 2}} $$ ## Beispiel 6.56 (a) Kreise sind offensichtlich Kurven konstanter Krümmung. Ferner ist ein Kreis umso stärker gekrümmt, je kleiner sein Radius ist. Mit $\mathrm{c}(t)=(R \cos t, R \sin t)$ erhalten wir aus dem obigen Satz $$ \kappa=\frac{R^{2} \sin ^{2} t+R^{2} \cos ^{2} t}{\left(R^{2} \sin ^{2} t+R^{2} \cos ^{2} t\right)^{3 / 2}}=\frac{1}{R} $$ Die Krümmung eines Kreises ist also umgekehrt proportional zum Radius. (b) Eine wichtige Anwendung findet die Krümmung von Kurven im Straßenbau oder bei der Verlegung von Eisenbahntrassen. Würde man Straßen nur aus Geradenstücken und Kreisbögen zusammensetzen, so hätte das beim Beginn einer Kurve einen sprunghaften Anstieg der Krümmung von 0 auf einen bestimmten Wert und beim Verlassen der Kurve ein ebenso sprunghaftes Abfallen auf 0 zur Folge. Das Lenkrad müsste daher am Beginn einer Kurve plötzlich so weit eingeschlagen werden, wie es die Krümmung erfordert. Weiters kommt noch hinzu, dass die Fliehkraft, der die Insassen eines Autos oder eines Zuges in einer Kurve ausgesetzt sind, mit der Krümmung zusammenhängt. In jeder Kurve würde die Fliehkraft plötzlich ansteigen und beim Verlassen der Kurve plötzlich wieder verschwinden. Der Bau solcher Kurven wäre also bei Schienenfahrzeugen zumindest unangenehm für die Fahrgäste, beim Straßenbau wegen der Schleudergfahr sogar extrem gefährlich. Deswegen werden zur Verlegung von Schienen oder zum Bau von Straßen Kurven eingesetzt, deren Krümmung bei Eintritt in die Kurve linear ansteigt und bei deren Verlassen wieder linear abfällt. Solche Kurve heißen Klothoiden (siehe Abb. 6.16) und erfüllen die Gleichung $\kappa(t)=c \cdot t$ (bei Parametrisierung nach der Bogenlänge). Daraus lassen sich für die Kurve $\mathbf{c}(t)=\left(c_{1}(t), c_{2}(t)\right)$ die so genannten Fresnel'schen Integrale herleiten: $$ c_{1}(t)=\int_{0}^{t} \cos \left(\frac{c}{2} v^{2}\right) d v, \quad c_{2}(t)=\int_{0}^{t} \sin \left(\frac{c}{2} v^{2}\right) d v $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-269.jpg?height=446&width=450&top_left_y=293&top_left_x=688) Abbildung 6.16 Klothoide ## 4. Vektorfelder und Stammfunktionen Ein Satellit wird mit einer Trägerrakete in die Erdumlaufbahn gebracht. Wie groß ist die physikalische Arbeit, die dabei verrichtet wird? Die elementare Formel Arbeit $=$ Kraft $\times$ Weg ist hier nicht direkt anwendbar. Die Kraft, die infolge der Gravitation überwunden werden muss, ändert sich ständig, da die Stärke des Gravitationsfeldes mit zunehmender Höhe abnimmt. Die Arbeit ist in diesem Fall das Integral über die Kraft entlang des zurück gelegten Weges. Das mathematische Problem, vor das wir in diesem Beispiel gestellt sind, ist folgendes: Jedem Punkt des Raumes ist ein Vektor zugeordnet, welcher der Kraft entspricht. Der Weg selbst ist eine Kurve im Raum. Gesucht ist ein Integral entlang des Weges über eine Funktion, welche die Vektoren, die den Punkten des Weges zugeordnet sind, in geeigneter Weise berücksichtigt. Definition 6.57 Gegeben sind eine Kurve $\mathbf{c}:[a, b] \rightarrow \mathbb{R}^{n}$ und eine vektorwertige Funktion $\mathbf{f}: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$. Das Kurvenintegral des Vektorfelds $\mathrm{f}$ längs der Kurve $\mathrm{c}$ ist definiert als das Integral $$ \begin{aligned} \int_{\mathbf{c}} \mathbf{f}(\mathbf{x}) d \mathbf{x} & =\int_{\mathbf{c}}\left(f_{1}\left(x_{1}, \ldots, x_{n}\right) d x_{1}+\cdots+f_{n}\left(x_{1}, \ldots, x_{n}\right) d x_{n}\right) \\ & =\int_{a}^{b} \mathbf{f}(\mathbf{c}(t)) \cdot \mathbf{c}^{\prime}(t) d t=\int_{a}^{b}\left(\sum_{k=1}^{n} f_{k}(\mathbf{c}(t)) c_{k}^{\prime}(t)\right) d t \end{aligned} $$ wobei $\mathbf{x}=\left(x_{1}, \ldots, x_{n}\right), \mathbf{c}(t)=\left(c_{1}(t), \ldots, c_{n}(t)\right)$ und $\mathbf{f}(\mathbf{x})=\left(f_{1}(\mathbf{x}), \ldots, f_{n}(\mathbf{x})\right)$. Bemerkung: Man beachte, dass Kurvenintegrale von Vektorfeldern etwas grundsätzlich anderes sind als Kurvenintegrale von skalaren Funktionen gemäß Definition 6.52. Erstere sind nämlich keine Verallgemeinerungen der letzteren. Setzt man jedoch in beiden Definitionen (6.52 und 6.57) jeweils $n=1$, so unterscheiden sich die entsprechenden Kurvenintegrale höchstens durch das Vorzeichen. Ist $\mathbf{f}$ z.B. ein physikalisches Kraftfeld in $\mathbb{R}^{3}$ und $\mathbf{c}$ ein Weg durch dieses Kraftfeld, dann ist das Kurvenintegral längs c die Arbeit, die verrichtet wird, wenn eine Masse entlang des Weges c transportiert wird. Satz 6.58 Kurvenintegrale haben die folgenden Eigenschaften. (i) Der Betrag des Kurvenintegrals hängt nur von der Kurve selbst ab, nicht von deren Parametrisierung. (ii) Durchläuft man die Kurve in entgegen gesetzter Richtung, so wechselt der Wert des Kurvenintegrals das Vorzeichen. (iii) Linearität bzgl. des Vektorfeldes: Für zwei Vektorfelder $\mathrm{f}_{1}$ und $\mathbf{f}_{2}$ und eine Kurve $\mathbf{c}$ (jeweils in $\mathbb{R}^{n}$ ) gilt $$ \int_{\mathbf{c}}\left(\mathbf{f}_{1}(\mathbf{x})+\mathbf{f}_{2}(\mathbf{x})\right) d \mathbf{x}=\int_{\mathbf{c}} \mathbf{f}_{1}(\mathbf{x}) d \mathbf{x}+\int_{\mathbf{c}} \mathbf{f}_{2}(\mathbf{x}) d \mathbf{x} $$ (iv) Additivität bzgl. des Weges: Für ein Vektorfeld $\mathbf{f}$ und zwei Kurven $\mathbf{c}_{1}:[a, b] \rightarrow \mathbb{R}^{n}$ und $\mathbf{c}_{2}:[c, d] \rightarrow \mathbb{R}^{n}$ mit $\mathbf{c}_{1}(b)=\mathbf{c}_{2}(c)$ gilt $$ \int_{\mathbf{c}_{1}} \mathbf{f}(\mathbf{x}) d \mathbf{x}+\int_{\mathbf{c}_{2}} \mathbf{f}(\mathbf{x}) d \mathbf{x}=\int_{\mathbf{c}} \mathbf{f}(\mathbf{x}) d \mathbf{x} $$ wobei $\mathbf{c}$ die Kurve bezeichnet, die durch Zusammensetzen der beiden Kurven $\mathbf{c}_{1}$ und $\mathbf{c}_{2}$ entsteht. Das Kurvenintegral ist eine Verallgemeinerung der eindimensionalen bestimmten Integrale. Während bei letzteren der Integrationsbereich ein Intervall ist, liegt bei Kurvenintegralen eine Kurve im Raum vor. Angesichts dessen stellt sich natürlich die Frage, ob es bei der Integration über Kurven auch den zweiten Aspekt des Integrierens gibt, nämlich Integrieren als Umkehrung des Differenzierens. Dies ist in der Tat der Fall und führt uns auf den Begriff der Stammfunktion von Vektorfeldern. Es stellt sich aber heraus, dass im Gegensatz zur „gewöhnlichen“ Integralrechnung nicht zu jedem Vektorfeld eine Stammfunktion existiert. Für jedes Skalarfeld $F$ ist durch $\mathbf{f}=\operatorname{grad} F$ ein Vektorfeld definiert. Man beachte, dass aus der Kettenregel $$ \frac{d}{d t} F(\mathbf{c}(t))=\frac{d}{d t} F\left(c_{1}(t), \ldots, c_{n}(t)\right)=\sum_{k=1}^{n} F_{x_{k}} c_{k}^{\prime}(t)=\mathbf{f}(\mathbf{c}(t)) \cdot \mathbf{c}^{\prime}(t) $$ folgt. Die Funktion $F(\mathbf{c}(t))$ ist also eine Stammfunktion von $\mathbf{f}(\mathbf{c}(t)) \cdot \mathbf{c}^{\prime}(t)$. Definition 6.59 Eine Teilmenge $D \subseteq \mathbb{R}^{n}$ heißt zusammenhängend, wenn zu je zwei Punkten $\mathbf{x}_{1}, \mathbf{x}_{2} \in D$ eine Kurve $\mathbf{c}:[a, b] \rightarrow D$ mit $\mathbf{c}(a)=\mathbf{x}_{1}$ und $\mathbf{c}(b)=\mathbf{x}_{2}$ existiert. Eine Menge $D$, die offen und zusammenhängend ist, heißt Gebiet. Definition 6.60 Sei $D \subseteq \mathbb{R}^{n}$ ein Gebiet und $\mathbf{f}$ ein stetiges Vektorfeld. Man nennt $\mathbf{f}$ ein Gradientenfeld, wenn es ein Skalarfeld $F$ mit $\operatorname{grad} F=\mathbf{f}$ gibt. In diesem Fall heißt $F$ Stammfunktion und $-F$ Potential von $\mathbf{f}$. Satz 6.61 Ein stetig differenzierbares Gradientenfeld $\mathrm{f}$ erfült die so genannten Integrabilitätsbedingungen $$ \frac{\partial f_{i}}{\partial x_{j}}=\frac{\partial f_{j}}{\partial x_{i}} $$ für alle $i, j$ mit $1 \leq i, j \leq n$. Beweis. Dies ist eine unmittelbare Konsequenz des Satzes von Schwarz. Denn wegen $f_{i}=$ $\partial F / \partial x_{i}$ gilt $$ \frac{\partial f_{i}}{\partial x_{j}}=\frac{\partial^{2} F}{\partial x_{i} \partial x_{j}}=\frac{\partial f_{j}}{\partial x_{i}} $$ Satz 6.62 Sei $D \subseteq \mathbb{R}^{n}$ ein Gebiet. In einem Vektorfeld $\mathbf{f}$ ist das Kurvenintegral von $\mathbf{f}$ längs einer stetig differenzierbaren Kurve $\mathbf{c}:[a, b] \rightarrow D$ genau dann wegunabhängig, d.h., allein durch Anfangs- und Endpunkt der Kurve bestimmt, wenn das Vektorfeld ein Gradientenfeld ist. Für diesen Fall bezeichne $F$ eine Stammfunktion von $\mathbf{f}$, dann gilt $$ \int_{\mathbf{c}} \mathbf{f}(\mathbf{x}) d \mathbf{x}=F(\mathbf{c}(b))-F(\mathbf{c}(a)) . $$ Eine Folgerung dieser Aussage ist: In einem Gradientenfeld sind Kurvenintegrale über geschlossene Kurven gleich O. Man schreibt auch $$ \oint_{\mathbf{c}} \mathbf{f}(\mathbf{x}) d \mathbf{x}=0 $$ Beweis. Die eine Richtung folgt unmittelbar aus den vorher gehenden Überlegungen. Es bleibt also noch zu zeigen, dass aus der Wegunabhängigkeit des Kurvenintegrals folgt, dass das zugehörige Vektorfeld ein Gradientenfeld ist. Sei $\mathrm{x}_{0} \in D$ und $$ F(\mathbf{x})=\int_{\mathbf{x}_{0}}^{\mathbf{x}} \mathbf{f}(\mathbf{u}) d \mathbf{u} $$ mit einer beliebigen Kurve, die $\mathbf{x}_{0}$ und $\mathbf{x}$ verbindet. Wir bezeichnen mit $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$ die kanonischen Einheitsvektoren des $\mathbb{R}^{n}$. Für eine feste Koordinate $i$ wählen wir $s$ so klein, dass die gesamte Verbindungsstrecke von $\mathbf{x}$ nach $\mathbf{x}+s \mathbf{e}_{i}$ in $D$ liegt. Bezeichne $\mathbf{c}$ die nach der Bogenlänge parametrisierte Verbindungsstrecke. Dann gilt $\mathrm{c}^{\prime}(s)=\mathbf{e}_{i}$ und folglich $$ F\left(\mathbf{x}+s \mathbf{e}_{i}\right)-F(\mathbf{x})=\int_{\mathbf{x}}^{\mathbf{x}+s \mathbf{e}_{i}} \mathbf{f}(\mathbf{u}) d \mathbf{u}=\int_{0}^{s} f_{i}(\mathbf{c}(t)) d t=s f_{i}\left(\mathbf{x}+\xi \mathbf{e}_{i}\right) $$ wobei im letzten Schritt der Mittelwertsatz der Integralrechnung die Existenz eines passenden Wertes $\xi \in[0, s]$ sicher stellt. Daraus folgt aber $$ \frac{\partial}{\partial x_{i}} F(\mathbf{x})=\lim _{s \rightarrow 0} \frac{F\left(\mathbf{x}+s \mathbf{e}_{i}\right)-F(\mathbf{x})}{s}=f_{i}(\mathbf{x}) $$ für alle $i$. Also gilt $\operatorname{grad} F=\mathbf{f}$ und damit die Behauptung. Die Folgerung ergibt sich daraus, dass man in jeder geschlossenen Kurve zwei Punkte $\mathbf{x}_{1}$ und $\mathbf{x}_{2}$ auswählen kann. Dann sind die Integrale über die Teilstücke gleich groß. Durchläuft man eines in entgegen gesetzter Richtung, also z.B. einen Teil von $\mathrm{x}_{1}$ nach $\mathrm{x}_{2}$ und den anderen von $\mathbf{x}_{2}$ nach $\mathbf{x}_{1}$, dann ändert sich das Vorzeichen, und die Summe ergibt 0 . Beispiel 6.63 Gegeben sei das Vektorfeld $$ \mathbf{f}(x, y)=\left(\begin{array}{c} -\frac{y}{x^{2}+y^{2}} \\ \frac{x}{x^{2}+y^{2}} \end{array}\right) $$ Man rechnet leicht nach, dass $$ \frac{\partial f_{1}}{\partial y}=\frac{\partial f_{2}}{\partial x}=\frac{y^{2}-x^{2}}{\left(x^{2}+y^{2}\right)^{2}} $$ Doch obwohl die Integrabilitätsbedingung erfüllt ist, ist das Kurvenintegral nicht wegunabhängig. Denn dann müsste das Integral über den Einheitskreis 0 ergeben. Mit $\mathbf{c}(t)=(\cos t, \sin t)$, $0 \leq t \leq 2 \pi$, gilt aber $$ \oint_{\mathbf{c}} \mathbf{f}(x, y) d(x, y)=\int_{0}^{2 \pi}\left((-\sin t)^{2}+\cos ^{2} t\right) d t=2 \pi $$ Die Integrabilitätsbedingungen sind daher nur notwendige, aber keine hinreichenden Bedingungen für die Wegunabhängigkeit eines Kurvenintegrals. Definition 6.64 Eine Gebiet $D \subseteq \mathbb{R}^{n}$ heißt einfach zusammenhängend, wenn sich jede geschlossene Kurve in $D$ stetig auf einen ihrer Punkte zusammenziehen lässt. ## Beispiel 6.65 (a) Im $\mathbb{R}^{2}$ sind die einfach zusammenhängenden Gebiete genau jene, die keine „Löcher“ haben. Eine geschlossene Kurve, die ein Loch einmal umfährt, kann nicht mehr stetig zusammengezogen werden. (b) Im $\mathbb{R}^{3}$ ist die Sache etwas komplizierter. Einfach zusammenhängend ist z.B. eine Kugel, auch eine Hohlkugel, also eine Kugel, aus deren Innerem eine kleinere Kugel herausgenommen wurde. Nicht einfach zusammenhängend ist z.B. ein Torus (Abb 6.17), der entsteht, wenn man eine Kreisscheibe rotieren lässt. Die Kurven, die den Torus in Abb. 6.17 aufspannen, lassen sich nicht auf einen Punkt zusammenziehen. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-272.jpg?height=391&width=716&top_left_y=2007&top_left_x=616) Abbildung 6.17 Torus Satz 6.66 Sei $D \subseteq \mathbb{R}^{n}$ einfach zusammenhängend und $\mathbf{f}$ ein stetig differenzierbares Vektorfeld auf $D$. Dann ist $\mathbf{f}$ genau dann ein Gradientenfeld, wenn $\mathbf{f}$ die Integrabilitätsbedingungen erfült. Ohne Beweis. ## Beispiel 6.67 (a) Das Vektorfeld aus Beispiel 6.63 ist auf $\mathbb{R}^{2} \backslash\{(0,0)\}$ definiert. Diese Menge ist nicht einfach zusammenhängend, und daher reichen die Integrabilitätsbedingungen nicht für die Wegunabhängigkeit aus. (b) Gegeben ist das Vektorfeld $$ \mathbf{f}(x, y)=\left(\begin{array}{l} 3 x^{2}+4 x y-3 y^{2} \\ 2 x^{2}-6 x y-3 y^{2} \end{array}\right) $$ Dieses Vektorfeld ist auf ganz $\mathbb{R}^{2}$ und damit auf einem einfach zusammenhängenden Gebiet definiert. Es gilt $$ \frac{\partial f_{1}}{\partial y}=4 x-6 y=\frac{\partial f_{2}}{\partial x} $$ d.h., die Integrabilitätsbedingung ist erfüllt. Es existiert also eine Stammfunktion $F$ mit $F_{x}=f_{1}$ und $F_{y}=f_{2}$. Aus $F_{x}=f_{1}$ folgt $$ F(x, y)=\int f_{1}(x, y) d x=\int\left(3 x^{2}+4 x y-3 y^{2}\right) d x=x^{3}+2 x^{2} y-3 x y^{2}+c(y) . $$ Da wir nach $x$ integrieren, ist $y$ als Konstante zu behandeln. Das bedeutet aber auch, dass die Integrationskonstante $c$ von $y$ abhängen kann, also $c=c(y)$. Daraus folgt $F_{y}(x, y)=$ $2 x^{2}-6 x y+c^{\prime}(y)$. Es gilt aber andererseits $F_{y}(x, y)=f_{2}(x, y)=2 x^{2}-6 x y-3 y^{2}$, woraus $c^{\prime}(y)=-3 y^{2}$ und schließlich $c(y)=-\int 3 y^{2} d y=-y^{3}+d$ mit einer Konstanten $d$ folgt. Da $c(y)$ nicht von $x$ abhängt, muss $d$ nun unabhängig von $x$ und $y$ sein. Alle Stammfunktionen des Vektorfeldes sind daher gegeben durch $F(x, y)=x^{3}+2 x^{2} y-$ $3 x y^{2}-y^{3}+d$ mit $d \in \mathbb{R}$. (c) Wir suchen - falls möglich - die Stammfunktionen des Vektorfeldes $$ \mathbf{f}\left(x_{1}, x_{2}, x_{3}\right)=\left(\begin{array}{c} 2 x_{1} \\ 0 \\ -1 \end{array}\right) $$ Für $i \neq j$ gilt $\frac{\partial f_{i}}{\partial x_{j}}=0$, daher sind wieder alle Integrabilitätsbedingungen erfüllt. Jede Stammfunktion $F$ muss $F_{x_{1}}=2 x_{1}, F_{x_{2}}=0$ und $F_{x_{3}}=-1$ erfüllen. Daraus folgt wie zuvor $F\left(x_{1}, x_{2}, x_{3}\right)=x_{1}^{2}-x_{3}+c$ mit $c \in \mathbb{R}$. (d) Gesucht sind die Stammfunktionen des Vektorfeldes $$ \mathbf{f}(x, y, z)=\left(\begin{array}{c} y^{2}+z \\ 2 x y+z^{3} \\ x+3 y z^{2} \end{array}\right) $$ falls diese existieren. Die Integrabilitätsbedingungen $$ \frac{\partial f_{1}}{\partial y}=2 y=\frac{\partial f_{2}}{\partial x}, \quad \frac{\partial f_{1}}{\partial z}=1=\frac{\partial f_{3}}{\partial x}, \quad \frac{\partial f_{2}}{\partial z}=3 z^{2}=\frac{\partial f_{3}}{\partial y} $$ sind erfüllt, also besitzt $\mathbf{f}$ eine Stammfunktion $F$. Aus $F_{x}=f_{1}$ folgt $$ F(x, y, z)=\int\left(y^{2}+z\right) d x=x y^{2}+x z+c(y, z) $$ mit einer von $y$ und $z$ abhängigen Integrationskonstanten $c(y, z)$. Daraus folgt $$ 2 x y+z^{3}=F_{y}(x, y, z)=2 x y+c_{y}(y, z) $$ daher $c_{y}(y, z)=z^{3}$ und in weiterer Folge $c(y, z)=y z^{3}+d(z)$. Schließlich gilt $$ x+3 y z^{2}=F_{z}(x, y, z)=x+c_{z}(y, z)=x+3 y z^{2}+d^{\prime}(z) $$ und folglich $d^{\prime}(z)=0$, also ist $d(z)$ konstant. Zusammenfassend folgt $$ F(x, y, z)=x y^{2}+x z+y z^{3}+d $$ mit $d \in \mathbb{R}$. ## 6.5 Übungsaufgaben 6.1 Man stelle den Definitionsbereich und den Wertebereich folgender Funktionen fest und beschreibe die Niveaulinien: (a) $f(x, y)=x^{2}-y^{2}$, (b) $f(x, y)=\sqrt{1-\frac{x^{2}}{4}-\frac{y^{2}}{9}}$. 6.2 Gegeben sei die Polynomfunktion $f(x, y)=x y^{2}-10 x$. Man bestimme die Gleichungen ihrer Schnittkurven mit den senkrechten Ebenen $x=x_{0}$ bzw. $y=y_{0}$ sowie die Niveaulinien für $z=z_{0}$ und skizziere alle drei Kurvenscharen. Mittels eines Computeralgebrasystems ermittle man eine 3DDarstellung der gegebenen Funktion. 6.3 Gegeben sei die quadratische Form $q(\mathbf{x})=q(x, y)=4 x^{2}+2 b x y+25 y^{2}$ mit $b \in \mathbb{R}$. Wie lautet die zugehörige symmetrische Matrix $A$, sodass $q(\mathbf{x})=\mathbf{x}^{T} A \mathbf{x}$. Für welche Werte von $b$ ist die Form positiv definit? 6.4 Eine Funktion $f\left(x_{1}, \ldots, x_{n}\right)$ heißt homogen vom Grad $r$, falls für jedes feste $\lambda>0$ und alle $\left(x_{1}, \ldots, x_{n}\right)$ gilt $$ f\left(\lambda x_{1}, \ldots, \lambda x_{n}\right)=\lambda^{r} f\left(x_{1}, \ldots, x_{n}\right) . $$ Man beweise, dass die beiden Produktionsfunktionen (a) $f(x, y)=c x^{\alpha} y^{1-\alpha}$ (b) $g(x, y)=\left(c x^{\alpha}+d y^{\alpha}\right)^{1 / \alpha}$ ( $x$ Arbeit, $y$ Kapital, $c, d, \alpha$ konstant) homogene Funktionen vom Homogenitätsgrad $r=1$ sind. Prüfen Sie ferner nach, ob (c) $f(x, y, z)=x+(y z)^{1 / 2}$ (für $y, z \geq 0$ ) (d) $\quad f(x, y)=x^{2}+y$ (e) $f(x, y)=a x^{b} y^{c}$ (mit $a, b, c \in \mathbb{R}, x, y>0$ ) homogen sind. 6.5 Man untersuche für beliebige $\alpha, \beta \in \mathbb{R}$ den Grenzwert $\lim _{t \rightarrow 0} f(\alpha t, \beta t)$ der folgenden Funktionen. Ist die Funktion $f(x, y)$ im Punkt $(0,0)$ stetig? (a) $f(x, y)=\frac{|y|}{|x|^{3}+|y|}$ für $(x, y) \neq(0,0)$ und $f(0,0)=1$ (b) $f(x, y)=\frac{2 y^{2}}{|x|+y^{2}}$ für $(x, y) \neq(0,0)$ und $f(0,0)=0$ 6.6 Sei $$ f(x, y)=\frac{x \cos \frac{1}{x}+y \sin y}{2 x-y} $$ für $0 \neq 2 x \neq y$. Man untersuche und vergleiche die iterierten Grenzwerte $$ \lim _{y \rightarrow 0} \lim _{x \rightarrow 0} f(x, y) \quad \text { und } \quad \lim _{x \rightarrow 0} \lim _{y \rightarrow 0} f(x, y) \text {. } $$ Existiert der $\operatorname{Grenzwert} \lim _{(x, y) \rightarrow(0,0)} f(x, y)$ ? 6.7 Sei $$ f(x, y)=\frac{x+y \cos \frac{1}{y}}{x+y} $$ für $0 \neq y \neq-x$. Man untersuche und vergleiche die iterierten Grenzwerte $$ \lim _{y \rightarrow 0} \lim _{x \rightarrow 0} f(x, y) \quad \text { und } \quad \lim _{x \rightarrow 0} \lim _{y \rightarrow 0} f(x, y) \text {. } $$ Existiert der Grenzwert $\lim _{(x, y) \rightarrow(0,0)} f(x, y)$ ? 6.8 Man untersuche die Funktion $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$ auf Stetigkeit (Hinweis: $a+b \geq 2 \sqrt{a b}$ für $a, b \geq 0$ ): (a) $f(x, y)=\frac{x y}{|x|+|y|}$ für $(x, y) \neq(0,0)$ und $f(0,0)=0$, (b) $f(x, y)=\frac{x y^{2}+x^{2} y}{x^{2}+y^{2}}$ für $(x, y) \neq(0,0)$ und $f(0,0)=0$. 6.9 Sei $f: \mathbb{R}^{3} \rightarrow \mathbb{R}$ definiert durch $f(x, y, z)=\cos (x y)+\frac{\sin z}{1+x^{2}+y^{2}}$. In welchen Punkten des Definitionsbereiches ist $f$ stetig? 6.10 Zeigen Sie: Die Komposition $g \circ f$ stetiger Funktionen $f: I \subseteq \mathbb{R} \rightarrow \mathbb{R}^{n}, g: M \subseteq \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ mit $f(I) \subseteq M$ ist wiederum stetig. 6.11 Man untersuche die Stetigkeit der Funktion $f: \mathbb{R}^{2} \rightarrow \mathbb{R}$ im Punkt $(0,0)$ : $$ f(x, y)=\left\{\begin{array}{cc} \frac{x^{2}-y^{2}}{x^{2}+y^{2}} & \text { für }(x, y) \neq(0,0) \\ 0 & \text { für }(x, y)=(0,0) \end{array}\right. $$ 6.12 Für die Funktion $f(x, y)=\sqrt{1-x^{2}-y^{2}}$ berechne man die partiellen Ableitungen $f_{x}, f_{y}$ und die Gleichung der Tangentialebene an der Stelle $\left(x_{0}, y_{0}\right)=(0.2,0.3)$. 6.13 Man berechne alle partiellen Ableitungen erster und zweiter Ordnung für die Funktion $f(x, y)=$ $x^{2} \sin y+\cos (x+2 y)$. 6.14 Man prüfe nach, ob die gemischten partiellen Ableitungen $f_{x y}$ und $f_{y x}$ für die folgenden Funktionen $f(x, y)$ übereinstimmen: (a) $f(x, y)=\frac{x^{2}}{1+y^{2}}$ (b) $\quad f(x, y)=x^{3} e^{y^{2}}$ (c) $f(x, y)=\sqrt{x y^{3}}$ 6.15 Man bestimme den Definitionsbereich der folgenden Vektorfunktionen $\mathbf{f}(t)$ sowie die Ableitung, wo sie existiert: (a) $\mathbf{f}(t)=\left(\left(\frac{2 t}{\sqrt{1-3 t^{2}}}\right)^{\frac{5}{4}}, \sin \frac{1}{1+t^{2}}\right)$ (b) $\mathbf{f}(t)=\left(\sin (1+\cos t), \frac{t^{\frac{5}{4}}}{\sqrt{1-t^{2}}}\right)$ 6.16 Man bestimme die partiellen Ableitungen der folgenden Funktionen: (a) $f(x, y)=\arctan \frac{4 x^{2} y^{2}}{1+x+y}$ (b) $f(x, y, z)=\frac{y+\sqrt{x z}}{1+\sin ^{2}(x y z)}$ (c) $f(x, y)=\arctan \frac{2 x^{3} y}{y-x^{3}}$ (d) $f(x, y, z)=\frac{\sqrt{x}+y^{3} z^{2}}{1+\cos ^{2}(1+x)}$ 6.17 Man bestimme die Funktionalmatrix der folgenden Funktionen: (a) $\mathrm{f}(x, y, z)=\left(\begin{array}{c}\sin (x+y-z) \\ \cos \frac{x y}{z}\end{array}\right)$ (b) $\mathbf{f}(x, y, z)=\left(\begin{array}{c}\frac{x}{y^{2} z} \\ x^{y} z^{2}\end{array}\right)$ (c) $\mathbf{f}(x, y, z)=\left(\begin{array}{c}\sqrt{\frac{x-z}{y+1}} \\ z \cdot e^{-\frac{x}{y}}\end{array}\right)$ (d) $\mathbf{f}(x, y, z)=\left(\begin{array}{c}\ln \left(\arctan \left(x+y^{2}\right)\right) \\ x \cos \left(y^{2}-\sqrt{x}\right) \cdot \tan (x y z)\end{array}\right)$ 6.18 In welcher Richtung erfolgt die maximale Änderung von $$ f(x, y, z)=x^{2} \sin (y z)-y^{2} \cos (y z) $$ vom Punkt $P_{0}\left(4, \frac{\pi}{4}, 2\right)$ aus, und wie groß ist sie annähernd? 6.19 Durch $z=\frac{x y}{x+y}$ ist eine Fläche im $\mathbb{R}^{3}$ gegeben. Die Beschränkung von $x$ und $y$ auf die Werte $x=e^{t}$ und $y=e^{-t}(t \in \mathbb{R})$ liefert eine Kurve auf dieser Fläche. Man bestimme $\frac{d z}{d t}$ mittels Kettenregel und mache die Probe, indem man zuerst $x$ und $y$ in $z$ einsetzt und anschließend nach dem Parameter $t$ differenziert. Wo verläuft diese Kurve auf der Fläche horizontal? 6.20 Für eine Funktion $g(u, v)$ sei $g_{u}(u, v)=\frac{\partial}{\partial u} g(u, v)=u^{2}-v$ und $g_{v}(u, v)=\frac{\partial}{\partial v} g(u, v)=-u+v^{3}$. Man bestimme $h(t)=\frac{d}{d t} g\left(2 t, t^{2}+1\right)$. 6.21 Mit Hilfe der Kettenregel berechne man den Wert der partiellen Ableitung der Funktion $F(x, y)=$ $f(g(x, y), h(x, y))$ nach $y$ an der Stelle $(0,0)$, wobei $f(x, y)=x^{2}+y^{2}, g(x, y)=\cos x+\sin y$ und $h(x, y)=x+y+1$ ist. 6.22 Man berechne das Taylor'sche Näherungspolynom zweiter Ordnung der Funktion $f(x, y)=$ $e^{x-y}(x+1)+x \sin \left(x^{2}-y\right)$ an der Stelle $\left(x_{0}, y_{0}\right)=\left(0, \frac{\pi}{2}\right)$. 6.23 Man berechne das Taylor'sche Näherungspolynom zweiter Ordnung der Funktion $f(x, y, z)=$ $e^{x^{2} y z}(x+y z+1)+x \cos \left(x^{2}-y-z\right)$ an der Stelle $\left(x_{0}, y_{0}, z_{0}\right)=\left(0,0, \frac{\pi}{2}\right)$. 6.24 Man bestimme die lineare und die quadratische Approximation der Funktion $$ f(x, y)=x^{2}(y-1)+x e^{y^{2}} $$ im Entwicklungspunkt $(1,0)$. 6.25 Es sei $y=y(x)$ implizit durch $x^{3}-3 x y+y^{3}-1=0$ gegeben. Man berechne $y^{\prime}$ und $y^{\prime \prime}$. 6.26 Man berechne $y^{\prime}$ und $y^{\prime \prime}$ im Punkt $(1,1)$ für die Kurve $x^{3}+3 x^{2} y-6 x y^{2}+2 y^{3}=0$. 6.27 Es sei $F(x, y, z)=x^{2}(2 x+3 z)+y^{2}(3 x-4 z)+z^{2}(x-2 y)-x y z=0$. Man berechne daraus $z_{x}$ und $z_{y}$. 6.28 Man ermittle die Gleichungen der Tangenten im Punkt $(-1,1)$ an die Hyperbel $x y=1$. 6.29 Man bestimme die relativen Extrema und die Sattelpunkte der Funktion $f(x, y)$ im angegebenen Bereich. (a) $f(x, y)=\left(x^{2}+y^{2}\right)^{2}-2\left(x^{2}-y^{2}\right)$ für $x, y \in \mathbb{R}$. (b) $f(x, y)=2 x^{3}-5 x y^{2}+3 y$ für $x, y \in \mathbb{R}$. (c) $f(x, y)=x^{2}+x y+y^{2}+x+y+1$ für $x, y \in \mathbb{R}$. (d) $f(x, y)=\left(x^{2}+5 y^{2}\right) e^{-x^{2}-y^{2}}$ für $x, y \in \mathbb{R}$. (e) $f(x, y)=x^{2}+3 y^{2}+e^{x y}$ für $x, y \in \mathbb{R}$. (f) $f(x, y)=\sin (x+y)+\sin x-\sin y$ für $0 \leq x, y \leq \pi / 2$. (g) $f(x, y)=\sin (x+y)+\sin x+\sin y$ für $0 \leq x, y \leq \pi / 2$. (h) $f(x, y)=\cos (x+y)+\sin x-\sin y$ für $0 \leq x, y \leq \pi / 2$. 6.30 Man bestimme denjenigen Punkt der Ebene $z=x+y$, der von dem Punkt $(1,0,0)$ den kleinsten Abstand hat. 6.31 Man bestimme die extremalen Werte der Funktion $f(x, y, z)=x y z$ auf der Einheitssphäre (d.i. der Rand der Einheitskugel). 6.32 Man bestimme zu einer gegebenen Kugel mit Radius $R$ einen eingeschriebenen Zylinder von maximaler Oberfläche. 6.33 Welcher Quader mit gegebener Oberfläche $A$ besitzt maximales Volumen? 6.34 Für welche Werte wird $f(x, y, z)=x y z$ unter den Nebenbedingungen $x y+y z+z x=a$ und $x+y+z=b$ möglichst groß? 6.35 Man berechne die Ableitung von $f(x, y)=x^{2}+4 y^{2}$ im Punkt $(3,2)$ (a) in Richtung der Koordinatenachsen, (b) in Richtung von $(-1,-1)$ sowie (c) in Richtung von $\operatorname{grad} f$. 6.36 Gesucht ist das absolute Maximum der Funktion $f(x, y)=x y(3-x-y)$ auf dem Definitionsbereich $D=\{(x, y) \mid x \geq 0, y \geq 0, y \leq 3-x\}$. (Anleitung: Man skizziere den Definitionsbereich $D$ in der $(x, y)$-Ebene, bestimme dessen Rand und ermittle alle Funktionswerte auf dem Rand. Das absolute Maximum ist dann unter den relativen Maxima sowie unter den Funktionswerten auf dem Rand von $D$ zu suchen.) 6.37 Mit Hilfe der Methode der Lagrange'schen Multiplikatoren berechne man die Extrema der Funktion $f(x, y)=x+y$ unter der Nebenbedingung $x^{2}+y^{2}=1$. 6.38 Die Herstellung eines Produkts $P$ unter Verwendung zweier Produktionsfaktoren $A$ und $B$ werde durch die Produktionsfunktion $$ y=f\left(x_{1}, x_{2}\right)=5-\frac{1}{\sqrt{x_{1}}}-\frac{1}{\sqrt{x_{2}}} $$ beschrieben. Der Gewinn des Produzenten sei durch $$ G\left(x_{1}, x_{2}, y\right)=y p_{0}-x_{1} p_{1}-x_{2} p_{2} $$ gegeben. Man maximiere den Gewinn für die Preise $p_{0}=2, p_{1}=1, p_{2}=8$ und unter Berücksichtigung der Nebenbedingung (6.15), ermittle die im Gewinnmaximum benötigten Faktormengen $x_{1}, x_{2}$, die Produktmenge $y$ und den Unternehmergewinn $G$. 6.39 Man berechne das Bereichsintegral $\iint_{B}\left(x y+x^{2}-y^{2}\right) d x d y$ über dem Rechtecksbereich, welcher durch die Eckpunkte $A(-1,1), B(5,1), C(5,5)$ und $D(-1,5)$ bestimmt ist. 6.40 $B$ sei der durch $x=4, y=1$ und $x+2 y=2$ berandete beschränkte Bereich der $(x, y)$-Ebene. Man berechne $\iint_{B} 12 x^{2} y^{3} d x d y$. 6.41 Berechnen Sie die folgenden Bereichsintegrale: (a) $\iint_{B} \sin (x+y) d x d y, B \subseteq \mathbb{R}^{2}$ ist das Quadrat mit den Eckpunkten $(0,0),(0, \pi),(\pi, 0),(\pi, \pi)$. (b) $\iint_{B} \frac{x-y}{x+y} d x d y, B \subseteq \mathbb{R}^{2}$ ist das Dreieck mit den Eckpunkten $(2,2),(3,2),(3,3)$. (c) $\iint_{K}(x+y)^{2} d x d y, K \subseteq \mathbb{R}^{2}$ ist der Kreis mit $x^{2}+y^{2} \leq 1$. (d) $\iint_{Z}^{K} \int x d x d y d z, Z \subseteq \mathbb{R}^{3}$ ist der Zylinder $Z=\left\{(x, y, z) \mid 1 \leq z \leq 2,1 \leq x^{2}+y^{2} \leq 2\right\}$. 6.42 Man bestimme die Bogenlänge der Kurve $$ x(t)=\left(\begin{array}{c} t^{2} \\ \cos t \\ \sin t \end{array}\right), 0 \leq t \leq 2 \pi $$ 6.43 Parametrisieren Sie folgende Kurve nach der Bogenlänge: $$ x(t)=\left(\begin{array}{c} t^{2} / 2 \\ \frac{1}{3}(2 t+1)^{3 / 2} \end{array}\right), t \geq 0 $$ 6.44 Berechnen Sie die Oberfläche einer Kugel mit dem Radius $R$. 6.45 Man berechne das Kurvenintegral über das Vektorfeld $\mathbf{u}(\mathbf{x})=\left(\begin{array}{c}x y^{2} \\ x^{2}-y^{2}\end{array}\right)$ entlang des Weges $3 y^{2}=4 x$ von $(0,0)$ nach $(3,2)$ sowie entlang des Streckenzugs $(0,0) \rightarrow(3,0) \rightarrow(3,2)$. 6.46 Man zeige, dass das Kurvenintegral $\int_{c}\left(\cos x d x+e^{-y} d y+z^{2} d z\right)$ wegunabhängig ist, und berechne es über einen Weg von $(-1,3,4)$ nach $(6,9,-2)$. 6.47 Man zeige, dass das Vektorfeld $\mathrm{f}(x, y)=\left(y^{\alpha-1},(\alpha-1) x y^{\alpha-2}\right)$ eine Stammfunktion besitzt, und berechne diese. 6.48 Welches der folgenden Vektorfelder $\mathbf{f}=\left(f_{1}, f_{2}, f_{3}\right)$ ist ein Gradientenfeld, und wie lautet $\mathbf{g g f}$. eine zu f gehörende Stammfunktion? (a) $(1,1,1)$, (b) $(-x,-y,-z)$, (c) $(2 x, 2 y, 0)$, (d) $\left(y z, x z, x^{2}\right)$ 6.49 Man überprüfe, ob das Vektorfeld $\mathbf{f}=(y z,(x-2 y) z,(x-y) y)$ eine Stammfunktion besitzt. Wenn ja, gebe man alle Stammfunktionen an. 6.50 Man bestimme, falls möglich, ein Potential des Vektorfeldes ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-278.jpg?height=128&width=463&top_left_y=1953&top_left_x=179) (b) $\mathbf{u}(x, y)=\left(\begin{array}{c}\frac{2 x}{1+(x+y)^{2}} \\ -\frac{1}{1+(x+y)^{2}}\end{array}\right)$. In welchen Gebieten $B \subset \mathbb{R}^{2}$ ist das Kurvenintegral über das Vektorfeld $\mathbf{u}(x, y)$ wegunabhängig? 6.51 Das elektrostatische Potential einer Punktladung $Q$ im Koordinatenursprung ist durch $$ \Phi_{1}(x, y, z)=\frac{Q}{4 \pi \varepsilon_{0}} \frac{1}{\sqrt{x^{2}+y^{2}+z^{2}}} $$ gegeben, für das Potential eines Dipols mit dem Dipolmoment $\vec{p}=(p, 0,0)$ gilt: $$ \Phi_{2}(x, y, z)=\frac{1}{4 \pi \varepsilon_{0}} \frac{p x}{\left(x^{2}+y^{2}+z^{2}\right)^{3 / 2}} . $$ (Dabei sind $Q, p$ und $\varepsilon_{0}$ Konstante.) In beiden Fällen berechne man das zugehörige elektrische Feld $\mathbf{E}$ nach der Formel $\mathbf{E}=-\operatorname{grad} \Phi_{i}, i=1,2$. ## Kapitel 7 ## Differenzen- und Differentialgleichungen Differenzen- und Differentialgleichungen zählen zum klassischen Instrumentarium der angewandten Mathematik. Sie ermöglichen u.a. eine mathematische Beschreibung des zeitlichen Ablaufs von Vorgängen in Naturwissenschaft und Technik, wie z.B. von Bewegungen, Schwingungen, chemischen Reaktionen oder Wachstumsprozessen. Differenzengleichungen eignen sich zur Beschreibung zeitdiskreter Prozesse, d.h., falls die Zeit in Tagen, Jahren oder in Generationen gemessen wird. Hierher gehören auch iterative und rekursive Algorithmen der Informatik wie z.B. Such- und Sortierverfahren. Wird die Zeit hingegen kontinuierlich gemessen, kommt der Differentialquotient zur Beschreibung des Änderungsverhaltens einer Größe ins Spiel, und das Studium kontinuierlicher Prozesse führt dann auf Differentialgleichungen. In diesem Kapitel werden wir grundlegende quantitative und qualitative Verfahren zur Behandlung von Differenzengleichungen sowie gewöhnlichen und partiellen Differentialgleichungen kennen lernen. ### 7.1 Differenzengleichungen - Einführung und Beispiele In diesem Abschnitt betrachten wir Prozesse, welche in diskreten Schritten ablaufen. Beispiele für solche Prozesse sind etwa die Entwicklung von Börsenkursen in der Wirtschaft oder die Anzahl der Schritte in einem Algorithmus in der Informatik wie im folgenden Beispiel. Beispiel 7.1 (Die Türme von Hanoi ${ }^{1}$ ) Bei diesem Spiel geht es darum, $n$ paarweise verschieden große Scheiben, welche der Größe nach geordnet auf einem Stab übereinander gestapelt sind, auf einen benachbarten leeren Stab unter Zuhilfenahme eines dritten Stabes zu versetzen (siehe Abb. 7.1). Dabei müssen die Scheiben wieder in derselben Reihenfolge wie ursprünglich zu liegen kommen und die folgenden Regeln beim Transport der Scheiben eingehalten werden: - Es darf immer nur eine Scheibe (nämlich die oberste) verschoben werden und - es darf nie eine größere auf einer kleineren Scheibe zu liegen kommen. Eine rekursive Lösungsstrategie für diese Aufgabe besteht darin, zunächst die oberen $n-1$ Scheiben vom ersten Stab auf den dritten Stab zu schaffen, dann die $n$-te Scheibe zu unterst[^42] ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-280.jpg?height=386&width=1367&top_left_y=262&top_left_x=257) Abbildung 7.1 Die Türme von Hanoi auf den zweiten Stab zu legen, und schließlich die verbleibenden $n-1$ Scheiben vom dritten auf den zweiten Stab zu versetzten. Bezeichnet $x_{n}$ die Anzahl der Spielzüge, die nach dieser Strategie insgesamt notwendig sind, um $n$ Scheiben zu versetzen, so gilt offensichtlich $x_{1}=1$, $x_{2}=3, x_{3}=3+1+3=7$ und allgemein $$ x_{n+1}=x_{n}+1+x_{n}=2 x_{n}+1 \text { für } n=1,2,3, \ldots \text {. } $$ Beispiel 7.2 (Babylonisches Wurzelziehen) Beim Babylonischen Wurzelziehen handelt es sich um ein iteratives Verfahren zur numerischen Berechnung der Quadratwurzel $\sqrt{a}$ einer positiven Zahl $a$. Dazu bilden wird die Folge $x_{0}, x_{1}, x_{2}, \ldots$ mit dem Startwert $x_{0}=1$ (für $x_{0}$ kann genauso gut jede andere positive Zahl gewählt werden) und dem Bildungsgesetz $$ x_{n+1}=\frac{1}{2}\left(x_{n}+\frac{a}{x_{n}}\right) \text { für } n=0,1,2, \ldots \text {. } $$ Dann konvergiert die Folge $\left(x_{n}\right)$ stets gegen $\sqrt{a}$. Die Konvergenz erfolgt in der Praxis schon nach wenigen Schritten und ermöglicht die näherungsweise Berechnung einer Wurzel unter ausschließlicher Verwendung der Grundrechnungsoperationen. Beispiel 7.3 (Fibonacci ${ }^{2}$-Folge) Betrachten wir einen Nachrichtenkanal, bei dem Informationen quellencodiert als Zeichenfolgen übertragen werden, welche aus zwei Signalen $S_{1}$ und $S_{2}$ bestehen. Die Übertragung von $S_{1}$ bzw. $S_{2}$ erfordere einen Zeitaufwand von 1 bzw. 2 Zeiteinheiten. Gesucht ist die Anzahl der möglichen Nachrichtenfolgen der Dauer $t$. Bezeichnen wir die gesuchte Anzahl mit $N_{t}, t=0,1,2, \ldots$, dann gilt zunächst für kleine Werte von $t$ : $$ \begin{array}{|l|l|l|} \hline t=0 & \text { leere Folge } & N_{0}=1 \\ t=1 & S_{1} & N_{1}=1 \\ t=2 & S_{1} S_{1}, S_{2} & N_{2}=2 \\ t=3 & S_{1} S_{1} S_{1}, S_{1} S_{2}, S_{2} S_{1} & N_{3}=3 \\ \hline \end{array} $$[^43] Da eine Nachrichtenfolge der Dauer $t \geq 2$ entweder mit $S_{1}$ oder $S_{2}$ enden muss, gilt für die Anzahl aller Nachrichtenfolgen der Dauer $t$ $$ N_{t}=N_{t-1}+N_{t-2} \quad \text { für } t=2,3, \ldots \text {. } $$ Also ist jedes Folgenglied die Summe seiner beiden vorhergehenden Glieder. Dieser Ansatz führt auf die so genannte Fibonacci-Folge 1, 1, 2, 3, 5, 8, 13, . Wie wir sehen, gibt es in allen drei Beispielen eine Größe $x_{n}$, welche sich in diskreten Schritten $n=0,1,2, \ldots$ ändert, sowie eine Vorschrift $f$, welche angibt, wie man den aktuellen Wert von $x$ aus einem oder mehreren vorhergehenden Werten von $x$ erhalten kann. Die betrachteten Beispiele sind entweder von der Form $x_{n+1}=f\left(x_{n}\right)$ oder von der Form $x_{n+2}=f\left(x_{n+1}, x_{n}\right)$ mit $n=0,1,2, \ldots$, und wir sprechen von einer Differenzengleichung erster bzw. zweiter Ordnung. Allgemein versteht man unter einer (gewöhnlichen) Differenzengleichung $k$-ter Ordnung eine Gleichung der Gestalt $$ F\left(n, x_{n}, x_{n+1}, \ldots, x_{n+k}\right)=0 \text { für } n=0,1,2, \ldots, $$ wobei $F$ eine beliebige Funktion ist, in der jedenfalls $x_{n}$ und $x_{n+k}$ wirklich vorkommen müssen. Kann $x_{n+k}$ aus dieser Gleichung direkt ausgedrückt werden, so erhält man die explizite Differenzengleichung $$ x_{n+k}=f\left(n, x_{n}, x_{n+1}, \ldots, x_{n+k-1}\right) \text { für } n=0,1,2, \ldots \text {, } $$ andernfalls ist die Gleichung in impliziter Form gegeben. Ist die Funktion $f$ linear in $x_{n}$ (bzw. auch $x_{n+1}$, usw.), spricht man von einer linearen, sonst von einer nichtlinearen Differenzengleichung. Differenzengleichungen eignen sich also ganz allgemein zur Beschreibung von Prozessen, die stufenförmig, d.h. in diskreten Schritten ablaufen und bei denen man angeben kann, wie die Prozessgrößen auf der $n$-ten Stufe aus den Größen der vorhergehenden Stufen bestimmt werden. Ziele beim Studium von Differenzengleichungen sind einerseits die Berechnung einer Lösung, also einer expliziten Formel für $x_{n}$. Darum geht es in der so genannten quantitativen Theorie. Von Interesse sind ferner das Auffinden von Gleichgewichtslagen und die Bestimmung deren Stabilität. Diese Fragen sind Bestandteil der qualitativen Theorie. Allgemein heißt jede Folge $\left(x_{n}\right)$, bei der jeweils $k+1$ aufeinander folgende Glieder die Gleichung $F\left(n, x_{n}, x_{n+1}, \ldots, x_{n+k}\right)=0$ erfüllen, eine partikuläre Lösung der Differenzengleichung. So ist beispielsweise $x_{n}=2^{n}-1$ partikuläre Lösung der Gleichung $x_{n+1}=2 x_{n}+1$ aus Beispiel 7.1, welche zudem die Bedingung $x_{1}=1$ erfüllt. Andererseits ist jede Folge der Form $x_{n}=2^{n} C-1$ mit $C \in \mathbb{R}$ eine (reelle) Lösung dieser Gleichung, wie man durch Einsetzen sofort sieht, und man spricht in diesem Fall von der allgemeinen Lösung der Differenzengleichung. Eine explizite Lösung ist für die nichtlineare Gleichung $x_{n+1}=\frac{1}{2}\left(x_{n}+a / x_{n}\right)$ von Beispiel 7.2 nicht mehr möglich. Dafür erkennt man leicht, dass für den Anfangswert $x_{0}=\sqrt{a}$ auch $x_{1}=\frac{1}{2}(\sqrt{a}+a / \sqrt{a})=\sqrt{a}$ und damit auch alle weiteren Folgenglieder den Wert $\sqrt{a}$ besitzen. Man nennt $\sqrt{a}$ eine Gleichgewichtslage und die konstante Lösungsfolge $\left(x_{n}\right)=(\sqrt{a})$ eine Gleichgewichtslösung der Differenzengleichung. Die Kenntnis von Gleichgewichtslagen und auch deren Stabilitätsverhalten sind wertvolle Informationen über das Verhalten von Differenzengleichungen, deren explizite Lösungen nicht bestimmt werden können. In den folgenden Abschnitten werden wir Differenzengleichungen erster und zweiter Ordnung behandeln und dabei sowohl auf quantitative wie auf qualitative Aspekte eingehen. ### 7.2 Differenzengleichungen erster Ordnung Wir betrachten zunächst die lineare Differenzengleichung erster Ordnung $$ x_{n+1}=a x_{n}+b, \quad n=0,1,2, \ldots $$ mit den konstanten Koeffizienten $a$ und $b$. Nach Vorgabe eines Anfangswerts $x_{0}$ berechnet man sukzessive $$ \begin{aligned} & x_{1}=a x_{0}+b \\ & x_{2}=a x_{1}+b=a^{2} x_{0}+a b+b \\ & x_{3}=a x_{2}+b=a^{3} x_{0}+a^{2} b+a b+b \end{aligned} $$ und schließlich $$ x_{n}=a^{n} x_{0}+\left(1+a+\cdots+a^{n-1}\right) b=\left\{\begin{array}{cc} a^{n} x_{0}+b \frac{a^{n}-1}{a-1} & \text { für } a \neq 1 \\ x_{0}+b n & \text { für } a=1 \end{array} .\right. $$ (Ein exakter Beweis erfolgt durch vollständige Induktion.) Damit ist in diesem einfachen Fall eine explizite Lösungsformel gefunden. Beispiel 7.4 (Türme von Hanoi, Fortsetzung) Für die Anzahl der Spielzüge in Beispiel 7.1 gilt $x_{n+1}=2 x_{n}+1$ für $n=1,2,3, \ldots$. Das ist eine lineare Gleichung erster Ordnung mit den Koeffizienten $a=2$ und $b=1$, und nach obiger Formel gilt $$ x_{n}=2^{n} x_{0}+1 \cdot \frac{2^{n}-1}{2-1}=2^{n}\left(x_{0}+1\right)-1 $$ Das ist die partikuläre Lösung der Gleichung zum Anfangswert $x_{0}$. Möchte man den Anfangswert noch nicht festlegen, setzt man $x_{0}+1=C \in \mathbb{R}$ (da mit $x_{0}$ auch $x_{0}+1=C$ alle reellen Zahlen durchläuft) und erhält die allgemeine Lösung $x_{n}=2^{n} C-1$ mit $C \in \mathbb{R}$. Die Folge in Beispiel 7.1 beginnt mit $x_{1}=1$. Setzt man diesen Wert in die allgemeine Lösung der Differenzengleichung ein, d.h. $x_{1}=2 C-1=1$, folgt $C=1$ und für die gesuchte Anzahl der Spielzüge $x_{n}=2^{n}-1$. (Diese Lösung ergibt sich auch aus der angegebenen expliziten Lösungsformel zum fiktiven Anfangswert $x_{0}=0$.) ## 1. Allgemeine lineare Differenzengleichungen erster Ordnung Sind die Koeffizienten $a$ und $b$ in Gleichung (7.1) nicht konstant, so liegt der allgemeine Fall einer linearen Differenzengleichung erster Ordnung $$ x_{n+1}=a_{n} x_{n}+b_{n}, \quad n=0,1,2, \ldots $$ vor, wo $a_{n}$ und $b_{n}$ beliebige (reelle) Funktionen in $n$, also (reelle) Folgen sind. (O.B.d.A. kann stets angenommen werden, dass der Koeffizient von $x_{n+1}$ gleich 1 ist, d.h., dass die Gleichung explizit in $x_{n+1}$ ist.) Der Term $b_{n}$ heißt Störfunktion der linearen Differenzengleichung. Ist $b_{n}=0$, so nennt man die Gleichung $$ x_{n+1}=a_{n} x_{n}, \quad n=0,1,2, \ldots $$ eine homogene Gleichung, dagegen stellt Gleichung (7.2) eine inhomogene Gleichung dar. Satz 7.5 Die Lösungsgesamtheit der linearen inhomogenen Differenzengleichung $x_{n+1}=$ $a_{n} x_{n}+b_{n}$ ist gegeben durch $x_{n}=x_{n}^{(h)}+x_{n}^{(p)}$, wo $x_{n}^{(h)}$ die allgemeine Lösung der zugehörigen homogenen Gleichung $x_{n+1}=a_{n} x_{n}$ und $x_{n}^{(p)}$ eine beliebige partikuläre Lösung der inhomogenen Gleichung ist. Beweis. Ist $x_{n}^{(h)}$ eine beliebige Lösung der homogenen und $x_{n}^{(p)}$ eine feste Lösung der inhomogenen Gleichung, dann ist $x_{n}=x_{n}^{(h)}+x_{n}^{(p)}$ wieder Lösung der inhomogenen Gleichung, wie man durch Einsetzen sofort bestätigt. Umgekehrt ist jede Lösung der inhomogenen Gleichung von der angegebenen Form, denn für eine beliebige Lösung $x_{n}$ der inhomogenen Gleichung gilt $$ \begin{aligned} x_{n+1} & =a_{n} x_{n}+b_{n} \\ x_{n+1}^{(p)} & =a_{n} x_{n}^{(p)}+b_{n} \\ \Rightarrow x_{n+1}-x_{n+1}^{(p)} & =a_{n}\left(x_{n}-x_{n}^{(p)}\right) . \end{aligned} $$ Also ist $x_{n}^{(h)}=x_{n}-x_{n}^{(p)}$ eine Lösung der zugehörigen homogenen Gleichung und somit $x_{n}=$ $x_{n}^{(h)}+x_{n}^{(p)}$, wie behauptet. Beginnen wir zunächst mit der Lösung der homogenen Gleichung (7.3). Offensichtlich gilt $x_{n}=x_{0} a_{0} a_{1} \ldots a_{n-1}=x_{0} \prod_{i=0}^{n-1} a_{i}$, wie durch vollständige Induktion sofort bewiesen werden $\mathrm{kann}^{3}$. Setzen wir darin $x_{0}=C \in \mathbb{R}$, erhalten wir als allgemeine Lösung der Gleichung (7.3) $$ x_{n}^{(h)}=C \prod_{i=0}^{n-1} a_{i} $$ Beispiel 7.6 Die Gleichung $x_{n+1}=(n+1) x_{n}$ für $n \geq 0$ besitzt die allgemeine Lösung $$ x_{n}=C \prod_{i=0}^{n-1}(i+1)=C n !, \quad C \in \mathbb{R} $$ die partikuläre Lösung zum Anfangswert $x_{0}=2$ beispielsweise lautet $x_{n}=2 n$ !. Nun zum allgemeinen Fall der Gleichung (7.2) mit beliebiger Störfunktion. Nach obigem Satz setzt sich die Lösungsgesamtheit dieser Gleichung gemäß $x_{n}=x_{n}^{(h)}+x_{n}^{(p)}$ zusammen. Neben der allgemeinen Lösung der homogenen Gleichung $x_{n}^{(h)}$ benötigt man also noch eine beliebige partikuläre Lösung $x_{n}^{(p)}$ der inhomogenen Gleichung. Um diese zu erhalten, kann man folgendermaßen vorgehen: (i) Variation der Konstanten: Bei dieser Methode wird die Konstante $C$ in der allgemeinen Lösung $x_{n}^{(h)}$ der homogenen Gleichung „,variiert“; d.h., man macht den Ansatz $$ x_{n}^{(p)}=C_{n} \prod_{i=0}^{n-1} a_{i} $$ Setzt man in Gleichung (7.2) ein, so erhält man (falls alle $a_{i} \neq 0$ ) für die unbekannte Folge $C_{n}$ eine Differenzengleichung der Gestalt $C_{n+1}=C_{n}+h_{n}$, welche durch Aufsummieren der Störglieder $h_{n}$ gelöst werden kann.[^44](ii) Methode des unbestimmten Ansatzes: In Abhängigkeit vom Typ der Störfunktion $b_{n}$ in Gleichung (7.2) kann ein Polynom- oder Exponentialansatz für $x_{n}^{(p)}$ mit unbestimmten Koeffizienten zielführend sein. Sind beispielsweise die Parameter $a_{n}$ und $b_{n}$ in Gleichung (7.2) konstant (und $a_{n} \neq 1$ ), dann führt der unbestimmte Ansatz $x_{n}^{(p)}=A$ auf $A=b /(1-a)$ und damit auf die partikuläre Lösung $x_{n}^{(p)}=b /(1-a)$. Weitere Ansätze sind im nächsten Abschnitt zusammengestellt. ## Beispiel 7.7 Gegeben sei die Gleichung $$ x_{n+1}=(n+1) x_{n}+3(n+1) ! \text { für } n \geq 0 \text {. } $$ Die allgemeine Lösung der homogenen Gleichung lautet $x_{n}^{(h)}=C n !$. Durch Variation der Konstanten erhält man den Ansatz $x_{n}^{(p)}=C_{n} n$ !, und Einsetzen in die inhomogene Gleichung führt $\mathrm{zu}$ $$ \begin{aligned} C_{n+1}(n+1) ! & =C_{n} n !(n+1)+3(n+1) ! \\ C_{n+1} & =C_{n}+3 \\ \Rightarrow \quad C_{n} & =3 n \end{aligned} $$ wobei $C_{0}=0$ gewählt wurde. Damit folgt $$ x_{n}=x_{n}^{(h)}+x_{n}^{(p)}=C n !+3 n \cdot n !=(C+3 n) n !, \quad C \in \mathbb{R} $$ Beispiel 7.8 (Quicksort-Algorithmus) Quicksort ist ein häufig verwendeter, schneller Sortieralgorithmus, der nach dem Prinzip „divide et impera“ arbeitet. Ausgangspunkt ist eine Liste $a_{1}, a_{2}, \ldots, a_{n}$ von $n$ Elementen, welche der Größe nach zu ordnen sind. Bei Quicksort wählt man nun das letzte Element $a_{n}$ als so genanntes Pivotelelement aus der zu sortierenden Liste aus und zerlegt die Liste in zwei Teillisten, eine untere, die alle Elemente kleiner, und eine obere, die alle Elemente gleich oder größer dem Pivotelement enthält. Dazu vergleicht man das Pivotelement $a_{n}$ mit $a_{1}, a_{2}, \ldots$ so lange, bis erstmals $a_{i} \geq a_{n}$ gilt, und gleichzeitig mit $a_{n-1}, a_{n-2}, \ldots$ so lange, bis ein $a_{j}j$, vertauscht man $a_{i}$ und $a_{n}$, wodurch das Pivotelement $a_{n}$ als neues $a_{i}$ an die korrekte Position kommt: Alle dem Pivotelement vorangehenden Elemente der Liste sind dann kleiner als dieses, und alle nachfolgenden Elemente sind größer oder gleich. Der beschriebene Prozess wird daraufhin mit den beiden Teillisten $a_{1}, \ldots, a_{i-1}$ und $a_{i+1}, \ldots, a_{n}$ rekursiv fortgesetzt, bis sich letztlich alle Listenelemente an der korrekten Position befinden und die Sortierung damit abgeschlossen ist. Wir fragen nun nach der durchschnittlichen Anzahl $v_{n}$ von Vergleichen (Average-CaseAnalyse), die man beim Sortieren von $n$ verschiedenen Elementen einer Liste mittels Quicksort durchführen muss. (Bei der Analyse eines Algorithmus sind darüber hinaus weitere KenngröBen wie etwa die Anzahl rekursiver Aufrufe, Vergleichsoperationen für Best Case und Worst Case oder der Speicherbedarf von Bedeutung.) Für $n=1$ ist $v_{1}=0$. Für $n>1$ ist die Anzahl der Vergleiche, die man benötigt, um das Pivotelement $a_{n}$ in die richtige Position zu bringen, $2,4,1,7,10,3,8,(5) \quad n=8$, Pivotelement $a_{n}=5$ $2,4,1,7,10,3,8,5 \quad ij:$ vertausche $a_{i}$ und $a_{n}$ 2, 4, 1, 3,5, 7, 8, $10 \quad$ Fortsetzung mit Teillisten u.s.w. $1,2,3,4,5,7,8,10$ Abbildung 7.2 Quicksort-Algorithmus (erster Schritt) gleich $n+1$. Dazu kommt noch die zum Sortieren der beiden Teillisten erforderliche Anzahl von Vergleichen, welche im Durchschnitt $\frac{1}{n} \sum_{i=1}^{n}\left(v_{i-1}+v_{n-i}\right)$ beträgt. Damit erhält man insgesamt $$ v_{n}=n+1+\frac{1}{n} \sum_{i=1}^{n}\left(v_{i-1}+v_{n-i}\right) $$ Da $\sum_{i=1}^{n} v_{i-1}=\sum_{i=1}^{n} v_{n-i}$ ist, folgt weiter $$ \begin{aligned} v_{n} & =n+1+\frac{2}{n} \sum_{i=1}^{n} v_{i-1} \\ v_{n+1} & =n+2+\frac{2}{n+1} \sum_{i=1}^{n+1} v_{i-1} \\ \Rightarrow \quad(n+1) v_{n+1}-n v_{n} & =(n+1)(n+2)-n(n+1)+2 v_{n} \end{aligned} $$ und damit $$ v_{n+1}=\frac{n+2}{n+1} v_{n}+2, \quad n=1,2, \ldots $$ Das ist eine lineare inhomogene Differenzengleichung für $v_{n}$, deren Lösung eine explizite Formel für die Anzahl der Vergleiche $v_{n}$ in Abhängigkeit von der Dimension der Liste $n$ liefert. Wir lösen zunächst die zugehörige homogene Gleichung und erhalten $$ v_{n}^{(h)}=C \prod_{i=1}^{n-1} \frac{i+2}{i+1}=C \frac{n+1}{2} $$ Durch Variation der Konstanten, d.h. mit dem Ansatz $v_{n}^{(p)}=C_{n} \frac{n+1}{2}$ ergibt sich weiter $$ \begin{aligned} C_{n+1} \frac{n+2}{2} & =\frac{n+2}{n+1} C_{n} \frac{n+1}{2}+2 \\ C_{n+1} & =C_{n}+\frac{4}{n+2} \\ \Rightarrow C_{n} & =\sum_{i=1}^{n-1} \frac{4}{i+2}=4\left(\frac{1}{3}+\frac{1}{4}+\cdots+\frac{1}{n+1}\right)=4\left(H_{n+1}-\frac{3}{2}\right), \end{aligned} $$ wo $H_{n}=\left(1+\frac{1}{2}+\frac{1}{3}+\cdots+\frac{1}{n}\right) \sim \ln n$ die Partialsumme der harmonischen Reihe bezeichnet (vgl. Beispiel 5.57). Damit aber ist $v_{n}^{(p)}=2(n+1)\left(H_{n+1}-\frac{3}{2}\right)$, und die allgemeine Lösung unserer Gleichung lautet $$ v_{n}=v_{n}^{(h)}+v_{n}^{(p)}=C \frac{n+1}{2}+2(n+1)\left(H_{n+1}-\frac{3}{2}\right), \quad C \in \mathbb{R} $$ Aus der Anfangsbedingung $v_{1}=0$ folgt $C=0$, und wir bekommen schließlich das Ergebnis $$ v_{n}=2(n+1)\left(H_{n+1}-\frac{3}{2}\right), \quad n=1,2, \ldots $$ Demzufolge ist die Anzahl der Vergleichsoperationen und damit auch die Laufzeit von Quicksort von der Ordnung $O(n \ln n)$. Damit weist Quicksort, wie man zeigen kann, im Vergleich mit anderen Sortierverfahren ein optimales Laufzeitverhalten auf. ## 2. Methode der erzeugenden Funktionen Einen weiteren Ansatz zur Lösung von Differenzengleichungen stellt die Methode der erzeugenden Funktionen dar. Die Grundidee dieser Methode, welche auch auf Gleichungen höherer Ordnung angewendet werden kann, besteht darin, einer Lösungsfolge $a_{0}, a_{1}, a_{2}, \ldots$ eine Funktion $A(z)$ in einer reellen oder komplexen Variablen $z$ zuzuordnen, die Differenzengleichung in eine Gleichung für $A(z)$ zu übersetzten und diese zu lösen. Zunächst wird der Begriff der erzeugenden Funktion eingeführt und dann die Lösung einer Differenzengleichung mit Hilfe der Methode der erzeugenden Funktionen an Hand eines Beispiels vorgestellt. Wir betrachten allgemein eine Folge $\left(a_{n}\right)=a_{0}, a_{1}, a_{2}, \ldots$ von reellen oder komplexen Zahlen und ordnen ihr die Reihe $A(z)=\sum_{n=0}^{\infty} a_{n} z^{n}$ zu. Die Potenzreihe $A(z)$ ist zumindest innerhalb ihres Konvergenzradius konvergent und wird erzeugende Funktion der Folge $\left(a_{n}\right)$ genannt. Erzeugende Funktionen spielen u.a. in der Kombinatorik, der Wahrscheinlichkeitstheorie und eben auch bei der Lösung von Differenzengleichungen eine wichtige Rolle. Die erzeugende Funktion der konstanten Folge $1,1,1, \ldots$ ist $A(z)=1+z+z^{2}+\cdots=\frac{1}{1-z}$. Dagegen erhält man für die arithmetische Folge $0,1,2, \ldots$ die erzeugende Funktion $$ A(z)=\sum_{n=0}^{\infty} n z^{n}=z+2 z^{2}+3 z^{3}+\cdots=z\left(\frac{1}{1-z}\right)^{\prime}=\frac{z}{(1-z)^{2}} $$ Auch für die geometrische Folge $1, q, q^{2}, \ldots$ lässt sich die erzeugende Funktion sofort angeben, nämlich $A(z)=1+q z+q^{2} z^{2}+\cdots=\frac{1}{1-q z}$. Weitere Regeln für das Rechnen mit erzeugenden Funktionen können auf Grund der Rechengesetzte für das Rechnen mit Reihen abgeleitet werden und sind im folgenden Satz zusammengestellt. Satz 7.9 Es sei $A(z)$ die erzeugende Funktion der Folge $\left(a_{n}\right)$ und $B(z)$ die erzeugende Funktion der Folge $\left(b_{n}\right)$, also $A(z)=\sum_{n=0}^{\infty} a_{n} z^{n}$ und $B(z)=\sum_{n=0}^{\infty} b_{n} z^{n}$. Dann besteht folgender Zusammenhang zwischen den in nachstehender Tabelle angegebenen Folgen und ihren erzeugenden Funktionen: | Folge | erzeugende Funktion | Bemerkung | | :---: | :---: | :---: | | $0, a_{0}, a_{1}, a_{2}, \ldots$ | $z A(z)$ | right shift | | $a_{1}, a_{2}, a_{3}, \ldots$ | $\frac{A(z)-a_{0}}{z}$ | left shift | | $a_{1}, 2 a_{2}, 3 a_{3}, \ldots$ | $A^{\prime}(z)$ | | | $\gamma^{n} a_{n}$ | $A(\gamma z)$ | | | $\alpha x_{n}+\beta y_{n}$ | $\alpha A(z)+\beta B(z)$ | Linearität | | $\sum_{k=0}^{n} a_{k} b_{n-k}$ | $A(z) \cdot B(z)$ | Cauchy-Produkt | | $\sum_{k=0}^{n} a_{k}$ | $\frac{1}{1-z} A(z)$ | Partialsummenfolge | Nun zeichnet sich bereits ab, wie man erzeugende Funktionen zur Lösung von Differenzengleichungen verwenden kann. Wir wollen das prinzipielle Vorgehen an Hand eines einfachen Beispiels einer linearen Differenzengleichung mit konstanten Koeffizienten demonstrieren. Beispiel 7.10 Gesucht ist die allgemeine Lösung der Differenzengleichung $a_{n+1}=5 a_{n}-2$ für $n \geq 0$. Dazu multiplizieren wir die Gleichung mit $z^{n+1}$ und summieren über alle $n$. So lässt sich ein Ausdruck für die erzeugende Funktion $A(z)$ der Lösungsfolge $\left(a_{n}\right)$ gewinnen: $$ \begin{aligned} \sum_{n=0}^{\infty} a_{n+1} z^{n+1} & =5 \sum_{n=0}^{\infty} a_{n} z^{n+1}-2 \sum_{n=0}^{\infty} z^{n+1} \\ A(z)-a_{0} & =5 z A(z)-2 \frac{z}{1-z} \\ A(z) & =\frac{a_{0}}{1-5 z}-\frac{2 z}{(1-z)(1-5 z)} \end{aligned} $$ Nun ist die erzeugende Funktion $A(z)$ gefunden. Entwickelt man $A(z)$ im Punkt $z=0$ in eine Potenzreihe, so sind die Koeffizienten dieser Potenzreihe die Glieder der Lösungsfolge $\left(a_{n}\right)$. Mit Hilfe einer Partialbruchzerlegung (siehe Abschnitt 5.3) erhält man $\frac{2 z}{(1-z)(1-5 z)}=-\frac{1}{2(1-z)}+$ $\frac{1}{2(1-5 z)}$. Damit folgt $$ \begin{aligned} A(z) & =\frac{1}{2} \frac{1}{1-z}+\left(a_{0}-\frac{1}{2}\right) \frac{1}{1-5 z} \\ & =\frac{1}{2} \sum_{n=0}^{\infty} z^{n}+\left(a_{0}-\frac{1}{2}\right) \sum_{n=0}^{\infty} 5^{n} z^{n} \\ & =\sum_{n=0}^{\infty}\left(\frac{1}{2}+C 5^{n}\right) z^{n} \end{aligned} $$ wobei $C=a_{0}-\frac{1}{2}$ gesetzt wurde. Somit lautet die allgemeine Lösung der Gleichung $a_{n}=$ $\frac{1}{2}+C 5^{n}$ mit $C \in \mathbb{R}$. Die Methode der erzeugenden Funktionen kann ferner zur Bestimmung partikulärer Lösungen zu vorgegebenen Anfangsbedingungen bei nichtlinearen Differenzengleichungen und auch bei Differenzengleichungen höherer Ordnung mit Erfolg angewendet werden (siehe Übungen). ## 3. Qualitative Theorie Wir wenden uns nun der graphischen Darstellung von Lösungsfolgen und der qualitativen Theorie von Differenzengleichungen zu. Ausgangspunkt ist die explizite Differenzengleichung erster Ordnung $$ x_{n+1}=f\left(x_{n}\right), \quad n=0,1,2, \ldots $$ Dabei nehmen wir an, dass $f$ nicht von $n$ abhängt (man spricht dann von einer autonomen Gleichung) und eine stetig differenzierbare Funktion ist. Zeichnet man den Graphen der Funktion $y=f(x)$ gemeinsam mit der Geraden $y=x$ in einem $(x, y)$-Diagramm, kann der Verlauf der Lösungsfolgen recht anschaulich folgendermaßen dargestellt werden: Man markiert den Anfangswert $x=x_{0}$ auf der $x$-Achse, zeichnet die Ordinate $f\left(x_{0}\right)=x_{1}$ und im Punkt $\left(x_{0}, f\left(x_{0}\right)\right)$ eine zur $x$-Achse parallele Gerade bis zu deren Schnittpunkt mit der Gerade $y=x$. Die $x$-Koordinate dieses Schnittpunkts ist dann gerade der Wert $x_{1}$. Dann wiederholt man den Vorgang mit $x_{1}$ an Stelle von $x_{0}$, usw. Auf die beschriebene Weise erhält man die Lösung der Differenzengleichung zum Anfangswert $x_{0}$ als Treppenzug zwischen den beiden Graphen der Funktionen $y=f(x)$ und $y=x$ (siehe Abb. 7.3). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-288.jpg?height=838&width=1115&top_left_y=1351&top_left_x=372) Abbildung 7.3 Graphische Darstellung einer nichtlinearen Differenzengleichung erster Ordnung Sei nun $x_{0}, x_{1}, x_{2}, \ldots$ eine Lösungsfolge der Gleichung (7.4). Falls die Folge konvergent ist, d.h. $\lim _{n \rightarrow \infty} x_{n}=x^{*}$, dann folgt $$ x^{*}=\lim _{n \rightarrow \infty} x_{n+1}=\lim _{n \rightarrow \infty} f\left(x_{n}\right)=f\left(\lim _{n \rightarrow \infty} x_{n}\right)=f\left(x^{*}\right), $$ also $f\left(x^{*}\right)=x^{*}$. Ein Punkt mit dieser Eigenschaft ist ein Gleichgewichtpunkt. Definition 7.11 Ein Punkt $x^{*}$ heißt Fixpunkt oder Gleichgewichtspunkt der Differenzengleichung $x_{n+1}=f\left(x_{n}\right)$, wenn $f\left(x^{*}\right)=x^{*}$ gilt. Graphisch findet man die Gleichgewichtspunkte als Schnittpunkte der Kurve $y=f(x)$ mit der Geraden $y=x$. Wenn eine Lösungsfolge $\left(x_{n}\right)$ der Gleichung konvergent ist, so ist ihr Grenzwert stets ein Gleichgewichtspunkt. Umgekehrt gibt es zu jedem Gleichgewichtspunkt $x^{*}$ eine Lösung der Differenzengleichung, nämlich die konstante Lösungsfolge $x_{n}=x^{*}$. Typische Fragen der qualitativen Theorie lauten nun: Besitzt eine gegebene Differenzengleichung überhaupt Gleichgewichtspunte? Wenn ja, welche Lösungsfolgen konvergieren gegen einen Gleichgewichtspunkt? Und wie verhalten sich Lösungen in der Nähe von Gleichgewichtspunkten? Gleichgewichtspunkte können Lösungen anziehen oder abstoßen, was in den folgenden Stabilitätsbegriffen zum Ausdruck kommt. Definition 7.12 (Stabilität von Gleichgewichtslagen) Ein Gleichgewichtspunkt $x^{*}$ der Differenzengleichung $x_{n+1}=f\left(x_{n}\right)$ heißt stabil, wenn es zu jedem $\varepsilon>0$ ein $\delta(\varepsilon)>0$ gibt, so dass für alle Lösungsfolgen $\left(x_{n}\right)$ mit $\left|x_{0}-x^{*}\right|<\delta(\varepsilon)$ gilt $\left|x_{n}-x^{*}\right|<\varepsilon$ für alle $n$. Ein Gleichgewichtspunkt $x^{*}$ heißt asymptotisch stabil, wenn es außerdem ein festes $\delta>0$ gibt, so dass für alle $\left(x_{n}\right)$ mit $\left|x_{0}-x^{*}\right|<\delta$ gilt $\lim _{n \rightarrow \infty} x_{n}=x^{*}$. Anderfalls heißt $x^{*}$ instabil. Ein Gleichgewichtspunkt $x^{*}$ ist also stabil, wenn jede Lösungsfolge der Differenzengleichung in einer beliebig vorgegebenen Umgebung von $x^{*}$ bleibt, falls sie nur nahe genug bei $x^{*}$ beginnt. Konvergiert die Lösungsfolge zudem gegen $x^{*}$, so ist der Gleichgewichtspunkt asymptotisch stabil. Ob eine Lösungsfolge gegen einen Fixpunkt konvergiert, ob sie um einen Fixpunkt oszilliert oder divergent ist, ist aus der graphischen Darstellung ersichtlich. Die in Abb. 7.3 dargestellte Differenzengleichung beispielsweise besitzt zwei Gleichgewichtspunkte $x_{1}^{*}$ und $x_{2}^{*}$. Offensichtlich konvergiert die Folge $x_{0}, x_{1}, x_{2}, x_{3}, \ldots$ gegen $x_{2}^{*}$, dieser ist asymptotisch stabiler Gleichgewichtspunkt. Anderseits gibt es keine Folge $\left(x_{n}\right)$, welche gegen $x_{1}^{*}$ konvergiert (mit Ausnahme der konstanten Folge $\left(x_{1}^{*}\right)$ ). Der Fixpunkt $x_{1}^{*}$ ist abstoßend und daher instabil. Die Gleichung in Abb. 7.4 besitzt einen asymptotisch stabilen Fixpunkt $x_{1}^{*}$ mit oszillierendem Lösungsverhalten und einen instabilen Fixpunkt $x_{2}^{*}$ sowie divergente Lösungen. Satz 7.13 Ein Gleichgewichtspunkt $x^{*}$ der Differenzengleichung $x_{n+1}=f\left(x_{n}\right)$ ist asymptotisch stabil, falls $\left|f^{\prime}\left(x^{*}\right)\right|<1$, und instabil, falls $\left|f^{\prime}\left(x^{*}\right)\right|>1$ gilt. Beweis. Im Fall $\left|f^{\prime}\left(x^{*}\right)\right|<1$ gibt es eine Umgebung $\left|x-x^{*}\right|<\delta$ von $x^{*}$, in der $\left|f^{\prime}(x)\right| \leq \lambda<1$ für ein geeignetes $\lambda<1$ gilt. Nach dem Mittelwertsatz der Differentialrechnung folgt dann $$ \left|x_{n+1}-x^{*}\right|=\left|f\left(x_{n}\right)-f\left(x^{*}\right)\right|=\left|f^{\prime}(\xi)\left(x_{n}-x^{*}\right)\right| \leq \lambda\left|x_{n}-x^{*}\right| $$ (mit $\xi$ zwischen $x_{n}$ und $x^{*}$ ) und weiter $\left|x_{n}-x^{*}\right| \leq \lambda^{n}\left|x_{0}-x^{*}\right|$ für alle $n$ und $\left|x_{0}-x^{*}\right|<\delta$. Wegen $\lambda<1$ zieht der Fixpunkt $x^{*}$ jede Lösungsfolge $\left(x_{n}\right)$ mit $\left|x_{0}-x^{*}\right|<\delta$ an und ist daher asymptotisch stabil. Der Beweis im instabilen Fall kann ähnlich geführt werden. Beispiel 7.14 (Babylonisches Wurzelziehen, Fortsetzung) Wir kommen zurück auf die Differenzengleichung von Beispiel 7.2 $$ x_{n+1}=f\left(x_{n}\right)=\frac{1}{2}\left(x_{n}+\frac{a}{x_{n}}\right) \text { für } n=0,1,2, \ldots . $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-290.jpg?height=890&width=971&top_left_y=282&top_left_x=433) Abbildung 7.4 Oszillierende und divergente Lösungsfolgen Ist der Startwert $x_{0}>0$, folgt sofort $x_{n}>0$ für alle $n$. Wir berechnen zunächst die Gleichgewichtslagen dieser nichtlinearen Gleichung gemäß $$ \begin{aligned} f(x)=\frac{1}{2}\left(x+\frac{a}{x}\right) & =x \\ x^{2} & =a \\ \Rightarrow x^{*} & =\sqrt{a} \end{aligned} $$ Zur Überprüfung der Stabilität von $x^{*}$ bilden wir $$ f^{\prime}(x)=\frac{1}{2}\left(1-\frac{a}{x^{2}}\right) \Rightarrow f^{\prime}\left(x^{*}\right)=f^{\prime}(\sqrt{a})=0<1 $$ also ist der einzige Gleichgewichtspunkt $x^{*}=\sqrt{a}$ asymptotisch stabil. (Tatsächlich konvergiert jede Lösungsfolge der Differenzengleichung mit beliebigem (positiven) Startwert gegen $\sqrt{a}$.) Beispiel 7.15 Die Gleichung $x_{n+1}=2.5 x_{n}-0.01 x_{n}^{2}$ für $n=0,1,2, \ldots$ beschreibt ein so genanntes diskretes logistisches Wachstum, d.i. ein grundlegendes Wachstumsmodell mit zahlreichen Anwendungen u.a. in Biologie und Wirtschaft. Die Fixpunkte dieser Gleichung sind $x_{1}^{*}=0$ und $x_{2}^{*}=150$. Mit $f(x)=2.5 x-0.01 x^{2}$ ist $f^{\prime}(x)=2.5-0.02 x$. Somit folgt $\left|f^{\prime}(0)\right|=2.5>1$ und $\left|f^{\prime}(150)\right|=0.5<1$, d.h., der Gleichgewichtspunkt $x_{1}^{*}=0$ ist instabil und $x_{2}^{*}=150$ ist asymptotisch stabil. ### 7.3 Lineare Differenzengleichungen zweiter Ordnung Vielfach lassen sich Aufgabenstellungen aus den Anwendungen, welche durch mehrere Differenzengleichungen beschrieben werden können, auf eine einzige Differenzengleichung höherer Ordnung zurückführen. Wir beschränken uns im Folgenden auf den Fall linearer Differenzengleichungen zweiter Ordnung mit konstanten Koeffizienten. Die hier beschriebenen Resultate können jedoch direkt auf Gleichungen höherer Ordnung übertragen werden. Ausgangspunkt in diesem Abschnitt ist die lineare Differenzengleichung zweiter Ordnung der Form $$ x_{n+2}+a x_{n+1}+b x_{n}=s_{n}, \quad n=0,1,2, \ldots $$ wo $a$ und $b$ konstante Koeffizienten sind (mit $b \neq 0$ ) und $s_{n}$ eine möglicherweise von $n$ abhängige Störfunktion bezeichnet. Ist $s_{n}=0$ für alle $n$, spricht man wieder von einer homogenen, andernfalls von einer inhomogenen Gleichung. Wie bei den Gleichungen erster Ordnung besteht auch bei linearen Differenzengleichungen zweiter Ordnung folgender Zusammenhang: Satz 7.16 Die Lösungsgesamtheit einer linearen Differenzengleichung zweiter Ordnung ist gegeben durch $x_{n}=x_{n}^{(h)}+x_{n}^{(p)}$, wo $x_{n}^{(h)}$ die allgemeine Lösung der zugehörigen homogenen Gleichung und $x_{n}^{(p)}$ eine beliebige partikuläre Lösung der inhomogenen Gleichung ist. Dementsprechend gliedert sich der Lösungsweg in folgende Schritte: 1. Bestimmung der allgemeinen Lösung $x_{n}^{(h)}$ der homogenen Gleichung, 2. Bestimmung einer partikulären Lösung $x_{n}^{(p)}$, 3. Ermittlung der Lösungsgesamtheit gemäß $x_{n}=x_{n}^{(h)}+x_{n}^{(p)}$. Wir beginnen mit der homogenen Gleichung $$ x_{n+2}+a x_{n+1}+b x_{n}=0, \quad n=0,1,2, \ldots $$ gemäß Schritt 1. Offensichtlich ist die Lösung jeder Differenzengleichung zweiter Ordnung durch die Vorgabe von zwei Anfangswerten $x_{0}$ und $x_{1}$ eindeutig bestimmt. Wie sich zeigen wird, enthält die allgemeine Lösung von Gleichung (7.6) (und damit auch von Gleichung (7.5)) zwei willkürlich wählbare Konstanten $C_{1}$ und $C_{2}$ derart, dass man bei Vorgabe von zwei beliebigen Anfangswerten die Lösung zu diesen Anfangswerten durch Spezialisierung von $C_{1}$ und $C_{2}$ erhalten kann. Satz 7.17 Sind $x_{n}^{(1)}$ und $x_{n}^{(2)}$ Lösungen der homogenen Gleichung (7.6), so ist auch $x_{n}=$ $C_{1} x_{n}^{(1)}+C_{2} x_{n}^{(2)}$ mit $C_{1}, C_{2} \in \mathbb{R}$ Lösung dieser Gleichung. Gilt ferner $$ \left|\begin{array}{ll} x_{0}^{(1)} & x_{0}^{(2)} \\ x_{1}^{(1)} & x_{1}^{(2)} \end{array}\right| \neq 0 $$ dann ist $x_{n}$ die allgemeine Lösung der homogenen Gleichung. Beweis. Dass $x_{n}$ Lösung ist, ist durch Einsetzen sofort nachzurechnen. Der zweite Teil der Behauptung ergibt sich aus der Tatsache, dass das lineare Gleichungssystem $$ \begin{aligned} & C_{1} x_{0}^{(1)}+C_{2} x_{0}^{(2)}=x_{0} \\ & C_{1} x_{1}^{(1)}+C_{2} x_{1}^{(2)}=x_{1} \end{aligned} $$ genau dann eindeutig in $C_{1}$ und $C_{2}$ lösbar ist, wenn die Determinante der Systemmatrix nicht verschwindet. Auf der Suche nach einer möglichen Lösung der homogenen Gleichung (7.6) stößt man auf den Ansatz $x_{n}^{(h)}=\lambda^{n}$ mit dem Parameter $\lambda$. Setzen wir in die Differenzengleichung ein, so folgt $$ \begin{aligned} \lambda^{n+2}+a \lambda^{n+1}+b \lambda^{n} & =0 \\ \lambda^{2}+a \lambda+b & =0 . \end{aligned} $$ Wir erhalten somit eine quadratische Gleichung, die so genannte charakteristische Gleichung für $\lambda$. Ihre Wurzeln $\lambda_{1}$ und $\lambda_{2}$ werden als charakteristische Wurzeln bezeichnet. Mit $\lambda_{1}^{n}$ und $\lambda_{2}^{n}$ sind dann nach Satz 7.17 auch alle Linearkombinationen $x_{n}=C_{1} \lambda_{1}^{n}+C_{2} \lambda_{2}^{n}$ wieder Lösungen der homogenen Gleichung. In Abhängigkeit von der Diskriminante $a^{2}-4 b$ der charakteristischen Gleichung unterscheiden wir drei Fälle: (i) $a^{2}-4 b>0$ : In diesem Fall sind die Wurzeln $\lambda_{1}$ und $\lambda_{2}$ reell und verschieden, und $x_{n}=C_{1} \lambda_{1}^{n}+C_{2} \lambda_{2}^{n}$ mit $C_{1}, C_{2} \in \mathbb{R}$ stellt die allgemeine Lösung dar. Denn wegen $$ \left|\begin{array}{ll} x_{0}^{(1)} & x_{0}^{(2)} \\ x_{1}^{(1)} & x_{1}^{(2)} \end{array}\right|=\left|\begin{array}{cc} 1 & 1 \\ \lambda_{1} & \lambda_{2} \end{array}\right|=\lambda_{2}-\lambda_{1} \neq 0 $$ ist die Bedingung von Satz 7.17 erfüllt. (ii) $a^{2}-4 b<0$ : In diesem Fall sind $\lambda_{1}$ und $\lambda_{2}$ konjugiert komplex (und wieder verschieden). Auch jetzt ist durch $x_{n}=C_{1} \lambda_{1}^{n}+C_{2} \lambda_{2}^{n}$ die allgemeine Lösung der Gleichung gegeben, allerdings sind die Lösungen i. Allg. komplex (diesmal mit $C_{1}, C_{2} \in \mathbb{C}$ ). Um daraus die reellen Lösungen zu erhalten, setzten wir $\lambda_{1}$ und $\lambda_{2}$ in Polarkoordinaten an, also $\lambda_{1,2}=r(\cos \varphi \pm i \sin \varphi)$, und berechnen $$ \begin{aligned} x_{n} & =C_{1} r^{n}(\cos n \varphi+i \sin n \varphi)+C_{2} r^{n}(\cos n \varphi-i \sin n \varphi) \\ & =r^{n}\left(\left(C_{1}+C_{2}\right) \cos n \varphi+i\left(C_{1}-C_{2}\right) \sin n \varphi\right) . \end{aligned} $$ Wählen wir $C_{1}$ und $C_{2}$ konjugiert komplex, so sind die neuen Parameter $D_{1}=C_{1}+C_{2}$ und $D_{2}=i\left(C_{1}-C_{2}\right)$ wieder reell, und wir erhalten $$ x_{n}=r^{n}\left(D_{1} \cos n \varphi+D_{2} \sin n \varphi\right) \quad \text { mit } \quad D_{1}, D_{2} \in \mathbb{R} $$ Das ist dann die allgemeine Lösung im Reellen. (iii) $a^{2}-4 b=0$ : Die charakteristische Gleichung besitzt eine reelle Doppellösung, nämlich $\lambda_{1}=\lambda_{2}=-\frac{a}{2}$. Wie man durch Einsetzten umittelbar sieht, ist neben $\lambda_{1}^{n}$ in diesem Fall auch $n \lambda_{1}^{n}$ eine Lösung der homogenen Gleichung, so dass man mit $x_{n}^{(1)}=\lambda_{1}^{n}$ und $x_{n}^{(2)}=n \lambda_{1}^{n}$ wieder zwei verschiedene partikuläre Lösungen zur Verfügung hat. Gemäß Satz 7.17 ist dann auch $$ x_{n}=C_{1} \lambda_{1}^{n}+C_{2} n \lambda_{1}^{n}=\left(C_{1}+C_{2} n\right) \lambda_{1}^{n} \quad \text { mit } \quad C_{1}, C_{2} \in \mathbb{R} $$ Lösung, und zwar die allgemeine Lösung, denn $$ \left|\begin{array}{cc} x_{0}^{(1)} & x_{0}^{(2)} \\ x_{1}^{(1)} & x_{1}^{(2)} \end{array}\right|=\left|\begin{array}{cc} 1 & 0 \\ \lambda_{1} & \lambda_{1} \end{array}\right|=\lambda_{1}=-\frac{a}{2} \neq 0 $$ ( $a=0$ hätte wegen $a^{2}=4 b$ auch $b=0$ zur Folge, was nicht möglich ist). Wir fassen zusammen: Satz 7.18 Sind $\lambda_{1}$ und $\lambda_{2}$ die Lösungen der charakteristischen Gleichung $\lambda^{2}+a \lambda+b=0$, dann lautet die allgemeine Lösung der linearen homogenen Differenzengleichung $x_{n+2}+a x_{n+1}+$ $b x_{n}=0$ $$ x_{n}^{(h)}= \begin{cases}C_{1} \lambda_{1}^{n}+C_{2} \lambda_{2}^{n} & \text { falls } \lambda_{1} \neq \lambda_{2} \text { reell } \\ r^{n}\left(C_{1} \cos n \varphi+C_{2} \sin n \varphi\right) & \text { falls } \lambda_{1,2}=r(\cos \varphi \pm i \sin \varphi) \text { konjugiert komplex } \\ \left(C_{1}+C_{2} n\right) \lambda_{1}^{n} & \text { falls } \lambda_{1}=\lambda_{2} \text { reell }\end{cases} $$ mit $C_{1}, C_{2} \in \mathbb{R}$. ## Beispiel 7.19 (a) Die Differenzengleichung $x_{n+2}+x_{n+1}-6 x_{n}=0$ besitzt die charakteristsiche Gleichung $\lambda^{2}+\lambda-6=0$ mit den Lösungen $\lambda_{1}=2$ und $\lambda_{2}=-3$. Folglich lautet die allgemeine Lösung gemäß (i) $$ x_{n}=C_{1} 2^{n}+C_{2}(-3)^{n}, \quad C_{1}, C_{2} \in \mathbb{R} . $$ (b) Die Gleichung $x_{n+2}-2 x_{n+1}+2 x_{n}=0$ hat dagegen die charakteristsiche Gleichung $\lambda^{2}-2 \lambda+2=0$ mit den Lösungen $\lambda_{1,2}=1 \pm i=\sqrt{2}\left(\cos \frac{\pi}{4} \pm i \sin \frac{\pi}{4}\right)$. Also ergibt sich nach Fall (ii) $$ x_{n}=2^{\frac{n}{2}}\left(C_{1} \cos \frac{n \pi}{4}+C_{2} \sin \frac{n \pi}{4}\right), \quad C_{1}, C_{2} \in \mathbb{R} $$ Beispiel 7.20 (Fibonacci-Folge, Fortsetzung) Wir sind nun in der Lage, eine explizite Darstellung für die Fibonacci-Zahlen 1, 1, 2, 3, 5, 8, 13, $\ldots$ anzugeben. Die Folge genügt der Gleichung $N_{t}=N_{t-1}+N_{t-2}$ für $t=2,3, \ldots$ mit den Anfangswerten $N_{0}=N_{1}=1$ (vergleiche Beispiel 7.3). Das ist eine lineare homogene Differenzengleichung zweiter Ordnung. Wir bestimmen die charakteristische Gleichung $\lambda^{2}-\lambda-1=0$ mit den beiden Wurzeln $\lambda_{1,2}=\frac{1 \pm \sqrt{5}}{2}$. Folglich lautet die allgemeine Lösung der gegebenen Gleichung $$ N_{t}=C_{1}\left(\frac{1+\sqrt{5}}{2}\right)^{t}+C_{2}\left(\frac{1-\sqrt{5}}{2}\right)^{t} $$ Die spezielle Lösung zur Anfangsbedingung $N_{0}=N_{1}=1$ schließlich führt auf ein lineares Gleichungssystem in den Variablen $C_{1}$ und $C_{2}$ mit der Lösung $$ C_{1}=\frac{1+\sqrt{5}}{2 \sqrt{5}} \text { und } C_{2}=-\frac{1-\sqrt{5}}{2 \sqrt{5}} $$ Demnach lautet die gesuchte explizite Darstellung der Glieder der Fibonacci-Folge $$ N_{t}=\frac{1}{\sqrt{5}}\left[\left(\frac{1+\sqrt{5}}{2}\right)^{t+1}-\left(\frac{1-\sqrt{5}}{2}\right)^{t+1}\right] \text { für } t=0,1,2, \ldots \text {. } $$ Unsere nächste Aufgabe ist es, eine partikuläre Lösung der inhomogenen Gleichung (7.5) $$ x_{n+2}+a x_{n+1}+b x_{n}=s_{n}, \quad n=0,1,2, \ldots $$ gemäß Schritt 2 zu finden. Damit ist dann auch die allgemeine Lösung dieser Gleichung durch Addition der allgemeine Lösung der zugehörigen homogenen Gleichung und der partikulären Lösung der inhomogenen Gleichung gefunden. Ist die Störfunktion $s_{n}=s$ konstant (und $1+a+b \neq 0$ ), so führt der unbestimmte Ansatz $x_{n}^{(p)}=A$ auf die konstante Lösung $x_{n}^{(p)}=s /(1+a+b)$. (Dieser Wert stellt übrigens wieder einen Gleichgewichtspunkt der Differenzengleichung dar.) Ist $s_{n}$ nicht konstant, kann in vielen Fällen eine partikuläre Lösung nach der Methode des unbestimmten Ansatzes gefunden werden. Bei dieser wird auf Grund der speziellen Form der Störfunktion (Konstante, Polynom, Exponentialfunktion, u.s.w.) eine Versuchslösung mit unbestimmten Koeffizienten konstruiert, welche dann durch Einsetzen in die Differenzengleichung und anschließenden Koeffizientenvergleich ermittelt werden. Die nachstehende Tabelle gibt einige Störfunktionen und geeignete Versuchslösungen für die Methode des unbestimmten Ansatzes an: | Störfunktion $s_{n}$ | Versuchslösung $x_{n}^{(p)}$ | | :---: | :---: | | 1 | $A$ | | $r^{n}$ | $A r^{n}$ | | $\sin (r n)$ oder $\cos (r n)$ | $A \sin (r n)+B \cos (r n)$ | | $n^{k}$ (oder Polynom vom Grad $\left.k\right)$ | $A_{0}+A_{1} n+A_{2} n^{2}+\cdots+A_{k} n^{k}$ | | $n^{k} \cdot r^{n}$ | $\left(A_{0}+A_{1} n+A_{2} n^{2}+\cdots+A_{k} n^{k}\right) r^{n}$ | Zusatz (Resonanzfall): Enthält die Versuchslösung $x_{n}^{(p)}$ eine Funktion, welche bereits Lösung der zugehörigen homogenen Gleichung (7.6) ist, dann muss dieser Ansatz noch mit $n$ multipliziert werden; diese Vorgangsweise ist gegebenenfalls zu wiederholen. Ferner gilt Satz 7.21 (Superpositionsprinzip) Gegeben sei die lineare inhomogene Differenzengleichung $x_{n+2}+a x_{n+1}+b x_{n}=c_{1} s_{n}^{(1)}+c_{2} s_{n}^{(2)}\left(c_{1}, c_{2} \in \mathbb{R}\right)$. Sind $x_{n}^{(1)}$ bzw. $x_{n}^{(2)}$ partikuläre Lösungen der inhomogenen Gleichungen mit den Störfunktionen $s_{n}^{(1)}$ bzw. $s_{n}^{(2)}$, dann ist $x_{n}=c_{1} x_{n}^{(1)}+c_{2} x_{n}^{(2)}$ eine partikuläre Lösung der inhomogenen Gleichung mit der Störfunktion $c_{1} s_{n}^{(1)}+c_{2} s_{n}^{(2)}$. Beispiel 7.22 Gegeben sei die Differenzengleichung $x_{n+2}-2 x_{n+1}+x_{n}=5+n+4 \cdot 3^{n}$ für $n=0,1,2, \ldots$. Wir bestimmen die allgemeine Lösung dieser Gleichung in mehreren Schritten: (a) Die zugehörige homogene Gleichung lautet $x_{n+2}-2 x_{n+1}+x_{n}=0$. Sie hat die charakteristische Gleichung $\lambda^{2}-2 \lambda+1=(\lambda-1)^{2}=0$, welche die Wurzeln $\lambda_{1}=\lambda_{2}=1$ besitzt. Also lautet die allgemeine Lösung der homogenen Gleichung $x_{n}^{(h)}=C_{1}+C_{2} n$ nach Fall (iii). (b) Um eine partikuläre Lösung $x_{n}^{(p)}$ der inhomogenen Gleichung zu finden, wenden wir das Superpositionsprinzip an und zerlegen die Störfunktion $s_{n}$ in die beiden Komponenten $s_{n}^{(1)}=5+n$ und $s_{n}^{(2)}=4 \cdot 3^{n}$. Die erste Störfunktion $s_{n}^{(1)}$ ist ein lineares Polynom in $n$ und legt die Versuchslösung $x_{n}^{(1)}=A_{0}+A_{1} n$ nahe. Da aber sowohl $A_{0}$ als auch $A_{1} n$ Lösungen der zugehörigen homogenen Gleichung sind, müssen wir diesen Ansatz mit $n$ multiplizieren: $x_{n}^{(1)}=A_{0} n+A_{1} n^{2}$. Die neue Versuchslösung enthält aber wiederum einen Term, der Lösung der homogenen Gleichung ist, also machen wir den Ansatz $x_{n}^{(1)}=$ $A_{0} n^{2}+A_{1} n^{3}$. Einsetzten in $x_{n+2}-2 x_{n+1}+x_{n}=5+n$ und Zusammenfassen nach Potenzen von $n$ ergibt $$ \begin{gathered} A_{0}(n+2)^{2}+A_{1}(n+2)^{3}-2 A_{0}(n+1)^{2}-2 A_{1}(n+1)^{3}+A_{0} n^{2}+A_{1} n^{3}=5+n, \\ \left(2 A_{0}+6 A_{1}\right)+6 A_{1} n=5+n . \end{gathered} $$ Durch einen Koeffizientenvergleich erhält man schließlich $2 A_{0}+6 A_{1}=5$ und $6 A_{1}=1$, also $A_{1}=\frac{1}{6}, A_{0}=2$ und damit die partikuläre Lösung $x_{n}^{(1)}=2 n^{2}+\frac{1}{6} n^{3}$. (c) Zur zweiten Störfunktion $s_{n}^{(2)}=4 \cdot 3^{n}$ wählen wir den Ansatz $x_{n}^{(2)}=A \cdot 3^{n}$. Durch Einsetzen in die Gleichung $x_{n+2}-2 x_{n+1}+x_{n}=4 \cdot 3^{n}$ bekommen wir $$ A \cdot 3^{n+2}-2 A \cdot 3^{n+1}+A \cdot 3^{n}=4 A \cdot 3^{n}=4 \cdot 3^{n} $$ also $A=1$ und damit $x_{n}^{(2)}=3^{n}$. Schließlich erhalten wir die allgemeine Lösung der ursprünglich gegebenen Gleichung gemäß $$ \begin{aligned} x_{n} & =x_{n}^{(h)}+x_{n}^{(1)}+x_{n}^{(2)} \\ & =C_{1}+C_{2} n+2 n^{2}+\frac{1}{6} n^{3}+3^{n}, \quad C_{1}, C_{2} \in \mathbb{R} \end{aligned} $$ Die hier beschriebene Vorgangsweise zur Lösung linearer Differenzengleichungen zweiter Ordnung kann - wie erwähnt - auch auf Gleichungen höherer Ordnung übertragen werden. Die Lösungsgesamtheit einer linearen Differenzengleichung $k$-ter Ordnung $$ x_{n+k}+a_{k-1} x_{n+k-1}+\cdots+a_{1} x_{n+1}+a_{0} x_{n}=s_{n}, \quad n=0,1,2, \ldots $$ mit den konstanten Koeffizienten $a_{0}, a_{1}, \ldots, a_{k-1}$ (mit $a_{0} \neq 0$ ) und der Störfunktion $s_{n}$ ist wiederum gegeben durch $x_{n}=x_{n}^{(h)}+x_{n}^{(p)}$, wo $x_{n}^{(h)}$ die allgemeine Lösung der zugehörigen homogenen Gleichung und $x_{n}^{(p)}$ eine beliebige partikuläre Lösung der inhomogenen Gleichung ist. Während letztere zumeist nach der Methode des unbestimmten Ansatzes ermittelt werden kann, gilt für die Lösung der homogenen Gleichung folgender Satz: Satz 7.23 Sei $x_{n+k}+a_{k-1} x_{n+k-1}+\cdots+a_{1} x_{n+1}+a_{0} x_{n}=0$ eine lineare homogene Differenzengleichung $k$-ter Ordnung und seien $\lambda_{1}, \ldots, \lambda_{l}$ die (verschiedenen) Nullstellen der charakteristischen Gleichung $\lambda^{k}+a_{k-1} \lambda^{k-1}+\cdots+a_{1} \lambda+a_{0}=0$ mit den Vielfachheiten $k_{1}, \ldots, k_{l}$ (wobei $k_{1}+\cdots+k_{l}=k$ ). Dann besitzt jede Lösung $x_{n}$ im Komplexen die Darstellung $$ x_{n}=P_{1, k_{1}-1}(n) \lambda_{1}^{n}+\cdots+P_{l, k_{l}-1}(n) \lambda_{l}^{n} $$ wobei $P_{1, k_{1}-1}, \ldots, P_{l, k_{l}-1}$ Polynome vom Grad $\leq k_{1}-1, \ldots, \leq k_{l}-1$ bezeichnen. Betrachten wir speziell den Fall der Ordnung $k=2$, so gilt: Entweder gibt es zwei verschiedene charakteristische Wurzeln $\lambda_{1} \neq \lambda_{2}$ mit $k_{1}=k_{2}=1$, dann ist $$ x_{n}=P_{1,0} \lambda_{1}^{n}+P_{2,0} \lambda_{2}^{n}=C_{1} \lambda_{1}^{n}+C_{2} \lambda_{2}^{n}, $$ oder die charakteristische Gleichung besitzt eine Doppellösung $\lambda_{1}$ mit der Vielfachheit $k_{1}=2$, und es folgt $$ x_{n}=P_{1,1}(n) \lambda_{1}^{n}=\left(C_{1}+C_{2} n\right) \lambda_{1}^{n} $$ in Übereinstimmung mit Satz 7.18. ### 7.4 Zelluläre Automaten und das Spiel des Lebens Conway's „Game of Life" simuliert Aufstieg, Veränderung und Untergang einer Gruppe lebender Organismen als diskretes dynamisches System. Das Simulationsspiel ist ein Beispiel für einen zellulären Automaten und kann mit wenigen einfachen Regeln ein komplexes, unvorhersehbares Verhalten erzeugen. Zur Beschreibung eines endlichen zweidimensionalen zellulären Automaten benötigt man einen Spielplan, der aus einem Gitter von Quadraten besteht. Das Spielfeld stellt man sich als endliches oder unbegrenztes Schachbrett vor. Jedes Quadrat (bzw. jede Zelle) hat acht Nachbarn (siehe Abb. 7.5) und kann einen von zwei möglichen Zuständen annehmen: besetzt oder frei bzw. lebend oder tot. (Es gibt auch zelluläre Automaten mit unterschiedlicher, z.B. hexagonaler Zellanordnung oder anderen Formen der Nachbarschaft. Zudem ist die Anzahl der Zustände i. Allg. auch nicht mit zwei begrenzt.) ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-296.jpg?height=502&width=511&top_left_y=2013&top_left_x=710) Abbildung 7.5 Nachbarschaft in einem zweidimensionalen zellulären Automaten Wir bezeichnen allgemein mit $(i, j)$ die Zelle in der $i$-ten Zeile und $j$-ten Spalte und mit $x(i, j, t)$ ihren Zustand zum Zeitpunkt $t=0,1,2, \ldots$. Die Dynamik des zellulären Automaten wird durch Regeln, d.h. durch eine Überführungsfunktion $F$ bestimmt, welche den Übergang von $x(i, j, t)$ in $x(i, j, t+1)$ in Abhängigkeit vom aktuellen Zustand der Zelle $(i, j)$ und vom Zustand ihrer Nachbarn beschreibt. Kennt man nun den Anfangszustand des Systems $x(i, j, 0)$ für alle Zellen $(i, j)$, so kann daraus schrittweise der Zustand $x(i, j, t)$ zur Zeit $t=1,2,3, \ldots$, d.h. nach $t$ Zeitschritten bestimmt werden. Typische Fragestellungen in der Theorie der zellulären Automaten betreffen Gleichgewichtslagen, Grenzzyklen, die Entwicklung bestimmter Muster, usw. Beispiel 7.24 Gegeben sei ein zellulärer Automat mit den Zuständen 0 und 1 und der folgenden Überführungsfunktion: Alle 1-Elemente, d.h. alle Zellen $(i, j)$ mit $x(i, j, t)=1$ werden zu 0-Elementen, und alle 0-Elemente, welche Nachbarn von 1-Elementen sind, werden zu 1-Elementen. Man sieht sofort, dass durch diese Regel mit fortschreitender Zeit ringförmig ausbreitende Muster generiert werden (siehe Abb. 7.6). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-297.jpg?height=434&width=1202&top_left_y=1084&top_left_x=309) $t=0 \quad t=1$ $t=2$ Abbildung 7.6 Zellulärer Automat zu Beispiel 7.24 Beispiel 7.25 Bei Conway's Spiel des Lebens gibt es ebenfalls die beiden Zustände 0 und 1 (für ein freies Feld bzw. für eine lebende Zelle), und man spielt nach folgenden Regeln: - Eine lebende Zelle mit zwei oder drei lebenden Nachbarzellen bleibt in der nächsten Generation bestehen (Überleben). - Eine lebende Zelle mit weniger als zwei oder mehr als drei lebenden Nachbarzellen stirbt (Tod durch Isolation oder Überbevölkerung). - Auf einem freien Feld entsteht eine neue lebende Zelle, wenn dieses genau drei lebende Nachbarzellen besitzt (Geburt). Alle Geburten- und Sterbefälle finden gleichzeitig statt. Die zukünftige Entwicklung der Zellpopulation hängt nur von der Anfangsverteilung ab. Es gibt Populationen, die sterben nach wenigen Generationen aus. Andere werden schnell stabil oder werden zu Oszillatoren. Wieder andere Populationen verändern sich stets unregelmäßig. Beispiele einfacher Konstellationen sind so genannte Blinker, Blöcke, Gleiter oder Verschlinger (siehe Abb. 7.7 bzw. Übungsaufgaben). Ferner gibt es Raumschiffe, Gleiterkanonen, Brüter, den Garten Eden, u.v.a. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-298.jpg?height=402&width=1316&top_left_y=262&top_left_x=306) Abbildung 7.7 Spiel des Lebens: Blinker und Verschlinger Typische Fragen sind etwa folgende: Gibt es Ausgangsmuster, für welche die Population ins Grenzenlose wächst? Welche Ausgangsmuster sterben vollständig aus, welche werden stabil oder oszillieren? Oder: Lassen die Regeln des „Game of Life“ die Konstruktion eines Universalcomputers zu? Zahlreiche weitere Beispiele, Fragen und Antworten findet man in der umfangreichen Literatur zu diesem Thema (siehe z.B. [2, 10]). ### 7.5 Gewöhnliche Differentialgleichungen - Einführung und allgemeine Theorie Das kontinuierliche Gegenstück zu den Differenzengleichungen stellen Differentialgleichungen dar. Diese spielen im Zusammenhang mit Prozessen eine Rolle, welche kontinuierlich ablaufen, wie z.B. Bewegungsvorgänge in der Physik, technische Abläufe, chemische Reaktionen, Wachstumsprozesse in Biologie oder Wirtschaft, usw. Die Beschreibung derartiger Prozesse erfolgt vielfach mittels Differentialgleichungen, das sind Gleichungen für Funktionen in einer oder mehreren Variablen, welche neben den unbekannten Funktionen auch gewöhnliche oder partielle Ableitungen dieser Funktionen enthalten. Beispiel 7.26 (Freier Fall) Bezeichnen wir mit $s(t)$ den zurückgelegten Weg eines Körpers in Abhängigkeit von der Zeit $t$ und mit $g$ die Erdbeschleunigung (also $g=9,81 \mathrm{~ms}^{-2}$ ). Dann wird die Bewegung beim freien Fall beschrieben durch die Gleichung $$ s^{\prime \prime}(t)=g, $$ d.i. eine gewöhnliche Differentialgleichung zweiter Ordnung für $s(t)$. Durch Integration erhält man $s^{\prime}(t)=g t+C_{1}$ und weiter $s(t)=\frac{g}{2} t^{2}+C_{1} t+C_{2}$ mit $C_{1}, C_{2} \in \mathbb{R}$. Letztere Gleichung stellt die so genannte allgemeine Lösung der Differentialgleichung dar. Die beiden Integrationskonstanten $C_{1}$ und $C_{2}$ können durch Vorgabe von Anfangsbedingungen, etwa $s(0)=s_{0}$ und $s^{\prime}(0)=v_{0}$ bestimmt werden: $C_{1}=v_{0}, C_{2}=s_{0}$. Somit erhält man als Lösung mit obigen Anfangsbedingungen das Weg-Zeit-Gesetz $s(t)=\frac{g}{2} t^{2}+v_{0} t+s_{0}$. Beispiel 7.27 (Logistisches Wachstum) Es handelt sich um ein grundlegendes Wachstumsmodell in der Biologie zur Beschreibung von Zellwachstum oder Populationswachstum, aber auch in der Wirtschaft, etwa zur Beschreibung der Entwicklung eines Marktanteils. Sei $N(t)$ die GröBe einer Population in Abhängigkeit von der Zeit $t$, ferner sei $r$ eine Wachstumsrate und $K$ eine so genannte Sättigungskonstante. Die Gleichung für das logistische Wachstum lautet dann $$ N^{\prime}(t)=r N\left(1-\frac{N}{K}\right) $$ D.i. eine gewöhnliche, nichtlineare Differentialgleichung erster Ordnung für $N(t)$. Die Gleichung besitzt die Lösung $$ N(t)=\frac{K}{1+C e^{-r t}}, C \in \mathbb{R}, \quad \text { sowie } \quad N(t)=0 $$ wie man durch Einsetzen bestätigt. Denn $$ r N\left(1-\frac{N}{K}\right)=r \frac{K}{1+C e^{-r t}}\left(1-\frac{1}{1+C e^{-r t}}\right)=\frac{r K C e^{-r t}}{\left(1+C e^{-r t}\right)^{2}}=N^{\prime}(t) . $$ Dabei kann die Konstante $C$ wieder aus einer Anfangsbedingung, etwa $N(0)=N_{0}$, ermittelt werden. Man erhält dann $C=\frac{K-N_{0}}{N_{0}}$ und damit die spezielle Lösung $$ N(t)=\frac{K}{1+\frac{K-N_{0}}{N_{0}} e^{-r t}} $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-299.jpg?height=680&width=694&top_left_y=1197&top_left_x=616) Abbildung 7.8 Partikuläre Lösung zu Beispiel 7.27 Beispiel 7.28 (Diffusion, Wärmeleitung) Die eindimensionale Diffusions- bzw. Wärmeleitungsgleichung lautet $$ \frac{\partial c}{\partial t}=D \frac{\partial^{2} c}{\partial x^{2}} $$ und beschreibt eine Konzentrationsverteilung (bzw. eine Temperaturverteilung) $c(x, t)$ in Abhängigkeit von einer Ortsvariablen $x$ und einer Zeitvariablen $t ; D$ ist die so genannte Diffusionskonstante. Da in dieser Gleichung keine gewöhnlichen, sondern partielle Ableitungen vorkommen, handelt es sich um eine partielle Differentialgleichung. Eine Lösung dieser Gleichung ist z.B. durch $$ c(x, t)=(A \cos (C x)+B \sin (C x)) e^{-C^{2} D t}, \quad A, B, C \in \mathbb{R} $$ gegeben, das ist jedoch bei weitem nicht die Lösungsgesamtheit der partiellen Differentialgleichung. Diese enthält nämlich an Stelle von Integrationskonstanten sogar beliebig wählbare Funktionen. Spezielle Lösungen erhält man zu vorgegebenen Anfangs- oder Randbedingungen. Partielle Differentialgleichungen werden später in diesem Kapitel ausführlich behandelt. Allgemein heißt eine Gleichung der Form $$ F\left(x, y, y^{\prime}, y^{\prime \prime}, \ldots, y^{(k)}\right)=0 $$ für eine Funktion $y(x)$ und deren Ableitungen $y^{\prime}(x), y^{\prime \prime}(x), \ldots, y^{(k)}(x)$ eine gewöhnliche Differentialgleichung $k$-ter Ordnung. Insbesondere ist also eine Differentialgleichung erster Ordnung implizit durch $F\left(x, y, y^{\prime}\right)=0$ oder explizit durch $y^{\prime}=f(x, y)$ gegeben. Ist die Funktion $F$ (bzw. $f$ ) linear in der Funktion $y$ und deren Ableitungen, spricht man von einer linearen, sonst von einer nichtlinearen Differentialgleichung. Unter einer Lösung (einem Integral) der Differentialgleichung verstehen wir eine Funktion $y(x)$, welche mit ihren Ableitungen die gegebene Gleichung erfüllt. Wir unterscheiden: (i) Die allgemeine Lösung enthält beliebig wählbare Parameter $C_{1}, C_{2}$, usw. und entspricht einer Schar von Lösungskurven. In Beispiel 7.26 etwa lautet die allgemeine Lösung $s(t)=\frac{g}{2} t^{2}+C_{1} t+C_{2}$ mit $C_{1}, C_{2} \in \mathbb{R}$. Einige der Lösungskurven aus dieser zweidimensionalen Kurvenschar sind in Abb. 7.9 dargestellt. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-300.jpg?height=594&width=1292&top_left_y=1337&top_left_x=332) Abbildung 7.9 Kurvenschar der allgemeinen Lösung zu Beispiel 7.26 (ii) Eine partikuläre Lösung erhält man durch spezielle Wahl der Parameter zu vorgegebenen Anfangsbedingungen, also durch Auswahl einer bestimmten Lösungskurve aus der Schar der allgemeinen Lösung. Z.B. ist die partikuläre Lösung zur Anfangsbedingung $N(0)=\frac{K}{2}$ in Beispiel 7.27 durch die Funktion $N(t)=K /\left(1+e^{-r t}\right)$ gegeben und stellt eine einzelne Lösungskurve durch den vorgegebenen Punkt $\left(0, \frac{K}{2}\right)$ dar (siehe Abb. 7.8). (iii) Manchmal gibt es noch weitere so genannte singuläre Lösungen, die keiner Lösungsschar angehören. So ist z.B. die Lösung $N(t)=0$ in Beispiel 7.27 eine singuläre Lösung der logistischen Differentialgleichung, da sie nicht durch spezielle Wahl des Parameters $C$ aus der allgemeinen Lösung erhalten werden kann. Wie kommt man nun zu Lösungen einer Differentialgleichung? Für bestimmte Differentialgleichungstypen gibt es exakte Lösungsverfahren, welche eine explizite Bestimmung aller Lösungen der Differentialgleichung ermöglichen. Einige dieser Verfahren werden im folgenden Abschnitt behandelt. Ist eine exakte Lösung nicht möglich, so kann man versuchen, Lösungen auf numerischem Weg über ein Näherungsverfahren zu erhalten. Numerische Verfahren liefern jedoch nur spezielle Lösungen, welche nach Vorgabe einer oder mehrerer Anfangsbedingungen berechnet werden können. Darauf werden wir im Kapitel über numerische Mathematik zurückkommen. Im Fall einer expliziten Differentialgleichung erster Ordnung der Form $y^{\prime}=f(x, y)$ kann das Auffinden von Lösungen geometrisch anschaulich gedeutet werden: Durch $y^{\prime}=f(x, y)$ wird jedem Punkt $\left(x_{0}, y_{0}\right)$ der Ebene eine Richtung $y_{0}^{\prime}=f\left(x_{0}, y_{0}\right)$ zugeordnet, welche den Anstieg der Tangente an die Lösungskurve durch $\left(x_{0}, y_{0}\right)$ angibt. Zeichnet man in jedem Punkt $\left(x_{0}, y_{0}\right)$ eine kurze Strecke mit der Steigung $y_{0}^{\prime}$, so entsteht das so genannte Richtungsfeld der Differentialgleichung (siehe Abb. 7.10). Einzelne Punkte und zugehörige Richtungen, also Tripel der Form $\left(x_{0}, y_{0}, y_{0}^{\prime}\right)$ werden als Linienelemente bezeichnet. Die Gesamtheit aller Li- ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-301.jpg?height=946&width=948&top_left_y=1086&top_left_x=436) Abbildung 7.10 Richtungsfeld der Differentialgleichung $y^{\prime}=-\frac{x}{y}$ nienelemente bildet das Richtungsfeld. Nun ist $y=y(x)$ genau dann eine Lösungskurve der Differentialgleichung, wenn in jedem Kurvenpunkt das dort zugeordnete Linienelement tangential verläuft. Geometrisch besteht die Aufgabe, alle Lösungen der Gleichung zu finden, also darin, geeignete Kurven in das Richtungsfeld der Gleichung „einzupassen“. Beispiel 7.29 In Abb. 7.10 ist das Richtungsfeld der Differentialgleichung erster Ordnung $y^{\prime}=f(x, y)=-\frac{x}{y}$ dargestellt. Die durch $f(x, y)=c, c \in \mathbb{R}$, bestimmten Isoklinen des Richtungsfeldes sind in diesem Fall Geraden durch den Koordinatenursprung und in der Abbildung strichliert eingezeichnet. Längs einer Isokline haben alle Linienelemente denselben Anstieg c. Ausreichend viele Linienelemente ermöglichen einen guten optischen Eindruck vom Verhalten der Lösungskurven, welche im konkreten Fall durch konzentrische Kreise um den Ursprung gegeben sind. Die Bestimmung der konkreten Lösung einer Differentialgleichung setzt - wie wir gesehen haben - neben der Kenntnis der Gleichung die Vorgabe einer oder mehrerer Anfangsbedingungen voraus. Man spricht in diesem Zusammenhang von einem Anfangswertproblem, welches im Fall einer Differentialgleichung erster Ordnung von der Form $$ y^{\prime}=f(x, y), \quad y\left(x_{0}\right)=y_{0} $$ ist. Eine Antwort auf die Frage, ob es überhaupt Lösungen zu einem Anfangswertproblem gibt bzw. wann diese eindeutig bestimmt sind, geben die beiden nachstehenden Sätze. Satz 7.30 (Allgemeiner Existenzsatz von Peano) Ist $f(x, y)$ eine in einem Gebiet $D \subseteq \mathbb{R}^{2}$ stetige Funktion, dann besitzt die Differentialgleichung $y^{\prime}=f(x, y)$ durch jeden Punkt $\left(x_{0}, y_{0}\right) \in D$ (mindestens) eine Lösung $y=y(x)$. Satz 7.31 (Existenz- und Eindeutigkeitssatz) Ist $f(x, y)$ eine stetige Funktion auf einem Rechtecksbereich $D \subseteq \mathbb{R}^{2}$ und erfült dort eine so genannte Lipschitzbedingung $$ \left|f\left(x, y_{1}\right)-f\left(x, y_{2}\right)\right| \leq L\left|y_{1}-y_{2}\right| \text { für alle } x, y_{1}, y_{2} $$ mit einer von $x, y_{1}$ und $y_{2}$ unabhängigen Konstanten $L>0$, dann besitzt die Differentialgleichung $y^{\prime}=f(x, y)$ durch jedem Punkt $\left(x_{0}, y_{0}\right) \in D$ genau eine Lösung $y=y(x)$. ### 7.6 Lineare Differentialgleichungen erster und zweiter Ordnung ## 1. Lineare Differentialgleichungen erster Ordnung Einer der einfachsten und zugleich auch wichtigsten Differentialgleichungstypen ist die lineare Differentialgleichung erster Ordnung, d.i. eine Gleichung der Form $$ y^{\prime}+a(x) y= \begin{cases}0 & \text { homogene Gleichung } \\ s(x) & \text { inhomogene Gleichung. }\end{cases} $$ Dabei sind $a(x)$ und $s(x)$ stetige Funktionen in $x, s(x)$ heißt Störfunktion. Falls die Störfunktion verschwindet, spricht man von einer homogenen, sonst von einer inhomogenen Gleichung. Grundlegend für die Lösung linearer Differentialgleichungen ist der nachstehende Satz. Satz 7.32 Die Lösungsgesamtheit der linearen Differentialgleichung $y^{\prime}+a(x) y=s(x)$ ist gegeben durch $y(x)=y_{h}(x)+y_{p}(x)$, wo $y_{h}(x)$ die allgemeine Lösung der zugehörigen homogenen Gleichung $y^{\prime}+a(x) y=0$ und $y_{p}(x)$ eine beliebige partikuläre Lösung der gegebenen inhomogenen Gleichung ist. Diese Aussage, die wir bereits von den linearen Differenzengleichungen her kennen (vgl. Satz 7.5), gilt für alle linearen Differenzen- und Differentialgleichungen beliebiger Ordnung. Wie bei Differenzengleichungen ergibt sich damit auch hier folgender Lösungsweg: 1. Lösung der homogenen Gleichung durch „Trennung der Variablen“, 2. Bestimmung einer partikulären Lösung der inhomogenen Gleichung durch „Variation der Konstanten" und 3. Ermittlung der Lösungsgesamtheit gemäß $y(x)=y_{h}(x)+y_{p}(x)$. Wir wenden uns zunächst gemäß Schritt 1 der homogenen Gleichung $y^{\prime}+a(x) y=0$ zu. Umformung und anschließende Integration führt zu $$ \begin{aligned} \frac{y^{\prime}}{y} & =-a(x) \\ \ln |y| & =-\int a(x) d x+C_{0} \\ y_{h}(x) & =C e^{-\int a(x) d x} \end{aligned} $$ mit $C_{0} \in \mathbb{R}$ und $C= \pm e^{C_{0}}$. Berücksichtigen wir, dass $C=0$ die konstante Lösung $y=0$ ergibt, so gilt $C \in \mathbb{R}$. In der Praxis wird die gegebene Differentialgleichung derart umgeformt, dass die beiden Variablen $x$ bzw. $y$ nur auf der rechten bzw. linken Seite der Gleichung auftreten, und anschließend integriert, d.h. $$ \frac{d y}{d x}+a(x) y=0 \Rightarrow \frac{d y}{y}=-a(x) d x \Rightarrow \int \frac{d y}{y}=-\int a(x) d x, \text { usw. } $$ Es werden also die beiden Variablen $x$ und $y$ getrent und beide Seiten der Gleichung formal einmal nach $x$ und einmal nach $y$-integriert. Aus diesem Grund spricht man von der Methode der Trennung der Variablen. Wir kommen nun gemäß Schritt 2 zur inhomogenen Gleichung. Wir benötigen ein Verfahren, um eine partikuläre Lösung der inhomogenen Gleichung $y^{\prime}+a(x) y=s(x)$ zu finden. Ein solches Verfahren liefert die von den Differenzengleichungen her bekannte Methode der Variation der Konstanten. Dazu macht man den Ansatz $$ y_{p}(x)=C(x) e^{-\int a(x) d x} $$ d.h., man ersetzt die Konstante $C$ in der homogenen Lösung gemäß Schritt 1 durch eine zunächst noch unbekannte Funktion $C(x)$ (man spricht in diesem Zusammenhang von der „Variation" der Konstanten). Durch Einsetzen von $y_{p}(x)$ und $y_{p}^{\prime}(x)$ in die inhomogene Gleichung wird dann $C(x)$ ermittelt: $$ \begin{gathered} y_{p}^{\prime}+a(x) y_{p}=C^{\prime}(x) e^{-\int a(x) d x}-a(x) C(x) e^{-\int a(x) d x}+a(x) C(x) e^{-\int a(x) d x}=s(x) \\ \Rightarrow \quad C(x)=\int s(x) e^{\int a(x) d x} d x . \end{gathered} $$ Beispiel 7.33 Befindet sich ein Körper der Temperatur $T_{a}$ in einem umgebenden Medium mit geringerer Temperatur $T_{e}0$. Somit gilt es, die lineare Differentialgleichung $$ T^{\prime}+k T=k T_{e} $$ mit dem konstanten Koeffizienten $a=k$ und der konstanten Störfunktion $s=k T_{e}$ zu lösen. Wir betrachten zunächst die homogene Gleichung $T^{\prime}+k T=0$ und erhalten nach Trennung der Variablen und anschließender Integration (mit der Integrationskonstanten $\ln C$ ) $$ \frac{d T}{T}=-k d t \Rightarrow \int \frac{d T}{T}=-\int k d t \Rightarrow \ln |T|=-k t+\ln C \Rightarrow T_{h}(t)=C e^{-k t} $$ mit $C \in \mathbb{R}$. Nun kommen wir zur Variation der Konstanten und ersetzen die Integrationskonstante $C$ durch eine Funktion $C(t)$, d.h., wir machen den Ansatz $T_{p}(t)=C(t) e^{-k t}$. Mit $T_{p}^{\prime}(t)=$ $C^{\prime}(t) e^{-k t}-k C(t) e^{-k t}$ und nach Einsetzen in die ursprüngliche inhomogene Gleichung folgt $$ \begin{aligned} T_{p}^{\prime}+k T_{p} & =k T_{e} \\ C^{\prime}(t) e^{-k t}-k C(t) e^{-k t}+k C(t) e^{-k t} & =k T_{e} \\ C^{\prime}(t) & =k T_{e} e^{k t} \\ C(t) & =T_{e} e^{k t} \end{aligned} $$ und somit $T_{p}(t)=C(t) e^{-k t}=T_{e}$. (Bei der Integration von $C^{\prime}(t)$ kann die Integrationskonstante beliebig, insbesondere gleich 0 gewählt werden.) Somit lautet die allgemeine Lösung unserer Differentialgleichung $T(t)=T_{h}(t)+T_{p}(t)=C e^{-k t}+T_{e}$. Die Konstante $C$ bestimmen wir schließlich aus dem Anfangswert $T(0)=T_{a}$ und erhalten $C=T_{a}-T_{e}$, woraus sich der gesuchte Temperaturverlauf $$ T(t)=\left(T_{a}-T_{e}\right) e^{-k t}+T_{e} $$ ergibt. Für $t \rightarrow \infty$ strebt die Temperatur $T(t)$ gegen $T_{e}$, wie erwartet (siehe Abb. 7.11). Beispiel 7.34 Gesucht ist die allgemeine Lösung der linearen Differentialgleichung $$ y^{\prime}-\frac{1-x}{x} y=4 x^{2} $$ Wir lösen zunächst die zugehörige homogene Gleichung durch Trennung der Variablen und erhalten (wieder mit der Integrationskonstanten $\ln C$ ) $$ \begin{aligned} \frac{d y}{y} & =\frac{1-x}{x} d x \\ \int \frac{d y}{y} & =\int\left(\frac{1}{x}-1\right) d x \\ \ln |y| & =\ln |x|-x+\ln C \\ y_{h}(x) & =C x e^{-x} \end{aligned} $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-305.jpg?height=588&width=589&top_left_y=219&top_left_x=635) Abbildung 7.11 Temperaturverlauf $T(t)$ bei Abkühlung mit $C \in \mathbb{R}$. Variation der Konstanten führt zum Ansatz $y_{p}(x)=C(x) x e^{-x}$, und Einsetzen in die inhomogene Gleichung liefert $$ \begin{aligned} y_{p}^{\prime}-\frac{1-x}{x} y_{p} & =4 x^{2} \\ C^{\prime}(x) x e^{-x}+C(x) e^{-x}-C(x) x e^{-x}-\frac{1-x}{x} C(x) x e^{-x} & =4 x^{2} \\ C^{\prime}(x) & =4 x e^{x} \\ C(x) & =4(x-1) e^{x} \end{aligned} $$ (wobei das Integral in der letzten Zeile durch partielle Integration berechnet wurde). Damit lautet die partikuläre Lösung $y_{p}(x)=C(x) x e^{-x}=4 x(x-1)$. Addition von $y_{h}$ und $y_{p}$ ergibt schließlich $$ y(x)=y_{h}(x)+y_{p}(x)=C x e^{-x}+4\left(x^{2}-x\right), $$ das ist die allgemeine Lösung der Gleichung. ## 2. Lineare Differentialgleichungen zweiter Ordnung mit konstanten Koeffizienten Nachfolgend besprechen wir lineare Differentialgleichungen zweiter Ordnung, wobei wir uns wie schon bei den linearen Differenzengleichungen - auf Gleichungen mit konstanten Koeffizienten beschränken. Lineare Differentialgleichungen von höherer als zweiter Ordnung und auch Systeme von Differentialgleichungen können auf ähnliche Weise behandelt werden, worauf wir am Ende dieses Abschnitts zurückkommen werden. Den Ausgangspunkt für die weiteren Überlegungen bildet die lineare Differentialgleichung zweiter Ordnung der Form $$ y^{\prime \prime}+a y^{\prime}+b y= \begin{cases}0 & \text { homogene Gleichung } \\ s(x) & \text { inhomogene Gleichung },\end{cases} $$ wo $a$ und $b$ konstante Koeffizienten sind und $s(x)$ eine i. Allg. von $x$ abhängige Störfunktion bezeichnet. Je nachdem, ob die Störfunktion verschwindet oder nicht, nennt man die Gleichung wieder homogen bzw. inhomogen. Wie stets bei linearen Differentialgleichungen gilt auch hier für die allgemeine Lösung $$ y(x)=y_{h}(x)+y_{p}(x) $$ wo $y_{h}(x)$ die allgemeine Lösung der homogenen Gleichung und $y_{p}(x)$ eine partikuläre Lösung der inhomogenen Gleichung bezeichnet. Dementsprechend gliedert sich der Lösungsweg in dieselben Schritte, wie wir sie von den linearen Gleichungen erster Ordnung her kennen, die verwendeten Methoden selbst sind jedoch unterschiedlich: 1. Lösung der homogenen Gleichung durch einen Exponentialansatz für $y_{h}(x)$, 2. Bestimmung einer partikulären Lösung $y_{p}(x)$ mit Hilfe eines unbestimmten Ansatzes, 3. Ermittlung der Lösungsgesamtheit gemäß $y(x)=y_{h}(x)+y_{p}(x)$. Zur Lösung der homogenen Gleichung $y^{\prime \prime}+a y^{\prime}+b y=0$ nach Punkt 1 machen wir den Exponentialansatz $y_{h}(x)=e^{\lambda x}$ mit dem Parameter $\lambda$. Zur Bestimmung von $\lambda$ setzen wir in die Gleichung ein und erhalten $$ \lambda^{2} e^{\lambda x}+a \lambda e^{\lambda x}+b e^{\lambda x}=0 \Rightarrow \lambda^{2}+a \lambda+b=0 $$ Somit genügt $\lambda$ einer quadratischen Gleichung, der so genannten charakteristischen Gleichung. Deren Lösungen, welche reell oder komplex sein können, seien $\lambda_{1}$ und $\lambda_{2}$, die so genannten charakteristischen Wurzeln der Differentialgleichung. Offensichtlich sind dann $y_{1}(x)=e^{\lambda_{1} x}$ und $y_{2}(x)=e^{\lambda_{2} x}$ Lösungen der homogenen Differentialgleichung. Je nachdem, $\mathrm{ob} \lambda_{1}$ und $\lambda_{2}$ reelle oder komplexe Zahlen sind, lautet die allgemeine Lösung der Differentialgleichung wie folgt: Satz 7.35 Sind $\lambda_{1}, \lambda_{2}$ die Lösungen der charakteristischen Gleichung $\lambda^{2}+a \lambda+b=0$, dann ist die allgemeine Lösung der homogenen Gleichung $y^{\prime \prime}+a y^{\prime}+b y=0$ gegeben durch $$ y_{h}(x)= \begin{cases}C_{1} e^{\lambda_{1} x}+C_{2} e^{\lambda_{2} x} & \text { falls } \lambda_{1} \neq \lambda_{2} \text { reell } \\ e^{\alpha x}\left(C_{1} \cos \beta x+C_{2} \sin \beta x\right) & \text { falls } \lambda_{1,2}=\alpha \pm i \beta \text { konjugiert komplex } \\ \left(C_{1}+C_{2} x\right) e^{\lambda_{1} x} & \text { falls } \lambda_{1}=\lambda_{2} \text { reell }\end{cases} $$ mit $C_{1}, C_{2} \in \mathbb{R}$. Dieser Satz ist das Analogon zu Satz 7.18 für homogene Differenzengleichungen zweiter Ordnung. Da lineare Differenzen- und Differentialgleichungen in vielen wesentlichen Eigenschaften übereinstimmen, kann auch der Beweis ganz ähnlich geführt werden. Auf einen Nachweis des Satzes wird daher verzichtet. Im nächsten Schritt gemäß Punkt 2 gilt es, eine partikuläre Lösung der inhomogenen Gleichung zu bestimmen. Partikuläre Lösungen können, je nach Typ der Störfunktion, vielfach mit der Methode des unbestimmten Ansatzes gefunden werden. Ist z.B. die Störfunktion von der Form $s(x)=a_{0}+a_{1} x+\cdots+a_{k} x^{k}$ (darunter fallen insbesondere alle konstanten, linearen oder quadratischen Funktionen), dann führt eine Versuchslösung mit dem Ansatz $y_{p}(x)=A_{0}+A_{1} x+\cdots+A_{k} x^{k}$ und unbestimmten Koeffizienten $A_{0}, \ldots, A_{k}$ zu einer partikulären Lösung. Einige weitere unbestimmte Ansätze sind in nachstehender Tabelle zusammengefasst: | Störfunktion $s(x)$ | Versuchslösung $y_{p}(x)$ | | :---: | :---: | | 1 | $A$ | | $e^{r x}$ | $A e^{r x}$ | | $\sin (r x)$ oder $\cos (r x)$ | $A \sin (r x)+B \cos (r x)$ | | $a_{0}+a_{1} x+a_{2} x^{2}+\cdots+a_{k} x^{k}$ | $A_{0}+A_{1} x+A_{2} x^{2}+\cdots+A_{k} x^{k}$ | | $\left(a_{0}+a_{1} x+a_{2} x^{2}+\cdots+a_{k} x^{k}\right) e^{r x}$ | $\left(A_{0}+A_{1} x+A_{2} x^{2}+\cdots+A_{k} x^{k}\right) e^{r x}$ | Zusatz (Resonanzfall): Ist ein Summand in der Versuchslösung $y_{p}(x)$ bereits Lösung der zugehörigen homogenen Gleichung, so ist der gesamte Lösungsansatz mit $x$ zu multiplizieren; diese Vorgangsweise ist gegebenenfalls zu wiederholen. Ist die Störfunktion eine Linearkombination von Funktionen der oben angegebenen Klassen, also etwa einer Polynom- und einer Exponentialfunktion, kann man zunächst partikuläre Lösungen der inhomogenen Gleichungen für die einzelnen Komponenten der Störfunktion bestimmen und diese dann - analog zum Superpositionsprinzip für lineare Differenzengleichungen (vgl. Satz 7.21) - zu einer Gesamtlösung der ursprünglichen Gleichung kombinieren. Wir wollen die Anwendung der Methode des unbestimmten Ansatzes an zwei Beispielen demonstrieren. Beispiel 7.36 Gesucht ist die allgemeine Lösung der linearen Differentialgleichung $$ y^{\prime \prime}+y^{\prime}-2 y=2 x-3 $$ Wir bestimmen zunächst die Lösung der homogenen Gleichung $y^{\prime \prime}+y^{\prime}-2 y=0$ gemäß Schritt 1 und betrachten dazu die charakteristische Gleichung $\lambda^{2}+\lambda-2=0$ mit den Wurzeln $\lambda_{1}=1$ und $\lambda_{2}=-2$. Folglich lautet die allgemeine Lösung der homogenen Gleichung $$ y_{h}(x)=C_{1} e^{x}+C_{2} e^{-2 x} $$ Die Störfunktion $s(x)=2 x-3$ der inhomogenen Gleichung ist linear. Demnach ergibt sich für die Versuchslösung der Ansatz $y_{p}(x)=A_{0}+A_{1} x$ mit unbestimmten Koeffizienten $A_{0}, A_{1}$. Wir bilden die Ableitungen $y_{p}^{\prime}(x)=A_{1}$ und $y_{p}^{\prime \prime}(x)=0$ und setzen in die inhomogene Gleichung ein: $$ \begin{aligned} y_{p}^{\prime \prime}+y_{p}^{\prime}-2 y_{p} & =2 x-3 \\ A_{1}-2\left(A_{0}+A_{1} x\right) & =2 x-3 \\ -2 A_{1} x+\left(A_{1}-2 A_{0}\right) & =2 x-3 \end{aligned} $$ Ein Vergleich der Koeffizienten der jeweiligen linearen und konstanten Glieder führt auf $-2 A_{1}=2$ und $A_{1}-2 A_{0}=-3$, also $A_{1}=-1$ und $A_{0}=1$. Daraus folgt die partikuläre Lösung $y_{p}(x)=1-x$, und schließlich ist $$ y(x)=y_{h}(x)+y_{p}(x)=C_{1} e^{x}+C_{2} e^{-2 x}+1-x, \quad C_{1}, C_{2} \in \mathbb{R} $$ die gesuchte allgemeine Lösung der Gleichung. Beispiel 7.37 (Elektrischer Schwingkreis) Werden ein Widerstand $R$, ein Kondensator $C$ und eine Spule $L$ in Serie an eine Spannungsquelle angeschlossen, erhält man einen $R C L$ Schwingkreis (siehe Abb. 7.12). Wir bezeichnen mit $U(t)$ die Quellspannung und mit $I(t)$ den ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-308.jpg?height=444&width=535&top_left_y=255&top_left_x=687) Abbildung 7.12 RCL-Schwingkreis Strom zur Zeit $t$, ferner seien $R$ der Ohmsche Widerstand, $C$ die Kapazität und $L$ die Induktivität im Schwingkreis. Dann gilt für den Spannungsabfall $U_{R}, U_{C}, U_{L}$ bei $R, C$ und $L$ $$ U_{R}=R I, \quad U_{C}^{\prime}=\frac{1}{C} I, \quad U_{L}=L \frac{d I}{d t} $$ Deren Summe ergibt die Quellspannung im Schwingkreis, also $U_{R}+U_{C}+U_{L}=U(t)$. Leitet man diese Gleichung nach $t$ ab, so erhält man $$ L I^{\prime \prime}+R I^{\prime}+\frac{1}{C} I=U^{\prime}(t) $$ Das ist eine lineare Differentialgleichung zweiter Ordnung für den Strom $I(t)$ zur Zeit $t$. Im folgenden werden wir die Lösung dieser Gleichung bestimmen und ihr Verhalten diskutieren. Wir untersuchen zunächst die homogene Gleichung $L I^{\prime \prime}+R I^{\prime}+\frac{1}{C} I=0$, welche das Verhalten bei einmaliger Anregung, d.h. bei einmaliger Aufladung des Kondensators beschreibt. Die charakteristische Gleichung ist $\lambda^{2}+\frac{R}{L} \lambda+\frac{1}{L C}=0$ und besitzt die beiden Wurzeln $$ \lambda_{1,2}=-\frac{R}{2 L} \pm \sqrt{\frac{R^{2}}{4 L^{2}}-\frac{1}{L C}}=-\alpha \pm \beta $$ wobei $\alpha=\frac{R}{2 L}$ und $\beta=\frac{1}{2 L} \sqrt{R^{2}-\frac{4 L}{C}}$ gesetzt wurde. Wir unterscheiden vier Fälle: (a) Ist $R=0$, dann haben wir einen idealen Schwingkreis ohne Dämpfung, der nur aus Kondensator und Spule besteht. In diesem Fall ist $\lambda_{1,2}= \pm i \omega_{0}$ mit $\omega_{0}=\frac{1}{\sqrt{L C}}$, und die Lösung der homogenen Differentialgleichung lautet $$ I_{h}(t)=c_{1} \cos \omega_{0} t+c_{2} \sin \omega_{0} t=r \cos \left(\omega_{0} t-\varphi\right) $$ mit $c_{1}, c_{2} \in \mathbb{R}$ bzw. $r \geq 0$ und $-\pi<\varphi \leq \pi$. (Zur letzten Umformung von $I(t)$ vergleiche Aufgabe 7.33.) Somit ergibt sich für den Strom im Schwingkreis eine harmonische Schwingung mit der Eigenfrequenz $\omega_{0}$. (b) Im Fall $0\frac{4 L}{C}$, d.h., ist die Dämpfung des Systems hoch, sind die charakteristischen Wurzeln $\lambda_{1,2}=-\alpha \pm \beta$ beide reell und wegen $\beta<\alpha$ negativ. Die allgemeine Lösung der Differentialgleichung lautet in diesem Fall $$ I_{h}(t)=c_{1} e^{-(\alpha-\beta) t}+c_{2} e^{-(\alpha+\beta) t} $$ mit $c_{1}, c_{2} \in \mathbb{R}$. Die Lösung stellt also diesmal wie schon im vorhergehenden Grenzfall keine Schwingung dar. Sie ändert höchstens einmal ihr Monotonieverhalten und strebt mit wachsender Zeit $t$ gegen 0 (siehe Abb. 7.13). (Dieser Fall ist in der Praxis eher bei mechanischen Schwingungen von Bedeutung.) ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-309.jpg?height=622&width=1358&top_left_y=1370&top_left_x=265) Abbildung 7.13 Gedämpfte Schwingungen und aperiodische Lösungen im Schwingkreis Wir betrachten nun den Fall einer sinusförmigen Quellspannung $U(t)=U_{0} \sin \omega t$ und kommen so zur inhomogenen Gleichung $L I^{\prime \prime}+R I^{\prime}+\frac{1}{C} I=U_{0} \omega \cos \omega t$, welche aus Gleichung (7.10) resultiert. Diese Gleichung beschreibt eine erzwungene Schwingung bei periodischer Anregung mit der Erregerfrequenz $\omega$. Um eine partikuläre Lösung der inhomogenen Gleichung zu erhalten, machen wir den unbestimmten Ansatz $$ \begin{aligned} I_{p}(t) & =A \sin \omega t+B \cos \omega t \\ I_{p}^{\prime}(t) & =\omega(A \cos \omega t-B \sin \omega t) \\ I_{p}^{\prime \prime}(t) & =\omega^{2}(-A \sin \omega t-B \cos \omega t) \end{aligned} $$ Wir setzen $I_{p}, I_{p}^{\prime}$ und $I_{p}^{\prime \prime}$ in die inhomogene Gleichung ein, fassen die sin- und cos-Terme zusammen und erhalten nach einem Koeffizientenvergleich die beiden Gleichungen $$ \begin{aligned} & R \omega A+\left(-L \omega^{2}+\frac{1}{C}\right) B=U_{0} \omega \\ & \left(-L \omega^{2}+\frac{1}{C}\right) A \quad-R \omega B=0 . \end{aligned} $$ Die Lösung des Systems lautet $$ A=\frac{U_{0} R}{R^{2}+S^{2}}, B=\frac{-U_{0} S}{R^{2}+S^{2}} \quad \text { mit } S=\omega L-\frac{1}{\omega C} $$ (In der Praxis ist $R>0$, und damit $\operatorname{sind} A$ und $B$ stets wohldefiniert. $\operatorname{Im}$ Fall $R=0$ und $S=0$, d.h. $\omega=\omega_{0}$ muss der unbestimmte Ansatz für $I_{p}$ noch mit $t$ multipliziert werden.) Schließlich erhalten wir die gesuchte partikuläre Lösung in der Form $$ I_{p}(t)=\frac{U_{0}}{R^{2}+S^{2}}(R \sin \omega t-S \cos \omega t)=I_{0} \sin (\omega t-\varphi) $$ mit $I_{0}=\frac{U_{0}}{\sqrt{R^{2}+S^{2}}}$ und $\tan \varphi=\frac{S}{R}$. Damit ist auch die Lösungsgesamtheit der Differentialgleichung (7.10) gemäß $I(t)=I_{h}(t)+I_{p}(t)$ gefunden. Im realen, gedämpften Schwingkreis gilt stets $I_{h}(t) \rightarrow 0$ für $t \rightarrow \infty$, sodass $I(t)$ im Lauf der Zeit gegen $I_{p}(t)$ strebt. Das heißt: Wird der Schwingkreis durch eine sinusförmige Spannung zum Schwingen angeregt, stellt sich nach einer Einschwingzeit die Stromstärke $I_{p}$ - ebenfalls eine Sinusschwingung - ein. Die Frequenz von $I_{p}$ stimmt mit der Erregerfrequenz $\omega$ überein, die Amplitude $I_{0}$ ist von $\omega$ abhängig und nimmt für $\omega=\omega_{0}$ ihren größten Wert an. In diesem Fall liegt Stromresonanz vor. ## 3. Lineare Differentialgleichungen $k$-ter Ordnung mit konstanten Koeffizienten Es wurde bereits angesprochen, dass die hier beschriebenen Methoden auch auf lineare Differentialgleichungen höherer Ordnung übertragen werden können. Betrachten wir eine lineare Differentialgleichung $k$-ter Ordnung $$ y^{(k)}+a_{k-1} y^{(k-1)}+\cdots+a_{1} y^{\prime}+a_{0} y=s(x) $$ mit den konstanten Koeffizienten $a_{0}, a_{1}, \ldots, a_{k-1}$ und der Störfunktion $s(x)$. Die Lösung dieser Gleichung setzt sich additiv aus der allgemeinen Lösung der zugehörigen homogenen Gleichung und einer beliebigen partikulären Lösung der inhomogenen Gleichung zusammen, welche mittels eines Exponentialansatzes bzw. der Methode des unbestimmten Ansatzes bestimmt werden können. Insbesondere gilt für die Lösung der homogenen Gleichung im allgemeinen Fall der folgende Satz. Satz 7.38 Sei $y^{(k)}+a_{k-1} y^{(k-1)}+\cdots+a_{1} y^{\prime}+a_{0} y=0$ eine lineare homogene Differentialgleichung $k$-ter Ordnung, und seien $\lambda_{1}, \ldots, \lambda_{l}$ die (verschiedenen) Nullstellen der charakteristischen Gleichung $\lambda^{k}+a_{k-1} \lambda^{k-1}+\cdots+a_{1} \lambda+a_{0}=0$ mit den Vielfachheiten $k_{1}, \ldots, k_{l}$ (wobei $k_{1}+\cdots+k_{l}=k$ ). Dann besitzt jede Lösung $y(x)$ im Komplexen die Darstellung $$ y(x)=P_{1, k_{1}-1}(x) e^{\lambda_{1} x}+\cdots+P_{l, k_{l}-1}(x) e^{\lambda_{l} x} $$ wobei $P_{1, k_{1}-1}, \ldots, P_{l, k_{l}-1}$ Polynome vom Grad $\leq k_{1}-1, \ldots, \leq k_{l}-1$ bezeichnen. Beispiel 7.39 Wir lösen die lineare Differentialgleichung dritter Ordnung $$ y^{\prime \prime \prime}-4 y^{\prime \prime}+4 y^{\prime}=1-3 e^{-x} $$ Die homogene Gleichung besitzt die charakteristische Gleichung $\lambda^{3}-4 \lambda^{2}+4 \lambda=\lambda(\lambda-2)^{2}=$ 0 mit der einfachen Wurzel $\lambda_{1}=0, k_{1}=1$ und der zweifachen Wurzel $\lambda_{2}=2, k_{2}=2$. Dementsprechend lautet die allgemeine Lösung der homogenen Gleichung $$ y_{h}(x)=P_{1,0}+P_{2,1}(x) e^{2 x}=C_{1}+\left(C_{2}+C_{3} x\right) e^{2 x} \quad \text { mit } C_{1}, C_{2}, C_{3} \in \mathbb{R} $$ Für die Störfunktion der inhomogenen Gleichung gilt $s(x)=s_{1}(x)+s_{2}(x)$ mit $s_{1}(x)=$ $1, s_{2}(x)=-3 e^{-x}$. Die erste Funktion $s_{1}(x)=1$ ist eine Konstante und legt für die entsprechende partikuläre Lösung den unbestimmten Ansatz $y_{1}(x)=A$ nahe. Da aber jede konstante Funktion bereits Lösung der homogenen Gleichung ist, muss dieser Ansatz noch mit $x$ multipliziert werden: $y_{1}(x)=A x$. Durch Ableiten und Einsetzen in die Differentialgleichung mit der Störfunktion $s_{1}$ erhält man $A=\frac{1}{4}$ und damit $y_{1}(x)=\frac{1}{4} x$. Die zweite Funktion $s_{2}(x)=-3 e^{-x}$ ist eine Exponentialfunktion und führt auf den Ansatz $y_{2}(x)=B e^{-x}$. Einsetzen in die entsprechende Differentialgleichung und ein Koeffizientenvergleich für $e^{-x}$ ergeben $B=\frac{1}{3}$ und somit $y_{2}(x)=\frac{1}{3} e^{-x}$. Nach dem Superpositionsprinzip ist dann $y_{p}(x)=y_{1}(x)+y_{2}(x)=\frac{1}{4} x+\frac{1}{3} e^{-x}$ eine partikuläre Lösung der gegebenen Gleichung. Durch Addition zur homogenen Lösung $y_{h}$ erhält man schließlich die allgemeine Lösung $$ y(x)=y_{h}(x)+y_{p}(x)=C_{1}+\left(C_{2}+C_{3} x\right) e^{2 x}+\frac{1}{4} x+\frac{1}{3} e^{-x} \quad \text { mit } C_{1}, C_{2}, C_{3} \in \mathbb{R} $$ ### 7.7 Nichtlineare Differentialgleichungen und qualitative Methoden Neben den linearen Differentialgleichungen gibt es eine Reihe weiterer spezieller Typen von Differentialgleichungen, für die exakte Lösungsverfahren existieren. So kann die Methode der Trennung der Variablen auch bei nichtlinearen Differentialgleichungen mit Erfolg angewendet werden, wie die folgenden Überlegungen zeigen. Es sei $$ y^{\prime}=f(x) \cdot g(y) $$ eine so genannte separable (oder trennbare) Differentialgleichung erster Ordnung mit stetigen Funktionen $f$ und $g$ derart, dass die Funktion $f$ nur von $x$ und $g$ nur von $y$ abhängig ist. Gibt es ein $y_{0}$ mit $g\left(y_{0}\right)=0$, so besitzt die Gleichung (7.11) die konstante Lösung $y=y_{0}$. Für $g(y) \neq 0$ können wir die Gleichung durch $g(y)$ dividieren und erhalten auf Grund der Substitutionsregel $$ y^{\prime}=f(x) g(y) \Rightarrow \int \frac{y^{\prime}}{g(y)} d x=\int f(x) d x \Rightarrow \int \frac{d y}{g(y)}=\int f(x) d x $$ Nach Trennung der Variablen können die Integrale auf beiden Seiten der Gleichung ausgewertet werden. Dadurch erhält man eine implizite Darstellung der Lösung $y(x)$, welche man nach $y$ aufzulösen trachtet. Die konstanten Lösungen zusammen mit den durch Trennung der Variablen erhaltenen Lösungen (und allfälligen weiteren Lösungen, die sich daraus stückweise zusammensetzen lassen) bilden die Lösungsgesamtheit der Differentialgleichung. Beispiel 7.40 Die Differentialgleichung $y^{\prime}=-\frac{x}{y}$ ist von der Form (7.11) mit $f(x)=-x$ und $g(y)=\frac{1}{y}$. Es gibt keine konstanten Lösungen. Wir erhalten $$ \frac{d y}{d x}=-\frac{x}{y} \Rightarrow \int y d y=-\int x d x \Rightarrow \frac{y^{2}}{2}=-\frac{x^{2}}{2}+C $$ und schließlich $x^{2}+y^{2}=C_{1}^{2}$ mit $C_{1}^{2}=2 C \geq 0$. Die Lösungen bilden also lauter konzentrische Kreise um den Ursprung (siehe Abb. 7.10). Beispiel 7.41 (Logistisches Wachstum, Fortsetzung) Wir kommen zurück zur Gleichung für das logistische Wachstum $N^{\prime}(t)=r N\left(1-\frac{N}{K}\right)$ aus Beispiel 7.27, einer nichtlinearen Differentialgleichung erster Ordnung für die Populationsgröße $N(t)$. Die dort angegebene Lösung soll nun nach der Methode der Trennung der Variablen hergeleitet werden. Zunächst gilt $N\left(1-\frac{N}{K}\right)=0$ für $N=0 \operatorname{oder} N=K$. Das sind zwei konstante Lösungen. Für $N \neq 0, N \neq K$ erhält man durch Trennung der Variablen $$ \frac{d N}{d t}=r N\left(1-\frac{N}{K}\right) \Rightarrow \int \frac{K}{N(K-N)} d N=\int r d t $$ Mit Hilfe der Partialbruchzerlegung $\frac{K}{N(K-N)}=\frac{1}{N}+\frac{1}{K-N}$ folgt $$ \begin{aligned} \int\left(\frac{1}{N}+\frac{1}{K-N}\right) d N & =\int r d t \\ \ln N-\ln (K-N) & =r t+\ln C \\ \frac{N}{K-N} & =C e^{r t} \\ N & =\frac{K C e^{r t}}{1+C e^{r t}} \end{aligned} $$ Aus der letzten Gleichung ergibt sich schließlich die allgemeine Lösung der logistischen Gleichung gemäß $$ N(t)=\frac{K}{1+C_{1} e^{-r t}} \quad \text { mit } \quad C_{1} \in \mathbb{R} $$ (Genau genommen gilt zunächst $C_{1} \neq 0$, jedoch liefert nachträglich $C_{1}=0$ eine der beiden konstanten Lösungen, nämlich $N=K$.) Wir wenden uns nun der qualitativen Theorie von Differentialgleichungen zu und wählen als Ausgangspunkt die explizite Differentialgleichung erster Ordnung $$ y^{\prime}=f(y) $$ wo $f$ eine i. Allg. nichtlineare Funktion in $y$ ist, welche nicht von $x$ abhängt. Dabei handelt es sich um eine so genannte autonome Differentialgleichung. Zum Beispiel ist die Gleichung $y^{\prime}=r y(1-y)$ mit $r>0$ (ein Spezialfall der logistischen Wachstumsgleichung) eine Gleichung von obigem Typ mit $f(y)=r y(1-y)$. Ist die Differentialgleichung (7.12) nichtlinear, so ist eine exakte Lösung vielfach nicht mehr möglich. In den Anwendungen interessiert man sich häufig für Eigenschaften der Lösungsfunktion $y(x)$, welche ohne Kenntnis der expliziten Lösung der Gleichung gefunden werden können. Dazu zählen Aussagen über den qualitativen Verlauf der Lösung, über mögliche Gleichgewichtslagen und deren Stabilität. Typische Fragen der qualitativen Theorie sind: 1. Welche Gleichgewichtspunkte besitzt die Differentialgleichung $y^{\prime}=f(y)$ ? 2. Wie verhalten sich die Lösungen der Differentialgleichung in der Nähe eines Gleichgewichtspunktes? 3. Wie sieht das globale Lösungsverhalten bzw. das Langzeitverhalten der Lösungen der Differentialgleichung aus? Mit dem in Punkt 1 angesprochenen Begriff Gleichgewicht verbindet man bei Differentialgleichungen - so wie auch bei Differenzengleichungen - eine konstante Lösung und somit einen stationären Zustand des Systems. Definition 7.42 Man nennt $y^{*}$ einen Gleichgewichtspunkt oder stationären Zustand der Differentialgleichung $y^{\prime}=f(y)$, falls $f\left(y^{*}\right)=0$. Im Gleichgewicht gilt also $y^{\prime}=0$, d.h., dass keine Änderung von $y$ stattfindet, sobald der Wert $y=y^{*}$ erreicht ist. Mit jedem Gleichgewichtspunkt ist automatisch eine konstante Lösung $y(x)=y^{*}$ der Differentialgleichung verbunden. Beispiel 7.43 Wir wählen die Differentialgleichung $y^{\prime}=r y(1-y)$. Wegen $$ f(y)=r y(1-y)=0 \Rightarrow y_{1}^{*}=0, y_{2}^{*}=1 $$ gibt es die zwei Gleichgewichtslagen $y_{1}^{*}=0$ sowie $y_{2}^{*}=1$. Somit kennen wir auch zwei konstante Lösungen der Differentialgleichung, nämlich $y=0$ und $y=1$. Jede Lösung, die einmal einen dieser beiden Werte annimmt, wird diesen Wert in alle Zukunft beibehalten. Das Verhalten von Lösungen der Differentialgleichung in der Nähe eines Gleichgewichts gemäß Punkt 2 kommt in der Stabilität des Gleichgewichtspunktes zu Ausdruck. Analog zur Stabilität bei Differenzengleichungen kann ein Gleichgewichtspunkt $y^{*}$ stabil, asymptotisch stabil oder instabil sein. Definition 7.44 (Stabilität von Gleichgewichtslagen) Ein Gleichgewichtspunkt $y^{*}$ der Differentialgleichung $y^{\prime}=f(y)$ heißt stabil, wenn es zu jedem $\varepsilon>0$ ein $\delta(\varepsilon)>0$ gibt, so dass für alle Lösungen $y(x)$ der Gleichung, welche die Bedingung $\left|y\left(x_{0}\right)-y^{*}\right|<\delta(\varepsilon)$ (für ein $x_{0}$ ) erfüllen, $\left|y(x)-y^{*}\right|<\varepsilon$ für alle $x \geq x_{0}$ gilt. Ein Gleichgewichtspunkt $y^{*}$ heißt asymptotisch stabil, wenn es außerdem ein festes $\delta>0$ gibt, so dass für alle $y(x)$ mit $\left|y\left(x_{0}\right)-y^{*}\right|<\delta$ gilt $\lim _{x \rightarrow \infty} y(x)=y^{*}$. Anderfalls heißt $y^{*}$ instabil. Man nennt also den Gleichgewichtspunkt $y^{*}$ stabil, wenn jede Lösung, die einmal nahe genug bei $y^{*}$ liegt, eine beliebig vorgegebene Umgebung von $y^{*}$ nicht mehr verlässt. Gilt dabei, dass jede solche Lösung sogar gegen den Gleichgewichtspunkt $y^{*}$ konvergiert, ist dieser asymptotisch stabil. Während also alle Lösungen einer Differentialgleichung, die sich einmal in der Nähe eines stabilen Gleichgewichtspunktes aufhalten, auch in Zukunft in der Nähe dieses Punktes bleiben oder sogar gegen diesen konvergieren, ist die Situation im Fall eines instabilen Gleichgewichtspunktes eine andere: Hier gibt es stets Lösungen, welche jede Umgebung des Gleichgewichtspunktes verlassen, unabhängig davon, wie nahe sie diesem schon gewesen sein mögen. Die nachstehende Abb. 7.14 veranschaulicht die drei Stabilitätsbegriffe (zur besseren Anschaung in der Ebene). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-314.jpg?height=572&width=718&top_left_y=685&top_left_x=573) Abbildung 7.14 Stabilität von Gleichgewichtslagen Die Bestimmung der Stabilität eines Gleichgewichtspunktes einer autonomen Differentialgleichung $y^{\prime}=f(y)$ (mit stetig differenzierbarer Funktion $f(y)$ ) erfolgt in der Praxis zumeist mit Hilfe des folgenden Satzes. Satz 7.45 Ein Gleichgewichtspunkt $y^{*}$ von $y^{\prime}=f(y)$ ist asymptotisch stabil, falls $f^{\prime}\left(y^{*}\right)<0$, und instabil, falls $f^{\prime}\left(y^{*}\right)>0$ gilt. Beispiel 7.46 (Fortsetzung) Für die Differentialgleichung $y^{\prime}=r y(1-y)$ mit dem Parameter $r>0$ gilt $$ f(y)=r y(1-y) \Rightarrow f^{\prime}(y)=r-2 r y $$ Im Gleichgewichtspunkt $y_{1}^{*}=0$ ist $f^{\prime}(0)=r>0$, so dass $y_{1}^{*}$ instabil ist. Für $y_{2}^{*}=1$ ergibt sich dagegen $f^{\prime}(1)=-r<0$, also ist $y_{2}^{*}$ asymptotisch stabiler Gleichgewichtspunkt. (Im Wachstumsmodell entspricht die Gleichgewichtslage $y_{2}^{*}$ jener Populationsgröße, welche auf Dauer aufrecht erhalten werden kann.) Wir kommen schließlich zur Diskussion des globalen Lösungsverhaltens bzw. des Langzeitverhaltens der Lösungen der Differentialgleichung gemäß Punkt 3. Das Monotonieverhalten der Lösung von $y^{\prime}=f(y)$ ist aus dem Vorzeichen der Funktion $f(y)$ ersichtlich und kann in der $\left(y, y^{\prime}\right)$-Ebene, der so genannten Phasenebene, graphisch dargestellt werden. Die Phasenebene zeigt nicht den Graphen der Lösungsfunktion $y(x)$, d.h. den Verlauf der Funktion $y$ in Abhängigkeit von der Variablen $x$, sondern den Zusammenhang zwischen der Funktion $y$ und ihrer Ableitung $y^{\prime}$. Da $y^{\prime}=f(y)$ die Änderungsrate (z.B. die Wachstumsgeschwindigkeit) von $y(x)$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-315.jpg?height=746&width=943&top_left_y=362&top_left_x=455) Abbildung 7.15 Lösungsverhalten in $\operatorname{der}\left(y, y^{\prime}\right)$-Phasenebene beschreibt, gilt offensichtlich $$ f(y)\left\{\begin{array} { l } { > 0 } \\ { = 0 } \\ { < 0 } \end{array} \quad \Longrightarrow \quad y \text { ist } \left\{\begin{array}{c} \text { wachsend } \\ \text { stationär } \\ \text { fallend. } \end{array}\right.\right. $$ Beispiel 7.47 (Fortsetzung) Das globale Verhalten der Lösungen von $y^{\prime}=f(y)=r y(1-y)$ kann aus Abb. 7.15 abgelesen werden. Da die Funktion $f(y)$ eine nach unten offene Parabel durch die Nullstellen 0 und 1 darstellt, zeigt sich, dass $y(x)$ für alle $y$ mit $01$ fallend ist, so dass der Punkt $y^{*}=1$ nicht nur lokal stabil ist, sondern für alle positiven Startwerte sogar eine global stabile Gleichgewichtslage darstellt. ### 7.8 Partielle Differentialgleichungen Wir betrachten nun partielle Differentialgleichungen, wobei die bereits in Abschnitt 7.5 (Beispiel 7.28) vorgestellte Wärmeleitungsgleichung darunter fällt. Weitere wichtige Gleichungen dieses Typs sind z.B. die Wellengleichung und die Potentialgleichung, welche in diesem Abschnitt behandelt werden. Das gemeinsame Merkmal solcher Gleichungen ist, dass für die Beschreibung der unbekannten Funktion in mehreren Variablen partielle Ableitungen nach diesen Variablen auftreten. Allgemein versteht man also unter einer partiellen Differentialgleichung eine Gleichung der Form $$ F\left(x_{1}, x_{2}, \ldots, x_{n}, u, u_{x_{1}}, u_{x_{2}}, \ldots, u_{x_{n}}, \ldots, \frac{\partial^{m}}{\partial x_{1}^{m_{1}} \cdots \partial x_{n}^{m_{n}}} u\right)=0 $$ in der neben der unbekannten Funktion $u=u\left(x_{1}, \ldots, x_{n}\right)$ in $n$ Variablen auch partielle Ableitungen $u_{x_{i}}=\frac{\partial u}{\partial x_{i}}, u_{x_{i} x_{j}}=\frac{\partial^{2} u}{\partial x_{i} x_{j}}, \ldots$ auftreten. Die Ordnung der Differentialgleichung ist die höchste tatsächlich auftretende Ableitungsordnung $m=m_{1}+\cdots+m_{n}$. Unter einer Lösung obiger Differentialgleichung auf einem Gebiet $G \subseteq \mathbb{R}^{n}$ versteht man eine Funktion $u: G \rightarrow \mathbb{R}$, welche partielle Ableitungen bis zur $m$-ten Ordnung besitzt und die partielle Differentialgleichung für alle Punkte $\left(x_{1}, \ldots, x_{n}\right) \in G$ erfüllt. ## Beispiel 7.48 (a) Wir betrachten die partielle Differentialgleichung 2. Ordnung $u_{x x}=0$ für eine Funktion $u(x, y)$ in zwei Variablen. Integration nach $x$ liefert zunächst $u_{x}=c(y)$, wobei $c(y)$ eine nur von $y$ abhängige Funktion bezeichnet. Nochmalige Integration liefert die allgemeine Lösung $u(x, y)=c(y) x+d(y)$ der Differentialgleichung mit zwei beliebigen, nur von $y$ abhängigen Funktionen $c(y)$ und $d(y)$. (b) Die partielle Differentialgleichung 2. Ordnung $u_{x y}=0$ für $u(x, y)$ liefert durch Integration nach $y$ die Gleichung $u_{x}=\tilde{c}(x)$ mit einer beliebigen Funktion $\tilde{c}(x)$. Integration nach $x$ liefert nun die allgemeine Lösung $u(x, y)=\int \tilde{c}(x) d x+d(y)=c(x)+d(y)$ mit beliebigen (differenzierbaren) Funktionen $c(x)$ und $d(y)(c(x)$ ist eine beliebige Stammfunktion von $\tilde{c}(x)$ ). Im Gegensatz zu gewöhnlichen Differentialgleichungen treten in der allgemeinen Lösung von partiellen Differentialgleichungen nun Funktionen statt Konstanten auf. Dies macht es für partielle Differentialgleichungen oft sehr schwierig, eine Partikulärlösung zu bestimmen, welche vorgegebene Nebenbedingungen erfüllt, selbst wenn eine allgemeine Lösung der Gleichung bekannt ist. Je nach Art der Nebenbedingungen unterscheidet man verschiedene Typen. Nachfolgend werden bei partiellen Differentialgleichungen für eine unbekannte Funktion $u$ in zwei Variablen einige für die Praxis wichtige Typen angeführt. - Anfangsbedingungen: Für eine Funktion $u(x, t)$ sind zum Zeitpunkt $t_{0}$ das „Anfangsprofil“ $f(x)$ und die „Anfangsgeschwindigkeit“ $g(x)$ für alle $x \in \mathbb{R}$ vorgegeben: $$ u\left(x, t_{0}\right)=f(x), \quad u_{t}\left(x, t_{0}\right)=g(x) $$ - Rand-Anfangswert-Problem: Hier ist das Anfangswertproblem nur für ein Intervall, also für $x \in[a, b]$ erklärt. Zusätzlich zu den Anfangswerten $u\left(x, t_{0}\right)$ und $u_{t}\left(x, t_{0}\right)$ zum Zeitpunkt $t_{0}$ sind dann noch Randwerte $u(a, t)$ und $u(b, t)$ für alle Zeitpunkte $t \geq t_{0}$ vorgegeben, das heißt: $$ \begin{aligned} & u\left(x, t_{0}\right)=f(x), \quad u_{t}\left(x, t_{0}\right)=g(x), \quad \text { für } a \leq x \leq b, \\ & u(a, t)=h(t), \quad u(b, t)=k(t), \quad \text { für } t \geq t_{0} . \end{aligned} $$ - Dirichlet-Bedingungen: Hier ist die Differentialgleichung für $u(x, y)$ nur im Inneren eines beschränkten Gebietes $G \subseteq R^{2}$ erklärt, und zusätzlich wird die Forderung gestellt, dass die Lösung $u(x, y)$ auf dem Rand $\partial G$ von $G$ die Werte einer vorgegebenen Funktion $f(x, y)$ annehmen muss: $$ u(x, y)=f(x, y), \text { für alle }(x, y) \in \partial G $$ Unter dem Rand $\partial M$ einer Menge $M \subseteq \mathbb{R}^{2}$ versteht man dabei die Menge von Punkten $(x, y) \in \mathbb{R}^{2}$, für die gilt, dass jede ihrer offenen Umgebungen sowohl Punkte aus $M$ als auch Punkte, die nicht in $M$ liegen, enthält. In etwas abgewandelter Form nent man solche Bedingungen auch Cauchy-Bedingungen, wobei man fordert, dass die Lösung $z=u(x, y)$ durch eine vorgegeben Raumkurve $\gamma \in \mathbb{R}^{3}$ gehen muss. Beispiele für die angeführten Typen von Nebenbedingungen werden im Laufe dieses Abschnittes noch angegeben. ## 1. Beispiele für explizit lösbare partielle Differentialgleichungen Für bestimmte Typen partieller Differentialgleichungen lässt sich eine allgemeine Lösung bestimmen, indem man durch eine einfache Variablensubstitution die Gleichung vereinfacht, anschließend die entstehende Gleichung löst und danach wieder rücksubstituiert. Wir betrachten zunächst lineare partielle Differentialgleichungen erster Ordnung mit konstanten Koeffizienten und illustrieren das Lösungsverfahren an Hand des Falls von 2 Variablen. Das Verfahren lässt sich aber leicht auf den allgemeinen Fall von $n$ Variablen ausdehnen (der Fall von 3 Variablen wird mit Anleitung in einer Übungsaufgabe gestellt). In einer solchen Differentialgleichung, welche die Gestalt $$ a u_{x}+b u_{y}=f(x, y), \quad a, b \in \mathbb{R} $$ mit einer unbekannten Funktion $u(x, y)$ und mit einer vorgegebenen Funktion $f(x, y)$ hat, dürfen wir $a \neq 0$ und $b \neq 0$ voraussetzen, da sich sonst die Gleichung durch einfache Integration lösen lässt. Wir substituieren nun die Variablen $(x, y)$ durch Variablen $(\xi, \eta)$, welche wir folgendermaßen definieren: $$ \xi=b x+a y, \quad \eta=b x-a y $$ woraus $x=\frac{\xi+\eta}{2 b}$ und $y=\frac{\xi-\eta}{2 a}$ folgt. Wir definieren nun weiters Funktionen $U(\xi, \eta)$ und $F(\xi, \eta)$ durch $$ U(\xi, \eta)=u\left(\frac{\xi+\eta}{2 b}, \frac{\xi-\eta}{2 a}\right)=u(x, y), \quad F(\xi, \eta)=f\left(\frac{\xi+\eta}{2 b}, \frac{\xi-\eta}{2 a}\right)=f(x, y) $$ Unter Beachtung der Kettenregel für die partiellen Ableitungen zusammengesetzter Funktionen erhalten wir nun aus Gleichung (7.13) die folgende einfachere partielle Differentialgleichung für $U(\xi, \eta)$ : $$ \begin{aligned} F(\xi, \eta) & =f(x, y)=a u_{x}+b u_{y}=a\left(U_{\xi} \xi_{x}+U_{\eta} \eta_{x}\right)+b\left(U_{\xi} \xi_{y}+U_{\eta} \eta_{y}\right) \\ & =a\left(b U_{\xi}+b U_{\eta}\right)+b\left(a U_{\xi}-a U_{\eta}\right)=2 a b U_{\xi} \end{aligned} $$ Die Differentialgleichung (7.14) lässt sich nun durch einfache Integration lösen und liefert als allgemeine Lösung: $$ U(\xi, \eta)=\frac{1}{2 a b} \int F(\xi, \eta) d \xi+G(\eta) $$ mit einer beliebigen nur von $\eta$ abhängigen Funktion $G(\eta)$. Rücksubstitution liefert nun sofort auch die allgemeine Lösung der ursprünglichen Differentialgleichung (7.13): $$ u(x, y)=\frac{1}{2 a b} \int_{b x_{0}+a y_{0}}^{b x+a y} F(\xi, b x-a y) d \xi+G(b x-a y) $$ mit gewähltem Anfangspunkt $\left(x_{0}, y_{0}\right)$ und einer beliebigen differenzierbaren Funktion $G$ in einer Variablen. Beispiel 7.49 Wir betrachten die Differentialgleichung $$ 3 u_{x}-2 u_{y}=\sin (x+y) $$ Die Substitution $\xi=-2 x+3 y, \eta=-2 x-3 y$ liefert für die Funktionen $U(\xi, \eta)=u\left(\frac{\xi+\eta}{-4}, \frac{\xi-\eta}{6}\right)$ und $F(\xi, \eta)=f\left(\frac{\xi+\eta}{-4}, \frac{\xi-\eta}{6}\right)$ die Gleichung $$ -12 U_{\xi}=\sin \left(-\frac{\xi}{12}-\frac{5 \eta}{12}\right) $$ Die allgemeine Lösung für $U(\xi, \eta)$ ist somit gegeben durch $$ U(\xi, \eta)=-\frac{1}{12} \int \sin \left(-\frac{\xi}{12}-\frac{5 \eta}{12}\right) d \xi+G(\eta)=-\cos \left(-\frac{\xi}{12}-\frac{5 \eta}{12}\right)+G(\eta) . $$ Rücksubstitution liefert dann die allgemeine Lösung der Differentialgleichung (7.16), wobei $G$ eine beliebige differenzierbare Funktion $G$ in einer Variablen bezeichnet: $$ u(x, y)=-\cos (x+y)+G(-2 x-3 y) $$ Weiters betrachten wir die eindimensionale Wellengleichung, welche bestimmte Schwingungsvorgänge (Ausbreitung von Schwingungen in homogenen elastischen Medien) beschreibt. Diese lineare partielle Differentialgleichung für eine unbekannte Funktion $u(x, t)$ der Zeit $t$ und des Ortes $x$ ist gegeben durch: $$ u_{t t}-c^{2} u_{x x}=f(x, y) \text {, für ein reelles } c>0 \text {. } $$ Dabei beschreibt $c$ die Ausbreitungsgeschwindigkeit der Welle und $f(x, t)$ den Einfluss äußerer Kräfte. Wie auch bei gewöhnlichen Differentialgleichungen, setzt sich die allgemeine Lösung einer inhomogenen linearen partiellen Differentialgleichung aus einer Partikulärlösung $u^{[p]}$ und der allgemeinen Lösung $u^{[h]}$ der entsprechenden homogenen partiellen Differentialgleichung $$ u_{t t}=c^{2} u_{x x} $$ zusammen. Die Wellengleichung (7.17) lässt sich nun durch den Lösungsansatz nach D'Alembert, d.h. mit der Substitution $$ \xi=x-c t, \quad \tau=x+c t $$ behandeln, woraus $x=\frac{\xi+\tau}{2}$ und $t=\frac{\xi-\tau}{-2 c}$ folgt. Definieren wir weiters $$ U(\xi, \tau)=u\left(\frac{\xi+\tau}{2}, \frac{\xi-\tau}{-2 c}\right)=u(x, t), \quad F(\xi, \tau)=f\left(\frac{\xi+\tau}{2}, \frac{\xi-\tau}{-2 c}\right)=f(x, t) $$ so erhalten wir unter Beachtung der Kettenregel die Beziehungen $$ u_{t t}=c^{2}\left(U_{\xi \xi}-2 U_{\xi \tau}+U_{\tau \tau}\right), \quad u_{x x}=U_{\xi \xi}+2 U_{\xi \tau}+U_{\tau \tau} $$ Daraus erhält man $$ u_{t t}-c^{2} u_{x x}=-4 c^{2} U_{\xi \tau}=F(\xi, \tau)=f(x, t) $$ und somit für $U(\xi, \tau)$ folgende einfachere Differentialgleichung: $$ U_{\xi \tau}=-\frac{1}{4 c^{2}} F(\xi, \tau) $$ Eine Partikulärlösung $U^{[p]}(\xi, \tau)$ der Differentialgleichung (7.19) erhält man nun einfach durch zweimaliges Integrieren: $$ U^{[p]}(\xi, \tau)=-\iint \frac{1}{4 c^{2}} F(\xi, \tau) d \xi d \tau $$ Rücksubstitution liefert somit die Partikulärlösung $$ u^{[p]}(x, t)=-\frac{1}{4 c^{2}} \int_{x_{0}+c t_{0}}^{x+c t} \int_{x_{0}-c t_{0}}^{x-c t} F(\xi, \tau) d \xi d \tau $$ mit wählbaren Anfangskoordinaten $\left(x_{0}, t_{0}\right)$. Um die allgemeine Lösung der zugehörigen homogenen Differentialgleichung (7.18) zu erhalten, braucht man nun nur noch die entsprechende Differentialgleichung für $U(\xi, \tau)$ zu betrachten: $U_{\xi \tau}=0$. Die allgemeine Lösung dieser Gleichung wurde bereits in Beispiel 7.48 angegeben, und man erhält: $U^{[h]}(\xi, \tau)=g(\xi)+h(\tau)$. Rücksubstitution liefert somit die allgemeine Lösung der homogenen eindimensionalen Wellengleichung (7.18): $$ u^{[h]}(x, t)=g(x-c t)+h(x+c t) $$ mit beliebigen differenzierbaren Funktionen $g, h$ in einer Variablen. Die allgemeine Lösung (7.21) stellt eine Überlagerung von zwei sich in entgegengesetzte Richtungen mit konstanter Geschwindingkeit $c$ ausbreitenden Wellen dar, deren Anfangsprofile zum Zeitpunkt $t=0$ durch $g(x)$ und $h(x)$ gegeben sind (siehe Abb. 7.16). Die allgemeine Lösung der inhomogenen Wellengleichung (7.17) erhält man aus Addition von $(7.20)$ und (7.21): $$ u(x, t)=-\frac{1}{4 c^{2}} \int_{x_{0}+c t_{0}}^{x+c t} \int_{x_{0}-c t_{0}}^{x-c t} F(\xi, \tau) d \xi d \tau+g(x-c t)+h(x+c t) $$ Wir betrachten weiters die homogene Wellengleichung (7.18) zusammen mit vorgegebenen Anfangsbedingungen zum Zeitpunkt $t=0$ : $$ u_{t t}=c^{2} u_{x x}, \quad u(x, 0)=\varphi(x), \quad u_{t}(x, 0)=\psi(x), $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-320.jpg?height=588&width=1007&top_left_y=255&top_left_x=434) Abbildung 7.16 Lösungen der homogenen Wellengleichung sind die Überlagerungen zweier gegenläufiger Wellen mit $c>0$ und Funktionen $\varphi(x)$ und $\psi(x)$. Wir wollen nun in der allgemeinen Lösung (7.21) dieser Gleichung die Funktionen $g$ und $h$ so bestimmen, dass die Anfangsbedingungen erfüllt werden. Durch Einsetzen dieser Bedingungen in die allgemeine Lösung (7.21) erhalten wir die folgenden Gleichungen: $$ \begin{aligned} u(x, 0) & =\varphi(x)=g(x)+h(x) \\ u_{t}(x, 0) & =\psi(x)=c\left(h^{\prime}(x)-g^{\prime}(x)\right) \end{aligned} $$ Durch Integration von Gleichung (7.24b) erhält man weiters: $$ h(x)-g(x)=\frac{1}{c} \int_{x_{0}}^{x} \psi(\xi) d \xi+K $$ mit einem gewählten Anfangspunkt $x_{0}$ und einer Konstanten $K$. Addiert bzw. Subtrahiert man die beiden Gleichungen (7.24a) und (7.25), so erhält man sofort die Lösungen $$ h(x)=\frac{1}{2} \varphi(x)+\frac{1}{2 c} \int_{x_{0}}^{x} \psi(\xi) d \xi+\frac{K}{2}, \quad g(x)=\frac{1}{2} \varphi(x)-\frac{1}{2 c} \int_{x_{0}}^{x} \psi(\xi) d \xi-\frac{K}{2} $$ Einsetzen der Formeln (7.26) für $g(x)$ und $h(x)$ in die allgemeine Lösung (7.21) liefert somit die Lösung der homogenen eindimensionalen Wellengleichung zu den gegebenen Anfangsbedingungen, welche als Lösungsformel von D'Alembert bezeichnet wird: $$ \begin{aligned} u(x, t) & =\frac{1}{2}(\varphi(x+c t)+\varphi(x-c t))+\frac{1}{2 c}\left(\int_{x_{0}}^{x+c t} \psi(\xi) d \xi-\int_{x_{0}}^{x-c t} \psi(\xi) d \xi\right) \\ & =\frac{1}{2}(\varphi(x+c t)+\varphi(x-c t))+\frac{1}{2 c} \int_{x-c t}^{x+c t} \psi(\xi) d \xi . \end{aligned} $$ Der erste Summand von (7.27) beschreibt den Einfluss der Anfangslage, wohingegen der zweite Summand die Anfangsgeschwindigkeit berücksichtigt. Aus dieser Formel ist weiters ersichtlich, dass die Lösung im Punkt $(x, t)$ nur von der Anfangslage und der Anfangsgeschwindigkeit im Intervall $[x-c t, x+c t]$ abhängt. ## 2. Lineare und quasilineare partielle Differentialgleichungen erster Ordnung Lineare partielle Differentialgleichungen erster Ordnung für eine unbekannte Funktion $u\left(x_{1}, \ldots, x_{n}\right)$ in $n$ Variablen haben die Gestalt $$ \begin{aligned} a_{1}\left(x_{1}, \ldots, x_{n}\right) u_{x_{1}}+a_{2}\left(x_{1}, \ldots, x_{n}\right) u_{x_{2}}+\ldots & +a_{n}\left(x_{1}, \ldots, x_{n}\right) u_{x_{n}} \\ & +c\left(x_{1}, \ldots, x_{n}\right) u+d\left(x_{1}, \ldots, x_{n}\right)=0 \end{aligned} $$ mit vorgegebenen Funktionen $a_{1}\left(x_{1}, \ldots, x_{n}\right), \ldots, a_{n}\left(x_{1}, \ldots, x_{n}\right), c\left(x_{1}, \ldots, x_{n}\right), d\left(x_{1}, \ldots, x_{n}\right)$. Um ein Lösungsverfahren für lineare partielle Differentialgleichungen erster Ordnung zu beschreiben, werden wir zunächst Systeme von gewöhnlichen linearen Differentialgleichungen 1. Ordnung für gekoppelte Größen $x_{1}(t), \ldots, x_{n}(t)$ betrachten. Die Ableitung $\dot{x}_{i}(t)=x_{i}^{\prime}(t)=$ $\frac{d x_{i}(t)}{d t}$ der Größe $x_{i}(t)$ hängt dabei von $t$ und $x_{1}(t), \ldots, x_{n}(t) \mathrm{ab}^{4}$. Ein $n$-dimensionales Differentialgleichungssystem 1. Ordnung hat daher die folgende Gestalt: $$ \begin{array}{cc} \dot{x}_{1} & =v_{1}\left(t, x_{1}, \ldots, x_{n}\right), \\ \vdots & \vdots \\ \dot{x}_{n} & =v_{n}\left(t, x_{1}, \ldots, x_{n}\right), \end{array} $$ mit Funktionen $v_{i}: D \subseteq \mathbb{R}^{n+1} \rightarrow \mathbb{R}$, für $1 \leq i \leq n$. Zum Anschreiben solcher Systeme verwendet man meist die Vektornotation: $$ \dot{\boldsymbol{x}}=\boldsymbol{v}(t, \boldsymbol{x}), \quad \text { mit } \quad \boldsymbol{x}=\left(x_{1}, \ldots, x_{n}\right), \quad \boldsymbol{v}=\left(v_{1}, \ldots, v_{n}\right) . $$ Die Lösungen des Systems (7.29) sind dann vektorwertige Funktionen $x: I \subseteq \mathbb{R} \rightarrow \mathbb{R}^{n}$, also Lösungskurven. Gibt man als Nebenbedingung noch den Anfangswert $\boldsymbol{x}_{0} \in \mathbb{R}^{n}$ zum Anfangszeitpunkt $t_{0}$ vor, das heißt, die Lösungskurve soll für $t=t_{0}$ durch einen vorgegebenen Punkt $x_{0}$ gehen, so erhält man das Anfangswertproblem $$ \dot{\boldsymbol{x}}=\boldsymbol{v}(t, \boldsymbol{x}), \quad \boldsymbol{x}\left(t_{0}\right)=\boldsymbol{x}_{0} $$ Wir formulieren nun ohne Beweis eine Erweiterung des Existenz- und Eindeutigkeitssatzes von Anfangswertproblemen für Differentialgleichungen erster Ordnung auf Systeme von linearen Differentialgleichungen erster Ordnung. Satz 7.50 (Existenz- und Eindeutigkeitssatz für Differentialgleichungssysteme) Ist das Vektorfeld $\boldsymbol{v}(t, x)$ für $a0$ ist wegen $d=-c^{2}<0$ eine hyperbolische Differentialgleichung auf ganz $\mathbb{R}^{2}$. (b) Die eindimensionale Wärmeleitungsgleichung (auch Diffusionsgleichung genannt) $$ u_{t}=\alpha^{2} u_{x x} $$ mit $\alpha>0$ ist wegen $d=0$ eine parabolische Differentialgleichung auf ganz $\mathbb{R}^{2}$. Sie beschreibt z.B. die Temperaturverteilung $u(x, t)$ zum Zeitpunkt $t$ im Punkt $x$ in einem langen dünnen Stab. (c) Die Potentialgleichung (auch Laplace-Gleichung genannt) $$ u_{x x}+u_{y y}=0 $$ welche die Potentialverteilung eines ebenen elektrostatischen Potentials beschreibt, ist wegen $d=1>0$ eine elliptische Differentialgleichung auf ganz $\mathbb{R}^{2}$. Diese Gleichung wird auch häufig als $$ \Delta u=0 $$ angeschrieben, wobei $\Delta$ den so genannten Laplace-Operator $\Delta=\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}$ bezeichnet. Selbstverständlich ist auch die so genannte Poisson-Gleichung $$ \Delta u=u_{x x}+u_{y y}=f(x, y) $$ mit einer vorgegebenen Funktion $f(x, y)$ auf ganz $\mathbb{R}^{2}$ elliptisch. (d) Es gibt auch Differentialgleichungen vom gemischten Typ, die je nach betrachtetem Gebiet $D$ von unterschiedlichem Typ sind. Ein Beispiel hierfür ist die Tricomi-Gleichung $$ u_{y y}-y u_{x x}=0 $$ welche wegen $d=-y$ für $y>0$ hyperbolisch, für $y=0$ parabolisch und für $y<0$ elliptisch ist. Wir beschreiben im Folgenden die Reduktion einer quasilinearen Differentialgleichung zweiter Ordnung (7.61) auf so genannte Normalformen, welche z.B. nützlich sind, um das qualitative Verhalten der Lösungen (also beispielsweise die Stabilität von Lösungen) zu studieren. Diese Reduktion auf Normalformen wird erreicht, indem man geeignete Koordinatentransformationen $$ \xi=\xi(x, y), \quad \eta=\eta(x, y) $$ durchführt, wobei man fordert, dass die Transformation stetig differenzierbar und invertierbar ist, das heißt, dass die Jacobi-Determinante von Null verschieden ist: $\left|\begin{array}{cc}\xi_{x} & \xi_{y} \\ \eta_{x} & \eta_{y}\end{array}\right|=\xi_{x} \eta_{y}-\xi_{y} \eta_{x} \neq 0$. Wir wählen den Ansatz $\xi=\xi(x, y), \eta=\eta(x, y)$ und definieren $U(\xi, \eta)=u(x, y)$. Unter Verwendung der Kettenregel $u_{x}=U_{\xi} \xi_{x}+U_{\eta} \eta_{x}, u_{y}=U_{\xi} \xi_{y}+U_{\eta} \eta_{y}$, etc. erhält man aus Gleichung (7.61) für $u(x, y)$ die folgende Differentialgleichung für $U(\xi, \eta)$, wobei wir immer abkürzend $A=A\left(x, y, u, u_{x}, u_{y}\right)$, etc. und $a=a\left(\xi, \eta, U, U_{\xi}, U_{\eta}\right)$, etc. schreiben: $$ a U_{\xi \xi}+2 b U_{\xi \eta}+c U_{\eta \eta}=f\left(\xi, \eta, U, U_{\xi}, U_{\eta}\right) $$ mit einer bestimmten Funktion $f\left(\xi, \eta, U, U_{\xi}, U_{\eta}\right)$ und den Funktionen $$ \begin{aligned} & a=A \xi_{x}^{2}+2 B \xi_{x} \xi_{y}+C \xi_{y}^{2} \\ & b=A \xi_{x} \eta_{x}+B\left(\xi_{x} \eta_{y}+\eta_{x} \xi_{y}\right)+C \xi_{y} \eta_{y} \\ & c=A \eta_{x}^{2}+2 B \eta_{x} \eta_{y}+C \eta_{y}^{2} \end{aligned} $$ Es lässt sich leicht nachweisen, dass die beiden Differentialgleichungen (7.61) und (7.63) immer vom gleichen Typ sind. Wir nehmen im Folgenden an, dass $A \neq 0$ gilt. Falls $A=0$ und $C \neq 0$ ist, werden die Rollen von $x$ und $y$ miteinander vertauscht. Wenn $A=C=0$ gilt, liegt bereits eine hyperbolische Differentialgleichung in Normalform vor, wie wir später sehen werden. Um geeignete Transformationen $\xi=\xi(x, y)$ und $\eta=\eta(x, y)$ zu bestimmen, betrachten wir nun die Differentialgleichung $$ A z_{x}^{2}+2 B z_{x} z_{y}+C z_{y}^{2}=0 $$ welche als charakteristische Differentialgleichung der quasilinearen Differentialgleichung 2. Ordnung (7.61) bezeichnet wird. Die Lösungen von (7.64) werden Charakteristiken der Gleichung (7.61) genannt. Löst man in Gleichung (7.64) nach $z_{x}$ auf, liefert dies $$ z_{x}=\frac{-2 B z_{y} \pm \sqrt{4 B^{2} z_{y}^{2}-4 A C z_{y}^{2}}}{2 A}=\left(-\frac{B}{A} \pm \frac{1}{A} \sqrt{B^{2}-A C}\right) \cdot z_{y} $$ In faktorisierter Form lautet (7.64) also $$ \left(z_{x}+\left(\frac{B}{A}+\frac{1}{A} \sqrt{B^{2}-A C}\right) z_{y}\right) \cdot\left(z_{x}+\left(\frac{B}{A}-\frac{1}{A} \sqrt{B^{2}-A C}\right) z_{y}\right)=0 $$ Es ergeben sich nun je nach Vorzeichen der Diskriminante $A C-B^{2}$ und somit je nach Typ der Differentialgleichung folgende drei Fälle: (a) hyperbolische Differentialgleichung: $A C-B^{2}<0$. In diesem Fall kann man die beiden Faktoren von (7.65) getrennt betrachten und die folgenden beiden RumpfDifferentialgleichungen studieren: $$ \begin{aligned} & A z_{x}+\left(B+\sqrt{B^{2}-A C}\right) z_{y}=0 \\ & A z_{x}+\left(B-\sqrt{B^{2}-A C}\right) z_{y}=0 \end{aligned} $$ Man wählt nun für die Substitution $\xi=\xi(x, y)$ eine Lösung der Differentialgleichung (7.66a) und für $\eta=\eta(x, y)$ eine Lösung der Differentialgleichung (7.66b). Durch diese Wahl folgt sofort, dass die Koeffizienten $a$ und $c$ in Gleichung (7.63) verschwinden. Dividiert man in (7.63) nun noch durch $2 b$, so erhält man die Normalform für hyperbolische Differentialgleichungen in der Gestalt $$ U_{\xi \eta}=g\left(\xi, \eta, U, U_{\xi}, U_{\eta}\right) $$ (b) parabolische Differentialgleichung: $A C-B^{2}=0$. In diesem Fall sind die beiden Faktoren von (7.65) gleich und liefern die Rumpf-Differentialgleichung $$ A z_{x}+B z_{y}=0 $$ Man wählt nun für die Substitution $\xi=\xi(x, y)$ eine Lösung der Differentialgleichung (7.68), wohingegen man für $\eta=\eta(x, y)$ eine beliebige Funktion wählt, so dass aber die Koordinatentransformation stetig differenzierbar und invertierbar ist. Durch diese Wahl von $\xi$ folgt sofort, dass der Koeffizient $a$ in Gleichung (7.63) verschwindet. Wegen $C=\frac{B^{2}}{A}$ und $b=A\left(\xi_{x}+\frac{B}{A} \xi_{y}\right)\left(\eta_{x}+\frac{B}{A} \eta_{y}\right)=0$ verschwindet aber auch der Koeffizient $b$, und man erhält nach Division durch $c$ aus Gleichung (7.63) die Normalform für parabolische Differentialgleichungen in der Gestalt $$ U_{\eta \eta}=g\left(\xi, \eta, U, U_{\xi}, U_{\eta}\right) $$ (c) elliptische Differentialgleichung: $A C-B^{2}>0$. Hier existieren keine reellen Lösungen der charakteristischen Differentialgleichung (7.65). Man kann aber die komplexwertige Lösung $z(x, y)=\varphi(x, y)+i \psi(x, y)$ der Rumpf-Differentialgleichung $$ A z_{x}+\left(B+\sqrt{B^{2}-A C}\right) z_{y}=0 $$ betrachten und die Substitutionen $\xi=\varphi(x, y)$ und $\eta=\psi(x, y)$ durchführen. Man wählt also für die Koordinatentransformation den Realteil und den Imaginärteil der komplexen Charakteristik $z(x, y)$. Aus Gleichung (7.70) folgt natürlich, dass $$ A z_{x}^{2}+2 B z_{x} z_{y}+C z_{y}^{2}=0 \text { und } A \bar{z}_{x}^{2}+2 B \bar{z}_{x} \bar{z}_{y}+C \bar{z}_{y}^{2}=0 $$ gilt, wobei $\bar{z}(x, y)=\varphi(x, y)-i \psi(x, y)$ die zu $z(x, y)$ konjugiert komplexe Funktion bezeichnet. Man rechnet nun leicht nach, dass der Koeffizient $b$ in (7.63) verschwindet: $$ \begin{aligned} b= & A \xi_{x} \eta_{x}+B\left(\xi_{x} \eta_{y}+\eta_{x} \xi_{y}\right)+C \xi_{y} \eta_{y} \\ = & A\left(\frac{z+\bar{z}}{2}\right)_{x}\left(\frac{z-\bar{z}}{2 i}\right)_{x}+B\left(\left(\frac{z+\bar{z}}{2}\right)_{x}\left(\frac{z-\bar{z}}{2 i}\right)_{y}+\left(\frac{z+\bar{z}}{2}\right)_{y}\left(\frac{z-\bar{z}}{2 i}\right)_{x}\right) \\ & +C\left(\frac{z+\bar{z}}{2}\right)_{y}\left(\frac{z-\bar{z}}{2 i}\right)_{y} \\ = & \frac{1}{4 i}\left(A\left(z_{x}^{2}-\bar{z}_{x}^{2}\right)+2 B\left(z_{x} z_{y}-\bar{z}_{x} \bar{z}_{y}\right)+C\left(z_{y}^{2}-\bar{z}_{y}^{2}\right)\right) \\ = & \frac{1}{4 i}\left(\left(A z_{x}^{2}+2 B z_{x} z_{y}+C z_{y}^{2}\right)-\left(A \bar{z}_{x}^{2}+2 B \bar{z}_{x} \bar{z}_{y}+C \bar{z}_{y}^{2}\right)\right)=0 . \end{aligned} $$ Analog weist man nach, dass in (7.63) die Beziehung $a=c$ gilt. Nach Division durch $a$ erhält man somit aus Gleichung (7.63) die Normalform für elliptische Differentialgleichungen der Gestalt $$ U_{\xi \xi}+U_{\eta \eta}=g\left(\xi, \eta, U, U_{\xi}, U_{\eta}\right) $$ Beispiel 7.61 Wir betrachten die Differentialgleichung $$ u_{x x}+4 x u_{x y}+5 x^{2} u_{y y}=0 $$ für ein Gebiet $D$ mit $x>0$. Da $A C-B^{2}=x^{2}>0$ ist, liegt in $D$ eine elliptische Differentialgleichung vor. Dies liefert die charakteristische Gleichung $$ z_{x}^{2}+4 x z_{x} z_{y}+5 x^{2} z_{y}^{2}=\left(z_{x}+\left(2 x+\sqrt{4 x^{2}-5 x^{2}}\right) z_{y}\right)\left(z_{x}+\left(2 x-\sqrt{4 x^{2}-5 x^{2}}\right) z_{y}\right)=0 $$ Die daraus entstehende Rumpf-Differentialgleichung $$ z_{x}+(2-i) x z_{y}=0 $$ lässt sich mit der Methode der Charakteristiken leicht lösen: eine komplexwertige Lösung dieser Gleichung ist gegeben durch $$ z(x, y)=y-x^{2}+i \frac{x^{2}}{2} $$ Wir wählen daher als Koordinatentransformation $$ \xi(x, y)=y-x^{2}, \quad \eta(x, y)=\frac{x^{2}}{2} $$ und definieren $U(\xi, \eta)=u(x, y)$. Ableiten nach der Kettenregel liefert dann die folgenden partiellen Ableitungen: $$ u_{x x}=4 x^{2} U_{\xi \xi}-4 x^{2} U_{\xi \eta}+x^{2} U_{\eta \eta}+U_{\eta}-2 U_{\xi}, \quad u_{x y}=-2 x U_{\xi \xi}+x U_{\xi \eta}, \quad u_{y y}=U_{\xi \xi} $$ Einsetzen in die Differentialgleichung (7.72) liefert dann die Gleichung $$ x^{2} U_{\xi \xi}+x^{2} U_{\eta \eta}+U_{\eta}-2 U_{\xi}=0 $$ und somit die Normalform $$ U_{\xi \xi}+U_{\eta \eta}=\frac{2 U_{\xi}-U_{\eta}}{2 \eta} $$ Wir wollen nun noch ein Lösungsverfahren vorstellen, welches für eine Reihe von wichtigen partiellen Differentialgleichungen verwendet werden kann. Wir beschränken uns bei der Darstellung auf Gleichungen für eine Funktion $u(x, y)$ in zwei Variablen, die Methode lässt sich aber in bestimmten Fällen auch für Gleichungen in mehreren Variablen anwenden. Dabei wählt man für die Lösung der gegebenen partiellen Differentialgleichung einen so genannten Bernoulli'schen Produktansatz (auch Separationsansatz, Trennungsansatz oder nur Produktansatz genannt) $$ u(x, y)=X(x) \cdot Y(y) $$ mit genügend oft differenzierbaren Funktionen $X(x)$ und $Y(y)$. Man trachtet also danach, eine multiplikative Trennung der Variablen herbeizuführen, weswegen diese Methode auch Trennung der Variablen oder Separation der Variablen genannt wird. Wir illustrieren diese Methode an Hand der homogenen linearen partiellen Differentialgleichung 2. Ordnung, welche man durch geeignete Koordinatentransformation immer auf folgende Gestalt bringen kann: $$ a(x, y) u_{x x}+c(x, y) u_{y y}+d(x, y) u_{x}+e(x, y) u_{y}+f(x, y) u=0 $$ Der Ansatz $u(x, y)=X(x) Y(y)$ liefert dann durch Einsetzen die Gleichung $$ a X^{\prime \prime} Y+c X Y^{\prime \prime}+d X^{\prime} Y+e X Y^{\prime}+f X Y=0 $$ Entscheidend für das Gelingen des Ansatzes ist nun die Annahme, dass auch in den Koeffizientenfunktionen $a=a(x, y)$, etc. eine Variablentrennung möglich ist, so dass man nach eventueller Division durch eine Funktion $\varphi(x, y) \neq 0$ eine Gleichung folgender Gestalt erhält: $$ a_{1}(x) X^{\prime \prime} Y+b_{1}(Y) X Y^{\prime \prime}+a_{2}(x) X^{\prime} Y+b_{2}(y) X Y^{\prime}+\left(a_{3}(x)+b_{3}(y)\right) X Y=0 . $$ Die Variablen lassen sich nun nach Division durch $X Y$ vollständig trennen, und man erhält die Gleichung $$ a_{1}(x) \frac{X^{\prime \prime}}{X}+a_{2}(x) \frac{X^{\prime}}{X}+a_{3}(x)=-\left(b_{1}(y) \frac{Y^{\prime \prime}}{Y}+b_{2}(y) \frac{Y^{\prime}}{Y}+b_{3}(y)\right) $$ Da die linke Seite von Gleichung (7.73) nicht von $y$ abhängt, d.h. konstant in $y$ ist, kann auch in der rechten Seite von (7.73) keine Abhängigkeit von $y$ bestehen. Das bedeutet, dass die rechte Seite und somit auch die linke Seite von (7.73) gleich einer Konstanten $\lambda \in \mathbb{C}$ sein müssen. Daraus folgt weiter, dass die Ansatzfunktion $u(x, y)=X(x) Y(y)$ unter den gemachten Voraussetzungen genau dann eine Lösung der gegebenen Differentialgleichung ist, wenn $X(x)$ und $Y(y)$ die folgenden linearen gewöhnlichen Differentialgleichungen 2. Ordnung erfüllen: $$ a_{1} X^{\prime \prime}+a_{2} X^{\prime}+\left(a_{3}-\lambda\right) X=0, \quad b_{1} Y^{\prime \prime}+b_{2} Y^{\prime}+\left(b_{3}+\lambda\right) Y=0 \quad \text { mit } \lambda \in \mathbb{C} . $$ Falls zusätzlich noch Nebenbedingungen vorgegeben sind, ist die Separationsmethode nur dann anwendbar, wenn diese Bedingungen von einer Gestalt sind, dass sie sich in Bedingungen für die Variable $x$ und in solche für die Variable $y$,trennen lassen". Falls Randbedingungen vorgegeben sind, entsteht aus einer der beiden in (7.74) gegebenen Differentialgleichungen, also beispielsweise aus jener für $X(x)$, ein so genanntes gewöhnliches Randwertproblem. Man versucht dann, Werte $\lambda$ so zu bestimmen, dass das Randwertproblem nichtriviale Lösungen $X(x) \neq 0$ besitzt. Solche $\lambda$ nennt man Eigenwerte des Randwertproblems, und zugehörige nichttriviale Lösungen $X_{\lambda}(x)$ bezeichntet man als Eigenlösungen. Bestimmt man für einen Eigenwert $\lambda$ durch Lösen der zweiten in (7.74) gegebenen Differentialgleichung noch eine möglichst allgemeine Lösung $Y_{\lambda}(y)$, so erhält man mittels $$ U(x, y, \lambda)=X_{\lambda}(x) \cdot Y_{\lambda}(y) $$ eine Eigenlösung der vorgegebenen Differentialgleichung. Diese wird aber im allgemeinen nicht alle vorgegebenen Nebenbedingungen (z.B. gestellte Anfangsbedingungen) erfüllen. Man versucht dann, das Superpositionsprinzip zu verwenden: sind $U\left(x, y, \lambda_{1}\right), U\left(x, y, \lambda_{2}\right)$, $U\left(x, y, \lambda_{3}\right), \ldots$ Eigenlösungen zu den Eigenwerten $\lambda_{1}, \lambda_{2}, \lambda_{3}, \ldots$, dann ist auch die daraus gebildete Reihe $$ U(x, y)=\sum_{k=1}^{\infty} a_{k} U\left(x, y, \lambda_{k}\right) $$ mit beliebigen Koeffizienten $a_{k}$ eine Lösung der homogenen Differentialgleichung, sofern die Reihe konvergiert. Es gelingt damit häufig, die Koeffizienten $a_{k}$ so zu bestimmen, dass $U$ sämtliche vorgegebenen Nebenbedingungen erfüllt. In den folgenden Beispielen wird das besprochene Verfahren der Separation der Variablen auf einige wichtige Differentialgleichungen angewandt. Wir schicken allerdings voraus, dass hier ein Vorgriff auf die in Kapitel 8 behandelten Fourier-Reihen gemacht wird und für das Verständnis der kommenden Beispiele nach Möglichkeit dieses Kapitel zuerst studiert werden soll. Weiters werden wir im Folgenden nicht auf Fragen der Existenz bzw. Eindeutigkeit der auftretenden Fourier-Reihen, Vertauschbarkeit von Summation und Integration, o.ä. eingehen, da dies ebenfalls in Kapitel 8 besprochen wird. Beispiel 7.62 Wir illustrieren das Verfahren zunächst an Hand der homogenen eindimensionalen Schwingungsgleichung mit homogenen Randbedingunen. Wir betrachten dabei die Auslenkung $u(x, t)$ einer schwingenden Saite zum Zeitpunkt $t>0$, wobei die Saitenenden bei $x=0$ und $x=\ell>0$ fest eingespant sein sollen. Die Auslenkung $u(x, t)$ wird dabei für $x \in[0, \ell]$ und $t \geq 0$ durch die bereits vorgestellte eindimensionale Wellengleichung $$ u_{t t}=c^{2} u_{x x} $$ beschrieben. Zusätzlich müssen aber nun Anfangs- und Randbedingungen erfüllt sein, das heißt, es liegt ein Rand-Anfangswert-Problem vor. Wir geben etwa die Anfangslage $f(x)$ und die Anfangsgeschwindigkeit $g(x)$ vor und fordern, dass es zu jedem Zeitpunkt $t \geq 0$ bei $x=0$ und $x=\ell$ keine Auslenkung gibt (homogene Randbedingung): $$ u(x, 0)=f(x), \quad u_{t}(x, 0)=g(x), \quad u(0, t)=0, \quad u(\ell, t)=0 $$ Wir wählen nun zur Lösung des gestellten Problems den Separationsansatz $$ u(x, t)=X(x) \cdot T(t) $$ mit unbekannten Funktionen $X(x)$ und $T(t)$. Einsetzen in die Differentialgleichung liefert sodann die Gleichung $$ \ddot{T}(t) X(x)=c^{2} T(t) X^{\prime \prime}(x) $$ und somit durch Trennen der Variablen $$ \frac{\ddot{T}(t)}{c^{2} T(t)}=\frac{X^{\prime \prime}(x)}{X(x)}=\lambda=\mathrm{const} $$ da die linke Seite unabhängig von $x$ ist und daher gleich einer Konstanten $\lambda \in \mathbb{C}$ sein muss. Dies liefert die beiden durch $\lambda$ gekoppelten gewöhnlichen Differentialgleichungen $$ X^{\prime \prime}-\lambda X=0, \quad \ddot{T}-\lambda c^{2} T=0 $$ Betrachten wir zunächst das gewöhnliche Randwertproblem für $X(x)$ : $$ X^{\prime \prime}-\lambda X=0, \quad X(0)=0, \quad X(\ell)=0 $$ Die allgemeine Lösung der linearen Differentialgleichung (7.77) mit konstanten Koeffizienten bestimmt man sofort mit dem Exponentialansatz $X=e^{\alpha x}$ mit $\alpha \in \mathbb{C}$. Die charakteristische Gleichung $\alpha^{2}-\lambda=0$ liefert die beiden Lösungen $\alpha_{1,2}= \pm \sqrt{\lambda}$ und somit für $\lambda \neq 0$ die allgemeine Lösung der Differentialgleichung (7.77): $$ X(x)=C_{1} e^{\sqrt{\lambda} x}+C_{2} e^{-\sqrt{\lambda} x} $$ mit beliebigen Konstanten $C_{1}, C_{2} \in \mathbb{C}$. Für uns von Interesse sind nun jene Werte von $\lambda$, für die nichttriviale Lösungen $X(x) \neq 0$ der Differentialgleichung existieren, welche auch die in (7.77) gegebenen Randbedingungen erfüllen $\left(X(x)=0\right.$ und somit $C_{1}=C_{2}=0$ ist zwar immer eine Lösung dieses Randwertproblems, aber nicht von weiterem Interesse). Einsetzen der Randbedingungen in die Lösung (7.78) liefert nun folgendes lineare Gleichungssystem für $C_{1}, C_{2}$ : $$ 0=C_{1}+C_{2}, \quad 0=C_{1} e^{\sqrt{\lambda \ell}}+C_{2} e^{-\sqrt{\lambda \ell}} $$ Nichttriviale Lösungen existieren daher genau dann, wenn die Systemmatrix $$ M=\left(\begin{array}{cc} 1 & 1 \\ e^{\sqrt{\lambda} \ell} & e^{-\sqrt{\lambda \ell}} \end{array}\right) \text { des Gleichungssystems } \quad\left(\begin{array}{cc} 1 & 1 \\ e^{\sqrt{\lambda} \ell} & e^{-\sqrt{\lambda \ell}} \end{array}\right)\left(\begin{array}{l} C_{1} \\ C_{2} \end{array}\right)=\left(\begin{array}{l} 0 \\ 0 \end{array}\right) $$ singulär ist, also $\operatorname{det}(M)=0$ gilt. Dies liefert die folgende Gleichung für $\lambda$ : $$ e^{-\sqrt{\lambda \ell}}-e^{\sqrt{\lambda \ell}}=0 \quad \text { bzw. } \quad e^{2 \sqrt{\lambda \ell}}=1 . $$ Diese Gleichung besitzt nun im Komplexen die Lösungen $$ 2 \sqrt{\lambda} \ell=2 \pi i n \quad \text { mit } n \in \mathbb{Z} $$ Also erhalten wir nichttriviale Lösungen des Randwertproblems für folgende Werte $\lambda=\lambda_{n}$ (die so genannten Eigenwerte): $$ \lambda_{n}=-\left(\frac{n \pi}{\ell}\right)^{2}, \quad n \in \mathbb{N} \backslash\{0\} $$ Um nun entsprechende nichttriviale Lösungen $X_{n}(x)$ (so genannte Eigenfunktionen) zu den Eigenwerten $\lambda_{n}$ zu finden, brauchen wir nur obiges Gleichungssystem (7.79) zu betrachten. Da die Systemmatrix $M$ nicht regulär ist, fallen nämlich die beiden Gleichungen zusammen, und es bleibt nur die erste Bedingung übrig, welche $C_{2}=-C_{1}$ liefert. Jede Wahl von $C_{1} \neq 0$ ergibt zusammen mit $C_{2}=-C_{1}$ eine nichttriviale Eigenfunktion. Insbesondere erhält man für $C_{1}=-\frac{i}{2}$ folgende Eigenfunktion $X_{n}(x)$ zum Eigenwert $\lambda_{n}$ : $$ \begin{aligned} X_{n}(x) & =C_{1} e^{\sqrt{\lambda_{n}} x}+C_{2} e^{-\sqrt{\lambda_{n}} x}=-\frac{i}{2}\left(e^{\frac{n \pi}{\ell} i x}-e^{-\frac{n \pi}{\ell} i x}\right)=-\frac{i}{2}\left(2 i \sin \left(\frac{n \pi}{\ell} x\right)\right) \\ & =\sin \left(\frac{n \pi}{\ell} x\right) \end{aligned} $$ $\mathrm{Zu}$ jedem Eigenwert $\lambda_{n}$ bestimmt man nun noch die allgemeine Lösung der in (7.76) gegebenen Differentialgleichung für $T(t)$ : $$ \ddot{T}-\lambda_{n} c^{2} T=\ddot{T}+\left(\frac{c n \pi}{\ell}\right)^{2} T=0 $$ Die charakteristische Gleichung $\alpha^{2}+\left(\frac{c n \pi}{\ell}\right)^{2}=0$ für diese lineare Differentialgleichung zweiter Ordnung liefert die komplexen Lösungen $\alpha_{1,2}= \pm \frac{c n \pi}{\ell} i$, wodurch man die allgemeine Lösung $$ T_{n}(t)=a_{n} \sin \left(\frac{c n \pi}{\ell} t\right)+b_{n} \cos \left(\frac{c n \pi}{\ell} t\right) $$ erhält. Setzt man die Lösungen (7.80) und (7.81) für $X_{n}(x)$ und $T_{n}(t)$ in den Separationsansatz ein, dann erhält man die so genannte $n$-te Eigenschwingung der Saite: $$ u_{n}(x, t)=X_{n}(x) T_{n}(t)=\sin \left(\frac{n \pi}{\ell} x\right)\left[a_{n} \sin \left(\frac{c n \pi}{\ell} t\right)+b_{n} \cos \left(\frac{c n \pi}{\ell} t\right)\right], \quad \text { mit } n \in \mathbb{N} \backslash\{0\} $$ Nun versucht man noch, mittels Superposition der Eigenschwingungen, also $$ u(x, t)=\sum_{n=1}^{\infty} u_{n}(x, t) $$ die vorgegebenen Anfangsbedingungen zu erfüllen: $$ \begin{aligned} & u(x, 0)=\sum_{n=1}^{\infty} b_{n} \sin \left(\frac{n \pi}{\ell} x\right)=f(x) \\ & u_{t}(x, 0)=\sum_{n=1}^{\infty} \frac{c n \pi}{\ell} a_{n} \sin \left(\frac{n \pi}{\ell} x\right)=g(x) \end{aligned} $$ Um die Koeffizienten $a_{n}$ und $b_{n}$ in (7.82) zu bestimmen, denken wir uns nun die Funktionen $f(x)$ und $g(x)$ ungerade auf das Intervall $-\ell0$ vorgegebene Randwerte annimmt. Diese Randbedingungen lassen sich durch den Übergang zu Polarkoordinaten $$ x=r \cos \varphi, \quad y=r \sin \varphi $$ einfach angeben. Wir definieren deshalb $U(r, \varphi)=u(x, y)$ und erhalten als Nebenbedingung $$ U\left(r_{0}, \varphi\right)=f(\varphi) $$ mit einer vorgegebenen $2 \pi$-periodischen Funktion $f(\varphi)$. Wir wollen nun auch noch die zu erfüllende Potentialgleichung in Polarkoordinaten umrechnen. Durch Anwenden der Kettenregel erhält man aus (7.84) sofort $$ \begin{aligned} 0 & =u_{x x}+u_{y y} \\ & =\left(r_{x}^{2}+r_{y}^{2}\right) U_{r r}+2\left(\varphi_{x} r_{x}+\varphi_{y} r_{y}\right) U_{r \varphi}+\left(\varphi_{x}^{2}+\varphi_{y}^{2}\right) U_{\varphi \varphi}+\left(r_{x x}+r_{y y}\right) U_{r}+\left(\varphi_{x x}+\varphi_{y y}\right) U_{\varphi} \end{aligned} $$ was sich zu folgender Differentialgleichung, der Potentialgleichung in Polarkoordinaten, vereinfacht, wie man leicht nachrechnen kann: $$ U_{r r}+\frac{1}{r} U_{r}+\frac{1}{r^{2}} U_{\varphi \varphi}=0 $$ Um Gleichung (7.86) zu lösen, verwenden wir den Produktansatz $$ U(r, \varphi)=F(r) \cdot G(\varphi) $$ Einsetzen in die Differentialgleichung (7.86) liefert nun $$ F^{\prime \prime}(r) G(\varphi)+\frac{1}{r^{2}} F(r) G^{\prime \prime}(\varphi)+\frac{1}{r} F^{\prime}(r) G(\varphi)=0 $$ und nach Division durch $F(r) G(\varphi)$ und Trennung der Variablen: $$ \frac{r^{2} F^{\prime \prime}(r)}{F(r)}+\frac{r F^{\prime}(r)}{F(r)}=-\frac{G^{\prime \prime}(\varphi)}{G(\varphi)} $$ Da in der linken Seite von Gleichung (7.87) die Variable $\varphi$ nicht explizit auftritt, muss die linke Seite und somit auch die rechte Seite von (7.70) gleich einer Konstanten $\lambda \in \mathbb{C}$ sein. Dies liefert also die durch $\lambda$ gekoppelten Differentialgleichungen $$ G^{\prime \prime}(\varphi)+\lambda G(\varphi)=0, \quad r^{2} F^{\prime \prime}(r)+r F^{\prime}(r)-\lambda F(r)=0 $$ $\mathrm{Da}$ die gesuchten Lösungen periodisch in $\varphi$ sein sollen (genauer periodisch mit Periode $2 \pi$, aber das benötigen wir erst später), betrachten wir nur reelle $\lambda>0$. Die allgemeine Lösung der linearen homogenen Differentialgleichung (7.88) für $G(\varphi)$ mit konstanten Koeffizienten lautet dann wie folgt: $$ G(\varphi)=A \cos (\sqrt{\lambda} \varphi)+B \sin (\sqrt{\lambda} \varphi) . $$ Nun berücksichtigen wir noch die geforderte Periodizität mit Periode $2 \pi$, woraus wir die Bedingung $\sqrt{\lambda}=n \in \mathbb{N}$ erhalten. Dies liefert somit für $\lambda_{n}=n^{2}$ die Lösungen $$ G_{n}(\varphi)=A_{n} \cos (n \varphi)+B_{n} \sin (n \varphi) $$ Nun wollen wir für $\lambda=\lambda_{n}$ noch die Lösungen der Differentialgleichung (7.88) für $F(r)$ bestimmen. Diese Differentialgleichung ist eine so genannte Euler'sche Differentialgleichung und kann mit dem Ansatz $F(r)=r^{\alpha}$ behandelt werden. Man erhält durch diesen Ansatz die Gleichung $\alpha^{2}=n^{2}$ und somit $\alpha= \pm n$. Die Lösung $\alpha=-n$ ist für uns nicht brauchbar, da wir fordern, dass die entstehende Funktion $F(r)=r^{\alpha}$ bei $r=0$ regulär ist. Deshalb erhalten wir für $\lambda_{n}=n^{2}$ mit $n \in \mathbb{N}$ die Lösungen $$ F_{n}(r)=r^{n} $$ Somit bekommen wir aus (7.89) und (7.90) die Lösungen $$ U_{n}(r, \varphi)=r^{n}\left(A_{n} \cos (n \varphi)+B_{n} \sin (n \varphi)\right) $$ und durch Superposition $$ U(r, \varphi)=A_{0}+\sum_{n=1}^{\infty} r^{n}\left(A_{n} \cos (n \varphi)+B_{n} \sin (n \varphi)\right) $$ Nun versucht man noch, die Koeffizienten $A_{n}, B_{n}$ in (7.91) so zu bestimmen, dass $U(r, \varphi)$ die vorgegebene Randbedingung (7.85) erfüllt. Einsetzen von (7.85) in (7.91) liefert sofort $$ U\left(r_{0}, \varphi\right)=A_{0}+\sum_{n=1}^{\infty}\left(A_{n} r_{0}^{n} \cos (n \varphi)+B_{n} r_{0}^{n} \sin (n \varphi)\right)=f(\varphi) $$ Betrachten wir die Fourier-Reihen-Entwicklung $$ f(\varphi)=\frac{a_{0}}{2}+\sum_{n=1}^{\infty}\left(a_{n} \cos (n \varphi)+b_{n} \sin (n \varphi)\right) $$ und vergleichen die Koeffizienten von (7.92) und (7.93), so erhalten wir $$ A_{0}=\frac{a_{0}}{2}, \quad A_{n}=\frac{a_{n}}{r_{0}^{n}}, \quad B_{n}=\frac{b_{n}}{r_{0}^{n}}, \quad \text { für } n \geq 1 $$ und weiter $$ U(r, \varphi)=\frac{a_{0}}{2}+\sum_{n=1}^{\infty}\left(a_{n} \cos (n \varphi)+b_{n} \sin (n \varphi)\right)\left(\frac{r}{r_{0}}\right)^{n} $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-341.jpg?height=494&width=1446&top_left_y=727&top_left_x=221) Abbildung 7.19 Lösungen des Dirichlet-Problems auf der Kreisscheibe für die Potentialgleichung mit vorgegebenen Funktionen $\sin ^{2}(2 \varphi)$ bzw. $\sin ^{2}(5 \varphi)$ bei $r_{0}=3$ Nun kann man noch die Koeffizienten $a_{n}$ und $b_{n}$ durch die Euler-Fourier-Integrale ausdrücken und erhält dann weiter $$ \begin{aligned} U(r, \varphi)= & \frac{1}{2 \pi} \int_{0}^{2 \pi} f(t) d t+\sum_{n=1}^{\infty} \frac{1}{\pi}\left(\cos (n \varphi) \int_{0}^{2 \pi} f(t) \cos (n t) d t\right. \\ & \left.\quad+\sin (n \varphi) \int_{0}^{2 \pi} f(t) \sin (n t) d t\right)\left(\frac{r}{r_{0}}\right)^{n} \\ = & \frac{1}{2 \pi} \int_{0}^{2 \pi} f(t)\left(1+2 \sum_{n=1}^{\infty}(\cos (n t) \cos (n \varphi)+\sin (n t) \sin (n \varphi))\left(\frac{r}{r_{0}}\right)^{n}\right) d t \\ = & \frac{1}{2 \pi} \int_{0}^{2 \pi} f(t)\left(1+2 \sum_{n=1}^{\infty} \cos (n(t-\varphi))\left(\frac{r}{r_{0}}\right)^{n}\right) d t \end{aligned} $$ wobei in der letzten Umformung der Summensatz für den Cosinus verwendet wurde. Unter Verwendung der geometrischen Reihe kann die in (7.94) auftretende Summe noch vereinfacht werden: $$ \begin{aligned} 1 & +2 \sum_{n=1}^{\infty} \cos (n(t-\varphi))\left(\frac{r}{r_{0}}\right)^{n}=\Re\left(1+2 \sum_{n=1}^{\infty}\left(\frac{r}{r_{0}} e^{i(t-\varphi)}\right)^{n}\right)=\Re\left(1+2 \frac{\frac{r}{r_{0}} e^{i(t-\varphi)}}{1-\frac{r}{r_{0}} e^{i(t-\varphi)}}\right) \\ & =\Re\left(\frac{r_{0}+r e^{i(t-\varphi)}}{r_{0}-r e^{i(t-\varphi)}}\right)=\Re\left(\frac{r_{0}+r \cos (t-\varphi)+i r \sin (t-\varphi)}{r_{0}-r \cos (t-\varphi)+i r \sin (t-\varphi)}\right) \\ & =\Re\left(\frac{r_{0}^{2}-r^{2}+2 i r_{0} r \sin (t-\varphi)}{r_{0}^{2}-2 r_{0} r \cos (t-\varphi)+r^{2}}\right)=\frac{r_{0}^{2}-r^{2}}{r_{0}^{2}-2 r_{0} r \cos (t-\varphi)+r^{2}} . \end{aligned} $$ Man erhält somit die Poisson'sche Integralformel zur Lösung des Dirichlet-Problems auf der Kreisscheibe für die Potentialgleichung: $$ U(r, \varphi)=\frac{1}{2 \pi} \int_{0}^{2 \pi} f(t) \frac{r_{0}^{2}-r^{2}}{r_{0}^{2}-2 r_{0} r \cos (t-\varphi)+r^{2}} d t, \text { für } r0$. Man löse diese Differentialgleichung zu den gegebenen Werten für $y(0)$ und $y(12)$. 7.26 Man löse die folgenden linearen homogenen Differentialgleichungen: (a) $y^{\prime \prime}+10 y^{\prime}-24 y=0$, (b) $y^{\prime \prime}-10 y^{\prime}+25 y=0$, (c) $y^{\prime \prime}+8 y^{\prime}+25 y=0$. 7.27 Man bestimme die partikuläre Lösung der Differentialgleichung $y^{\prime \prime}+2 y^{\prime}+2 y=0$ zu den Anfangsbedingungen $y(0)=1$ und $y^{\prime}(0)=0$. 7.28 Gesucht ist die allgemeine Lösung der Differentialgleichung $y^{\prime \prime}-3 y^{\prime}-4 y=2 x$. 7.29 Wie lautet die allgemeine Lösung der Differentialgleichung dritter Ordnung $y^{\prime \prime \prime}-7 y^{\prime}+6 y=1$ ? 7.30 Man ermittle alle Lösungen der separablen Differentialgleichung $y^{\prime}=\frac{y^{2}-4}{x}$. 7.31 Man berechne alle möglichen Gleichgewichtszustände der nichtlinearen Differentialgleichung $$ y^{\prime}=y\left(4 \frac{y}{y+1}-0.5 y-1\right) $$ und überprüfe sie auf Stabilität. 7.32 Man untersuche auch das globale Lösungsverhalten für die Lösungen der Differentialgleichung aus der vorhergehenden Aufgabe in $\operatorname{der}\left(y, y^{\prime}\right)$-Phasenebene. 7.33 Man zeige mit Hilfe des Summensatzes für den Cosinus, dass gilt $$ A \cos \omega t+B \sin \omega t=C \cos (\omega t-\varphi), $$ wobei $C=\sqrt{A^{2}+B^{2}}$ und $\tan \varphi=\frac{B}{A}$. 7.34 Man löse die folgende partielle Differentialgleichung für $u(x, y)$ durch Zurückführen auf eine gewöhnliche DGL: $$ u_{x y}+u_{x}+x+y=1, \quad u(x, 0)=0, \quad u(0, y)=0 $$ 7.35 Man löse die folgende partielle Differentialgleichung für $u(x, y)$ durch Zurückführen auf eine gewöhnliche DGL: $$ u_{x y}+y u_{x}=0, \quad u(x, x)=x^{2}, \quad u_{x}(x, x)=u_{y}(x, x) $$ 7.36 Man bestimme die allgemeine Lösung für $u(x, y)$ der inhomogenen eindimensionalen Wellengleichung $$ 9 u_{x x}-\frac{1}{4} u_{y y}=\sin x $$ 7.37 Man bestimme die allgemeine Lösung für $u(x, y)$ der folgenden linearen partiellen Differentialgleichung 1. Ordnung mit konstanten Koeffizienten: $$ 12 u_{x}+4 u_{y}=x $$ 7.38 Man betrachte die lineare partielle Differentialgleichung 1. Ordnung mit konstanten Koeffizienten in 3 Variablen: $$ a u_{x}+b u_{y}+c u_{z}=f(x, y, z) $$ Man weise nach, dass durch die Substitutionen $$ \xi=x, \quad \eta=b x-a y, \quad \zeta=c x-a z $$ die Reduktion auf folgende Differentialgleichung für $U(\xi, \eta, \zeta)=u(x, y, z)$ gelingt: $$ a U_{\xi}=f\left(\xi, \frac{b \xi+\eta}{a}, \frac{c \xi+\zeta}{a}\right) $$ Damit bestimme man die allgemeine Lösung der partiellen Differentialgleichung $$ 2 u_{x}+3 u_{y}+4 u_{z}=e^{x+y+z} $$ 7.39 Durch die Substitution $u(x, y)=v(x, y) e^{\lambda x+\mu y}$ und geeignete Wahl von $\lambda, \mu$ eliminiere man die ersten Ableitungen $\left(u_{x}\right.$ und $u_{y}$ ) aus der partiellen Differentialgleichung $$ u_{x x}+u_{y y}+\alpha u_{x}+\beta u_{y}+\gamma u=0 . $$ Bemerkung: Die entstehende partielle Differentialgleichung braucht nicht gelöst, sondern soll nur angegeben werden. 7.40 Man betrachte das folgende System von gewöhnlichen linearen Differentialgleichungen erster Ordnung für $x_{1}(t), x_{2}(t)$ mit vorgegebenen Anfangswerten: $$ \begin{array}{ll} \dot{x}_{1}=x_{1}-5 x_{2}+1, & x_{1}(0)=0 \\ \dot{x}_{2}=5 x_{1}+x_{2}, & x_{2}(0)=0 \end{array} $$ Man löse nun dieses System auf folgende Weise (Eliminationsmethode). Zuerst elimiere man $x_{2}$ aus dem Gleichungssystem: Ableiten von $$ x_{2}=\frac{-\dot{x}_{1}+x_{1}+1}{5} $$ und Einsetzen in die zweite Gleichung liefert für $x_{1}$ eine lineare Differentialgleichung 2. Ordnung mit konstanten Koeffizienten. Man bestimme die allgemeine Lösung dieser Differentialgleichung für $x_{1}$ und danach durch Rücksubstitution auch die allgemeine Lösung für $x_{2}$. Anpassen an die Anfangsbedingungen liefert schließlich die gesuchte Lösung. 7.41 Man löse mittels der in Kapitel 8 besprochenen Laplace-Transformation die folgende partielle Differentialgleichung unter den vorgegebenen Nebenbedingungen: $$ x u_{x}+u_{t}=x t, \quad u(0, t)=0 \text { für } t \geq 0, \quad u(x, 0)=0 \text { für } x \geq 0 \text {. } $$ Anleitung: Die Laplace-Transformation bezüglich $t$ liefert für $U(x, s)=\mathcal{L}\{u(x, t)\}$ eine gewöhnliche Differentialgleichung: $$ x U_{x}+s U=\frac{x}{s^{2}} $$ Lösen dieser Differentialgleichung und Berücksichtigen der Anfangswerte liefert nach der Rücktransformation die gesuchte Lösung. 7.42 Man bestimme die allgemeine Lösung der linearen partiellen Differentialgleichung 1. Ordnung $$ x u_{x}-y u_{y}=x y $$ 7.43 Man bestimme die allgemeine Lösung der Rumpf-Differentialgleichung $$ u_{x}+(y+2 z) u_{y}+z u_{z}=0 $$ 7.44 Man betrachte folgendes System von partiellen Differentialgleichungen für $z=z(x, y)$ : $$ y z_{x}-x z_{y}=0, \quad z_{x y}=0 $$ Man bestimme nun alle Funktionen $z(x, y)$, welche dieses System lösen. Anleitung: Man bestimme für eine der beiden partiellen Differentialgleichungen die allgemeine Lösung und setze in die andere Gleichung ein. 7.45 Man bestimme die allgemeine Lösung der folgenden linearen partiellen Differentialgleichung für $u(x, y):$ $$ \left(x^{2}+1\right) u_{x}-2 x y u_{y}+2 x u+1=0 $$ 7.46 Eine Funktion $u(x, y)$ heißt homogen vom Grad $n$, wenn $$ u(\lambda x, \lambda y)=\lambda^{n} u(x, y) $$ für alle $\lambda>0$ und $x, y$ gilt. Durch Differenzieren dieser Beziehung nach $\lambda$ zeige man: falls $u$ eine stetig differenzierbare Funktion ist, genügt sie der linearen partiellen Differentialgleichung erster Ordnung $$ x u_{x}+y u_{y}=n u $$ Wie lautet die allgemeine Lösung dieser partiellen Differentialgleichung? 7.47 Man bestimme die allgemeine Lösung der folgenden quasilinearen Differentialgleichung für $u(x, t)$ (konservative Burgers-Gleichung): $$ u_{t}+u u_{x}=0 $$ 7.48 Man bestimme die allgemeine Lösung der folgenden quasilinearen Differentialgleichung für $u(x, y):$ $$ (x+u) u_{x}+(y+u) u_{u}+u=0 . $$ Anleitung: Die durch den Ansatz $f(x, y, u)=$ const erhaltene Rumpf-Differentialgleichung $$ (x+u) f_{x}+(y+u) f_{y}-u f_{u}=0 $$ führt zum System von Phasen-Differentialgleichungen $$ \frac{d x}{d u}=-\frac{x+u}{u}, \quad \frac{d y}{d u}=-\frac{y+u}{u} $$ welche beide über die Substitution $v=\frac{x}{u}$ bzw. $v=\frac{y}{u}$ implizit gelöst werden können. 7.49 Man klassifiziere die folgenden partiellen Differentialgleichungen nach „,hyperbolisch, parabolisch oder elliptisch" und ermittle jeweils eine Normalform: (a) $u_{x x}+2 u_{x y}+u_{y y}+u_{x}+u_{y}=0$ (b) $u_{x x}+2 u_{x y}+5 u_{y y}+u_{x}+u=0$, (c) $3 u_{x x}-8 u_{x y}+4 u_{y y}-u=0$. 7.50 Man bestimme das Gebiet, in dem die partielle Differentialgleichung 2. Ordnung $$ u_{x x}+y u_{y y}+\frac{1}{2} u_{y}=0 $$ hyperbolisch ist, und bestimme dort weiters die allgemeine Lösung der Differentialgleichung, indem man die entsprechende Normalform betrachtet. 7.51 Man wähle den Produktansatz $u(x, y)=X(x) Y(y)$ und bestimme damit Lösungen der folgenden Differentialgleichung: $$ x^{2} u_{x y}+3 y^{2} u=0 $$ 7.52 Man betrachte die Temperaturverteilung $u(x, t)$ eines Stabes der Länge $\ell$, welche an der Stelle $0 \leq x \leq \ell$ zur Zeit $t \geq 0$ durch die homogene Wärmeleitungsgleichung (mit einer vom Material abhängigen Konstanten $\alpha>0$ ) beschrieben werden kann: $$ u_{t}=\alpha^{2} u_{x x} $$ Man löse nun mit Hilfe des Produktansatzes $u(x, t)=X(x) T(t)$ das folgende Rand-AnfangswertProblem (für eine vorgegebene Funktion $f(x)$ ): $$ u(x, 0)=f(x), \quad \text { für } 0 \leq x \leq \ell, \quad u(0, t)=u(\ell, t)=0, \quad \text { für } t \geq 0 . $$ ## Kapitel 8 ## Fourier-Analyse Die Fourier-Analyse, auch Harmonische Analyse genannt, beschäftigt sich mit der Zerlegung von Funktionen in ihre periodischen Komponenten. Dies geschieht für kontinuierliche periodische Funktionen mit Hilfe von Reihenentwicklungen harmonisch verwandter Sinus- und Cosinusfunktionen, so genannten Fourier-Reihen, und für nichtperiodische Funktionen mit Hilfe einer Integraltransformation, der so genannten Fourier-Transformation. Für diskrete periodische Funktionen bedient man sich hierfür der Diskreten Fourier-Transformation. Diese mathematischen Verfahren sind für eine Vielzahl von Bereichen der Naturwissenschaft und Technik von Bedeutung, beispielsweise in der digitalen Bildverarbeitung, der Signalverarbeitung, der Akustik und der Optik. Weiters ist der als Fast Fourier Transform bekannte FFT-Algorithmus zum Ausführen der Diskreten Fourier-Transformation Grundlage für schnelle Algorithmen, wie z.B. der schnellen Multiplikation von Polynomen. Daneben dienen insbesondere die FourierTransformation und die dazu verwandte Laplace-Transformation, welche deshalb auch in diesem Kapitel vorgestellt wird, als Hilfsmittel zum Lösen von Differential- und Integralgleichungen. ### 8.1 Fourier-Reihen Wir betrachten nun kontinuierliche periodische Funktionen $f(t)$ und wollen der Frage nachgehen, wie wir solche Funktionen durch Überlagerung von Sinus- und Cosinusfunktionen verschiedener Frequenzen und Amplituden darstellen können. Definition 8.1 Eine reellwertige Funktion $f: \mathbb{R} \rightarrow \mathbb{R}$ oder komplexwertige Funktion $f$ : $\mathbb{R} \rightarrow \mathbb{C}$ heißt periodisch mit Periode $T>0$, falls $$ f(t+T)=f(t), \quad \text { für alle } t \in \mathbb{R} $$ Wir sprechen dann auch von einer $T$-periodischen Funktion. Beispiel 8.2 Die Funktionen $\sin t$ und $\cos t$ sind reellwertige $2 \pi$-periodische Funktionen, und $e^{\frac{i t}{2}}$ ist eine komplexwertige Funktion mit Periode $4 \pi$, da $e^{\frac{i(t+4 \pi)}{2}}=e^{\frac{i t}{2}} e^{2 \pi i}=e^{\frac{i t}{2}}$. Die Recht- eckschwingung mit Periode $T>0$ und Amplitude $A>0$ ist definiert durch $$ f(t)= \begin{cases}A, & \text { falls }\left\lfloor\frac{2 t}{T}\right\rfloor \text { gerade } \\ -A, & \text { falls }\left\lfloor\frac{2 t}{T}\right\rfloor \text { ungerade }\end{cases} $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-352.jpg?height=485&width=591&top_left_y=551&top_left_x=659) Abbildung 8.1 Rechteckschwingung mit Periode $T$ und Amplitude $A$ Bemerkung: Eine $T$-periodische Funktion $f(t)$ läßt sich durch die Substitution $F(x)=f\left(\frac{x}{\omega}\right)$, mit $\omega=\frac{2 \pi}{T}$ immer auf eine $2 \pi$-periodische Funktion $F(x)$ zurückführen, denn $F(x+2 \pi)=$ $f\left(\frac{x+2 \pi}{\omega}\right)=f\left(\frac{x}{\omega}+T\right)=f\left(\frac{x}{\omega}\right)=F(x)$. Vereinbarung: Während des gesamten Abschnittes definieren wir in Zusammenhang mit $T$ periodischen Funktionen $f(t)$ immer $\omega=\frac{2 \pi}{T}$. Folgende Beziehung für integrierbare $T$-periodische Funktionen, welche man durch Aufteilen des Integrationsintervalls an der Stelle $t=T\left\lfloor\frac{a}{T}\right\rfloor+T$ und Ausnützen der Periodizität von $f(t)$ erhält, wird sich später als nützlich erweisen: $$ \int_{0}^{T} f(t) d t=\int_{a}^{T+a} f(t) d t, \quad \text { für } a \in \mathbb{R} $$ Wir betrachten nun eine spezielle Klasse von periodischen Funktionen, nämlich die so genannten trigonometrischen Polynome. ## Definition 8.3 Ein trigonometrisches Polynom der Periode $T$ in Sinus-Cosinus-Form ist eine Funktion $f: \mathbb{R} \rightarrow \mathbb{C}$ der Gestalt$$ f(t)=\frac{a_{0}}{2}+\sum_{n=1}^{N}\left(a_{n} \cos (n \omega t)+b_{n} \sin (n \omega t)\right) $$ Ein trigonometrisches Polynom der Periode $T$ in Exponentialform ist eine Funktion $f: \mathbb{R} \rightarrow$ C der Gestalt $$ f(t)=\sum_{k=-N}^{N} c_{k} e^{i k \omega t} $$ Die Konstanten $a_{n}, b_{n} \in \mathbb{C}$ und $c_{k} \in \mathbb{C}$ heißen die Koeffizienten des trigonometrischen Polynoms und $N \in \mathbb{N}$ nennt man den Grad des trigonometrischen Polynoms. Mit Hilfe der aus Kapitel 4 bekannten Euler'schen Formel $e^{i \varphi}=\cos \varphi+i \sin \varphi$ kann ein trigonometrisches Polynom, welches in einer der beiden Formen gegeben ist, sofort in die andere umgewandelt werden. Man erhält dann für die Koeffizienten $a_{n}, b_{n}, c_{k}$ die Beziehungen: $$ \begin{array}{llll} a_{0}=2 c_{0}, & a_{n}=c_{n}+c_{-n}, & b_{n}=\left(c_{n}-c_{-n}\right) i, & \text { für } 1 \leq n \leq N, \\ c_{0}=\frac{a_{0}}{2}, & c_{k}=\frac{a_{k}-i b_{k}}{2}, & c_{-k}=\frac{a_{k}+i b_{k}}{2}, & \text { für } 1 \leq k \leq N . \end{array} $$ Beispiel 8.4 Wir wollen die Funktion $f(t)=\cos ^{3}(t)$ als trigonometrisches Polynom darstellen. Nach der Formel von Moivre (siehe Kapitel 4) erhalten wir: $$ \begin{aligned} \cos (3 t)+i \sin (3 t) & =e^{i 3 t}=(\cos t+i \sin t)^{3} \\ & =\left(\cos ^{3}(t)-3 \cos t \sin ^{2}(t)\right)+i\left(3 \cos ^{2}(t) \sin t-\sin ^{3}(t)\right) \end{aligned} $$ und somit $$ \cos (3 t)=\cos ^{3}(t)-3 \cos t \sin ^{2}(t)=4 \cos ^{3}(t)-3 \cos t $$ wobei die Gleichung $\sin ^{2}(t)+\cos ^{2}(t)=1$ verwendet wurde. Damit erhalten wir schließlich die gewünschte Darstellung als trigonometrisches Polynom in Sinus-Cosinus-Form, aus der die Exponentialform durch Umrechnen aus den Gleichungen (8.1) gewonnen werden kann: $$ \cos ^{3}(t)=\frac{3}{4} \cos t+\frac{1}{4} \cos (3 t)=\frac{1}{8} e^{3 i t}+\frac{3}{8} e^{-i t}+\frac{3}{8} e^{i t}+\frac{1}{8} e^{-3 i t} $$ ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-353.jpg?height=756&width=1104&top_left_y=1440&top_left_x=369) Abbildung 8.2 Darstellung von $\cos ^{3}(t)$ als trigonometrisches Polynom Wir interessieren uns nun dafür, die Koeffizienten $a_{n}, b_{n}$ bzw. $c_{k}$ von einem trigonometrischen Polynom $f(t)$ wiederzugewinnen. Dazu ist die algebraische Struktur der trigonometrischen Polynome nützlich: die Menge aller trigonometrischen Polynome bildet nämlich einen Vektorraum über $\mathbb{C}$, wobei die Funktionen $$ \left\{e^{i k \omega t}: k \in \mathbb{Z}\right\} \quad \text { bzw. } \quad\{1\} \cup\left\{\cos (n \omega t): n \in \mathbb{N}^{+}\right\} \cup\left\{\sin (n \omega t): n \in \mathbb{N}^{+}\right\} $$ eine Basis bilden. Wir verwenden dabei hier und im Folgenden die Notation $\mathbb{N}^{+}=\mathbb{N} \backslash\{0\}$. Dass die Funktionen wirklich linear unabhängig sind, zeigt man am einfachsten mit den nachfolgend angegebenen Orthogonalitätsrelationen der Basisfunktionen. Dazu betrachten wir für trigonometrische Polynome $f(t), g(t)$ die folgende Abbildung, wobei ${ }^{-}: \mathbb{C} \rightarrow \mathbb{C}$, die in Kapitel 1 definierte Konjugation bezeichnet: $$ (f(t), g(t)) \mapsto \int_{0}^{T} f(t) \overline{g(t)} d t $$ Diese Abbildung bildet ein Skalarprodukt im Vektorraum der trigonometrischen Polynome, wobei die Eigenschaft $(f(t), f(t))=0 \Longleftrightarrow f(t)=0$ wiederum erst durch die folgenden Orthogonalitätsrelationen der Basisfunktionen einfach nachzuweisen ist. Satz 8.5 (Orthogonalitätsrelationen der trigonometrischen Funktionen) Die Basisfunktionen $\left\{e^{i k \omega t}: k \in \mathbb{Z}\right\}$ bzw. $\{1\} \cup\left\{\cos (n \omega t): n \in \mathbb{N}^{+}\right\} \cup\left\{\sin (n \omega t): n \in \mathbb{N}^{+}\right\}$bilden ein Orthogonalsystem im Raum der trigonometrischen Polynome: Für $k, \ell \in \mathbb{Z}$ gilt : $$ \int_{0}^{T} e^{i k \omega t} e^{i \ell \omega t} d t=\int_{0}^{T} e^{i k \omega t} e^{-i \ell \omega t} d t= \begin{cases}0, & \text { falls } k \neq \ell \\ T, & \text { falls } k=\ell\end{cases} $$ Für $n, m \in \mathbb{N}$ gilt $: \quad \int_{0}^{T} \cos (n \omega t) \cos (m \omega t) d t= \begin{cases}0, & \text { falls } n \neq m, \\ \frac{T}{2}, & \text { falls } n=m \neq 0, \\ T, & \text { falls } n=m=0 .\end{cases}$ Für $n, m \in \mathbb{N}^{+}$gilt $: \quad \int_{0}^{T} \sin (n \omega t) \sin (m \omega t) d t= \begin{cases}0, & \text { falls } n \neq m, \\ \frac{T}{2}, & \text { falls } n=m .\end{cases}$ Für $n, m \in \mathbb{N}$ gilt $: \quad \int_{0}^{T} \cos (n \omega t) \sin (m \omega t) d t=0$. Weiters gilt, dass die Darstellung eines trigonometrischen Polynoms in der Exponentialform $f(t)=\sum_{k=-N}^{N} c_{k} e^{i k \omega t}$ bzw. in der Sinus-Cosinus-Form $f(t)=\frac{a_{0}}{2}+\sum_{n=1}^{N}\left(a_{n} \cos (n \omega t)+\right.$ $\left.b_{n} \sin (n \omega t)\right)$ eindeutig ist. Beweis. Für die Basisfunktionen der Exponentialform lassen sich die Orthogonalitätsrelationen einfach nachrechnen. Falls $k=\ell$, dann gilt: $$ \int_{0}^{T} e^{i k \omega t} e^{-i k \omega t} d t=\int_{0}^{T} 1 d t=T $$ und für $k \neq \ell$ : $$ \int_{0}^{T} e^{i k \omega t} e^{-i \ell \omega t} d t=\int_{0}^{T} e^{i(k-\ell) \omega t} d t=\left.\frac{e^{i(k-\ell) \omega t}}{i(k-\ell) \omega}\right|_{0} ^{T}=\frac{1}{i(k-\ell) \omega}\left(e^{i(k-\ell) \omega T}-1\right)=0 $$ da $e^{i q \omega T}=e^{i q 2 \pi}=1$, für alle $q \in \mathbb{Z}$. Um die Orthogonalitätsrelationen für die Basisfunktionen der Sinus-Cosinus-Form nachzuweisen, verwendet man entweder Summensätze für die Winkelfunktionen oder einfacher die bereits gezeigte Beziehung für die Exponentialform. Wir führen dies exemplarisch für zwei Fälle aus. Seien $m, n \in \mathbb{N}^{+}$und $m \neq n$. Es gilt dann aufgrund des vorher Gezeigten und Anwenden der Euler'schen Formel: $$ \begin{aligned} 0=\int_{0}^{T} e^{i n \omega t} e^{-i m \omega t} d t= & \int_{0}^{T}(\cos (n \omega t) \cos (m \omega t)+\sin (n \omega t) \sin (m \omega t)) d t \\ & +i \int_{0}^{T}(\sin (n \omega t) \cos (m \omega t)-\cos (m \omega t) \sin (m \omega t)) d t \end{aligned} $$ Ein Vergleich der Realteile liefert somit $$ 0=\int_{0}^{T}(\cos (n \omega t) \cos (m \omega t)+\sin (n \omega t) \sin (m \omega t)) d t $$ Analog zeigt man $$ 0=\Re\left(\int_{0}^{T} e^{i n \omega t} e^{i m \omega t} d t\right)=\int_{0}^{T}(\cos (n \omega t) \cos (m \omega t)-\sin (n \omega t) \sin (m \omega t)) d t $$ Aus den Gleichungen (8.2) und (8.3) erhält man durch Addieren bzw. Subtrahieren die folgenden Beziehungen für $n \neq m$ : $$ \int_{0}^{T} \cos (n \omega t) \cos (m \omega t) d t=\int_{0}^{T} \sin (n \omega t) \sin (m \omega t) d t=0 . $$ Um die Eindeutigkeit der Darstellung eines trigonometrischen Polynoms in der Exponentialform zu zeigen, nehmen wir an, es gäbe ein trigonometrisches Polynom $f(t)$ mit zwei Darstellungen: $$ f(t)=\sum_{k=-N_{1}}^{N_{1}} c_{k}^{(1)} e^{i k \omega t}=\sum_{k=-N_{2}}^{N_{2}} c_{k}^{(2)} e^{i k \omega t} $$ Dabei können wir ohne Beschränkung der Allgemeinheit annehmen, dass $N_{1} \geq N_{2}$ gilt. Wir betrachten nun die Funktion $g(t)=f(t)-f(t)=0$, welche daher auch die folgende Darstellung als trigonometrisches Polynom besitzt: $$ g(t)=\sum_{k=-N}^{N} c_{k} e^{i k \omega t} $$ mit $N=N_{1}$ und $c_{k}=c_{k}^{(1)}-c_{k}^{(2)}$ für alle $k$, wobei wir $c_{k}^{(2)}=0$ für Indizes $N_{2}<|k| \leq N_{1}$ definieren. Mit den vorher gezeigten Orthogonalitätsrelationen erhalten wir nun: $$ \begin{aligned} (g(t), g(t)) & =\int_{0}^{T} g(t) \overline{g(t)} d t=\int_{0}^{T}\left(\sum_{k=-N}^{N} c_{k} e^{i k \omega t}\right) \overline{\left(\sum_{\ell=-N}^{N} c_{\ell} e^{i \ell \omega t}\right)} d t \\ & =\int_{0}^{T}\left(\sum_{k=-N}^{N} c_{k} e^{i k \omega t}\right) \cdot\left(\sum_{\ell=-N}^{N} \overline{c_{\ell}} e^{-i \ell \omega t}\right) d t \\ & =\sum_{\substack{k, \ell=-N, k \neq \ell}}^{N} c_{k} \overline{c_{\ell}} \int_{0}^{T} e^{i k \omega t} e^{-i \ell \omega t} d t+\sum_{k=-N}^{N} c_{k} \overline{c_{k}} \int_{0}^{T} e^{i k \omega t} e^{-i k \omega t} d t=T \sum_{k=-N}^{N}\left|c_{k}\right|^{2} . \end{aligned} $$ Da andererseits $(g(t), g(t))=\int_{0}^{T} 0 d t=0$ ist, erhalten wir $$ 0=\sum_{k=-N}^{N}\left|c_{k}\right|^{2} $$ Nun ist aber $\left|c_{k}\right| \geq 0$ für alle $k$, was $\left|c_{k}\right|=0$ und schließlich $c_{k}=0$ für alle $k$ impliziert. Deshalb gilt für die beiden Darstellungen von $f(t)$ in der Exponentialform, dass $0=c_{k}=c_{k}^{(1)}-c_{k}^{(2)}$ für alle $k$ gelten muss, woraus folgt, dass die beiden Darstellungen gleich sind: $c_{k}^{(1)}=c_{k}^{(2)}$ für $-N \leq k \leq N$. Die Eindeutigkeit der Darstellung eines trigonometrischen Polynoms in der Sinus-Cosinus-Form folgt nun ebenfalls aufgrund der Beziehungen (8.1). Da die Basisfunktionen ein Orthogonalsystem bilden, können wir sofort angeben, wie man die Koeffizienten eines trigonometrischen Polynoms $f(t)$ erhält. Satz 8.6 Die Koeffizienten $a_{n}, b_{n}$ bzw. $c_{k}$ eines trigonometrischen Polynoms $f(t)$ vom Grad $N$ erhält man mit Hilfe der Formeln von Euler-Fourier, das heißt für $-N \leq k \leq N$ bzw. $0 \leq n \leq N$ gilt: $$ \begin{gathered} a_{n}=\frac{2}{T} \int_{0}^{T} f(t) \cos (n \omega t) d t, \quad b_{n}=\frac{2}{T} \int_{0}^{T} f(t) \sin (n \omega t) d t \\ c_{k}=\frac{1}{T} \int_{0}^{T} f(t) e^{-i k \omega t} d t \end{gathered} $$ Beweis. Dies folgt unmittelbar aus Satz 8.5, denn $$ \frac{1}{T} \int_{0}^{T} f(t) e^{-i k \omega t} d t=\frac{1}{T} \int_{0}^{T} \sum_{\ell=-N}^{N} c_{\ell} e^{i \ell \omega t} e^{-i k \omega t} d t=\frac{1}{T} \sum_{\ell=-N}^{N} c_{\ell} \int_{0}^{T} e^{i \ell \omega t} e^{-i k \omega t} d t=c_{k} $$ da alle Summanden $k \neq \ell$ wegen der Orthogonalitätsrelation 0 ergeben. Analog zeígt man die Beziehungen für die Sinus-Cosinus-Form. Beispiel 8.7 Wir betrachten die Funktion $f(t)=\sin ^{2}(t)$, für die man mit Hilfe der Formeln von Moivre leicht die Darstellung als trigonometrisches Polynom vom Grad 2 via $\sin ^{2}(t)=$ $\frac{1}{2}-\frac{1}{2} \cos (2 t)$ erhält. Wir wissen also, dass $f(t)$ eine Darstellung als trigonometrisches Polynom vom Grad 2 besitzt, d.h. $f(t)=\frac{a_{0}}{2}+\sum_{n=1}^{2} a_{n} \cos (n t)+\sum_{n=1}^{2} b_{n} \sin (n t)$, und wollen die Koeffizienten nun mit Hilfe der Formeln von Euler-Fourier gewinnen. Da $f(t)=\sin ^{2}(t)$ eine gerade Funktion ist, also $f(t)=f(-t)$ für alle $t \in \mathbb{R}$ gilt, muss gelten, dass alle Koeffizienten $b_{n}=0$ sind, für $n \geq 0$. Dies wird als Übungsaufgabe gezeigt. Es bleibt also nur mehr die Berechnung der Koeffizienten $a_{n}$, für $0 \leq n \leq 2$. Da $$ \int \sin ^{2}(t) d t=-\frac{1}{2} \sin t \cos t+\frac{t}{2}+C $$ wie man mittels partieller Integration leicht zeigt, erhalten wir $$ a_{0}=\frac{1}{\pi} \int_{0}^{2 \pi} \sin ^{2}(t) d t=\left.\frac{1}{\pi}\left(-\frac{1}{2} \sin t \cos t+\frac{t}{2}\right)\right|_{t=0} ^{2 \pi}=1 $$ Wegen $$ \int \sin ^{2}(t) \cos t d t=\frac{1}{3} \sin ^{3}(t)+C $$ bekommen wir weiters $$ a_{1}=\frac{1}{\pi} \int_{0}^{2 \pi} \sin ^{2}(t) \cos t d t=\left.\frac{1}{3 \pi} \sin ^{3}(t)\right|_{t=0} ^{2 \pi}=0 $$ Um das Integral $$ \int_{0}^{2 \pi} \sin ^{2}(t) \cos (2 t) d t $$ zu berechnen, verwendet man am einfachsten die komplexen Darstellungen der trigonometrischen Funktionen: $\sin t=\frac{e^{i t}-e^{-i t}}{2 i}$ und $\cos t=\frac{e^{i t}+e^{-i t}}{2}$. Dies stellt natürlich einen kleinen "Trick" dar, da nun eigentlich schon von der Darstellung als trigonometrisches Polynom in der Exponentialform ausgegangen wird. Wir erhalten dann $$ \begin{aligned} a_{2} & =\frac{1}{\pi} \int_{0}^{2 \pi} \sin ^{2}(t) \cos (2 t) d t=\frac{1}{\pi} \int_{0}^{2 \pi}\left(\frac{1}{2 i} e^{i t}-\frac{1}{2 i} e^{-i t}\right)^{2}\left(\frac{1}{2} e^{2 i t}+\frac{1}{2} e^{-2 i t}\right) d t \\ & =\frac{1}{\pi} \int_{0}^{2 \pi}\left(-\frac{1}{4}+\frac{1}{4} e^{2 i t}+\frac{1}{4} e^{-2 i t}-\frac{1}{8} e^{4 i t}-\frac{1}{8} e^{-4 i t}\right) d t \\ & =\left.\frac{1}{\pi}\left(-\frac{t}{4}-\frac{i}{8} e^{2 i t}+\frac{i}{8} e^{-2 i t}+\frac{i}{32} e^{4 i t}-\frac{i}{32} e^{-4 i t}\right)\right|_{t=0} ^{2 \pi}=-\frac{1}{2} . \end{aligned} $$ Dies liefert schließlich die gesuchte Darstellung: $\sin ^{2}(t)=\frac{1}{2}-\frac{1}{2} \cos (2 t)$. Trigonometrische Polynome stellen immer differenzierbare Funktionen dar, da sie als Linearkombinationen von Sinus-Cosinus-Funktionen bzw. Exponentialfunktionen gebildet werden. Um auch nichtdifferenzierbare periodische Funktionen zu erhalten, betrachten wir im Folgenden Reihen statt Polynome. ## Definition 8.8 Eine trigonometrische Reihe ist für alle $t \in \mathbb{R}$ definiert durch $$ \sum_{k=-\infty}^{\infty} c_{k} e^{i k \omega t}=\lim _{N \rightarrow \infty} \sum_{k=-N}^{N} c_{k} e^{i k \omega t} $$ bzw. $$ \frac{a_{0}}{2}+\sum_{n=1}^{\infty}\left(a_{n} \cos (n \omega t)+b_{n} \sin (n \omega t)\right)=\frac{a_{0}}{2}+\lim _{N \rightarrow \infty} \sum_{n=1}^{N}\left(a_{n} \cos (n \omega t)+b_{n} \sin (n \omega t)\right) $$ wobei $$ S_{N}(t)=\sum_{k=-N}^{N} c_{k} e^{i k \omega t} \quad \text { bzw. } \quad S_{N}(t)=\frac{a_{0}}{2}+\sum_{n=1}^{N}\left(a_{n} \cos (n \omega t)+b_{n} \sin (n \omega t)\right) $$ die $N$-te Partialsumme der trigonometrischen Reihe bezeichnet. Falls der Grenzwert der $N$-ten Partialsummen $S_{N}(t)$ für alle $t \in \mathbb{R}$ existiert, wird durch eine trigonometrische Reihe eine $T$-periodische Funktion erklärt. Allerdings gibt es trigonometrische Reihen, die für kein $t \in \mathbb{R}$ konvergieren! Wir stellen deshalb einige generelle Betrachtungen über die Konvergenz von Funktionenfolgen an. Definition 8.9 Eine Funktionenfolge $f_{0}(x), f_{1}(x), f_{2}(x), \ldots$ konvergiert gleichmäßig auf einem Intervall $I \subseteq \mathbb{R}$ gegen die Funktion $f(x): I \rightarrow \mathbb{R}$, wenn für jede beliebig kleine Fehlerschranke $\varepsilon>0$ ein für alle $x \in I$ gemeinsamer Index $N=N_{\varepsilon}$ existiert, so dass gilt: $$ n \geq N \Rightarrow\left|f(x)-f_{n}(x)\right| \leq \varepsilon, \quad \text { für alle } x \in I $$ Anschaulich bedeutet dies, daß für $n \geq N$ die Graphen aller Funktionen $f_{n}(x)$ in einem $\varepsilon$-Schlauch um $f(x)$ liegen. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-358.jpg?height=760&width=969&top_left_y=1054&top_left_x=481) Abbildung 8.3 Gleichmäßige Konvergenz einer Funktionenfolge Für uns von besonderer Bedeutung ist die gleichmäßige Konvergenz von Funktionenreihen $s(x)=\sum_{k=0}^{\infty} f_{k}(x)$ auf einem Intervall $I$. Eine sehr nützliche hinreichende Bedingung hierfür ist in folgendem Satz angegeben. Satz 8.10 (Weierstraß'scher $M$-Test für die gleichmäßige Konvergenz) Gilt für jede Funktion $f_{k}(x)$ der auf dem Invervall $I \subseteq \mathbb{R}$ definierten Funktionenfolge $\left(f_{k}(x)\right)_{k \in \mathbb{N}}$ eine Abschätzung $\left|f_{k}(x)\right| \leq M_{k}$, für alle $x \in I$, mit $M_{k} \in \mathbb{R}$ und $$ \sum_{k=0}^{\infty} M_{k}<\infty $$ dann ist die Funktionenreihe $s(x)=\sum_{k=0}^{\infty} f_{k}(x)$ auf I gleichmäßig konvergent. Beweis. Wegen der Monotonie und Beschränktheit der Folge der Partialsummen $c_{n}=$ $\sum_{k=0}^{n} M_{k}$ der Zahlenreihe existiert der Grenzwert $c=\lim _{n \rightarrow \infty} c_{n}$, woraus folgt, dass für alle $\varepsilon>0$ ein $N=N_{\varepsilon}$ existiert, so dass für $n \geq N$ gilt: $$ \left|s(x)-\sum_{k=0}^{n} f_{k}(x)\right|=\left|\sum_{k=n+1}^{\infty} f_{k}(x)\right| \leq \sum_{k=n+1}^{\infty}\left|f_{k}(x)\right| \leq \sum_{k=n+1}^{\infty} M_{k}=\left|c-c_{n}\right| \leq \varepsilon \text {, für alle } x \in I \text {. } $$ Eine wichtige Eigenschaft gleichmäßig konvergenter Funktionenreihen ist im folgenden Satz angeführt, dessen Beweis als Übungsaufgabe gestellt wird. Satz 8.11 Wenn jedes Glied einer Funktionenreihe $\sum_{k=0}^{\infty} f_{k}(x)$ stetig ist in einem abgeschlossenen Intervall $I=[a, b]$ und die Reihe auf I gleichmäßig konvergiert gegen eine Funktion $f(x)$, dann gilt: (i) $f(x)$ ist stetig im Intervall I. (ii) Die Reihe darf gliedweise integriert werden, das heißt: $$ \int_{a}^{b}\left(\sum_{k=0}^{\infty} f_{k}(x)\right) d x=\sum_{k=0}^{\infty}\left(\int_{a}^{b} f_{k}(x) d x\right) $$ Weiters rufen wir uns die Definition folgender wichtiger Begriffe in Erinnerung. Wiederholung: Eine Funktion $f(t)$ heißt stückweise stetig auf einem abgeschlossenen Intervall $I=[a, b]$, wenn $f(t)$ in $I$ stetig ist bis auf eine endliche Anzahl von Punkten $t_{1}, t_{2}, \ldots, t_{m}$ und in den Ausnahmestellen $t_{1}, \ldots, t_{m}$ alle in $[a, b]$ möglichen einseitigen Grenzwerte von $f(t)$ existieren. Eine Funktion $f(t)$ heißt stückweise stetig differenzierbar auf einem abgeschlossenen Intevall $I=[a, b]$, wenn sie in $I$ stetig differenzierbar ist, d.h. differenzierbar ist und die Ableitung noch stetig ist, bis auf eine endliche Anzahl von Punkten $t_{1}, t_{2}, \ldots, t_{m}$ und in den Ausnahmestellen $t_{1}, \ldots, t_{m}$ alle in $[a, b]$ möglichen einseitigen Grenzwerte von $f(t)$ und $f^{\prime}(t)$ existieren. Wir betrachten nun den wichtigen Fall, daß eine trigonometrische Reihe gleichmäßig gegen eine $T$-periodische Funktion $f(t)$ konvergiert. In diesem Fall sind die Koeffizienten der trigonometrischen Reihe eindeutig durch die Formeln von Euler-Fourier bestimmt, wie nachfolgend gezeigt wird. Wir formulieren diesen Satz nur für die Exponentialform, aber er gilt analog für die Sinus-Cosinus-Form. Satz 8.12 Falls die trigonometrische Reihe $\sum_{k=-\infty}^{\infty} c_{k} e^{i k \omega t}$ gleichmäßig für alle $t \in \mathbb{R}$ gegen die T-periodische Funktion $f(t)$ konvergiert, so ist $f(t)$ stetig für alle $t \in \mathbb{R}$, und die Koeffizienten der trigonometrischen Reihe sind durch die Formeln von Euler-Fourier bestimmt: $$ c_{k}=\frac{1}{T} \int_{0}^{T} f(t) e^{-i k \omega t} d t $$ Beweis. Die Stetigkeit von $f(t)$ ist wegen Satz 8.11 eine unmittelbare Konsequenz der gleichmäßigen Konvergenz von Funktionenreihen. Weiters folgt mit der Vertauschbarkeit von Integration und Summation bei gleichmäßiger Konvergenz zusammen mit den Orthogonalitätsrelationen (Satz 8.5): $$ \frac{1}{T} \int_{0}^{T} f(t) e^{-i k \omega t} d t=\frac{1}{T} \int_{0}^{T} \sum_{\ell=-\infty}^{\infty} c_{\ell} e^{i \ell \omega t} e^{-i k \omega t} d t=\frac{1}{T} \sum_{\ell=-\infty}^{\infty} c_{\ell} \int_{0}^{T} e^{i \ell \omega t} e^{-i k \omega t} d t=c_{k} $$ Beispiel 8.13 Wir betrachten die $2 \pi$-periodische trigonometrische Reihe $f(t)=\sum_{n=1}^{\infty} \frac{\sin (n x)}{n^{2}}$ auf dem Intervall $I=[0,2 \pi]$. Da für jedes $n \in \mathbb{N}$ gilt: $|\sin (n x)| \leq 1$, für alle $x \in I$, bekommen wir die Abschätzung $\left|\frac{\sin (n x)}{n^{2}}\right| \leq \frac{1}{n^{2}}$. Da $\sum_{n=1}^{\infty} \frac{1}{n^{2}}=\frac{\pi^{2}}{6}$, liefert eine Anwendung des Weierstraß'schen $M$-Tests, Satz 8.10, dass die trigonometrische Reihe $f(t)$ gleichmäßig auf $I$ konvergiert. Aufgrund von Satz 8.12 folgt weiters, daß $f(t)$ auch stetig auf $I$ ist. Satz 8.12 legt es nahe, für eine $T$-periodische Funktion $f(t)$ jene trigonometrische Reihe zu betrachten, in der die Koeffizienten durch die Formeln von Euler-Fourier gegeben sind. Dies führt uns zum Begriff der Fourier-Reihe einer periodischen Funktion. Definition 8.14 Sei $f: \mathbb{R} \rightarrow \mathbb{C}$ eine $T$-periodische Funktion, die auf $[0, T]$ stückweise stetig ist. Dann ist die Fourier-Reihe $S_{f}(t)$ von $f(t)$ definiert als trigonometrische Reihe $$ S_{f}(t)=\sum_{k=-\infty}^{\infty} c_{k} e^{i k \omega t}=\frac{a_{0}}{2}+\sum_{n=1}^{\infty}\left(a_{n} \cos (n \omega t)+b_{n} \sin (n \omega t)\right) $$ wobei die Fourier-Koeffizienten $a_{n}, b_{n}$ bzw. $c_{k}$ für $n \in \mathbb{N}$ bzw. $k \in \mathbb{Z}$ folgendermaßen definiert sind: $$ c_{k}=\frac{1}{T} \int_{0}^{T} f(t) e^{-i k \omega t} d t, \quad a_{n}=\frac{2}{T} \int_{0}^{T} f(t) \cos (n \omega t) d t, \quad b_{n}=\frac{2}{T} \int_{0}^{T} f(t) \sin (n \omega t) d t $$ Die Umrechnung zwischen den Koeffizienten $a_{n}, b_{n}$ der Sinus-Cosinus-Form und $c_{k}$ der Exponentialform erfolgt wiederum über die Formeln (8.1). Es ist wichtig anzumerken, dass a priori weder gesichert ist, dass die Fourier-Reihe $S_{f}(t)$ für Punkte $t \in \mathbb{R}$ konvergiert, noch dass Gleichheit $S_{f}(t)=f(t)$ für Stellen $t \in \mathbb{R}$ herrschen muss! Als Notation verwendet man deshalb oft $S_{f}(t) \sim f(t)$ um auszudrücken, daß $S_{f}(t)$ die zu $f(t)$ gehörende Fourier-Reihe ist. Beispiel 8.15 Wir betrachten folgende $2 \pi$-periodische Sägezahnfunktion $f(x)$, welche für $-\pi \leq x<\pi$ definiert ist durch $f(x)=x$ und außerhalb dieses Intervalls $2 \pi$-periodisch fortgesetzt wird. Wir bestimmen nun die Fourier-Reihe $S_{f}(t)$ von $f(t)$ durch Berechnen der Fourier-Koeffizienten in der Exponentialform mit den Formeln von Euler-Fourier. Wir erhalten $$ c_{0}=\frac{1}{2 \pi} \int_{-\pi}^{\pi} x d x=\left.\frac{1}{2 \pi} \frac{x^{2}}{2}\right|_{-\pi} ^{\pi}=0 $$ und für $k \neq 0$ bekommt man durch partielle Integration eine Stammfunktion des Integranden, welche man an den Grenzen auswertet: $$ \begin{aligned} c_{k} & =\frac{1}{2 \pi} \int_{-\pi}^{\pi} x e^{-i k x} d x=\left.\frac{1}{2 \pi} \frac{(1+i k x) e^{-i k x}}{k^{2}}\right|_{-\pi} ^{\pi} \\ & =\frac{1}{2 \pi k^{2}}\left((1+i k \pi) e^{-i k \pi}-(1-i k \pi) e^{i k \pi}\right)=\frac{1}{2 \pi k^{2}}\left((1+i k \pi)(-1)^{k}-(1-i k \pi)(-1)^{k}\right) \\ & =\frac{(-1)^{k} i}{k} \end{aligned} $$ Somit erhalten wir die Fourier-Reihe $S_{f}(t)$ von $f(t)$ in der Exponentialform: $$ S_{f}(t)=\sum_{k \in \mathbb{Z}, k \neq 0} \frac{(-1)^{k}}{k} i e^{i k x} $$ Um die Koeffizienten der Fourier-Reihe in der Sinus-Cosinus-Form zu bekommen, benützen wir die Beziehungen (8.1). Wir erhalten: $$ \begin{aligned} & a_{0}=2 c_{0}=0, \quad a_{n}=c_{n}+c_{-n}=\frac{(-1)^{n}}{n} i+\frac{(-1)^{-n}}{-n} i=(-1)^{n} i\left(\frac{1}{n}-\frac{1}{n}\right)=0 \\ & b_{n}=\left(c_{n}-c_{-n}\right) i=\left(\frac{(-1)^{n}}{n} i-\frac{(-1)^{-n}}{-n} i\right) i=\frac{2(-1)^{n+1}}{n} \end{aligned} $$ Dies liefert somit auch die Fourier-Reihe $S_{f}(t)$ von $f(t)$ in der Sinus-Cosinus-Form: $$ S_{f}(t)=2 \sum_{n=1}^{\infty} \frac{(-1)^{n+1}}{n} \sin (n x) $$ An Hand der Abb. 8.4 lässt sich auch ein so genanntes „Überschwingen“ der Partialsummen ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-361.jpg?height=774&width=1162&top_left_y=1722&top_left_x=368) Abbildung 8.4 Die Partialsummen $S_{N}(t)=2 \sum_{n=1}^{N} \frac{(-1)^{n+1}}{n} \sin (n t)$ mit $N=3,6,12$ der Fourier-Reihe $S_{f}(t)$ für die Sägezahnfunktion $f(t)$ $S_{N}(t)$ der Fourier-Reihe in der Nähe der Unstetigkeitsstellen $\pi+2 k \pi$, für $k \in \mathbb{Z}$, beobachten, welches mathematisch präzisiert werden kann und als so genanntes „Gibbs-Phänomen“ an Unstetigkeitsstellen bezeichnet wird. In der Praxis benützt man häufig Rechenregeln, um aus bekannten Reihendarstellungen neue zu gewinnen. Einige wichtige Rechenregeln sind nachfolgend für die Exponentialform angeführt. Satz 8.16 Für die Fourierreihen $$ S_{f}(t)=\sum_{k=-\infty}^{\infty} c_{k} e^{i k \omega t} \sim f(t), \quad S_{g}(t)=\sum_{k=-\infty}^{\infty} d_{k} e^{i k \omega t} \sim g(t) $$ von auf $[0, T]$ stückweise stetigen $T$-periodischen Funktionen $f(t), g(t)$ gelten die nachfolgend angeführten Rechenregeln: Linearität: $\quad \alpha f(t)+\beta g(t) \sim \sum_{k=-\infty}^{\infty}\left(\alpha c_{k}+\beta d_{k}\right) e^{i k \omega t}$ Konjugation: $\overline{f(t)} \sim \sum_{k=-\infty}^{\infty} \overline{c_{-k}} e^{i k \omega t}$, Zeitumkehr: $\quad f(-t) \sim \sum_{k=-\infty}^{\infty} c_{-k} e^{i k \omega t}$ Streckung: $\quad f(c t) \sim \sum_{k=-\infty}^{\infty} c_{k} e^{i k(c \omega) t}, \quad c>0$, für die $\frac{T}{c}$-periodische Funktion $F(t)=f(c t)$, Verschiebung im Zeitbereich: $f(t+a) \sim \sum_{k=-\infty}^{\infty}\left(e^{i k \omega a} c_{k}\right) e^{i k \omega t}, \quad a \in \mathbb{R}$, Verschiebung im Frequenzbereich: $\quad e^{i n \omega t} f(t) \sim \sum_{k=-\infty}^{\infty} c_{k-n} e^{i k \omega t}, \quad n \in \mathbb{Z}$. Beweis. Diese Rechenregeln können allesamt einfach durch Verwenden elementarer Integrationsregeln nachgewiesen werden. Exemplarisch betrachten wir die $T$-periodische Funktion $f(t+a)$ mit $a \in \mathbb{R}$ und wollen die Fourier-Koeffizienten $\gamma_{k}$ berechnen, so dass $f(t+a) \sim$ $\sum_{k=-\infty}^{\infty} \gamma_{k} e^{i k \omega t}$. Dazu verwenden wir die Substitution $\tau=t+a$ und erhalten für alle $k \in \mathbb{Z}$ : $$ \begin{aligned} \gamma_{k} & =\frac{1}{T} \int_{0}^{T} f(t+a) e^{-i k \omega t} d t=\frac{1}{T} \int_{a}^{T+a} f(\tau) e^{-i k \omega(\tau-a)} d \tau=e^{i k \omega a} \frac{1}{T} \int_{a}^{T+a} f(\tau) e^{-i k \omega \tau} d \tau \\ & =e^{i k \omega a} c_{k} . \end{aligned} $$ Bemerkung: Die Beziehung (8.5d) besagt, dass die $\frac{T}{c}$-periodische Funktion $F(t)=f(c t)$, mit $c>0$, dieselben Fourier-Koeffizienten wie $f(t)$ besitzt. Beispiel 8.17 In Beispiel 8.15 wurde eine $2 \pi$-periodische Sägezahnfunktion $f(t)$ betrachtet. Alternativ dazu definieren wir hier eine $2 \pi$-periodische Sägezahnfunktion $g(t)$, welche nun auf dem Intervall $[0,2 \pi)$ definiert ist durch $g(t)=\frac{1}{2}(\pi-t)$ und außerhalb dieses Intervalls $2 \pi$ periodisch fortgesetzt ist. Zwischen den Funktionen $f(t)$ und $g(t)$ besteht offensichtlich die Beziehung $g(t)=-\frac{1}{2} f(t-\pi)$. Um die Fourier-Koeffizienten $d_{k}$ der Fourier-Reihe $S_{g}(t)=$ $\sum_{k \in \mathbb{Z}} d_{k} e^{i k t}$ von $g(t)$ zu berechnen, benützen wir die in Beispiel 8.15 berechneten FourierKoeffizienten $c_{k}=\frac{(-1)^{k} i}{k}$, für $k \neq 0$, und $c_{0}=0$ der Fourier-Reihe $S_{f}(t)=\sum_{k \in \mathbb{Z}} c_{k} e^{i k t}$ von $f(t)$ und bedienen uns der Beziehungen (8.5a) und (8.5e). Dies liefert: $$ d_{k}=-\frac{1}{2}\left(e^{i k(-\pi)} c_{k}\right)=-\frac{1}{2}(-1)^{k} c_{k} $$ da $e^{i \pi k}=\left(e^{i \pi}\right)^{k}=(-1)^{k}$ und somit $d_{0}=0$ ist und für $k \neq 0$ gilt: $$ d_{k}=-\frac{1}{2} \frac{(-1)^{2 k} i}{k}=-\frac{i}{2 k} $$ Mit Hilfe von (8.1) erhält man auch die Fourier-Koeffizienten in der Sinus-Cosinus-Form: $a_{n}=$ 0 , für $n \geq 0$, und $b_{n}=\frac{1}{n}$, für $n \geq 1$. Die Fourier-Reihe $S_{g}(t)$ in der Sinus-Cosinus-Form ist also folgendermaßen gegeben: $$ S_{g}(t)=\sum_{n \geq 1} \frac{1}{n} \sin (n x) $$ Weiters sind die folgenden zwei Sätze betreffend die Differentiation bzw. Integration einer Fourier-Reihe nützlich. Satz 8.18 (Differentiation einer Fourier-Reihe) Sei $f(t)$ eine auf $\mathbb{R}$ stetige und auf $[0, T]$ stückweise stetig differenzierbare T-periodische Funktion mit der Fourier-Reihe $S_{f}(t)=$ $\sum_{k=-\infty}^{\infty} c_{k} e^{i k \omega t}$. Für die Fourier-Reihe $S_{f^{\prime}}(t)$ der Ableitung $f^{\prime}(t)$ gilt dann: $$ S_{f^{\prime}}(t)=\sum_{k=-\infty}^{\infty}\left(i k \omega c_{k}\right) e^{i k \omega t} $$ Beweis. Wir berechnen die Koeffizienten $d_{k}$ der Fourierreihe $S_{f^{\prime}}(t)=\sum_{k=-\infty}^{\infty} d_{k} e^{i k \omega t}$, wobei $0=t_{0}0$ einseitig abfallende Impuls $f(t)$ ist für $a>0$ definiert als: $$ f(t)= \begin{cases}e^{-a t}, & \text { für } t \geq 0, \\ 0, & \text { für } t<0 .\end{cases} $$ Die Spektralfunktion der absolut integrierbaren Funktion $f(t)$ ist gegeben durch: $$ \begin{aligned} F(\omega) & =\int_{0}^{\infty} e^{-a t} e^{-i \omega t} d t=\int_{0}^{\infty} e^{(-a-i \omega) t} d t=\left.\frac{e^{(-a-i \omega) t}}{-a-i \omega}\right|_{0} ^{\infty}=\lim _{b \rightarrow \infty} \frac{e^{(-a-i \omega) b}}{-a-i \omega}+\frac{1}{a+i \omega} \\ & =\frac{1}{a+i \omega} \end{aligned} $$ Wir wollen nun die Fourier-Transformierte von $f^{\prime}(t)$ durch Anwenden von Rechenregel (8.14h) berechnen. Die Funktion $f(t)$ besitzt an der Stelle $t_{1}=0$ eine Sprungstelle mit Sprunghöhe $f\left(0^{+}\right)-f\left(0^{-}\right)=1$ und hat für $t \neq 0$ die Ableitung: $$ f^{\prime}(t)= \begin{cases}-a e^{-a t}, & \text { für } t>0 \\ 0, & \text { für } t<0\end{cases} $$ Die Voraussetzungen für die Anwendung von (8.14h) sind erfüllt, und wir erhalten: $$ \mathcal{F}\left\{f^{\prime}(t)\right\}=i \omega F(\omega)-\left(f\left(0^{+}\right)-f\left(0^{-}\right)\right) e^{0}=\frac{i \omega}{a+i \omega}-1=-\frac{a}{a+i \omega} $$ Beispiel 8.45 Wir betrachten die Funktion $f(t)=e^{-t^{2}}$ und können einerseits ihre Spektralfunktion $F(\omega)$ unter Zuhilfenahme der Rechenregel (8.14i) berechnen, also $$ \mathcal{F}\{t f(t)\}=i F^{\prime}(\omega) $$ Man kann $\mathcal{F}\{t f(t)\}$ aber auch direkt bestimmen, denn man erhält mittels partieller Integration: $$ \begin{aligned} & \int_{-\infty}^{\infty} t e^{-t^{2}} e^{-i \omega t} d t=\left.\frac{e^{-t^{2}}}{-2} e^{-i \omega t}\right|_{-\infty} ^{\infty}-\frac{i \omega}{2} \int_{-\infty}^{\infty} e^{-t^{2}} e^{-i \omega t} d t \\ & \quad=-\frac{1}{2}\left[\lim _{b \rightarrow \infty} e^{-b^{2}-i \omega b}-\lim _{a \rightarrow-\infty} e^{-a^{2}-i \omega a}\right]-\frac{i \omega}{2} \int_{-\infty}^{\infty} e^{-t^{2}} e^{-i \omega t} d t=0-\frac{i \omega}{2} F(\omega) \\ & =-\frac{i \omega}{2} F(\omega) . \end{aligned} $$ Das heißt, $F(\omega)$ erfüllt die folgende homogene lineare Differentialgleichung erster Ordnung: $$ F^{\prime}(\omega)=-\frac{\omega}{2} F(\omega) $$ Lösen dieser Differentialgleichung liefert sodann $$ F(\omega)=F(0) e^{-\frac{\omega^{2}}{4}} $$ wobei $$ F(0)=\int_{-\infty}^{\infty} f(t) d t=\int_{-\infty}^{\infty} e^{-t^{2}} d t $$ Um die Konstante $F(0)>0$ zu bestimmen, werden wir die Parseval-Plancherel-Gleichung (8.13) verwenden, woraus folgt: $$ \int_{-\infty}^{\infty} e^{-2 t^{2}} d t=\frac{1}{2 \pi} \int_{-\infty}^{\infty} F(0)^{2} e^{-\frac{\omega^{2}}{2}} d \omega=\frac{F(0)^{2}}{2 \pi} \int_{-\infty}^{\infty} 2 e^{-2 u^{2}} d u=\frac{F(0)^{2}}{\pi} \int_{-\infty}^{\infty} e^{-2 u^{2}} d u $$ wobei die Variablensubstitution $u=\frac{\omega}{2}$ durchgeführt wurde. Somit erhalten wir $$ \frac{F(0)^{2}}{\pi}=1 \Rightarrow F(0)=\sqrt{\pi} . $$ Dies bestimmt die gesuchte Spektralfunktion $F(\omega)$ vollständig, und wir erhalten $$ F(\omega)=\sqrt{\pi} e^{-\frac{\omega^{2}}{4}} . $$ Wir wollen im Folgenden noch das für Integraltransformationen grundlegende Problem der Invertierbarkeit betrachten. Essentiell für die Fourier-Transformation ist der folgende Satz. Satz 8.46 (Fourier-Integraltheorem) Ist $f: \mathbb{R} \rightarrow \mathbb{C}$ absolut integrierbar und in jedem endlichen Intervall stückweise stetig differenzierbar und bezeichne $F(\omega)=\int_{-\infty}^{\infty} e^{-i \omega t} f(t) d t$ die Fourier-Transformierte von $f(t)$, so gilt für alle $t \in \mathbb{R}$ : $$ \frac{f\left(t^{+}\right)+f\left(t^{-}\right)}{2}=\frac{1}{2 \pi}(C H W) \int_{-\infty}^{\infty} e^{i \omega t} F(\omega) d \omega $$ Falls die Voraussetzungen von Satz 8.46 erfült sind und $f(t)$ sogar stetig auf $\mathbb{R}$ ist, dann besagt Satz 8.46 insbesondere: $$ f(t)=\frac{1}{2 \pi}(C H W) \int_{-\infty}^{\infty} e^{i \omega t} F(\omega) d \omega $$ Aus dem Fourier-Integraltheorem folgt sofort der folgende Satz. Satz 8.47 (Umkehr- und Eindeutigkeitssatz) Besitzt die Funktion $f: \mathbb{R} \rightarrow \mathbb{C}$ folgende Eigenschaften: (i) sie ist absolut integrierbar, (ii) sie ist in jedem endlichen Intervall stückweise differenzierbar, (iii) es gilt für alle $t \in \mathbb{R}$ die Mittelwerteigenschaft: $$ f(t)=\frac{f\left(t^{+}\right)+f\left(t^{-}\right)}{2} $$ dann ist mit $f(t)$ auch $F(\omega)=\mathcal{F}\{f(t)\}$-transformierbar, und es gilt für alle $t \in \mathbb{R}$ : $$ \mathcal{F}^{-1}\{F(\omega)\}=\mathcal{F}\left\{\frac{1}{2 \pi} F(-\omega)\right\}=f(t) $$ Die Fourier-Transformation findet häufig Verwendung als Hilfsmittel zur Lösung von Funktionalgleichungen, insbesondere von Differentialgleichungen und Integralgleichungen. Dies soll an Hand von zwei Beispielen illustriert werden. Beispiel 8.48 Wir betrachten die folgende Integralgleichung für die Funktion $x(t)$ : $$ \int_{-\infty}^{\infty} x(u) x(t-u) d u=e^{-t^{2}} $$ Mit dem in (8.14j) definierten Faltungsprodukt läßt sich diese Gleichung auch folgendermaßen anschreiben: $$ (x * x)(t)=e^{-t^{2}} $$ Unter Zuhilfenahme von Rechenregel (8.14k) erhalten wir folgende Gleichung für die Spektralfunktion $X(\omega)=\mathcal{F}\{x(t)\}$ : $$ (X(\omega))^{2}=\mathcal{F}\left\{e^{-t^{2}}\right\}=\sqrt{\pi} e^{-\frac{\omega^{2}}{4}}, $$ wobei wir das Ergebnis von Beispiel 8.45 verwendet haben. Also erhalten wir die Spektralfunktion $$ X(\omega)=\pi^{\frac{1}{4}} e^{-\frac{\omega^{2}}{8}} $$ Um die inverse Fourier-Transformation durchzuführen, wenden wir zunächst Rechenregel (8.14c) an und erhalten für $c>0$ : $$ \mathcal{F}\left\{e^{-(c t)^{2}}\right\}=\frac{1}{c} \sqrt{\pi} e^{-\frac{\omega^{2}}{4 c^{2}}} $$ bzw. durch Einsetzen von $c=\sqrt{2}$ die für uns relevante Gleichung: $$ \mathcal{F}\left\{e^{-2 t^{2}}\right\}=\frac{\sqrt{\pi}}{\sqrt{2}} e^{-\frac{\omega^{2}}{8}} $$ Somit erhalten wir schließlich als Lösung der untersuchten Integralgleichung: $$ x(t)=\mathcal{F}^{-1}\{X(\omega)\}=\sqrt{2} \pi^{-\frac{1}{4}} e^{-2 t^{2}} $$ Beispiel 8.49 Wir betrachten die folgende lineare partielle Differentialgleichung zweiter Ordnung für eine Funktion $u(x, t)$, welche für $x \in \mathbb{R}$ und $t>0$ gelten soll $(\kappa>0$ sei eine Konstante): $$ u_{t}(x, t)=\kappa u_{x x}(x, t) $$ Weiters soll $u(x, t)$ für $t=0$ folgende Anfangsbedingung mit einer vorgegebenen Funktion $f(x)$ erfüllen: $$ u(x, 0)=f(x), \quad x \in \mathbb{R} $$ Zum Lösen dieser Differentialgleichung wenden wir die F-Transformation bezüglich der Variablen $x$ an, das heißt, $t$ wird wie ein konstanter Parameter behandelt. Wir notieren dies als $U(\omega, t)=\mathcal{F}_{x}\{u(x, t)\}$. Unter Verwendung der Rechenregel $(8.14 \mathrm{~g})$ erhalten wir dann aus obiger Differentialgleichung folgende lineare Differentialgleichung erster Ordnung in Bezug auf $t$ für $U(\omega, t)$ : $$ \frac{d}{d t} U(\omega, t)=-\kappa \omega^{2} U(\omega, t) $$ Die allgemeine Lösung dieser Differentialgleichung ist gegeben durch $$ U(\omega, t)=C(\omega) e^{-\kappa \omega^{2} t} $$ mit einer Funktion $C(\omega)$. Einsetzen von $t=0$ liefert somit $$ U(\omega, 0)=C(\omega)=\mathcal{F}_{x}\{f(x)\} $$ Also erhalten wir $$ \mathcal{F}_{x}\{u(x, t)\}=\mathcal{F}_{x}\{f(x)\} e^{-\kappa \omega^{2} t} $$ Unter Verwendung der Beziehung (8.15) erhalten wir weiter $$ \mathcal{F}_{x}\left\{\frac{1}{2 \sqrt{\pi \kappa t}} e^{-\frac{x^{2}}{4 \kappa t}}\right\}=e^{-\kappa \omega^{2} t} $$ und somit unter Benützung der Faltungsformel (8.14k): $$ \mathcal{F}_{x}\{u(x, t)\}=\mathcal{F}_{x}\{f(x)\} \mathcal{F}_{x}\left\{\frac{1}{2 \sqrt{\pi \kappa t}} e^{-\frac{x^{2}}{4 \kappa t}}\right\}=\mathcal{F}_{x}\left\{f(x) * \frac{1}{2 \sqrt{\pi \kappa t}} e^{-\frac{x^{2}}{4 \kappa t}}\right\} $$ Anwenden der inversen Fourier-Transformation liefert somit folgende Lösung des Anfangswertproblems: $$ u(x, t)=f(x) * \frac{1}{2 \sqrt{\pi \kappa t}} e^{-\frac{x^{2}}{4 \kappa t}}=\int_{-\infty}^{\infty} f(u) \frac{1}{2 \sqrt{\pi \kappa t}} e^{-\frac{(x-u)^{2}}{4 \kappa t}} d u $$ Bemerkung: Beispiel 8.49 behandelt die Wärmeleitungsgleichung für einen dünnen unendlich langen Stab. Abschließend geben wir noch ein Beispiel für eine Anwendung der Fourier-Transformation in der Nachrichtentechnik. Beispiel 8.50 Wir betrachten ein so genanntes ideales Tiefpassfilter in der Nachrichtentechnik. Allgemein lässt sich die Wirkung eines (nicht-aktiven) Filters so beschreiben: betrachtet man ein periodisches Eingangssignal mit fester Frequenz und Amplitude, so verändert das Filter höchstens die Amplitude (und eventuell die Phase), wobei aber die Frequenz des Signals unverändert gelassen wird. Im speziellen werden beim idealen Tiefpassfilter alle Frequenzen $|\omega| \leq \Omega$ des Eingangssignals unverändert gelassen, aber alle Frequenzen $|\omega|>\Omega$ gesperrt. Betrachten wir nun ein Eingangssignal $f(t)$ und das nach dem Filter generierte Ausgangssignal $g(t)$. Im Spektralbereich lässt sich die Filterwirkung einfach durch $$ G(\omega)=H(\omega) F(\omega) $$ beschreiben, wobei $F(\omega)=\mathcal{F}\{f(t)\}, G(\omega)=\mathcal{F}\{g(t)\}$ und die so genannte Übertragungsfunktion $H(\omega)$ beim idealen Tiefpassfilter folgendermaßen gegeben ist: $$ H(\omega)= \begin{cases}1, & |\omega| \leq \Omega \\ 0, & |\omega|>\Omega\end{cases} $$ Im Zeitbereich liefert dies mit Hilfe der Faltungsformel (8.14k) den Zusammenhang $$ g(t)=h(t) * f(t), \quad \text { mit } \quad h(t)=\mathcal{F}^{-1}\{H(\omega)\} $$ Wir berechnen nun noch $h(t)$ : $$ \begin{aligned} h(t) & =\frac{1}{2 \pi}(C H W) \int_{-\infty}^{\infty} e^{i \omega t} H(\omega) d \omega=\frac{1}{2 \pi} \int_{-\Omega}^{\Omega} e^{i \omega t} d \omega=\left.\frac{1}{2 \pi} \frac{e^{i \omega t}}{i t}\right|_{-\Omega} ^{\Omega}=\frac{e^{i t \Omega}-e^{-i t \Omega}}{2 \pi t i} \\ & =\frac{\sin (\Omega t)}{\pi t}=\frac{\Omega}{\pi} \operatorname{si}(\Omega t) \end{aligned} $$ wobei die sogannte Spaltfunktion $\operatorname{si}(x)$ (auch als $\operatorname{sinc}(x)$ ) bezeichnet), definiert ist durch: $$ \operatorname{si}(x)= \begin{cases}\frac{\sin x}{x}, & x \neq 0 \\ 1, & x=0\end{cases} $$ Also erhalten wir folgenden Zusammenhang zwischen dem Eingangssignal $f(t)$ und dem Ausgangssignal $g(t)$ nach dem idealen Tiefpassfilter: $$ g(t)=\frac{\Omega}{\pi} \operatorname{si}(\Omega t) * f(t) $$ ### 8.4 Laplace-Transformation Wir behandeln nun die Laplace-Transformation, eine zur Fourier-Transformation verwandte Integraltransformation, welche beispielsweise für das Lösen von Differentialgleichungen von besonderer Bedeutung ist. Definition 8.51 Eine Funktion $f:[0, \infty) \rightarrow \mathbb{C}$ heißt Laplace-transformierbar (L-transformierbar), wenn das uneigentliche Integral $$ F(s)=\mathcal{L}\{f(t)\}=\int_{0}^{\infty} e^{-s t} f(t) d t $$ für ein $s \in \mathbb{R}$ konvergiert. $F(s)$ heißt dann die Laplace-Transformierte (oder kurz L-Transformierte) von $f(t) . F(s)$ nent man auch die Bildfunktion von $f(t)$ und $f(t)$ die Urbildfunktion von $F(s)$. Dies wird auch mit $f(t)=\mathcal{L}^{-1}\{F(s)\}$ notiert. Beispiel 8.52 Wir betrachten die Funktion $f(t)=e^{w t}$, wobei $w \in \mathbb{C}$, und berechnen ihre Laplace-Transformierte $F(s)=\mathcal{L}\{f(t)\}$. Wir erhalten gemäß Definition: $$ F(s)=\int_{0}^{\infty} e^{-s t} e^{w t} d t=\int_{0}^{\infty} e^{(w-s) t} d t=\left.\frac{e^{(w-s) t}}{w-s}\right|_{0} ^{\infty}=\lim _{t \rightarrow \infty} \frac{e^{(w-s) t}-1}{w-s} $$ Für alle $s \in \mathbb{R}$ mit der Eigenschaft $\Re(w)\Re(w) $$ Falls wir $w=\alpha \in \mathbb{R}$ setzen, erhalten wir die Laplace-Transformierte $\mathcal{L}\left\{e^{\alpha t}\right\}$ und als Spezialfall $\alpha=0$ die Laplace-Transformierte $\mathcal{L}\{1\}$. Falls wir $w=i \omega$ mit $\omega \in \mathbb{R}$ setzen, erhalten wir weiters $$ \begin{aligned} \mathcal{L} & \left\{e^{i \omega t}\right\}=\mathcal{L}\{\cos (\omega t)+i \sin (\omega t)\}=\int_{0}^{\infty} e^{-s t}(\cos (\omega t)+i \sin (\omega t)) d t \\ & =\int_{0}^{\infty} e^{-s t} \cos (\omega t)+i \int_{0}^{\infty} e^{-s t} \sin (\omega t) d t=\mathcal{L}\{\cos (\omega t)\}+i \mathcal{L}\{\sin (\omega t\} \\ & =\frac{1}{s-i \omega}=\frac{s+i \omega}{s^{2}+\omega^{2}}=\frac{s}{s^{2}+\omega^{2}}+\frac{i \omega}{s^{2}+\omega^{2}}, \quad \text { für } s>0 . \end{aligned} $$ Ein Vergleich der Real- und Imaginärteile liefert somit auch die Laplace-Transformierten $\mathcal{L}\{\cos (\omega t)\}$ und $\mathcal{L}\{\sin (\omega t)\}$. Die Laplace-Transformierten dieser wichtigen Grundfunktionen sind in Tabelle 8.1 zusammengefasst. $$ \begin{array}{c|l} f(t) & F(s)=\mathcal{L}\{f(t)\} \\ \hline 1 & \frac{1}{s}, \quad s>0 \\ e^{\alpha t} & \frac{1}{s-\alpha}, \quad s>\alpha \in \mathbb{R} \\ \cos (\omega t) & \frac{s}{s^{2}+\omega^{2}}, \quad s>0 \\ \sin (\omega t) & \frac{\omega}{s^{2}+\omega^{2}}, \quad s>0 \end{array} $$ Tabelle 8.1 Die Laplace-Transformierten einiger wichtiger Grundfunktionen Wir wollen ohne Beweis den folgenden Satz angeben, welcher die Existenz der LaplaceTransformierten für eine wichtige Klasse von Funktionen gewährleistet. Satz 8.53 (Existenz- und Eindeutigkeitssatz der Laplace-Transformation) Ist die Funktion $f:[0, \infty) \rightarrow \mathbb{R}$ auf jedem beschränkten Intervall stückweise stetig und besitzt $f(t)$ höchstens exponentielles Wachstum, das heißt, es gibt Konstanten $M, \sigma \in \mathbb{R}$, so dass $|f(t)| \leq M e^{\sigma t}$, für alle $t>0$, dann gilt: (i) $F(s)=\mathcal{L}\{f(t)\}$ existiert für alle $s>\sigma$, (ii) das Integral $\int_{0}^{\infty} e^{-s t} f(t) d t$ konvergiert für $s \geq s_{0}>\sigma$ gleichmäßig, (iii) $f(t)$ ist bis auf die Funktionswerte an den Unstetigkeitsstellen durch $F(s)$ eindeutig bestimmt, (iv) $\lim _{s \rightarrow \infty} F(s)=0$. Bemerkung: Es gibt Laplace-transformierbare Funktionen, welche die Voraussetzungen von Satz 8.53 nicht erfüllen. Bemerkung: Als Konvergenz-Abszisse $\sigma_{c}$ der Laplace-Transformierten $F(s)$ einer Funktion $f(t)$ bezeichnet man das Infimum (also die größte untere Schranke) der Menge aller Werte $s \in \mathbb{R}$, für die die Laplace-Transformierte von $f(t)$ existiert, also: $$ \sigma_{c}=\inf \left\{s \in \mathbb{R}: \text { es existiert das Integral } \int_{0}^{\infty} e^{-s t} f(t) d t\right\} $$ Ähnlich wie bei der eng verwandten Fourier-Transformierten sind in der Praxis eine Reihe von Rechenregeln für die Laplace-Transformation sehr nützlich. Der Beweis der nachfolgend angeführten Rechenregeln wird als Übungsaufgabe gestellt. Satz 8.54 Seien $f(t):[0, \infty) \rightarrow \mathbb{R}$ und $g(t):[0, \infty) \rightarrow \mathbb{R}$ Laplace-transformierbare Funktionen mit Laplace-Transformierten $F(s)=\mathcal{L}\{f(t)\}$ und $G(s)=\mathcal{L}\{g(t)\}$. Es gelten dann die folgenden Rechenregeln. - Linearität: $$ \mathcal{L}\{\alpha f(t)+\beta g(t)\}=\alpha F(s)+\beta G(s), \quad \alpha, \beta \in \mathbb{R} $$ - Streckung: $$ \mathcal{L}\{f(c t)\}=\frac{1}{c} F\left(\frac{s}{c}\right), \quad c \neq 0 $$ - Differentiation und Integration im Zeitbereich: Falls $f(t)$ und $f^{\prime}(t)$ bzw. $f(t)$ und $f^{(n)}(t)$ $L$-transformierbar sind und $f(t)$ bzw. $f(t), f^{\prime}(t), \ldots, f^{(n-1)}(t)$ stetig auf $(0, \infty)$ sind, dann gilt: $$ \begin{aligned} \mathcal{L}\left\{f^{\prime}(t)\right\} & =s F(s)-f\left(0^{+}\right) \\ \mathcal{L}\left\{f^{(n)}(t)\right\} & =s^{n} F(s)-s^{n-1} f\left(0^{+}\right)-s^{n-2} f^{\prime}\left(0^{+}\right)-\cdots-f^{(n-1)}\left(0^{+}\right) . \end{aligned} $$ Für eine L-transformierbare Funktion $f(t)$ gilt: $$ \mathcal{L}\left\{\int_{0}^{t} f(u) d u\right\}=\frac{1}{s} F(s) $$ - Differentiation und Integration im Bildbereich: Für eine L-transformierbare Funktion $f(t)$ gilt: $$ \begin{aligned} \mathcal{L}\{t f(t)\} & =-\frac{d}{d s} F(s) \\ \mathcal{L}\left\{t^{n} f(t)\right\} & =(-1)^{n} \frac{d^{n}}{d s^{n}} F(s) \end{aligned} $$ Falls $\frac{f(t)}{t}$ L-transformierbar ist, dann gilt: $$ \mathcal{L}\left\{\frac{f(t)}{t}\right\}=\int_{s}^{\infty} F(u) d u $$ - Verschiebung im Bildbereich: $$ \mathcal{L}\left\{e^{-a t} f(t)\right\}=F(s+a), \quad a \in \mathbb{R} $$ - Verschiebung im Zeitbereich: Um die L-Transformation der Verschiebung um a $\geq 0$ im Zeitbereich einer auf $[0, \infty)$ definierten Funktion $f(t)$ zu beschreiben, verwenden wir die so genannte Heaviside-Funktion $u(t)$ (auch Heaviside'sche Sprungfunktion genannt), welche für $t \in \mathbb{R}$ folgendermaßen definiert ist: $$ u(t)= \begin{cases}0, & \text { für } t<0 \\ 1, & \text { für } t \geq 0\end{cases} $$ Es gilt dann: $$ \begin{aligned} \mathcal{L}\{f(t-a) u(t-a)\} & =e^{-a s} F(s), \quad a \geq 0 \\ \mathcal{L}\{u(t-a)\} & =e^{-a s} \frac{1}{s}, \quad a \geq 0 . \end{aligned} $$ - Faltung: Wir definieren die Faltung $(f * g)(t)$ zweier Funktionen $f(t)$ und $g(t)$ abweichend zur entsprechenden Definition in Abschnitt 8.3 nun wie folgt: $$ (f * g)(t)=\int_{0}^{t} f(t-\tau) g(\tau) d \tau $$ Es gilt dann die Produktformel: $$ \mathcal{L}\{(f * g)(t)\}=F(s) G(s) . $$ Die Verschiebung einer Funktion $f(t)$ um $a \geq 0$ wird in Abb. 8.10 illustriert. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-387.jpg?height=228&width=982&top_left_y=1348&top_left_x=502) Abbildung 8.10 Die Funktion $f(t)=\cos (t-a) u(t-a)$ mit $a=\frac{\pi}{3}$ Das Anwenden der Rechenregeln (8.16) wird im Folgenden an Hand von Beispielen erläutert. Beispiel 8.55 Unter Zuhilfenahme der Rechenregel (8.16a) berechnen wir die L-Transformierte von $\cosh (\omega t)=\frac{1}{2}\left(e^{\omega t}+e^{-\omega t}\right)$, mit $\omega \in \mathbb{R}$. Wir erhalten für $s>\omega$ : $$ \mathcal{L}\{\cosh (\omega t)\}=\frac{1}{2} \mathcal{L}\left\{e^{\omega t}\right\}+\frac{1}{2} \mathcal{L}\left\{e^{-\omega t}\right\}=\frac{1}{2} \frac{1}{s-\omega}+\frac{1}{2} \frac{1}{s+\omega}=\frac{s}{s^{2}-\omega^{2}} . $$ Beispiel 8.56 Wir betrachten die Funktion $f(t)=t^{n}$, für $n \in \mathbb{N}$. Es gilt dann für die $n$-te Ableitung von $f(t)$ : $\frac{d^{n}}{d t^{n}} f(t)=f^{(n)}(t)=n$ !. Da $f^{(k)}\left(0^{+}\right)=0$, für $0 \leq k \leq n-1$, erhalten wir wegen Rechenregel $(8.16 \mathrm{~d})$ : $$ \frac{n !}{s}=n ! \mathcal{L}\{1\}=\mathcal{L}\left\{f^{(n)}(t)\right\}=s^{n} \mathcal{L}\{f(t)\}=s^{n} \mathcal{L}\left\{t^{n}\right\} $$ woraus wir folgende Formel für die L-Transformierte bekommen: $$ \mathcal{L}\left\{t^{n}\right\}=\frac{n !}{s^{n+1}} $$ Beispiel 8.57 Wir wollen die L-Transformierte von $f(t)=\frac{\sin (\omega t)}{t}$ unter Benützung der Rechenregel $(8.16 \mathrm{~h})$ bestimmen. Wir erhalten dann: $$ \begin{aligned} \mathcal{L}\left\{\frac{\sin (\omega t)}{t}\right\} & =\int_{s}^{\infty} \frac{\omega}{u^{2}+\omega^{2}} d u=\frac{1}{\omega} \int_{s}^{\infty} \frac{1}{1+\left(\frac{u}{\omega}\right)^{2}} d u=\int_{\frac{s}{\omega}}^{\infty} \frac{d v}{1+v^{2}}=\left.\arctan v\right|_{\frac{s}{\omega}} ^{\infty} \\ & =\frac{\pi}{2}-\arctan \left(\frac{s}{\omega}\right)=\arctan \left(\frac{\omega}{s}\right) . \end{aligned} $$ Beispiel 8.58 Wir betrachten nun für $t \geq 0$ die Rechteckschwingung mit Periode $T$ und Amplitude $A$, siehe Abb. 8.1. Unter Benützung der Heaviside-Funktion $u(t)$ können wir dann die Rechteckschwingung $f(t)$ folgendermaßen darstellen: $$ f(t)=-A+2 A \sum_{k=0}^{\infty}(-1)^{k} u\left(t-\frac{k T}{2}\right), \quad t \geq 0 $$ Man beachte, dass in obiger Darstellung für jedes feste $t$ nur eine endliche Anzahl von Summanden $\neq 0$ sind. Für die Laplace-Transformierte von $f(t)$ erhalten wir zunächst: $$ \mathcal{L}\{f(t)\}=2 A \int_{0}^{\infty}\left[\sum_{k=0}^{\infty} e^{-s t}(-1)^{k} u\left(t-\frac{k T}{2}\right)\right] d t-\frac{A}{s} $$ In den Übungen wird nun gezeigt, daß die Funktionenreihe $\sum_{k=0}^{\infty} e^{-s t}(-1)^{k} u\left(t-\frac{k T}{2}\right)$ gleichmäBig auf $[0, \infty)$ konvergiert, falls $s>0$ ist. Wegen Satz 8.11 darf nun Integration mit Summation vertauscht werden, und wir erhalten weiter: $$ \begin{aligned} \mathcal{L}\{f(t)\} & =2 A \sum_{k=0}^{\infty}(-1)^{k} \int_{0}^{\infty} e^{-s t} u\left(t-\frac{k T}{2}\right) d t-\frac{A}{s}=2 A \sum_{k=0}^{\infty}(-1)^{k} \mathcal{L}\left\{u\left(t-\frac{k T}{2}\right)\right\}-\frac{A}{s} \\ & =2 A \sum_{k=0}^{\infty}(-1)^{k} e^{-s \frac{k T}{2}} \frac{1}{s}-\frac{A}{s}=\frac{2 A}{s} \sum_{k=0}^{\infty}\left(-e^{-\frac{s T}{2}}\right)^{k}-\frac{A}{s}=\frac{A}{s}\left(\frac{2}{1+e^{-\frac{s T}{2}}}-1\right) \\ & =\frac{A}{s}\left(\frac{1-e^{-\frac{s T}{2}}}{1+e^{-\frac{s T}{2}}}\right)=\frac{A}{s} \tanh \left(\frac{s T}{4}\right) . \end{aligned} $$ Die Nützlichkeit der L-Transformation für das Lösen von Differentialgleichungen wird in den folgenden Beispielen demonstriert. Beispiel 8.59 Eine wichtige Anwendung der L-Transformation liegt im Lösen von linearen Anfangswertproblemen mit konstanten Koeffizienten. Dabei wird die lineare Differentialgleichung mit konstanten Koeffizienten, welche die Funktion $x(t)$ erfüllt, mit Hilfe der L-Transformation in eine Gleichung für die L-Transformierte $X(s)=\mathcal{L}\{x(t)\}$ übergeführt, wobei die Anfangswerte bereits in diesem Schritt eingearbeitet werden. Anschließend wird die Gleichung nach $X(s)$ aufgelöst. Als letzten Schritt bleibt noch die Rücktransformation $x(t)=\mathcal{L}^{-1}\{X(s)\}$ durchzuführen, wobei sich in der Praxis die Rechenregeln, aber auch umfangreiches Tabellenwerk für die L-Transformation, als nützlich erweisen. Wir illustrieren das Verfahren an Hand des folgenden linearen Anfangswertproblems für $x(t)$ : $$ \ddot{x}(t)+9 x(t)=\cos (\omega t), \text { mit } \omega>0 $$ und Anfangswerten $x(0)=c_{0}$ und $\dot{x}(0)=c_{1}$. Wir behandeln nun die gesamte Gleichung mit der L-Transformation und erhalten unter Zuhilfenahme von (8.16c) und unter Verwendung der Notation $X(s)=\mathcal{L}\{x(t)\}$ : $$ s^{2} X(s)-s c_{0}-c_{1}+9 X(s)=\frac{s}{x^{2}+\omega^{2}} $$ Daraus erhalten wir als Lösung von $X(s)$ unmittelbar die folgende Formel: $$ X(s)=\frac{c_{0} s}{s^{2}+9}+\frac{c_{1}}{s^{2}+9}+\frac{s}{\left(s^{2}+\omega^{2}\right)\left(s^{2}+9\right)} $$ Für die Rücktransformation $x(t)=\mathcal{L}^{-1}\{X(s)\}$ werden wir nun die Fälle $\omega=3$ und $\omega \neq 3$ unterscheiden. Falls $\omega \neq 3$, führen wir beim dritten Summanden in Gleichung (8.17) eine Partialbruchzerlegung durch, das heißt, wir wählen den Ansatz $$ \frac{s}{\left(s^{2}+\omega^{2}\right)\left(s^{2}+9\right)}=\frac{A s+B}{s^{2}+\omega^{2}}+\frac{C s+D}{s^{2}+9} . $$ Man erhält die Darstellung $$ \frac{s}{\left(s^{2}+\omega^{2}\right)\left(s^{2}+9\right)}=\frac{1}{9-\omega^{2}}\left(\frac{s}{s^{2}+\omega^{2}}-\frac{s}{s^{2}+9}\right) $$ woraus wir folgendes bekommen: $$ \mathcal{L}^{-1}\left\{\frac{s}{\left(s^{2}+\omega^{2}\right)\left(s^{2}+9\right)}\right\}=\frac{1}{9-\omega^{2}}(\cos (\omega t)-\cos (3 t)) $$ Falls $\omega=3$, wenden wir Rechenregel (8.16h) auf den dritten Summanden in Gleichung (8.17) an. Wir wählen die Bezeichnung $F(s)=\mathcal{L}\{f(t)\}=\frac{s}{\left(s^{2}+9\right)^{2}}$ und erhalten: $$ \mathcal{L}\left\{\frac{f(t)}{t}\right\}=\int_{s}^{\infty} F(u) d u=\int_{s}^{\infty} \frac{u}{\left(u^{2}+9\right)^{2}} d u=-\left.\frac{1}{2} \frac{1}{u^{2}+9}\right|_{s} ^{\infty}=\frac{1}{2\left(s^{2}+9\right)} $$ $\mathrm{Da}$ $$ \mathcal{L}^{-1}\left\{\frac{1}{2\left(s^{2}+9\right)}\right\}=\frac{1}{6} \mathcal{L}^{-1}\left\{\frac{3}{s^{2}+9}\right\}=\frac{1}{6} \sin (3 t) $$ erhalten wir weiters $$ f(t)=\mathcal{L}^{-1}\left\{\frac{s}{\left(s^{2}+9\right)^{2}}\right\}=\frac{1}{6} t \sin (3 t) $$ Unter Verwendung der Rücktransformierten der ersten beiden Summanden in Gleichung (8.17) erhalten wir schließlich die gesuchte Lösung $x(t)$ des Anfangswertproblems für alle Werte $\omega>$ 0 : $$ x(t)=c_{0} \cos (3 t)+\frac{1}{3} c_{1} \sin (3 t)+ \begin{cases}\frac{1}{6} t \sin (3 t), & \text { für } \omega=3, \\ \frac{1}{9-\omega^{2}}(\cos (\omega t)-\cos (3 t)), & \text { für } \omega \neq 3 .\end{cases} $$ Beispiel 8.60 In speziellen Fällen lassen sich auch Differentialgleichungen mit nichtkonstanten Koeffizienten mit Hilfe der Laplace-Transformation behandeln. Für die nachfolgend angegebene Differentialgleichung $$ 2 t \ddot{x}(t)-\dot{x}(t)=0 $$ liefert die L-Transformation eine lineare Differentialgleichung erster Ordnung im Bildbereich: $$ \begin{aligned} & -2 \frac{d}{d s} \mathcal{L}\{\ddot{x}(t)\}-\mathcal{L}\{\dot{x}(t)\}=-2 \frac{d}{d s}\left(s^{2} X(s)-s x(0)-\dot{x}(0)\right)-(s X(s)-x(0)) \\ & =-2\left(2 s X(s)+s^{2} \dot{X}(s)-x(0)\right)-s X(s)+x(0)=-2 s^{2} \dot{X}(s)-5 s X(s)+3 x(0)=0 \end{aligned} $$ Das für diesen Typ von Differentialgleichungen in Kapitel 7 behandelte Lösungsverfahren liefert nun folgende allgemeine Lösung für $X(s)$ : $$ X(s)=\frac{x(0)}{s}+\frac{c_{1}}{s^{\frac{5}{2}}}, \quad \text { für } c_{1} \in \mathbb{R} $$ Um die Rücktransformation durchzuführen, betrachten wir zunächst die L-Transformierte der Funktion $f(t)=t^{\alpha}$, mit $\alpha>0$. Für $\alpha \in \mathbb{N}$ haben wir die L-Transformierte bereits in Beispiel 8.56 bestimmt. Allgemein erhält man für $s>0$ gemäß Definition zunächst: $$ \mathcal{L}\left\{t^{\alpha}\right\}=\int_{0}^{\infty} e^{-s t} t^{\alpha} d t $$ Durch die Variablensubstitution $u=s t$ liefert dies weiter: $$ \mathcal{L}\left\{t^{\alpha}\right\}=\int_{0}^{\infty}\left(\frac{u}{s}\right)^{\alpha} e^{-u} \frac{d u}{s}=\frac{1}{s^{\alpha+1}} \int_{0}^{\infty} u^{\alpha} e^{-u} d u $$ Das hier auftretende Integral wurde bereits im Kapitel 5 vorgestellt, es ist die so genannte Gammafunktion. Wir erhalten also für $\alpha>0$ : $$ \mathcal{L}\left\{t^{\alpha}\right\}=\frac{\Gamma(\alpha+1)}{s^{\alpha+1}} $$ Dies benützen wir nun, um die Rücktransformation durchzuführen. Wir erhalten aus Gleichung (8.18) somit die allgemeine Lösung der Differentialgleichung im Zeitbereich, mit $c \in \mathbb{R}$ : $$ x(t)=\mathcal{L}^{-1}\{X(s)\}=x(0)+\frac{c_{1} t^{\frac{3}{2}}}{\Gamma\left(\frac{5}{2}\right)}=x(0)+c t^{\frac{3}{2}} $$ Beispiel 8.61 Wir betrachten elektrische Schaltungen mit den Schaltelementen Ohm'scher Widerstand $R$, Kondensator mit Kapazität $C$ und Spule mit Induktivität $L$. Den zeitlichen Spannungs- bzw. Stromverlauf bezeichnen wir mit $u(t)$ bzw. $i(t)$, deren L-Transformierte mit $U(s)$ bzw. $I(s)$, wobei wir vom ruhenden Zustand ausgehen, das heißt für $t \leq 0$ gilt $u(t)=i(t)=0$. Ab dem Zeitpunkt $t=0$ wird beim Eingang eine Quellspannung $u_{e}(t)$, für $t>0$, angelegt. Der Zusammenhang zwischen dem Spannungsabfall bei den einzelnen Schaltelementen und der Stromstärke sowohl im Zeitbereich als auch im Bildbereich wird im Folgenden tabellarisch dargestellt. | Schaltelement | im Zeitbereich | im Bildbereich | | :---: | :---: | :---: | | $R \dashv \square-$ | $u_{R}(t)=R i(t)$ | $U_{R}(s)=R I(s)$ | | $C$ †- | $u_{C}(t)=\frac{1}{C} \int_{0}^{t} i(v) d v$ | $U_{C}(s)=\frac{1}{C s} I(s)$ | | $L-$ | $u_{L}(t)=L \frac{d i(t)}{d t}$ | $U_{L}(s)=L s I(s)$ | Wir betrachten nun konkret den in Abb. 8.11 dargestellten RCL-Stromkreis. Eine Anwendung ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-391.jpg?height=569&width=603&top_left_y=942&top_left_x=664) Abbildung 8.11 Der RCL-Stromkreis der Kirchhoff'schen Maschenregel liefert im Zeitbereich: $$ u_{R}(t)+u_{C}(t)+u_{L}(t)=u_{e}(t), $$ bzw. im Bildbereich: $$ U_{R}(s)+U_{C}(s)+U_{L}(s)=U_{e}(s) . $$ Für die Stromstärke im Bildbereich gilt deshalb die Gleichung: $$ R I(s)+\frac{1}{C s} I(s)+L s I(s)=\left(R+\frac{1}{C s}+L s\right) I(s)=U_{e}(s) $$ woraus wir im Bildbereich den folgenden Zusammenhang zwischen der Quellspannung und der Stromstärke erhalten: $$ I(s)=\frac{U_{e}(s)}{R+\frac{1}{C s}+L s}=H(s) U_{e}(s) $$ mit $$ H(s)=\frac{C s}{L C s^{2}+R C s+1} . $$ ## 8.5 Übungsaufgaben 8.1 Unter Zuhilfenahme der Potenzreihenentwicklung $$ \cosh z=\frac{e^{z}+e^{-z}}{2}=\sum_{n \geq 0} \frac{z^{2 n}}{(2 n) !}, \quad z \in \mathbb{C} $$ bestimme man den Wert der folgenden trigonometrischen Reihe: $$ \sum_{n=0}^{\infty} \frac{\cos (2 n t)}{(2 n) !} $$ Anleitung: Man fasse die Reihe als Realteil von $\sum_{n=0}^{\infty} \frac{\cos (2 n t)+i \sin (2 n t)}{(2 n) !}$ auf. 8.2 Man zeige die in Satz 8.11 zusammengefassten wichtigen Eigenschaften gleichmäßig konvergenter Funktionenreihen. 8.3 Man bestimme die Fourier-Reihe folgender $2 \pi$-periodischer Funktion $f(t)$ swohl für die SinusCosinus-Form als auch für die Exponentialform: $$ f(t)=t, \quad 0 \leq t<2 \pi, \quad 2 \pi \text {-periodisch fortgesetzt. } $$ 8.4 Man bestimme die Fourier-Reihe folgender $2 \pi$-periodischer Funktion $f(t)$ : $$ f(t)=t^{2}, \quad 0 \leq t<2 \pi, \quad 2 \pi \text {-periodisch fortgesetzt. } $$ 8.5 Man bestimme die Fourier-Reihe folgender $2 \pi$-periodischer Funktion $f(t)$ : $$ f(t)=\cos t+|\cos t| . $$ 8.6 Man zeige die in Satz 8.16 angeführten Rechenregeln (8.5d) und (8.5f) für die Streckung bzw. Verschiebung im Frequenzbereich einer $T$-periodischen Funktion $f(t)$. 8.7 Man zeige, dass eine gerade $T$-periodische Funktion, d.h. eine $T$-periodische Funktion $f$ mit $f(-t)=f(t)$ für alle $t$, in ihrer reellen Fourier-Entwicklung (= Sinus-Cosinus-Form) keine SinusAusdrücke enthalten kann, also $b_{n}=0$ für alle $n \geq 1$ gilt. 8.8 Man zeige, dass eine ungerade $T$-periodische Funktion, d.h. eine $T$-periodischeFunktion $f$ mit $f(-t)=-f(t)$ für alle $t$, in ihrer reellen Fourier-Entwicklung (= Sinus-Cosinus-Form) keine CosinusAusdrücke enthalten kann, also $a_{n}=0$ für alle $n \geq 0$ gilt. 8.9 Sei $f(t)$ die in (8.6) definierte $2 \pi$-periodische Rechteckschwingung mit Amplitude 1. Man zeige, dass die Fourier-Reihe $S_{f}(t)$ von $f(t)$ in der Sinus-Cosinus-Form wie folgt gegeben ist: $$ S_{f}(t)=\frac{4}{\pi} \sum_{n \geq 1} \frac{1}{2 n-1} \sin ((2 n-1) t) $$ 8.10 Unter Verwendung der in Aufgabe 8.9 bestimmten Fourier-Reihe der in (8.6) definierten Rechteckschwingung $f(t)$ bestimme man die Fourier-Reihe der im Intervall $[0,2 \pi]$ folgendermaßen definierten $2 \pi$-periodischen Funktion $g(t)$ : $$ g(t)=\left\{\begin{array}{ll} t, & 0 \leq t \leq \pi, \\ 2 \pi-t, & \pi0$ die folgende Reihe gleichmäßig auf $[0, \infty)$ konvergiert: $$ \sum_{k=0}^{\infty} e^{-s t}(-1)^{k} u\left(t-\frac{k T}{2}\right) $$ 8.14 Man berechne die Spektralkoeffizienten des $N$-periodischen diskreten Rechteckimpulses $\left(x_{k}\right)_{k}$ mit $x_{0}=x_{N-1}=1$ und $x_{j}=0$, für $j=1,2, \ldots, N-2$. 8.15 Man betrachte die diskrete $N$-periodische Funktion, welche durch den Vektor $\boldsymbol{y}=(1,0,0,1,0,0, \ldots, 1,0,0)^{T}$ beschrieben wird, wobei $N$ durch 3 teilbar sein muss, also $N=3 M$ mit $M \in \mathbb{N}$ gilt. Man berechne nun die Spektralkoeffizienten $c_{k}$, mit $0 \leq k \leq N-1$, von $y$. 8.16 Man berechne die Spektralkoeffizienten $c_{k}, 0 \leq k \leq N-1$, für die diskrete Rechteckfunktion $\boldsymbol{y}=\left(y_{0}, \ldots, y_{N-1}\right)^{T}$, wobei $N=2 M$ als gerade vorausgestzt wird, mit $$ y_{j}= \begin{cases}1, & 0 \leq j \leq \frac{N}{2}-1 \\ 0, & \frac{N}{2} \leq j \leq N-1\end{cases} $$ 8.17 Sei die Funktion $\boldsymbol{z}=\left(z_{0}, \ldots, z_{N-1}\right)^{T}$ gegeben durch $$ z_{j}= \begin{cases}1, & j=0 \text { oder } j=N-1 \\ 0, & 1 \leq j \leq N-2\end{cases} $$ Man bestimme die Diskrete Fourier-Transformierte $c=\operatorname{DFT}(z)$ von $z$ und bestimme weiters, nun unter der Voraussetzung, dass $N=2 M$ gerade ist, das periodische Faltungsprodukt $\boldsymbol{y} * \boldsymbol{z}$ mit der in Aufgabe 8.16 definierten Funktion $\boldsymbol{y}$. 8.18 Man zeige die in Satz 8.33 angeführte Rechenregel (8.11d) für das in (8.10) definierte Faltungsprodukt $\boldsymbol{y} * \boldsymbol{z}$ zweier diskreter periodischer Funktionen $\boldsymbol{y}$ und $\boldsymbol{z}$. 8.19 Man zeige die in Satz 8.33 angeführten Verschiebungsformeln (8.11b) und (8.11c) einer diskreten periodischen Funktion $\boldsymbol{y}$. 8.20 Gesucht ist das (eindeutig bestimmte) trigonometrische Polynom $$ f(t)=\sum_{k=-n}^{n} c_{k} e^{i k t} $$ von minimalem Grad $n$, welches im Intervall $[0,2 \pi]$ an den drei Stützstellen $t_{j}=\frac{2 \pi j}{3}$, für $j=0,1,2$, die vorgegebenen Funktionswerte $f\left(t_{j}\right)=y_{j}$ annimmt: $$ y_{0}=0, \quad y_{1}=\frac{\sqrt{3}}{2}, \quad y_{2}=-\frac{\sqrt{3}}{2} $$ Wie lautet das trigonometrische Polynom in der Sinus-Cosinus-Form? 8.21 Zur Fourier-Transformation: Man berechne die Spektralfunktion von $$ f(t)= \begin{cases}1, & 01\end{cases} $$ Was liefert das Integral $\int_{0}^{\infty} \frac{\sin \omega}{\omega} d \omega$ ? 8.29 Zur Berechnung von Fourier-Integralen: (a) Unter Verwendung des Fourier-Integraltheorems zeige man: $$ \int_{-\infty}^{\infty} \frac{1}{1+t^{2}} e^{-i \omega t} d t=\pi e^{-|\omega|} $$ (b) Mittels partieller Integration zeige man sodann: $$ \int_{-\infty}^{\infty} \frac{t}{\left(1+t^{2}\right)^{2}} e^{-i \omega t} d t=-\frac{i \pi \omega}{2} e^{-|\omega|} $$ (c) Daraus folgere man unter Benützung von Aufgabe 8.24: $$ \int_{0}^{\infty} \frac{t}{\left(1+t^{2}\right)^{2}} \sin (\omega t) d t=\frac{\pi}{4} \omega e^{-\omega}, \text { für } \omega>0 \text {. } $$ 8.30 Zur Berechnung von Laplace-Integralen: (a) Man zeige, daß für die F-Transformierte $F(\omega)$ der Funktion $f(t)=e^{-a|t|}$, mit $a>0$, folgendes gilt: $$ F(\omega)=\frac{2 a}{a^{2}+\omega^{2}} $$ (b) Mit Hilfe des Fourier-Integraltheorems zeige man sodann: $$ \int_{0}^{\infty} \frac{\cos (\omega t)}{a^{2}+\omega^{2}} d \omega=\frac{\pi}{2 a} e^{-a t}, \text { für } t>0 . $$ (c) Analog zeige man: $$ \int_{0}^{\infty} \frac{\omega \sin (\omega t)}{a^{2}+\omega^{2}} d \omega=\frac{\pi}{2} e^{-a t}, \text { für } t>0 . $$ 8.31 Man löse mit Hilfe der Fourier-Transformation folgende Integralgleichung vom Fredholm-Typ für $x(t)$ : $$ \int_{-\infty}^{\infty} e^{-|t-\tau|} x(\tau) d \tau=\frac{1}{1+t^{2}} $$ 8.32 Man löse unten angegebene Integralgleichung für $f(t):(0, \infty) \rightarrow \mathbb{R}$ und $\omega>0$ : $$ \int_{0}^{\infty} f(t) \sin (\omega t) d t= \begin{cases}1-\omega, & 0<\omega \leq 1 \\ 0, & \omega>1\end{cases} $$ Anleitung: Man betrachte die ungerade Fortsetzung von $f(t)$ auf $\mathbb{R}$ und stelle einen Zusammenhang zwischen dem angegebenen Integral und der Fourier-Transformierten einer ungeraden Funktion her, siehe Aufgabe 8.24. Man beachte weiters den Zusammenhang $F(-\omega)=-F(\omega)$ für die Fourier-Transformierte $F(\omega)=\mathcal{F}\{f(t)\}$ einer ungeraden Funktion $f(t)$. 8.33 Man bestimme die Laplace-Transformierte von folgenden Funktionen, wobei man für Teil (b) z.B. Konstante $\alpha$ und $\beta$ bestimmt (Summensätze oder Moivre-Formel), so dass $\sin ^{3}(t)=\alpha \sin (3 t)+\beta \sin (t)$. $$ \text { (a) } f_{1}(t)=\int_{0}^{t} \tau \sin (\tau) d \tau, \quad \text { (b) } \quad f_{2}(t)=\sin ^{3}(t) $$ 8.34 Man zeige die in Satz 8.54 angeführten Beziehungen (8.16c) und (8.16e) für die L-Transformierte der Ableitung und der Stammfunktion einer Funktion $f(t)$. 8.35 Man zeige die in Satz 8.54 angeführten Verschiebungsformeln (8.16i) und (8.16j) für die LTransformierte. 8.36 Man löse das folgende Anfangswertproblem mit Hilfe der L-Transformation: $$ y^{\prime \prime}(x)-3 y^{\prime}(x)+2 y(x)=6 e^{-x}, \quad y(0)=-9, \quad y^{\prime}(0)=6 $$ 8.37 Bezeichne $(f * g)(t)$ das in (8.161) definierte Faltungsprodukt zweier Funktionen $f(t)$ und $g(t)$. Man gebe nun explizite Formeln für die folgenden Faltungsprodukte und ihre Laplace-Transformierten an: (a) $1 * 2$, (b) $e^{t} * e^{2 t}$. 8.38 Man bestimme die Urbilder $f(t)$ der angegebenen Laplace-Transformierten $F(s)=\mathcal{L}\{f(t)\}$ : (a) $F(s)=\ln \frac{s^{2}+1}{(s-1)^{2}}$, (b) $F(s)=\frac{e^{-2 s}-e^{-4 s}}{s}$. Anleitung: Für Teil $(a)$ betrachte man $\frac{d}{d s} F(s)$. 8.39 Man löse folgendes Anfangswertproblem mittels L-Transformation: $$ y^{\prime \prime}(t)+2 y^{\prime}(t)-3 y(t)=6 \sinh (2 t), \quad y(0)=0, \quad y^{\prime}(0)=4 $$ 8.40 Man zeige: Ist $f(t)$ periodisch mit Periode $T$, d.h. $f(t+T)=f(t)$ für alle $t$, dann gilt: $$ \mathcal{L}\{f(t)\}=\frac{1}{1-e^{-T s}} \int_{t=0}^{T} e^{-s t} f(t) d t $$ 8.41 Man löse mittels L-Transformation die folgende Differential-Integral-Gleichung: $$ 0=\dot{y}(t)+\int_{\tau=0}^{t} y(\tau) \cosh (t-\tau) d \tau, \quad y(0)=1 $$ 8.42 Man löse mit Hilfe der L-Transformation folgendes Anfangswertproblem einer linearen Differentialgleichung mit nichtkonstanten Koeffizienten: $$ y^{\prime \prime}(t)+t y^{\prime}(t)-y(t)=0, \quad y(0)=0, \quad y^{\prime}(0)=1 $$ Anleitung: Durch die L-Transformation erhält man im Bildbereich eine lineare Differentialgleichung 1. Ordnung für $Y(s)=\mathcal{L}\{y(t)\}$. Die in der allgemeinen Lösung auftretende Konstante bestimme man dadurch, dass $Y(s)$ die Laplace-Transformierte der L-transformierbaren Funktion $y(t)$ mit höchstens exponentiellem Wachstum sein soll und daher $\lim _{s \rightarrow \infty} Y(s)=0$ gelten muss. 8.43 Ein RC-Stromkreis enthält einen Widerstand $R$ mit $8 \mathrm{Ohm}$, der mit einer Spule $L$ der Induktivität 0.5 Henry und einer Quellspannung („Batterie“) mit $u_{e}=u_{e}(t)$ Volt in Reihe geschaltet ist. Man berechne mit Hilfe der L-Transformation den Strom $i(t)$ zu einer beliebigen Zeit $t>0$ unter der Anfangsbedingung $i(0)=0$ für $$ \begin{array}{ll} \text { (a) } u_{e}(t)=64, & \text { (b) } u_{e}(t)=32 e^{-8 t} \end{array} $$ 8.44 Ein RCL-Stromkreis besteht aus einer Spule $L$ der Induktivität 0.05 Henry, einem Widerstand $R$ von $20 \mathrm{Ohm}$, einem Kondensator $C$ der Kapazität 100 Mikrofarad sowie einer Quellspannung (,Batterie“) mit $u_{e}=u_{e}(t)=100 \cos (200 t)$ Volt, die in Reihe geschaltet sind. Man berechne mit Hilfe der L-Transformation den Strom $i(t)$ zu einem beliebigen Zeitpunkt $t>0$ unter der Anfangsbedingung $i(0)=0$. ## Kapitel 9 ## Numerische Mathematik Vielfach kommt es bei der Lösung mathematischer Probleme vor, dass zwar Existenz, ja sogar Eindeutigkeit einer Lösung gesichert sind, aber keine explizite Lösungsdarstellung angegeben werden kann. Man denke bloß an die Auflösung nichtlinearer Gleichungen oder an die Integration von Funktionen, welche keine elementare Stammfunktion besitzen (vgl. Beispiel 6.45 (c)). Die numerische Mathematik beschäftigt sich mit der Konstruktion und Analyse von Algorithmen, mit deren Hilfe solche Probleme zumindest approximativ gelöst werden können. Dabei ist mit Algorithmus ein Verfahren gemeint, das entweder nach endlich vielen Schritten zur exakten Lösung eines Problems führt (z.B. Gauß'scher Eliminationsalgorithmus) oder es ermöglicht, die Lösung mit (im Prinzip) beliebig vorgegebener Genauigkeit in endlich vielen Schritten zu erreichen (z.B. Gesamtschrittverfahren von Jacobi). Neben der Frage, ob und wie eine Lösung eines Problems auf numerischem Weg erhalten werden kann, ist es auch wichtig zu wissen, wie schnell ein bestimmtes Verfahren gegen die gesuchte Lösung konvergiert, mit welchem Rechenaufwand dies verbunden ist, und wie es um die Güte der Approximation steht. Daher sind auch Angaben zur Konvergenzgeschwindigkeit, zum Rechenaufwand und zur Fehlerabschätzung wichtiger Bestandteil eines numerischen Verfahrens. Wir befassen uns im folgenden Kapitel zunächst mit numerischen Methoden der Algebra, nämlich mit Verfahren zur Lösung von Gleichungen und Gleichungssystemen, und daran anschließend mit numerischen Methoden der Analysis zur Approximation und Interpolation, Integration und zur numerischen Lösung von gewöhnlichen und partiellen Differentialgleichungen. ### 9.1 Auflösung von Gleichungen und Gleichungssystemen Jedes Polynom $f(x)=a_{n} x^{n}+a_{n-1} x^{n-1}+\cdots+a_{1} x+a_{0}$ vom Grad $n$ mit reellen oder komplexen Koeffizienten besitzt nach dem Fundamentalsatz der Algebra genau $n$ Nullstellen in $\mathbb{C}$, falls man jede Nullstelle mit ihrer Vielfachheit zählt. Nur für $n \leq 4$ gibt es aber allgemein gültige Verfahren zur exakten Berechnung der Nullstellen. Für Polynome vom Grad 3 oder 4 sind diese Verfahren allerdings so aufwändig, dass sie in der Praxis kaum Verwendung finden. Neben den algebraischen Gleichungen, die bei der Nullstellenbestimmung von Polynomen auftreten, gibt es zahlreiche weitere Gleichungen wie z.B. die transzendente Gleichung $e^{x}-100 x=0$, welche i. Allg. ebenfalls nicht exakt lösbar sind. Wir werden nun ein Verfahren kennenlernen, das die schrittweise Bestimmung von Lösungen $x$ einer vorgegebenen Gleichung $f(x)=0$ ermöglicht. Dazu sei $f: I \rightarrow \mathbb{R}$ eine auf einem abgeschlossenen Intervall $I \subseteq \mathbb{R}$ definierte stetige Funktion. Erklärt man eine Funktion $\varphi: I \rightarrow \mathbb{R}$ durch $\varphi(x)=x-f(x)$, so entspricht der Gleichung $f(x)=0$ die dazu äquivalente Gleichung $\varphi(x)=x$. Jede Nullstelle $x^{*}$ von $f$, also jede Lösung der Gleichung $f\left(x^{*}\right)=0$ erfüllt dann auch die Bedingung $\varphi\left(x^{*}\right)=x^{*}$, d.h., $x^{*}$ ist ein Fixpunkt von $\varphi$, und umgekehrt. Nehmen wir einmal an, es sei eine Näherung $x_{0}$ eines Fixpunktes von $\varphi$ bekannt. Bilden wir $x_{1}=\varphi\left(x_{0}\right)$, dann wird - da mit $f$ auch $\varphi$ eine stetige Funktion ist $-x_{1}$ ebenfalls eine Näherung für diesen Fixpunkt sein. Derart fortschreitend konstruieren wir mit Hilfe des Startwertes $x_{0}$ eine Folge $x_{0}, x_{1}, x_{2}, \ldots$ nach der Vorschrift $$ x_{n+1}=\varphi\left(x_{n}\right) \text { für } n=0,1,2, \ldots $$ Dann gilt: Ist die Folge $\left(x_{n}\right)$ konvergent und gilt $\lim _{n \rightarrow \infty} x_{n}=x^{*}$, so folgt auf Grund der Stetigkeit von $\varphi$ $$ x^{*}=\lim _{n \rightarrow \infty} x_{n+1}=\lim _{n \rightarrow \infty} \varphi\left(x_{n}\right)=\varphi\left(\lim _{n \rightarrow \infty} x_{n}\right)=\varphi\left(x^{*}\right), $$ d.h., $x^{*}$ ist ein Fixpunkt von $\varphi$. In diesem Fall werden also die Folgenglieder $x_{n}$ den unbekannten Fixpunkt $x^{*}$ schrittweise approximieren, und wir haben ein Verfahren zur Lösung des Problems gefunden. Man nennt ein solches Verfahren der schrittweisen Annäherung an die Lösung ein Iterationsverfahren. Die Funktion $\varphi$ heißt in diesem Zusammenhang Iterationsfunktion, und die Folge $\left(x_{n}\right)$ nennt man eine Iterationsfolge. Ist sie konvergent, so nennt man auch das Iterationsverfahren konvergent. Beispiel 9.1 Gegeben sei die quadratische Gleichung $f(x)=x^{2}-3 x+2=0$ mit den exakten Lösungen $x^{*}=1$ und $x^{* *}=2$. (a) Wir formen die Gleichung um $\mathrm{zu} \varphi_{0}(x)=x-f(x)=-x^{2}+4 x-2$ und berechnen die Iterationsfolge $\left(x_{n}\right)$ mit $x_{n+1}=\varphi_{0}\left(x_{n}\right)$ zum Startwert $x_{0}=-0.5$. Dabei erhalten wir $$ x_{0}=-0.5, x_{1}=-4.25, x_{2}=-37.06, x_{3}=-1523.88 $$ Offensichtlich ist das Iterationsverfahren nicht konvergent. (b) Eine andere Äquivalenzumformung der Gleichung $f(x)=0$ führt $\mathrm{zu} x=\varphi_{1}(x)=$ $\frac{1}{3}\left(x^{2}+2\right)$. Die entsprechende Iterationsfolge $\left(x_{n}\right)$ mit $x_{n+1}=\varphi_{1}\left(x_{n}\right)$ zum selben Startwert lautet in diesem Fall $$ x_{0}=-0.5, x_{1}=0.75, x_{2}=0.85, x_{3}=0.91, x_{4}=0.9426, \ldots $$ und nähert sich dem Wert $x^{*}=1$, einer Wurzel der gegebenen Gleichung. (c) Wählt man schließlich die zu $f(x)=0$ äquivalente Gleichung $x=\varphi_{2}(x)=3-\frac{2}{x}$ (für $x \neq 0$ ) als Grundlage des Iterationsverfahrens und nochmals den Startwert $x_{0}=-0.5$, so lautet die zugehörige Iterationsfolge $$ x_{0}=-0.5, x_{1}=7, x_{2}=2.71, x_{3}=2.26, x_{4}=2.12, \ldots $$ Diesmal konvergiert die Folge gegen den Wert $x^{* *}=2$, die zweite Wurzel der gegebenen quadratischen Gleichung. Wie das Beispiel deutlich macht, kann das Iterationsverfahren in Abhängigkeit von der Wahl der Funktion $\varphi$ ganz unterschiedliche Ergebnisse liefern. Insbesondere kann das Verfahren auch gar nicht konvergieren. Das Iterationsverfahren ist jedoch konvergent, wenn die beiden in folgendem Satz angeführten Bedingungen erfüllt sind. Satz 9.2 (Fixpunktsatz) Sei $\varphi: I \rightarrow \mathbb{R}$ eine kontrahierende Abbildung von einem kompakten Intervall $I \subseteq \mathbb{R}$ in sich, d.h., $\varphi$ erfült die Bedingungen: (i) $\varphi(x) \in I$ für alle $x \in I$, und (ii) $\varphi$ genügt der Lipschitzbedingung $$ \left|\varphi(x)-\varphi\left(x^{\prime}\right)\right| \leq \lambda\left|x-x^{\prime}\right| \text { für alle } x, x^{\prime} \in I $$ mit einer Lipschitzkonstanten $\lambda$, wobei $0<\lambda<1$. Dann besitzt $\varphi$ genau einen Fixpunkt $x^{*} \in I$, und diesen erhält man als Limes der Iterationsfolge $\left(x_{n}\right)$ mit $x_{n+1}=\varphi\left(x_{n}\right), n=0,1,2, \ldots$, für jeden beliebigen Startwert $x_{0} \in I$. Beweis. Durch (i) ist sichergestellt, dass die Iterationsfolge stets wohldefiniert ist. Die Existenz eines Fixpunktes $x^{*} \in I$ von $\varphi$ ergibt sich folgendermaßen: Wir setzen $I=[a, b]$ und betrachten die Funktion $f(x)=x-\varphi(x)$ auf $I$. Wegen (ii) ist $\varphi$ und damit auch $f$ stetig, und zugleich folgt aus (i), dass $f(a)=a-\varphi(a) \leq 0$ und $f(b)=b-\varphi(b) \geq 0$. Nach dem Nullstellensatz für stetige Funktionen besitzt $f$ eine Nullstelle $x^{*} \in I$, welche zugleich Fixpunkt von $\varphi$ ist. Die Lipschitzbedingung (ii) garantiert die Eindeutigkeit von $x^{*}$ in $I$ und die Konvergenz der Folge $\left(x_{n}\right)$ gegen $x^{*}$, denn $$ \begin{aligned} \left|x_{n+1}-x^{*}\right| & =\left|\varphi\left(x_{n}\right)-\varphi\left(x^{*}\right)\right| \leq \lambda\left|x_{n}-x^{*}\right| \\ \Rightarrow\left|x_{n+1}-x^{*}\right| & \leq \lambda^{n+1}\left|x_{0}-x^{*}\right| \rightarrow 0 \text { für } n \rightarrow \infty \\ & \Rightarrow \lim _{n \rightarrow \infty} x_{n}=x^{*} \end{aligned} $$ und zwar unabhängig vom Startwert $x_{0}$. Für die praktische Anwendung des Fixpunktsatzes ist es erforderlich, zu einer vorgegebenen Iterationsfunktion erstens ein geeignetes Definitionsintervall anzugeben und zweitens dort eine passende Lipschitzbedingung zu finden. Zur Überprüfung der letztgenannten Voraussetzung kann in vielen Fällen der folgende Satz herangezogen werden, der direkt aus dem Mittelwertsatz der Differentialrechung (Satz 5.14) folgt. Satz 9.3 Die Funktion $\varphi: I \rightarrow \mathbb{R}$ erfült eine Lipschitzbedingung mit der Konstanten $\lambda$, wenn $\varphi$ stetig differenzierbar ist und auf I gilt $\left|\varphi^{\prime}(x)\right| \leq \lambda$. Beispiel 9.4 (Fortsetzung) Für die oben angeführte Iterationsfunktion $\varphi_{1}(x)=\frac{1}{3}\left(x^{2}+2\right)$ gilt, falls $|x| \leq 1.2$ angenommen wird, $$ \left|\varphi_{1}(x)\right| \leq \varphi_{1}(1.2)=1.1467<1.2 \quad \text { und } \quad\left|\varphi_{1}^{\prime}(x)\right|=\left|\frac{2}{3} x\right| \leq 0.8<1 $$ Folglich ist $\varphi_{1}$ als Abbildung des Intervalls $I=[-1.2,1.2]$ in sich eine kontrahierende Abbildung mit $\lambda=0.8$. Die Funktion $\varphi_{1}$ besitzt genau einen Fixpunkt in $I$, gegen den jede Iterationsfolge $\left(x_{n}\right)$ mit $x_{0} \in I$ konvergiert, was im Einklang mit den weiter oben erhaltenen heuristischen Ergebnissen steht. Beispiel 9.5 (Babylonisches Wurzelziehen) Wir kommen zurück auf das Babylonische Wurzelziehen (vergleiche Beispiel 7.2 in Kapitel 7) nach der Iteration $$ x_{n+1}=\varphi\left(x_{n}\right) \text { mit } \varphi(x)=\frac{1}{2}\left(x+\frac{a}{x}\right), \quad n=0,1,2, \ldots \text { und } a>0 $$ welche für jeden beliebigen Startwert $x_{0}>0$ auf eine konvergente Folge mit $\lim _{n \rightarrow \infty} x_{n}=\sqrt{a}$ führt. Dieses Verfahren, welches bereits vor 3000 Jahren von den Babyloniern verwendet wurde, ist heute vielfach die Grundlage zur Wurzelberechnung im Computer. Die Iterationsfunktion $\varphi$ bildet jedes Intervall $I=\left[\sqrt{\frac{a}{2}}, b\right]$ mit $b \geq \frac{3}{2} \sqrt{\frac{a}{2}}$ in sich selbst ab, wie man durch Nachrechnen bestätigen kann, und es gilt dort $$ \left|\varphi^{\prime}(x)\right|=\frac{1}{2}\left|1-\frac{a}{x^{2}}\right| \leq \frac{1}{2} $$ Also ist $\varphi$ auf $I$ eine kontrahierende Abbildung mit $\lambda=\frac{1}{2}$. Diese besitzt daher genau einen Fixpunkt $x^{*} \in I$, nämlich $x^{*}=\sqrt{a}$ (die einzige Lösung der Gleichung $x=\varphi(x)$ in $I$ ). Da für $x_{0}>0$ stets $x_{1}=\frac{1}{2}\left(x_{0}+\frac{a}{x_{0}}\right) \geq \sqrt{a}$ und damit $x_{1} \in I$ (für ein passend gewähltes $b$ ) gilt, konvergiert jede Iterationsfolge $\left(x_{n}\right)$ mit $x_{0}>0$ gegen $\sqrt{a}$ (siehe Abb. 9.1). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-400.jpg?height=633&width=916&top_left_y=1190&top_left_x=502) Abbildung 9.1 Iteration beim Babylonischen Wurzelziehen Wir kehren nun zur Gleichung $f(x)=0$, dem Ausgangspunkt unserer Überlegungen, zurück und suchen konkrete Iterationsverfahren zur Lösung dieser Gleichung. Führt man die Iterationsfunktion $\varphi(x)=x-f(x)$ oder allgemeiner $\varphi(x)=x-f(x) g(x)$ mit $g(x) \neq 0$ ein, erhält man die zu $f(x)=0$ äquivalente Fixpunktgleichung $x=\varphi(x)$. Jeder Nullstelle von $f$ entspricht umkehrbar eindeutig ein Fixpunkt von $\varphi$. Dabei versucht man, durch geeignete Wahl der Funktion $g$ zu erreichen, dass $\varphi$ die Voraussetzungen des Fixpunktsatzes erfüllt. Wir betrachten zwei Spezialfälle: ## 1. Newton'sches Näherungsverfahren Ist die Funktion $f$ auf einem abgeschlossenen Intervall $I$ zweimal stetig differenzierbar, gilt ferner $f^{\prime}(x) \neq 0$ für alle $x \in I$ und wählt man in der oben angegebenen Iterationsfunktion speziell $g(x)=\frac{1}{f^{\prime}(x)}$, so erhält man die Newton'sche Näherungsformel $$ x_{n+1}=x_{n}-\frac{f\left(x_{n}\right)}{f^{\prime}\left(x_{n}\right)}, \quad n=0,1,2, \ldots $$ $\mathrm{Zu}$ dieser Formel kommt man auch durch eine einfache geometrische Überlegung (vergleiche Abb. 9.2): Liegt $x_{0}$ in der Nähe der gesuchten Nullstelle $x^{*}$, so ersetzt man den Graphen von $y=f(x)$ durch die Tangente $y=f\left(x_{0}\right)+f^{\prime}\left(x_{0}\right)\left(x-x_{0}\right)$ im Punkt $\left(x_{0}, f\left(x_{0}\right)\right)$ und bestimmt deren Nullstelle $x_{1}$. Die Lösung dieses „Ersatzproblems" führt auf $x_{1}=x_{0}-f\left(x_{0}\right) / f^{\prime}\left(x_{0}\right)$, was vielfach eine bessere Näherung für $x^{*}$ ist. Allerdings ist es durchaus möglich, dass dieses Verfahren nicht zum gewünschten Ziel führt. Ein Beispiel dafür ist ebenfalls in Abb. 9.2 skizziert. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-401.jpg?height=498&width=1470&top_left_y=916&top_left_x=218) Abbildung 9.2 Konvergenz und Divergenz beim Newton'schen Näherungsverfahren Zur Beantwortung der Frage nach der Konvergenz des Newton'schen Näherungsverfahrens nehmen wir an, $x^{*}$ sei eine Nullstelle von $f$ mit $x^{*} \in I$. Dann gilt mit $g(x)=\frac{1}{f^{\prime}(x)}$ $$ \begin{aligned} \varphi(x) & =x-f(x) g(x) \\ \Rightarrow \quad \varphi^{\prime}(x) & =1-f^{\prime}(x) g(x)-f(x) g^{\prime}(x)=-f(x) g^{\prime}(x), \end{aligned} $$ woraus folgt, dass $\varphi^{\prime}\left(x^{*}\right)=0$ ist. Wie man leicht zeigen kann, genügt daher die Funktion $\varphi$ in einer geeignet gewählten Umgebung von $x^{*}$ einer Lipschitzbedingung und erfüllt die Voraussetzungen des Fixpunktsatzes. Damit ist die Konvergenz des Verfahrens gesichert, falls der Startwert $x_{0}$ nahe genug bei $x^{*}$ liegt. Das Newton'sche Näherungsverfahren kann prinzipiell sowohl bei einfachen als auch bei mehrfachen Nullstellen (d.h. Nullstellen von $f(x)$ und $f^{\prime}(x)$ ) angewendet werden, die Iterationsfolge konvergiert jedoch - wie man zeigen kann - gegen eine mehrfache Nullstelle bedeutend langsamer. Dazu kommt, dass im Fall einer mehrfachen Nullstelle der Rechnungsfehler stark ins Gewicht fallen kann. Dies liegt daran, dass der Ausdruck $f(x) / f^{\prime}(x)$ in der Iterationsformel für $x \rightarrow x^{*}$ gegen die unbestimmte Form $0 / 0$ strebt. Wird der Zähler in Bezug auf die bei der Berechnung verwendete Stellenzahl früher 0 als der Nenner, bleibt die Iteration dort stehen, andernfalls kann sich die Iterationsfolge von $x^{*}$ sogar wieder entfernen. Zahlreiche Verbesserungen und Verallgemeinerungen des Newton'schen Verfahrens zur Behandlung mehrfacher Nullstellen, zur Beschleunigung der Konvergenz sowie zur Abschätzung des Verfahrensfehlers sind in der weiterführenden Literatur beschrieben (siehe z.B. [25]). ## Beispiel 9.6 (a) Wir bestimmen die Nullstellen der Gleichung $f(x)=e^{x}-100 x$ mit Hilfe des Newton'schen Näherungsverfahrens. Wegen $f(0)=1>0, f(5)<0$ und $f(10)>0$ besitzt die Funktion $f$ je eine Nullstelle im Intervall $[0,5]$ und im Intervall $[5,10]$ (siehe Abb. 9.3). Da $f^{\prime \prime}(x)=e^{x}>0$ und somit $f$ konvex ist, kann es keine weiteren Nullstellen geben. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-402.jpg?height=796&width=829&top_left_y=623&top_left_x=573) Abbildung 9.3 Nullstellenberechnung für $f(x)=e^{x}-100 x$ Mit $f^{\prime}(x)=e^{x}-100$ lautet die Iteration in unserem Beispiel $$ x_{n+1}=x_{n}-\frac{f\left(x_{n}\right)}{f^{\prime}\left(x_{n}\right)}=x_{n}-\frac{e^{x_{n}}-100 x_{n}}{e^{x_{n}}-100}, \quad n=0,1,2, \ldots $$ Daraus erhalten wir, vom Startwert $x_{0}=0$ ausgehend, bereits nach dem ersten Iterationsschritt die Nullstelle $x^{*}=0.01$, falls auf zwei Nachkommastellen genau gerechnet wird. Der Startwert $x_{0}=10$ führt nach sechs Iterationsschritten auf die zweite Nullstelle $x^{* *}=6.47$ (siehe Tabelle). | $n$ | $x_{n}$ | $\left\|\Delta x_{n}\right\|$ | $f\left(x_{n}\right)$ | $x_{n}$ | $\left\|\Delta x_{n}\right\|$ | $f\left(x_{n}\right)$ | | ---: | :---: | ---: | ---: | ---: | ---: | ---: | | 0 | 0.00 | | 1.00 | 10.00 | | 21026.47 | | 1 | 0.01 | 0.01 | 0.00 | 9.04 | 0.06 | 7538.50 | | 2 | 0.01 | 0.00 | 0.00 | 8.14 | 0.90 | 2606.38 | | 3 | | | | 7.35 | 0.79 | 824.71 | | 4 | | | | 6.79 | 0.56 | 207.96 | | 5 | | | | 6.52 | 0.26 | 28.42 | | 6 | | | | 6.47 | 0.05 | 0.80 | | 7 | | | | 6.47 | 0.00 | 0.00 | (b) Die Iteration $x_{n+1}=\frac{1}{2}\left(x_{n}+\frac{a}{x_{n}}\right)$ von Beispiel 9.5 zur Berechnung von $\sqrt{a}$ erhält man durch Anwendung des Newton'schen Verfahrens auf die quadratische Gleichung $f(x)=$ $x^{2}-a=0$, denn die zu $f$ gehörende Iterationsfunktion $\varphi$ lautet $$ \varphi(x)=x-\frac{f(x)}{f^{\prime}(x)}=x-\frac{x^{2}-a}{2 x}=\frac{1}{2}\left(x+\frac{a}{x}\right) $$ ## 2. Die regula falsi Ist $f$ eine stetige (aber nicht notwendig differenzierbare) Funktion auf einem abgeschlossenen Intervall $I$, so kann man den Differentialquotienten $f^{\prime}(x)$ in Gleichung (9.1) durch einen Differenzenquotienten ersetzen. Man erhält dann die Iterationsformel (regula falsi) $$ x_{n+1}=x_{n}-\frac{x_{n}-x_{n-1}}{f\left(x_{n}\right)-f\left(x_{n-1}\right)} f\left(x_{n}\right), \quad n=1,2,3, \ldots $$ Die regula falsi stellt also ein Iterationsverfahren dar, das ohne Ableitung auskommt, jedoch zwei Startwerte $x_{0}$ und $x_{1}$ erfordert. Man kann zeigen, dass das Verfahren stets gegen eine Nullstelle $x^{*}$ von $f$ konvergiert, falls $x_{0}$ und $x_{1}$ nahe genug bei $x^{*}$ gewählt werden. Die Vorschrift (9.2) kann auch mit Hilfe einer geometrischen Überlegung hergeleitet werden. Interpoliert man nämlich die Funktion $y=f(x)$ an den Stellen $x_{0}$ und $x_{1}$ durch eine Gerade und berechnet deren Nullstelle $x_{2}$, so erhält man $x_{2}=x_{1}-\left(x_{1}-x_{0}\right) f\left(x_{1}\right) /\left(f\left(x_{1}\right)-f\left(x_{0}\right)\right)$ (siehe Abb. 9.4). ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-403.jpg?height=499&width=657&top_left_y=1457&top_left_x=615) Abbildung 9.4 Geometrische Interpretation der regula falsi In der so genannten Primitivform der regula falsi wählt man zunächst zwei Startwerte $x_{0}$ und $x_{1}$ derart, dass die Funktionswerte $f\left(x_{0}\right)$ und $f\left(x_{1}\right)$ entgegengesetztes Vorzeichen besitzen. Nach dem Zwischenwertsatz für stetige Funktionen liegt dann zwischen $x_{0}$ und $x_{1}$ sicher eine Nullstelle von $f$. Man berechnet nun zu $x_{0}$ und $x_{1}$ die Näherung $x_{2}$ gemäß (9.2) mit $n=1$. Sodann werden aus $x_{0}, x_{1}, x_{2}$ zwei Werte ausgewählt, von denen einer gleich $x_{2}$ ist und der andere Wert jenes $x_{i}$ ist, für welches $f\left(x_{i}\right)$ und $f\left(x_{2}\right)$ entgegengesetztes Vorzeichen besitzen. Mit dieser Auswahl als neue Startwerte wird das beschriebene Verfahren fortgesetzt. Auf diese Weise ist die Konvergenz des Iterationsverfahrens stets gewährleistet. Kann man jedoch absehen, dass das Verfahren konvergiert, so ist die Iteration in der so genannten Standardform (9.2) günstiger, da sie schneller konvergiert als in der Primitivform. Beispiel 9.7 (Fortsetzung) Wir bestimmen die größere der beiden Wurzeln der Gleichung $f(x)=e^{x}-100 x=0$, also jene Nullstelle, welche im Intervall $I=[5,10]$ liegt, mit Hilfe der regula falsi in Standardform. Wir wählen $x_{0}=5, x_{1}=10$ und erhalten bei Rechnung auf zwei Nachkommastellen nach 14 Iterationen $x^{* *}=6.47$ (siehe Tabelle). | $n$ | $x_{n}$ | $\left\|\Delta x_{n}\right\|$ | $f\left(x_{n}\right)$ | | ---: | ---: | ---: | ---: | | 0 | 5.00 | | -351.59 | | 1 | 10.00 | 5.00 | 21026.47 | | 2 | 5.08 | 4.92 | -347.09 | | 3 | 5.16 | 0.08 | -341.68 | | 4 | 10.21 | 5.04 | 26042.80 | | 5 | 5.23 | 4.98 | -336.43 | | | $\ldots$ | $\ldots$ | $\ldots$ | | 14 | 6.47 | 0.07 | -4.05 | | 15 | 6.47 | 0.01 | -0.14 | | 16 | 6.47 | 0.00 | 0.00 | Zum Vergleich verschiedener Iterationsverfahren muss einerseits der Rechenaufwand, andererseits die Konvergenzgeschwindigkeit der Iterationsfolge in Betracht gezogen werden. Der Rechenaufwand kann z.B. nach der Anzahl der pro Iterationsschritt benötigten Rechenoperationen bemessen werden. Ein Maß für die Konvergenzgeschwindigkeit ist die so genannte Konvergenzordnung einer Iteration $\left(x_{n}\right)$ mit $\left(x_{n}\right) \rightarrow x^{*}$, d.i. jene Zahl $p \geq 1$, für welche $$ \left|x_{n+1}-x^{*}\right| \leq M\left|x_{n}-x^{*}\right|^{p} $$ für fast alle $n$ und ein $M$ mit $0 $y_{i}$ | verb.
Euler
$y_{i}$ | Runge-Kutta | | | | | exakte
Lösung
$y\left(x_{i}\right)$ | | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | | | | | $k_{1}$ | $k_{2}$ | $k_{3}$ | $k_{4}$ | $y_{i}$ | | | 0 | 0.00 | 0.1000 | 0.1000 | | | | | 0.1000 | 0.1000 | | 1 | 0.25 | 0.1000 | 0.1281 | 0.0000 | 0.1125 | 0.1107 | 0.2181 | 0.1277 | 0.1277 | | 2 | 0.50 | 0.1563 | 0.2065 | 0.2181 | 0.3169 | 0.3123 | 0.3971 | 0.2058 | 0.2058 | | 3 | 0.75 | 0.2617 | 0.3211 | 0.3971 | 0.4654 | 0.4600 | 0.5094 | 0.3206 | 0.3206 | | 4 | 1.00 | 0.4001 | 0.4537 | 0.5095 | 0.5387 | 0.5355 | 0.5455 | 0.4541 | 0.4541 | | 5 | 1.25 | 0.5501 | 0.5860 | 0.5459 | 0.5373 | 0.5385 | 0.5141 | 0.5879 | 0.5879 | | 6 | 1.50 | 0.6907 | 0.7041 | 0.5151 | 0.4781 | 0.4844 | 0.4364 | 0.7078 | 0.7078 | | 7 | 1.75 | 0.8067 | 0.8000 | 0.4383 | 0.3858 | 0.3965 | 0.3379 | 0.8053 | 0.8053 | | 8 | 2.00 | 0.8913 | 0.8719 | 0.3407 | 0.2852 | 0.2982 | 0.2403 | 0.8781 | 0.8782 | | 9 | 2.25 | 0.9456 | 0.9219 | 0.2437 | 0.1942 | 0.2074 | 0.1575 | 0.9283 | 0.9284 | | 10 | 2.50 | 0.9762 | 0.9546 | 0.1613 | 0.1223 | 0.1339 | 0.0955 | 0.9604 | 0.9605 | | 11 | 2.75 | 0.9911 | 0.9746 | 0.0991 | 0.0715 | 0.0805 | 0.0536 | 0.9794 | 0.9795 | | 12 | 3.00 | 0.9972 | 0.9863 | 0.0566 | 0.0388 | 0.0452 | 0.0278 | 0.9899 | 0.9900 | und damit $y_{1}=y_{0}+\frac{h}{6}\left(k_{1}+2 k_{2}+2 k_{3}+k_{4}\right)=0.1277$. Zur Berechnung der weiteren Näherungen $y_{2}, \ldots, y_{12}$ sind analoge Runge-Kutta-Schritte anzuschließen, deren Ergebnisse ebenfalls in der Tabelle zusammengefasst sind. Die Tabelle enthält auch noch die Werte der exakten Lösung $y(x)=1-0.9 e^{-x^{2} / 2}$ (die im vorliegenden Fall durch Trennung der Variablen analytisch bestimmt werden kann) und erlaubt einen direkten Vergleich der Güte der verwendeten Verfahren bei fester Schrittweite. In Abb. 9.13 ist die exakte Lösung gemeinsam mit der Näherungslösung nach dem Euler'schen Polygonzugverfahren graphisch dargestellt. Die beiden Lösungen nach dem verbesserten Eulerverfahren bzw. nach dem Runge-Kutta-Verfahren fallen mit der exakten Lösung trotz der relativ großen Schrittweite praktisch zusammen. Wir schließen diesen Abschnitt mit zwei grundsätzlichen Bemerkungen zur Fehlerproblematik und zur Schrittweitenbestimmung. Bei jedem numerischen Verfahren sind sowohl der Verfahrensfehler wie der Rechnungsfehler von Bedeutung. Dabei beschreibt der Verfahrensfehler $\varepsilon_{V}$ bekanntlich den Unterschied zwischen der exakten Lösung eines mathematischen Problems und einer Näherungslösung, während der Rechnungs- oder Rundungsfehler $\varepsilon_{R}$ den Unterschied zwischen dem numerischen Ergebnis und dem Maschinenergebnis misst und erst durch die Implementierung eines Lösungsalgorithmus auf einem Rechner entsteht. Sowohl der globale Verfahrensfehler wie der Rechnungsfehler sind - bei gegebener Differentialgleichung, gewähltem Lösungsverfahren und festem Integrationsintervall - Funktionen der Schrittweite $h$. Große Werte von $h$ haben zwar kurze Rechenzeiten, i.Allg. aber auch große Verfahrensfehler zur Folge. Mit fallender Schrittweite nimmt der Verfahrensfehler wohl ab, dafür aber steigen dann die Rechenzeit und die Rundungsfehler. Der qualitative Verlauf der Fehlerkomponenten ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-428.jpg?height=702&width=718&top_left_y=273&top_left_x=640) Abbildung 9.13 Exakte Lösung $y(x)$ und Euler'scher Polygonzug $y_{E u \text { uler }}(x)$ zur Schrittweite $h=0.25$ $\varepsilon_{V}$ und $\varepsilon_{R}$ sowie des Gesamtfehlers $\varepsilon=\varepsilon_{V}+\varepsilon_{R}$ ist in Abb. 9.14 dargestellt. Aus der Abbildung ist zu ersehen, dass es eine optimale Schrittweite $h_{\text {opt }}$ gibt, die den Gesamtfehler minimiert. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-428.jpg?height=661&width=965&top_left_y=1448&top_left_x=522) Abbildung 9.14 Verfahrensfehler und Rechnungsfehler In der Praxis orientiert man sich vielfach an der so genannten Schrittkennzahl $K=h \lambda$, wo $h$ die Schrittweite und $\lambda$ eine Lipschitzkonstante für die Funktion $f$ bezeichnet, und wählt $h$ derart, dass $0.05 \leq K \leq 0.2$ gilt. Man spricht dann von einem Verfahren mit Schrittweitensteuerung. Wird nämlich $\lambda$ lokal für jeden Integrationsschritt neu berechnet oder geschätzt, kann man bei vorgegebenem $K$ einen für den jeweiligen Schritt aktuellen Wert von $h$ bestimmen und damit die benutzte Schrittweite den lokalen Gegebenheiten anpassen. ### 9.6 Die Methode der Finiten Elemente Partielle Differentialgleichungen lassen sich nur in den wenigsten Spezialfällen explizit lösen. Aus diesem Grund wurden zur näherungsweisen Lösung die verschiedensten numerischen Verfahren entwickelt, die hier aus Platzgründen nicht einmal annäherungsweise vollständig behandelt werden können. Wir beschränken uns daher auf die Beschreibung eines der wichtigsten Verfahren, der Methode der Finiten Elemente. Der Name „Finite Elemente" kommt daher, dass das Berechnungsgebiet in eine große Zahl kleiner, aber endlich vieler Elemente unterteilt wird. Auf diesen „Elementen“ werden Ansatzfunktionen definiert, mit deren Hilfe man anstelle der partiellen Differentialgleichung (näherungsweise) ein großes Gleichungssystem erhält, das dann mit anderen Verfahren (siehe Abschnitt 9.1 und 9.2) gelöst werden kann. Wir beschränken uns weiters auf eine ganz spezielle (aber wichtige) partielle Differentialgleichung, nämlich auf das Poisson-Problem $$ \begin{aligned} \Delta u=f & \text { in } \Omega \\ u=0 & \text { auf } \partial \Omega \end{aligned} $$ wobei $\Delta=\frac{\partial^{2}}{\partial x^{2}}+\frac{\partial^{2}}{\partial y^{2}}$ den Laplace-Operator in der Ebene bezeichnet. Üblicherweise sucht man dabei eine Funktion $u(x, y)$, die in einem Gebiet $\Omega$ zweimal stetig differenzierbar und auf dessen Rand $\partial \Omega$ stetig ist. Es erweist sich aber günstig, eine etwas schwächere Formulierung $\mathrm{zu}$ verwenden, insbesondere für die numerische Behandlung. Im Speziellen werden wir nur verlangen müssen, dass $u$ stückweise stetig differenzierbar und stetig ist. Wir bezeichnen die Menge aller Funktionen $u$ auf $\Omega \cup \partial \Omega$ mit diesen Eigenschaften und der Randbedinung $u=0$ auf $\partial \Omega$ mit $V$. Offensichtlich bildet $V$ einen Vektorraum. Die grundlegende Idee ist nun die folgende. Man multipliziert die Differentialgleichung mit einer beliebigen Funktion $v(x, y)$ aus $V$ und integriert über $\Omega$ : $$ \int_{\Omega}(\Delta u) \cdot v d x d y=\int_{\Omega} f \cdot v d x d y $$ Setzt man nun $G(u, v)=\int_{\Omega}(\Delta u) \cdot v d x d y$ und $L(v)=\int_{\Omega} f \cdot v d x d y$, so ist $G(u, v)$ eine bilineare Abbildung auf dem Raum $V$, d.h., $G\left(\lambda_{1} u_{1}+\lambda_{2} u_{2}, \mu_{1} v_{1}+\mu_{2} v_{2}\right)=\lambda_{1} \mu_{1} G\left(u_{1}, v_{1}\right)+\lambda_{1} \mu_{2} G\left(u_{1}, v_{2}\right)+\lambda_{2} \mu_{1} G\left(u_{2}, v_{1}\right)+\lambda_{2} \mu_{2} G\left(u_{2}, v_{2}\right)$, und $L(v)$ ist eine lineare Abbildung auf $V$, also $$ L\left(\mu_{1} v_{1}+\mu_{2} v_{2}\right)=\mu_{1} L\left(v_{1}\right)+\mu_{2} L\left(v_{2}\right) $$ Ist nun $u(x, y)$ die Lösung der partiellen Differentialgleichung $\Delta u=f$, so gilt $$ G(u, v)=L(v) \quad \text { für alle } v \in V \text {. } $$ Betrachten wir einmal $G(u, v)$ für ein Rechtecksgebiet $\Omega=(a, b) \times(c, d)$ etwas näher. Wegen $u(a, y)=u(b, y)=0$ folgt aus der partiellen Integrationsregel $$ \int_{a}^{b} u_{x x} \cdot v d x=-\int_{a}^{b} u_{x} \cdot v_{x} d x $$ Entsprechend gilt $$ \int_{c}^{d} u_{y y} \cdot v d y=-\int_{c}^{d} u_{y} \cdot v_{y} d y $$ und folglich $$ G(u, v)=\int_{\Omega}(\Delta u) \cdot v d x d y=-\int_{\Omega}\left(u_{x} v_{x}+u_{y} v_{y}\right) d x d y $$ Offensichtlich gilt eine entsprechende Formel auch für Gebiete $\Omega$, die sich als endliche Vereinigung von Rechtecken darstellen lassen, ${ }^{2}$ und (aus Stetigkeitsgründen) auch für Gebiete, die sich durch Rechtecksgebiete beliebig genau approximieren lassen, also für Gebiete, auf denen ein Riemann-Integral definiert werden kann. Wir können daher für unsere Zwecke die Gültigkeit der Formel (9.25) annehmen. Dies zeigt aber auch, dass man $G(u, v)$ für alle $u, v \in V$ sinnvoll definieren kann, da das Integral $\int_{\Omega}\left(u_{x} v_{x}+u_{y} v_{y}\right) d x d y$ für stückweise stetig differenzierbare Funktionen immer wohldefiniert ist. Eine Funktion $u \in V$, die (9.24) erfüllt, heißt schwache Lösung des Poisson-Problems $\Delta u=f$. Der Vorteil dieser Umformulierung ist, dass das Poisson-Problem in diesem Sinn immer eine schwache Lösung hat (unter geeigneten Regularitätsannahmen für $f$, auf die wir nicht näher eingehen können). Zur numerischen Behandlung zerlegen wir nun das Gebiet $\Omega$, von dem wir jetzt annehmen, dass es durch ein Polygon berandet ist, in „finite Elemente“, z.B. in (abgeschlossene) Dreiecke $K_{1}, K_{2}, \ldots, K_{N}$, die eine Triangulierung $\mathcal{T}$ von $\Omega$ bilden (vergleiche mit Abb. 9.15). D.h., zwei verschiedene Dreiecke $K_{i} \neq K_{j}$ haben, wenn sie nicht disjunkt sind, entweder eine ganze Kante gemeinsam oder nur einen Eckpunkt, und alle Dreiecke ergeben zusammen den Abschluss $\bar{\Omega}=$ $K_{1} \cup K_{2} \cup \cdots \cup K_{N}$. ![](https://cdn.mathpix.com/cropped/2024_01_05_60965954723598ad0805g-430.jpg?height=508&width=654&top_left_y=1508&top_left_x=658) Abbildung 9.15 Triangulierung eines polygonal berandeten Gebiets Wir betrachten nun den Raum $V_{\mathcal{J}}$ aller Funktionen $u \in V$, die auf jedem Dreieck $K_{i}$ der Triangulierung $\mathcal{T}$ durch ein lineares Polynom $a_{i} x+b_{i} y+c_{i}$ dargestellt werden können. Die Elemente aus $V_{\mathcal{T}}$ heißen stückweise lineare Polynome. Der Raum $V_{\mathcal{T}}$ ist im Gegensatz zu $V$ endlichdimensional. Beispielsweise hat die Triangulierung aus Abb. 9.15 drei innere Punkte $P_{1}, P_{2}, P_{3}$ und acht Eckpunkte $P_{4}, P_{5}, \ldots, P_{11}$ auf dem Rand. Es sei nun $u_{1} \in V_{\top}$ jenes stückweise lineare Polynom mit $u_{1}\left(P_{1}\right)=1$ und $u_{1}\left(P_{2}\right)=\ldots=u_{1}\left(P_{11}\right)=0$. Entsprechend werden[^47]$u_{2}$ und $u_{3} \in V_{\mathcal{T}}$ mit $u_{2}\left(P_{2}\right)=1$ bzw. $u_{3}\left(P_{3}\right)=1$ konstruiert. Dann kann jede Funktion $u \in V_{\mathcal{T}}$ eindeutig als Linearkombination $$ u=\lambda_{1} u_{1}+\lambda_{2} u_{2}+\lambda_{3} u_{3} $$ dargestellt werden. Man beachte, dass immer $u\left(P_{1}\right)=\lambda_{1}, u\left(P_{2}\right)=\lambda_{2}$ und $u\left(P_{3}\right)=\lambda_{3}$ gilt. Die Anzahl der inneren Punkte der Triangulierung $\mathcal{T}$ entspricht also der Dimension des Raums $V_{\mathcal{T}}$. Hat die Triangulierung $\mathcal{T}$ genau $N$ innere Punkte, so bilden die Funktionen $u_{1}, u_{2}, \ldots, u_{N}$, die genau an einem inneren Punkt den Wert 1 und an allen anderen Punkten den Wert 0 haben, eine Basis. Anstelle des ursprünglichen Problems (9.24) betrachtet man ein vereinfachte Problems. Gesucht ist eine Funktion $u_{\mathcal{T}} \in V_{\mathcal{T}}$ mit $$ G\left(u_{\mathcal{T}}, v_{\mathcal{T}}\right)=L\left(v_{\mathcal{T}}\right) \quad \text { für alle } v_{\mathcal{T}} \in V_{\mathcal{T}} \text {. } $$ Wegen der Linearität von $G$ und $L$ muss (9.26) nicht für alle Funktionen $v_{\mathcal{T}} \in V_{\mathcal{T}}$ sondern nur für eine Basis überprüft werden: $$ G\left(u_{\mathcal{T}}, u_{j}\right)=L\left(u_{j}\right), \quad 1 \leq j \leq N $$ Weiters hat $u_{\mathcal{T}}$ eine Darstellung als Linearkombination in der Basis: $u_{\mathcal{T}}=\lambda_{1} u_{1}+\cdots \lambda_{N} u_{N}$. Beachtet man wiederum die Linearität von $G$, so wird (9.27) zu einem linearen Gleichungssystem in den Koeffizienten $\lambda_{i}$ : $$ \sum_{i=1}^{N} \lambda_{i} G\left(u_{i}, u_{j}\right)=L\left(u_{j}\right), \quad 1 \leq j \leq N $$ Die Systemmatrix besteht aus den Integralen $$ G\left(u_{i}, u_{j}\right)=-\int_{\Omega}\left(\frac{\partial u_{i}}{\partial x} \frac{\partial u_{j}}{\partial x}+\frac{\partial u_{i}}{\partial y} \frac{\partial u_{j}}{\partial y}\right) d x d y $$ und die rechte Seite aus den Integralen $$ L\left(u_{j}\right)=\int_{\Omega} f \cdot u_{j} d x d y $$ Da $u_{i}$ nur auf jenen Dreiecken aus $\mathcal{T}$, die den Eckpunkt $P_{i}$ haben, von 0 verschieden ist, gilt $G\left(u_{i}, u_{j}\right)=0$, sobald $P_{i}$ und $P_{j}$ nicht demselben Dreieck angehören. Die Systemmatrix $\left(G\left(u_{i}, u_{j}\right)\right)$ ist daher relativ dünn besetzt. Sie ist eine so genannte Bandmatrix, da nur ein „Band" um die Diagonale von 0 verschieden ist. Dünn besetzte Gleichungssysteme lassen sich auch für große Dimensionen numerisch gut behandeln (u.a. mit iterativen Verfahren wie dem Jacobi- oder Gauß-Seidel-Verfahren). Die auftretenden Integrale $L\left(u_{j}\right)$ werden ebenfalls mit numerischen Verfahren berechnet, da die Funktion $f$ üblicherweise nicht analytisch, sondern durch Werte an Stützstellen (bzw. durch Messwerte) gegeben ist. Wir haben hier nur die einfachste Variante der Methode der Finiten Elemente besprochen. Es gibt zahlreiche Erweiterungen. So können z.B. anstelle von Dreiecken auch Rechtecke (oder andere „finite Elemente") verwendet werden, oder anstelle stückweise linearer Polynome benützt man allgemeinere Polynome, etc. Es ist auch möglich, nichtlineare Differentialgleichungen zu behandeln. In diesem Fall entsteht anstelle eines linearen Gleichungssystems ein nichtlineares Gleichungssystem, das dann z.B. mit Hilfe des Newton-Verfahrens gelöst werden kann. Unter geeigneten Regularitätsbedingungen für $f$ konvergiert $u_{\mathcal{J}}$ bei entsprechender Verfeinerung der Triangulierung gegen die schwache Lösung $u$ des ursprünglichen Poisson-Problems. Beispiel 9.20 Anstelle des (oben beschriebenen) zweidimensionalen Problems betrachten wir - aus Gründen der Einfachheit - das entsprechende eindimensionale Problem $$ \begin{aligned} u^{\prime \prime}=f & \text { in } \Omega=(0,1) \\ u=0 & \text { auf } \partial \Omega=\{0,1\} \end{aligned} $$ in diesem Sonderfall also eine gewöhnliche Differentialgleichung. Die prinzipielle Vorgangsweise ist aber genau dieselbe beim Poisson-Problem im Zweidimensionalen. Im Speziellen sei $f(x)=-x(1-x)$. Nach zweimaliger Integration erhält man die explizite Lösung (siehe auch Abb. 9.17) $$ u(x)=\frac{x^{4}}{12}-\frac{x^{3}}{6}+\frac{x}{12} $$ Anstelle einer Triangulierung zerlegen wir das Intervall $[0,1]$ in vier Teilintervalle $K_{1}=\left[0, \frac{1}{4}\right]$, $K_{2}=\left[\frac{1}{4}, \frac{1}{2}\right], K_{3}=\left[\frac{1}{2}, \frac{3}{4}\right], K_{4}=\left[\frac{3}{4}, 1\right]$. Die Basisfunktionen $u_{1}, u_{2}, u_{3}$ sind nun stückweise lineare Polynome, z.B. ist $u_{1}(x)$ folgendermaßen gegeben (vergleiche auch mit Abb. 9.16): $$ u_{1}(x)=\left\{\begin{array}{cl} 4 x & \text { für } 0 \leq x \leq \frac{1}{4} \\ 2-4 x & \text { für } \frac{1}{4}0, x_{0}>0$ ist) auf graphischem Weg und zeige, dass stets $$ x_{1} \geq x_{2} \geq x_{3} \geq \cdots \geq \sqrt{a} $$ gilt, d.h., die Iterationsfolge $\left(x_{n}\right)$ ist ab $n=1$ monoton fallend und nach unten durch $\sqrt{a}$ beschränkt. 9.5 Man berechne den numerischen Wert von $\sqrt{7}$ mit Hilfe des Babylonischen Wurzelziehens auf 8 signifikante Stellen genau. 9.6 Man zeige: Für $a \neq 0$ konvergiert die Iterationsfolge $\left(x_{n}\right)$ gemäß $x_{n+1}=2 x_{n}-a x_{n}^{2}$ mit $\frac{1}{2 a}<$ $x_{0}<\frac{3}{2 a}$ gegen den Fixpunkt $x^{*}=\frac{1}{a}$. Diese Iteration stellt somit ein Verfahren zur Division unter ausschließlicher Verwendung von Multiplikationen dar. 9.7 Man löse das Gleichungssystem $$ \begin{array}{rrrr} -0.35 x+1.5 y+122.2 z & = & 126 \\ 105.7 x-440.9 y-173.7 z & = & -1285 \\ 21.5 x-101.8 y+33.4 z & = & -229 \end{array} $$ mit Hilfe des Gauß'schen Eliminationsverfahrens (a) ohne Pivotisierung, (b) mit Pivotisierung bei einer Rechengenauigkeit von 4 signifikanten Stellen. 9.8 Man vergleiche die Lösungen der beiden linearen Gleichungssysteme $A \boldsymbol{x}=\boldsymbol{b}_{1}, A \boldsymbol{x}=\boldsymbol{b}_{2}$ mit $$ A=\left(\begin{array}{cc} 3.9 & -10.7 \\ -9.3 & 25.5 \end{array}\right), b_{1}=\left(\begin{array}{c} -290 \\ 690 \end{array}\right), b_{2}=\left(\begin{array}{c} -291 \\ 689 \end{array}\right) $$ Was kann daraus geschlossen werden? 9.9 Man löse das lineare Gleichungssystem $$ \begin{array}{rrrr} -x_{1}+5 x_{2}-2 x_{3}= & 3 \\ x_{1}+x_{2}-4 x_{3}= & -9 \\ 4 x_{1}-x_{2}+2 x_{3}= & 8 \end{array} $$ unter Anwendung des Gesamtschrittverfahrens von Jacobi, wobei man zunächst die einzelnen Gleichungen derart umordne, dass das entstehende System das Zeilensummenkriterium erfüllt. 9.10 Man bestimme die Lösung des Gleichungssystems aus Aufgabe 9.9 mit Hilfe des Einzelschrittverfahrens von Gauß-Seidel. 9.11 Man zeige: Die Anzahl der Punktoperationen (Multiplikationen und Divisionen) zur Lösung eines linearen Gleichungssystems mit $n$ Gleichungen und $n$ Unbekannten beträgt (a) $\left(n^{2}-1\right) n !+n$ bei Anwendung der Cramer'schen Regel, (Hinweis: Die Auswertung einer $n \times n$-Determinante erfordert $(n-1) n$ ! Multiplikationen.) (b) $\frac{n}{3}\left(n^{2}+3 n-1\right)$ beim Eliminationsverfahren von Gauß, (c) $n^{2}$ pro Schritt für das Iterationsverfahren von Jacobi oder Gauß-Seidel. 9.12 Die folgende Tabelle gibt die Entwicklung der Weltbevölkerung (in Milliarden) seit dem Jahr 1950 wieder: | Jahr $t$ | 1950 | 1960 | 1970 | 1980 | 1990 | 2000 | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | | Bevölkerung $f(t)$ | 2.5 | 3 | 3.6 | 4.4 | 5.3 | 6.1 | Man finde eine Trendfunktion der Form $g(t)=c \cdot e^{a t}$ und extrapoliere die Bevölkerungszahl für das Jahr 2010. (Hinweis: Man bestimme die Ausgleichsgerade für die Wertepaare $(t, \ln f(t))$ nach der Methode der kleinsten Quadrate.) 9.13 Der Gebrauchtwert eines Personenkraftwagens betrage nach zwei Jahren noch 50\%, nach vier Jahren noch 25\% des Anschaffungspreises. Man gebe ein Polynom $p(t)$ zweiten Grades als Funktion der Nutzungsdauer $t$ an, das mit diesen empirischen Daten übereinstimmt und für $t=0$ den Wert 100 (Neuwert mit $100 \%$ ) annimmt. Ferner vergleiche man die Erfahrungswerte von $70 \%$ Gebrauchtwert nach einem Jahr und $35 \%$ nach drei Jahren mit den entsprechenden $p$-Werten. 9.14 Man bestimme das Interpolationspolynom dritten Grades zu den Interpolationsstellen ( 0,180$)$, $(2,240),(4,320)$ und $(6,360)$ durch Lagrange-Interpolation. 9.15 Man löse das Interpolationsproblem aus Aufgabe 9.14 unter Anwendung des Newton'schen Interpolationsverfahrens. Wie lauten die Funktionswerte des Interpolationspolynoms an den Stellen $x=1,3,5$ ? 9.16 Man ermittle die natürliche kubische Splinefunktion, welche die Wertepaare aus Aufgabe 9.14 interpoliert, und vergleiche die Funktionswerte für $x=1,3,5$ mit denen des kubischen Interpolationspolynoms. 9.17 Mit Hilfe der Sehnentrapezformel berechne man $\pi$ aus der Gleichung $$ \pi=4 \int_{0}^{1} \frac{d x}{1+x^{2}} $$ Dabei verwende man eine Unterteilung des Integrationsintervalls in 2, 5 und 10 Teilintervalle. 9.18 Aus der Gleichung in Aufgabe 9.17 berechne man $\pi$ unte Anwendung (a) der Kepler'schen Fassregel bzw. (b) der Simpson'schen Regel bei Unterteilung des Integrationsintervalls in 10 Teilintervalle. 9.19 Man bestimme näherungsweise das Integral $$ \int_{0}^{\pi} \frac{\sin x}{1+x^{2}} d x $$ 9.20 Mittels der Kepler'schen Fassregel kann das Volumen von Rotationskörpern (z.B. von Fässern) näherungsweise berechnet werden, falls deren Querschnitt an drei Stellen bekannt ist. Man zeige, dass man dabei für (a) den Zylinder, (b) Kegel und (c) Kegelstumpf sowie (d) das Rotationsparaboloid das genaue Volumen erhält. 9.21 In nachstehender Tabelle sind die Grenzbetriebskosten $k(t)$ einer Maschine bei einer Arbeitsleistung von $t$ Betriebsstunden angegeben. Man bestimme daraus näherungsweise die Gesamtbetriebskosten $K(T)=\int_{0}^{T} k(t) d t$ für $T=100$. | $t$ | 0 | 10 | 20 | 30 | 40 | 50 | 60 | 70 | 80 | 90 | 100 | | :--- | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | :---: | | $k(t)$ | 0.50 | 0.67 | 0.85 | 1.02 | 1.18 | 1.33 | 1.48 | 1.60 | 1.75 | 1.92 | 2.12 | 9.22 Für das Anfangswertproblem $$ y^{\prime}(x)=1+x-y^{3}, y(0)=0 $$ bestimme man die Lösung an der Stelle $x=1$ nach dem Euler'schen Polygonzugverfahren, und zwar für die Schrittweiten (a) $h=0.25$ sowie (b) $h=0.1$. 9.23 Man verbessere die in Aufgabe 9.22 erhaltene Näherungslösung für die Schrittweite $h=0.25$ durch Anwendung (a) des verbesserten Eulerverfahrens bzw. (b) des Runge-Kutta-Verfahrens. 9.24 Man finde näherungsweise die Lösung der Differentialgleichung $y^{\prime}(x)=2 x y$ zum Anfangswert $y(0)=2$ an der Stelle $x=1$ und vergleiche den erhaltenen Wert mit der exakten Lösung $y(x)=2 \cdot e^{x^{2}}$. ## Literaturverzeichnis [1] Gerd Baron und Peter Kirschenhofer. Einführung in die Mathematik für Informatiker. Bd. 1-3. Springer, Wien, 1992. [2] Elwyn R. Berlekamp, John H. Conway, and Richard K. Guy. Winning ways for your mathematical plays. Vol. 2. Academic Press, London, 1982. [3] Rolf Brigola. Fourieranalysis, Distributionen und Anwendungen. Vieweg, Braunschweig, 1997. [4] Manfred Brill. Mathematik für Informatiker. Hanser, München, Wien, 2001. [5] Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual web search. Computer Networks and ISDN Systems, 30:107-117, 1998. [6] Wolfgang Dahmen und Arnold Reusken. Numerik für Ingenieure und Naturwissenschaftler. Springer, Berlin, 2006. [7] Peter Deufhard, Andreas Hohmann und Folkmar Bornemann. Numerische Mathematik. Bd. 1 u. 2. de Gruyter, Berlin, 2002. [8] Dietmar Dorninger und Günther Karigl. Mathematik für Wirtschaftsinformatiker. Bd. I u. II. Springer, Wien, New York, 1996, 1999. [9] Philippe Flajolet and Robert Sedgewick. An Introduction to the Analysis of Algorithms. Addison-Wesley Publishing Co., Reading, Mass., 1996. [10] Martin Gardner. Wheels, life, and other mathematical amusements. Freeman, New York, 1983. [11] Arthur Gill. Applied algebra for the computer sciences. Prentice Hall, Englewood Cliffs, New Jersey, 1976. [12] Dirk Hachenberger. Mathematik für Informatiker. Pearson, München, 2005. [13] Hans Havlicek. Lineare Algebra für Technische Mathematiker. Berliner Studienreihe zur Mathematik, Band 16. Heldermann, Lemgo, 2006. [14] Günter Hellwig. Partial differential equations. An introduction. Mathematische Leitfäden. Teubner, Stuttgart, 1977. [15] Harro Heuser. Lehrbuch der Analysis. Teil 1 u. 2. Mathematische Leitfäden. Teubner, Stuttgart, 2004, 2006. [16] Harro Heuser. Gewöhnliche Differentialgleichungen. Einführung in Lehre und Gebrauch. Teubner, Stuttgart, 2006. [17] Donald E. Knuth. The art of computer programming. Vol. 1-3. Addison-Wesley, Reading, Mass., 1981. [18] Thomas W. Körner. Fourer analysis. Cambridge University Press, Cambridge, 1988. [19] Kurt Meyberg und Peter Vachenauer. Höhere Mathematik. Bd. 1 u. 2. Springer, Berlin, 2001. [20] Mike Piff. Discrete mathematics. An introduction for software engineers. Cambridge University Press, Cambridge, 1991. [21] Wieland Richter. Partielle Differentialgleichungen. Spektrum Akademischer Verlag, Heidelberg, 2001. [22] Gerald Teschl und Susanne Teschl. Mathematik für Informatiker. Bd. I u. II. Springer, Berlin, 2006. [23] Michael Oberguggenberger und Alexander Ostermann. Analysis für Informatiker. Springer, Berlin, 2005. [24] Gisela Engeln-Müllges und Fritz Reutter. Numerische Mathematik für Ingenieure. BIWissenschaftsverlag, Mannheim, Wien, Zürich, 1987. [25] Helmut Werner und Robert Schaback. Praktische Mathematik I u. II. Springer, Berlin, Heidelberg, New York, 1979, 1982. [26] Wolfgang Walter. Analysis I u. II. Grundwissen Mathematik. Springer, Berlin, Heidelberg, 1985 . ## Sachverzeichnis Abbildung, 40 Abel'scher Grenzwertsatz, 194 Ableitung, 184 $n$-te, 189 partielle, 230 partielle zweiter Ordnung, 231 Richtungs-, 239 totale, 233 Ableitungsregeln, 187 Abstand zweier Knoten, 63 Addition, 4 Adjazenzmatrix, 61 algebraische Gleichung, 388 algebraische Struktur, 71, 80 Algorithmus, 158 Analyse, 158, 216 allgemeine Lösung, 272, 291 Allquantor, 28 Allrelation, 37 Anfangsbedingungen, 307 Anfangsknoten einer Kante, 58 Anfangswertproblem, 293 Approximation, 139, 183, 193, 196, 233, 240, 400 Äquivalenz, 25 Äquivalenzklasse, 38 Äquivalenzrelation, 37 Arcuscosinus, 169 Arcussinus, 169 Arcustangens, 169 Argument einer komplexen Zahl, 11 Assoziativgesetz, 4, 32, 72 asymptotisch stabil, 280, 304 Ausgleichsgerade, 401 Aussage, 24 Aussageform, 28 Aussagenlogik, 24 zweiwertige, 24 Average-Case-Analyse, 158 Babylonisches Wurzelziehen, 271, 280, 391 Bahn, 60 Basis, 101 kanonische, 99, 103 Orthonormal-, 134 Baum, 63 spannender, 67 Bernoulli'sche Ungleichung, 145 Bernoulli'scher Produktansatz, 325 Bessel-Ungleichung, 357 Betrag einer komplexen Zahl, 11 einer reellen Zahl, 10 Bijektion, 41 Bild einer lineare Abbildung, 116 Bild eines Homomorphismus, 78 Binärbaum, 64 binäre Operation, 71 Binomialkoeffizient, 48 Binomischer Lehrsatz, 53, 145, 146, 157, 167 bipartiter Graph, 89 Blatt eines Baumes, 64 Bogenelement, 256 Bogenlänge, 255 Bolzano-Weierstraß Satz von, 147, 148 Boole'sche Algebra, 87 Bruchteil, 10 Cauchy-Bedingungen, 308 Cauchy-Hauptwert, 367 Cauchy-Schwarz'sche Ungleichung, 133 Cauchyfolge, 147 Cauchykriterium für Folgen, 147 für Reihen, 151 Cauchyprodukt, 156 Charakteristiken, 317, 323 charakteristische Differentialgleichung, 323 charakteristische Gleichung, 283, 297 charakteristische Kurven, 317 charakteristische Wurzel, 283, 297 Cosinus, 168 Defekt einer lineare Abbildung, 116 DeMorgan'sche Regel, 27, 32, 87 Determinante einer Matrix, 125 Dezimalentwicklung, 7 endliche, 8 periodische, 9 unendliche, 8 Diagonalmatrix, 106 Differentialgleichung $k$-ter Ordnung, 291, 301 autonome, 303 erster Ordnung, 293 explizite und implizite, 291 gewöhnliche, 291 homogene und inhomogene, 293 lineare und nichtlineare, 291 numerische Lösung, 414 partielle, 306 separable, 302 Simulation, 414 zweiter Ordnung, 296 Differentialgleichungssystem Anfangswertproblem, 312 autonomes, 313 charakteristisches, 316 erstes Integral, 313 Existenz- und Eindeutigkeitssatz, 312 lineares erster Ordnung, 312 lokaler Fluss, 313 Differentialoperator, 241 Differentialquotient, 184 Differenz, 4 Differenzengleichung, 272 $k$-ter Ordnung, 272, 286 autonome, 279 erster Ordnung, 273 explizite und implizite, 272 homogene und inhomogene, 273, 282 lineare und nichtlineare, 272 zweiter Ordnung, 282 Differenzenquotient, 184 Differenzenquotienten, 404 Differenzenschema, 405 differenzierbar, 184 partiell, 230 total, 233 Diffusion, 290 Dijkstra-Algorithmus, 69 Dimension eines Vektorraums, 103 Dirichlet-Bedingungen, 307 Disjunktion, 24 Diskrete Fourier-Transformation, 363 Rechenregeln, 364 Distanz zweier Knoten, 69 Distributivgesetz, 4, 32, 80, 86 divergent, 140 dividierte Differenz, 404 Division, 4,6 Division mit Rest, 16 Drehung, 134 Dreiecksmatrix, 106 Dreiecksungleichung, 133 Eigenfrequenz, 299 Eigenvektor einer linearen Abbildung, 129 einer Matrix, 129 Eigenwert einer linearen Abbildung, 129 einer Matrix, 129 einfach zusammenhängende Menge, 263 Einheit, 82 Einheitengruppe, 82 Einheitsmatrix, 106 Einheitswurzel, 14, 361 Einschrittverfahren, 415 einseitig abfallender Impuls, 370 Einzelschrittverfahren, 398 Einzelschrittverfahren von Gaus̈s-Seidel, 399 elektrischer Schwingkreis, 298 Element, 30 elementar integrierbar, 209 elementare Spaltenumformungen, 109 elementare Zeilenumformungen, 109 Elementarmatrix, 112 Elementtabelle, 33 Endknoten einer Kante, 58 Endknoten eines Baumes, 64 Entfernungsbaum, 71 Ersatzfunktion, 400 erweiterte Systemmatrix, 118 erzeugende Funktion, 277 Euklidischer Algorithmus, 16 Euler'sche $\varphi$-Funktion, 82 Euler'sche $\varphi$-Funktion, 22 Euler'sche Differentialgleichung, 331 Euler'sche Formel, 169, 180 Euler'sche Identität, 169 Euler'sche Linie, 64 geschlossene, 64 offene, 64 Euler'sche Zahl, 146, 164 Euler'sches Polygonzugverfahren, 415 Existenzquantor, 28 Exponentialform, 343 Exponentialfunktion, 163, 186, 203, 205, 218 allgemeine, 164 Funktionalgleichung, 165 Reihendarstellung, 154, 165, 195 Extrapolation, 407 Extremum, 190, 243 mit Nebenbedingungen, 246 Faktorgruppe, 77 Fakultät einer natürlichen Zahl, 48 Fast Fourier Transform, 365 FFT-Algorithmus, 365 Fibonacci-Zahlen, 271, 284 Finite Elemente, 420 Fixpunkt, 280, 389 Fixpunktsatz, 390 Folge, 139 beschränkte, 142 monoton fallende, 142 monoton wachsende, 142 streng monotone, 142 Formel, 27, 28 erfüllbare, 27 gültige, 27 Stirling'sche, 160 Taylor'sche, 195 ungültige, 27 Formeln äquivalente, 27 Formeln von Euler-Fourier, 347 Fourier-Integraltheorem, 372 Fourier-Koeffizienten, 351, 361 Größenordnung, 358 Fourier-Matrix, 362 Fourier-Reihe, 351 Darstellungssatz, 359, 360 Differentiation, 354 Eindeutigkeitssatz, 359 Integration, 355 Rechenregeln, 353 Fourier-Transformation, 367 Konvergenzsatz, 369 Rechenregeln, 369 Umkehr- und Eindeutigkeitssatz, 372 Fourier-transformierbar, 368 Fourier-Transformierte, 367,368 freier Fall, 289 Frequenzbereich, 368 Funktion, 40 absolut integrierbare, 369 bijektive, 41 elementare, 170 gerade, 347 Graph einer, 40 identische, 42 implizite, 237 injektive, 41 integrierbare, 210 inverse, 42 periodische, 342 rationale, 160 skalarwertige, 227 stetige, 173 surjektive, 41 vektorwertige, 227 Funktionaldeterminante, 252 Funktionalmatrix, 233 Gammafunktion, 219 Ganzteil, 10 Gauß'sche Glockenkurve, 164 Gauß'sche Zahlenebene, 11 Gauß'sches Eliminationsverfahren, 121, 122 Gebiet, 261 Gegenstandsvariable, 28 geordnetes Paar, 35 Gerüst, 67 minimales, 67 Gesamtschrittverfahren, 398 Gesamtschrittverfahren von Jacobi, 398 Gibbs-Phänomen, 353 Gitterpunkt, 414 Gleichgewichtslösung, 272 Gleichgewichtspunkt, 280, 304 global stabil, 306 größter gemeinsamer Teiler, 15 Grad eines Polynoms, 81 Gradient, 234, 240 Gradientenfeld, 261 Graph, 58 einer Funktion, 40 einer Relation, 36 einfacher, 59 Euler'scher, 64 gerichteter, 58 Hamilton'scher, 66 schlichter, 59 schwach zusammenhängender, 62 stark zusammenhängender, 62 ungerichteter, 58 vollständiger, 67 zusammenhängender, 62 Greedy-Algorithmus, 68 Grenzwert, 140, 149, 171 linksseitiger, 171 rechtsseitiger, 171 uneigentlicher, 140, 144, 171 Gruppe, 73 abelsche, 73 alternierende, 80 kommutative, 73 symmetrische, 74 zyklische, 77 Gruppenhomomorphismus, 78 Gruppenisomorphismus, 78 Gruppoid, 71 Häufungspunkt, 141 Halbdiagonalform einer Matrix, 101 Halbgruppe, 73 Halbordnung, 39 Hamilton'sche Linie, 66 geschlossene, 66 offene, 66 harmonischer Oszillator, 315 Hassediagramm, 39, 85 Hauptminorenkriterium, 135, 227 Hauptsatz über implizite Funktionen, 237 der Differential- u. Integralrechnung, 215 Heaviside-Funktion, 378 Hesse-Matrix, 242, 245 Hingrad eines Knotens, 59 Homomorphiesatz, 79 Homomorphismus, 78 ideales Tiefpassfilter, 374 imaginäre Zahl, 10 Imaginärteil, 10 Implikation, 24 Index einer Untergruppe, 75 Indexmenge, 31 indirekter Beweis, 27 Induktionsaxiom, 1 Infimum, 84, 142 Injektion, 41 Inklusions-Exklusions-Prinzip, 54 innerer Punkt, 190 Inneres des Einheitskreises, 156 eines Intervalls, 190 instabil, 280, 304 Integrabilitätsbedingung, 261 Integral bestimmtes, 210 Fresnel'sches, 259 unbestimmtes, 205 uneigentliches, 217 Integralkriterium, 220 Integrand, 205 Integrationsgrenze, 210 Integrationsregeln, 206 Integrationsvariable, 205, 210 Integritätsring, 81 Interpolation, 400 Interpolationspolynom, 402 Interpolationsstelle, 402 Intervall, 8 Intervallschachtelung, 8 inverse Diskrete Fourier-Transformation, 363 inverse Fourier-Transformation, 368 inverses Element, 72 Inzidenzbedingung, 400 Isohypse, 226 Isoklinen, 292 isomorphe Vektorräume, 104 Isomorphismus, 78 Iterationsfolge, 389 Iterationsfunktion, 389 Iterationsverfahren, 389, 396 Jacobi-Determinante, 319 Jacobi-Matrix, 233 Junktor, 25 Körper, 80, 82 kanonische Basis, 99, 103 Kante, 58 gerichtete, 58 Mehrfach-, 58 ungerichtete, 58 Kantenfolge, 60 geschlossene, 60 leere, 60 Kantenzug, 60 Kehrwert, 6 Kepler'sche Fassregel, 412 Kern einer lineare Abbildung, 116 Kern eines Homomorphismus, 78 Kettenregel, 187, 236 kleinstes gemeinsames Vielfaches, 15 Klothoide, 259 Knoten, 58 adjazente, 58 externer, 64 interner, 64 Knotengrad, 59 Kofaktor einer Matrix, 127 Kombination mit Wiederholung, 50 ohne Wiederholung, 50 Kombinatorik, 47 Kommutativgesetz, 4, 32, 72 kompakt, 229 Komponente, 62 Kondition, 397 Kongruenzen, 19 konjugiert komplexe Zahl, 12 Konjunktion, 24 konkav, 200 strikt, 200 Konstante Euler-Mascheroni'sche, 216 Kontradiktion, 27 kontrahierende Abbildung, 390 konvergent absolut, 151 bedingt, 151 uneigentlich, 140, 144 Konvergenz, 140 gleichmäßige, 349 im quadratischen Mittel, 359 Konvergenzkriterium von Leibniz, 151 Konvergenzordnung, 395 Konvergenzradius, 157, 173, 193 konvex, 200 strikt, 200 Koordinaten bez. einer Basis, 101 Koordinatenabbildung, 103 Koordinatenwechsel, 115 Krümmung, 200, 259 Kreis, 60 Kruskal-Algorithmus, 68 Kugelkoordinaten, 253 Kurve, 254 Koch'sche, 255 Kurvenintegral einer skalaren Funktion, 258 eines Vektorfelds, 260 Lagrange'sche Multiplikatoren, 247 Lagrange'sches Interpolationspolynom, 403 Landau-Symbole, 159 Laplace'scher Entwicklungssatz, 128 Laplace-Gleichung, 322 Laplace-Operator, 322 Laplace-Transformation, 375 Existenz- und Eindeutigkeitssatz, 376 Konvergenz-Abszisse, 376 Rechenregeln, 377 Laplace-transformierbar, 375 Laplace-Transformierte, 375 Limes, 140 Limes inferior, 141 Limes superior, 141 line graph, 90 linear abhängig, 99 linear unabhängig, 99 Linearcode, 116 lineare Abbildung, 114, 187 lineare Hülle, 98 lineare Konvergenz, 395 linearer harmonischer Schwinger, 315 lineares Gleichungssystem, 93, 108, 118 homogenes, 118 inhomogenes, 118 numerische Lösung, 395 Linearkombination, 98 Koeffizient, 98 nichttriviale, 98 triviale, 98 Linienelement, 292 Linksnebenklasse, 75 Lipschitzbedingung, 293, 390 Lipschitzkonstante, 390 Logarithmus, 163, 188, 203 zur Basis $a, 165$ logistisches Wachstum, 281, 289, 303 Majorante, 152 Majorantenkriterium, 152 Matrix, 104 diagonalisierbare, 131, 135 indefinite, 135 inverse, 107 invertierbare, 107 negativ definite, 135, 227, 245 orthogonale, 134 positiv definite, $135,227,245$ quadratische, 104 reguläre, 107 singuläre, 107 symmetrische, 104, 245 transponierte, 104 Matrizen Produkt von, 105 Summe von, 105 Maximum, 143 absolutes, 190 lokales, 190 relatives, 190 McLaurinreihe, 195 Mehrschrittverfahren, 415 Menge, 29 Differenz, 32 Durchschnitt, 31 kartesisches Produkt, 35 kompakte, 229 Komplement, 31 leere, 30 Potenzmenge, 34 symmetrische Differenz, 32 unendliche, 30 Vereinigung, 31 zusammenhängende, 261 Mengenlehre, 29 Methode der Charakteristiken, 315 Methode der erzeugenden Funktionen, 277 Methode der kleinsten Quadrate, 401 Methode des unbestimmten Ansatzes, 275, 285, 297 Minimalbedingung, 400 Minimum, 143 absolutes, 190 relatives, 190 Minorante, 152 Minorantenkriterium, 152 Mittelwertsatz, 189 der Differentialrechnung, 192 der Integralrechnung, 213 Modul, 19 Moivre'sche Formel, 12, 180 Monoid, 73 kommutatives, 73 Multimenge, 31 Multiplikation, 4 Nachbar eines Knotens, 59 Nachfolger, 64 Nachfolger eines Knoten, 59 natürliche Zahlen, 1 Nebenklasse, 75 Nebenraum, 97 Negation, 25 Netzwerk, 67 neutrales Element, 4, 72 Newton'sche Näherungsformel, 392 Newton'sches Interpolationspolynom, 404 Niveaulinie, 226, 240, 247 Normalform elliptische DGL, 325 hyperbolische DGL, 324 parabolische DGL, 324 Normalteiler, 77 Nullfolge, 140 Nullstellensatz von Bolzano, 174 Nullteiler, 81 numerische Integration, 409 numerische Mathematik, 388 Obersumme, 211 öffentlicher Schlüssel, 23 Operationstafel, 74 Ordnung einer Gruppe, 75 Ordnung eines Elements, 76 Orthonormalbasis, 134 Ortsvektor, 97 paarer Graph, 89 Parallelogrammregel, 94 Parameter einer Kurve, 254 Parametrisierung, 254 nach der Bogenlänge, 257 Parseval-Gleichung Diskrete Fourier-Transformation, 365 Fourier-Reihe, 359 Parseval-Plancherel-Gleichung, 369 Partialbruchzerlegung, 208 Partialsummen, 149 partielle Differentialgleichung, 306 lineare erster Ordnung, 312 lineare, konstante Koeffizienten, 308 Lösung, 307 Ordnung, 306 partielle Integration, 206 partielle Ordnung, 39 partikuläre Lösung, 272, 291 Partition, 38 Pascal'sches Dreieck, 52 Peano, 293 Peanoaxiome, 1 Periode, 342 periodische Faltung, 364 periodische Fortsetzung, 364 periodische Funktion, 342 diskrete, 360 Permutation, 49, 74, 79 mit Wiederholung, 49 Pfeildiagramm einer Relation, 36 Phasen-Differentialgleichung, 314 Phasenebene, 305 Pivotelelement, 275 Pivotelement, 122, 396 Pivotisierung, 122, 396 Poisson'sche Integralformel, 333 Poisson-Gleichung, 322 Poisson-Problem, 420 Polarkoordinaten einer komplexen Zahl, 11 Polynom, 81, 103 charakteristisches, 131 irreduzibles, 83 Polynomfunktion, 160 Polynomring, 81 Potential, 261 Potentialgleichung, 322, 330 Dirichlet-Problem, 330 in Polarkoordinaten, 330 Potenz eines Elements, 76 Potenzieren, 161 Potenzmenge, 34 Potenzreihe, 81,156 Eindeutigkeitssatz, 194 Prädikat, 28 mehrstelliges, 28 Prädikatenlogik, 27 Prüfziffern, 21 Primfaktorenzerlegung, 18 Primzahl, 17 Produktansatz, 325 Produktregel, 187, 236 Leibniz'sche, 221 Prädiktor-Korrektor-Verfahren, 417 Pythagoräische Lehrsatz, 134 quadratisch summierbar, 358 quadratische Form, 227, 245 quadratische Gleichung, 14 quadratische Konvergenz, 395 quadratisches Mittel, 359 Quadratsummenkriterium, 398 Quadraturformel, 410 qualitative Theorie, 272, 279, 303 quantitative Theorie, 272 Quantor, 28 quasilineare Differentialgleichung Diskriminante, 322 erster Ordnung, 320 Klassifikation, 322 Normalform, 323 zweiter Ordnung, 321 Quicksort, 275 Quotient, 16 Quotientenkriterium, 154 Limesform, 154 Quotientenregel, 187 Radioaktiver Zerfall, 218 Rand, 308 Rand-Anfangswert-Problem, 307 Randwertproblem, 326 Eigenlösung, 326 Eigenwert, 326 Rang einer lineare Abbildung, 116 Rang einer Matrix, 109 Realteil, 10 Rechenregeln für den Logarithmus, 165 für Grenzwerte, 143 für Mengen, 32 Rechnungsfehler, 418 Rechteckschwingung, 343 Rechtsnebenklasse, 75 Regel von von de l'Hospital, 203 regula falsi, 394 Primitivform, 394 Standardform, 394 Reihe, 149 alternierende, 151 binomische, 156, 196 geometrische, 150 harmonische, 149 hyperharmonische, 153 rektifizierbar, 255 Relation, 35,36 Äquivalenz-, 37 antisymmetrische, 39 binäre, 36 Gleichheits-, 37 identische, 37 kartesische Darstellung, 36 reflexive, 37,39 symmetrische, 37 transitive, 37,39 Resonanzfall, 285, 298 Restglied der Interpolation, 407 Restglied der Quadraturformel, 410 Restglied von Lagrange, 195 Restklasse, 19,77 inverse, 20 Richtungsableitung, 239 Richtungsfeld, 292 Richtungsvektor, 97 Riemann'sche Zwischensumme, 210, 249, 255,258 Riemann'scher Umordnungssatz, 152 Riemann'sches Integrabilitätskriterium, 211 Riemann-Lemma, 358 Ring, 80 kommutativer, 80 Rotationskörper Mantelfläche, 257 Volumen, 224 RSA-Verfahren, 22 Rumpf-Differentialgleichung, 315 Rundungsfehler, 418 Runge-Kutta-Verfahren, 417 Satz von Fubini, 250 von Lagrange, 75 von Rolle, 192 von Schwarz, 232, 241, 245, 262 von Taylor, 195, 242 Schlinge, 58 Schranke, 142 Schraubenlinie, 254 Schrittkennzahl, 419 Schrittweite, 410 Schrittweitensteuerung, 419 schwingende Saite, 327 Schwingung erzwungene, 300 gedämpfte, 300 harmonische, 299 Schwingungsgleichung eindimensionale, 327 zweidimensionale, 333 Sehnentrapezformel, 411 Separationsansatz, 325 Siebformel, 54 Signum einer Permutation, 79 Signumfunktion, 181 Simpson'sche Regel, 413 singuläre Lösung, 291 Sinus, 168,186 Sinus-Cosinus-Form, 343 Skalarfeld, 227 Skalarkörper, 93 Skalarprodukt, 105, 132, 136, 229 Spaltenrang, 109 Spaltensummenkriterium, 398 Spaltenvektor, 93,104 Spaltfunktion, 375 Spektralfunktion, 368 Spektralkoeffizienten, 361 Spektralsatz, 135 Spiegelung, 134 Spiel des Lebens, 287 Spline-Interpolation, 407 Splines, 407 natürliche kubische, 408 stückweise stetig, 212, 220, 258 stabil, 280,304 Stammfunktion, 205 eines Vektorfelds, 261 Startwert, 389 stationärer Punkt, 244 stetig, 173 stetig differenzierbar, 189, 195, 215, 237, 240, $248,252,256$ Stirling'sche Formel, 160 Straßenbau, 259 Stromresonanz, 301 Störfunktion, 273, 293 stückweise stetig, 350 stückweise stetig differenzierbar, 350 Stützstelle, 402 Stützwert, 402 Substitutionsregel, 206, 215, 252 Subtraktion, 4-6 Superpositionsprinzip, 285, 327 Supremum, 84, 142 Surjektion, 41 Symmetriegruppe, 74 symmetrisch abfallender Impuls, 368 Sägezahnfunktion, 351 diskrete, 363 Tangens, 168 Tangentialebene, 230, 231 Tautologie, 27 Taylor'sche Formel, 195 Taylorpolynom, 195 Taylorreihe, 195 Teilbarkeit, 15 Teilfolge, 146 Teilgraph, 60 Teilmenge, 30 Teilraum, 96 Teleskopsumme, 150 Totalordnung, 39 transzendente Gleichung, 388 Trennung der Variablen, 294, 302, 326 Trennungsansatz, 325 Triangulierung, 421 Tricomi-Gleichung, 322 trigonometrische Interpolation, 366 trigonometrische Reihe, 348 Partialsumme, 348 trigonometrisches Polynom, 343 Grad, 343 Koeffizienten, 343 Orthogonalitätsrelationen, 345 Orthogonalsystem, 345 Skalarprodukt, 345 Vektorraum, 344 Türme von Hanoi, 270, 273 Übertragungsfunktion, 374 $\varepsilon$-Umgebung, 140 Umkehrfunktion, 162, 176, 187, 206, 236 unbestimmte Form, 144 Universum, 29 Unstetigkeit, 176 hebbare, 177 Untergruppe, 74 Unterraum, 96 Untersumme, 211 Vandermonde'sche Determinante, 403 Variation mit Wiederholung, 49 ohne Wiederholung, 49 Variation der Konstanten, 274, 294 Vektor, 93 Länge eines, 132 normierter, 132 orthogonale Vektoren, 132 Winkel zwischen Vektoren, 133 Vektorfeld, 227, 260 Vektorraum, 95 Venndiagramm, 32 Verband, 84 distributiver, 86 verbessertes Euler'sches Polygonzugverfahren, 416 Verfahrensfehler, 413,418 globaler, 415 lokaler, 415 Verlegung von Eisenbahntrassen, 259 Verschlüsselung, 22 Verschmelzungsgesetz, 32, 84 Versuchslösung, 285, 297 Vieta'scher Wurzelsatz, 14 vollständige Induktion, 2, 3, 145, 148, 241 Vollständigkeitssatz, 142 Vorgänger, 64 Vorgänger eines Knotens, 59 Wahrheitstafel, 26 Wahrheitswert, 24 Wald, 63 spannender, 67 Weg, 60 Weggrad eines Knotens, 59 Weierstraß'scher $M$-Test, 349 Wellengleichung, 322 eindimensionale, 309 Lösungsansatz nach D'Alembert, 309 Lösungsformel von D'Alembert, 311 zweidimensionale, 333 Wendepunkt, 201 Winkelfunktionen, 168, 206 Worst-Case-Analyse, 158 Wurzel, 13, 162 Wurzel eines Baumes, 63 Wurzelkriterium, 153 Limesform, 153 Wärmeleitung, 290 Wärmeleitungsgleichung, 322 Zahlen ganze, 5 harmonische, 216 komplexe, 10 natürliche, 1 negative, 5 rationale, 5 reelle, 10 teilerfremde, 15 Zahlengerade, 6 Zeilenrang, 109 Zeilensummenkriterium, 398 Zeilenvektor, 104 Zeitbereich, 368 zelluläre Automaten, 287 Zerlegung, 38 eines Intervalls, 210 Ziffern, 8 Zinseszinsrechnung, 149 zusammenhängende Menge, 261 Zusammenhangskomponente, 62 Zwischenwertsatz, 175 Zyklus, 60 ## Berliner Studienreihe zur Mathematik Bislang erschienene Titel: Band 1 H. Herrlich: Einführung in die Topologie. Metrische Räume Band 2 H. Herrlich: Topologie I: Topologische Räume Band 3 H. Herrlich: Topologie II: Uniforme Räume Band 4 K. Denecke, K. Todorov: Algebraische Grundlagen der Arithmetik Band 5 E. Eichhorn, E.-J. Thiele (Hrsg.): Vorlesungen zum Gedenken an Felix Hausdorff Band 6 G. H. Golub, J. M. Ortega: Wissenschaftliches Rechnen und Differentialgleichungen Band 7 G. Stroth: Lineare Algebra Band 8 K. H. Hofmann: Analysis I: an Introduction to Mathematics via Analysis in English and German Band 9 Th. Ihringer: Diskrete Mathematik Band 10 Th. Ihringer: Allgemeine Algebra Band 11 E. Landau: Grundlagen der Analysis Band 12 D. M. Burton, H. Dalkowski: Handbuch der elementaren Zahlentheorie Band 13 K.-H. Fieseler, L. Kaup: Algebraische Geometrie - Grundlagen Band 14 G. Köhler: Analysis Band 15 Th. Camps, S. Kühling, G. Rosenberger: Einführung in die mengentheoretische und die algebraische Topologie Band 16 H. Havlicek: Lineare Algebra für Technische Mathematiker Band 17 M. Drmota, B. Gittenberger, G. Karigl, A. Panholzer: Mathematik für Informatik Band 18 W. Rautenberg: Messen und Zählen. Eine einfache Konstruktion der reellen Zahlen Band 19 Th. Camps, V. große Rebel, G. Rosenberger: Einführung in die kombinatorische und die geometrische Gruppentheorie Band 20 J. Flachsmeyer: Origami und Mathematik. Papier falten - Formen gestalten [^0]: ${ }^{1}$ Nach ÖNORM ist 0 (Null) auch eine natürliche Zahl. [^1]: ${ }^{2}$ Wir werden $P(n)$ in der Logik als Prädikat bezeichnen, siehe Abschnitt 1.3. [^2]: ${ }^{3}$ Wir benützen hier das Summenzeichen $\sum$, das große griechische Sigma. Ist $a_{0}, a_{1}, \ldots, a_{n}$ eine Folge von Zahlen, so ist $\sum_{k=0}^{n} a_{k}$ eine Kurzschreibweise für $a_{0}+a_{1}+\cdots+a_{n}$, also insbesondere ist $\sum_{k=0}^{n} k=0+1+2+\cdots+n$. [^3]: ${ }^{4}$ Zwei Brüche $\frac{m}{n}$ und $\frac{k}{l}$ in $\mathbb{Q}$ werden gleich gesetzt, wenn $m \cdot l=n \cdot k$ ist. [^4]: ${ }^{5}$ ohne Beschränkung der Allgemeinheit ${ }^{6}$ Die geraden ganzen Zahlen sind dadurch charakterisiert, dass sie durch 2 teilbar sind. ${ }^{7}$ Die Basis 10 ist willkürlich und nur historisch bedingt. Man kann anstelle von 10 jede natürliche Zahl $q>1$ verwenden. Beispielsweise führt dies für $q=2$ zur Binärentwicklung. [^5]: ${ }^{8}$ Ein reelles Intervall besteht aus allen reellen Zahlen zwischen zwei vorgegebenen Zahlen $a, b$. Die Menge $[a, b]=\{x \in \mathbb{R} \mid a \leq x \leq b\}$ bezeichnet man als abgeschlossenes Intervall, das die Endpunkte $a, b$ enthält, und die Menge $(a, b)=\{x \in \mathbb{R} \mid a0$ ist $\varphi \in(0, \pi)$ und für $b<0$ gilt $\varphi \in(\pi, 2 \pi)$. [^7]: ${ }^{11}$ Der Begriff „Wurzel“ wird in der Mathematik allgemein für Nullstellen von algebraischen Gleichungen bezeichnet. Im speziellen ist die Quadratwurzel $w=\sqrt{z}$ eine Lösung der Gleichung $w^{2}=z$ und eine $n$-te Wurzel eine Lösung der Gleichung $w^{n}=z$. Üblicherweise spricht man nicht von „der Wurzel“, da es i. Allg. mehrere Lösungen gibt. [^8]: ${ }^{12}$ Genauer gilt für den Rest $\left.r_{k} \leq b 2^{-\lfloor k / 2}\right\rfloor$. Der Algorithmus bricht also spätestens nach $2(\log b / \log 2)+1$ Schritten ab. [^9]: ${ }^{13}$ Der Satz gilt formal auch für die natürliche Zahl $a=1$, wenn man - wie üblich - das „leere Produkt“ als 1 definiert. [^10]: ${ }^{14}$ Das große griechische $\Pi$ wird - in Analogie zum Summenzeichen $\sum$ - als Produktzeichen verwendet. So ist z.B. $\prod_{j=1}^{n} a_{j}$ eine Kurzschreibweise für das Produkt $a_{1} \cdot a_{2} \cdot a_{3} \cdot \ldots \cdot a_{n}$ [^11]: ${ }^{15}$ Wir verwenden hier die Bezeichnung $|A|$ für die Anzahl der Elemente einer Menge $A$. [^12]: ${ }^{16}$ Manchmal schreibt man für $w$ auch 1 und für $f$ auch 0 . [^13]: ${ }^{17}$ Man beachte den Unterschied zwischen der (logischen) Äquivalenz zweier Aussagen, die wieder eine Aussage ist, wie z.B. $\neg(p \wedge q) \Leftrightarrow(\neg p) \vee(\neg q)$, und der semantischen (oder mathematischen) Äquivalenz zweier Aussagen, wie z.B. $\neg(p \wedge q) \Longleftrightarrow(\neg p) \vee(\neg q)$. Das Letztere ist sozusagen eine Aussage über Aussagen. [^14]: ${ }^{18}$ Beispielsweise stellt sich heraus, dass die „Menge aller Mengen", die nach der folgenden Definition eine Menge sein müsste, ein widersprüchlicher Begriff ist. Formal wurde dieser Widerspruch dadurch gelöst, dass die Mengenlehre streng axiomatisch aufgebaut wurde (Axiomensystem von Zermelo und Fraenkel). Noch einfacher ist es, eine große Menge, ein Universum $E$, vorauszusetzen und nur Teilmengen des Universums zu betrachten. Dadurch können keine Widersprüche dieser Art entstehen. [^15]: ${ }^{19}$ Eine Menge $A$ heißt abzählbar, wenn es möglich ist, die Elemente von $A$ „durchzunummerieren“, also $A=\left\{a_{0}, a_{1}, a_{2}, \ldots\right\}$. Formal bedeutet das, dass es eine bijektive Abbildung $a: \mathbb{N} \rightarrow A$ gibt (siehe Abschnitt 1.5). Beispielsweise sind die ganzen Zahlen $\mathbb{Z}=\{0,1,-1,2,-2, \ldots\}$, aber auch die rationalen Zahlen $\mathbb{Q}=\left\{0,1,-1,2,-2, \frac{1}{2},-\frac{1}{2}, 3,-3, \frac{3}{2},-\frac{3}{2}, \frac{1}{3},-\frac{1}{3}, \frac{2}{3},-\frac{2}{3}, \ldots\right\}$ abzählbar. Die reellen Zahlen sind nicht abzählbar. [^16]: ${ }^{20} \mathbb{R}_{0}^{+}$bezeichnet die Menge der nicht-negativen reellen Zahlen, also der Zahlen $x \geq 0$. [^17]: ${ }^{1}$ Wie in diesem Zusammenhang üblich, bezeichnet $A^{\prime}$ hier das Komplement $E \backslash A$. [^18]: ${ }^{2}$ Für einen formalen Beweis, dass dieses Verfahren stets ein minimales Gerüst liefert, benützt man die Eigenschaft, dass ein Gerüst $W$ genau dann minimal ist, wenn für jede Kante $e$ außerhalb von $W$ auf dem (eindeutig bestimmten) Kreis $C_{W}(e)$, der nur aus Kanten von $W$ und aus $e$ besteht, die Beziehung $w(e) \geq w(f)$ für alle Kanten $f \in C_{W}(e)$ gilt. ${ }^{3}$ Hier würde das Wort „greedy" noch besser passen, da hier jeweils versucht wird, eine Kante mit maximal möglichem Gewicht einzusetzen. [^19]: ${ }^{4}$ im Andenken an den Mathematiker Niels Henrik Abel [^20]: ${ }^{5}$ In dieser Gleichung liegt auch die Unmöglichkeit der Existenz eines Inversen von 0 und damit die Unmöglichkeit der Division durch 0 begründet. [^21]: ${ }^{1}$ Die Summe der bei einem Knoten zufließenden Ströme ist gleich der Summe der abfließenden, und die Summe der Spannungen entlang einer Masche ist Null. ${ }^{2}$ Die Spannung $u$ an einem Widerstand $R$, durch den der Strom $i$ fließt, beträgt $u=R \cdot i$. [^22]: ${ }^{3}$ Genauer müsste man $[\{\boldsymbol{v}\}]$ bzw. $\left[\left\{\boldsymbol{v}_{1}, \boldsymbol{v}_{2}\right\}\right]$ schreiben, da die lineare Hülle nur für eine Menge von Vektoren definiert wurde. Wir verwenden aber der Einfachheit halber die „falsche “ Schreibweise $[\boldsymbol{v}]$ bzw. $\left[\boldsymbol{v}_{1}, \boldsymbol{v}_{2}\right]$ und sagen dafür auch „lineare Hülle eines Vektors“ bzw. „lineare Hülle von zwei Vektoren.“ [^23]: ${ }^{4}$ Die „Diagonale“ einer Matrix $A=\left(a_{i j}\right)$ bilden die Elemente $a_{11}, a_{22}, \ldots$, d.h., die Diagonale verläuft von „links oben“ nach ,rechts unten“. [^24]: ${ }^{5}$ Eine analoge Eigenschaft gilt auch, wenn man mit Zeilenumformungen beginnt, also unterhalb der Diagonale Nullen erzeugt. Dieses Prinzip werden wir beim Gauß'schen Eliminationsverfahren, das wir später besprechen werden, verwenden. [^25]: ${ }^{6}$ In diesem Zusammenhang ist es üblich, die lineare Abbildung $f$ nicht durch „Matrix mal Spaltenvektor“, $x \mapsto G \cdot x$, sondern durch ,Zeilenvektor mal Matrix“ anzugeben. $F^{k}$ bzw. $F^{n}$ bezeichnen also hier die $k$ - bzw. $n$-dimensionalen Zeilenvektoren mit Eintragungen aus $F$, die auch als Wörter der Länge $k$ bzw. $n$ aus Buchstaben des Alphabets $F$ gesehen werden können. [^26]: ${ }^{7}$ In diesem Fall ist bei $\boldsymbol{b} \neq \mathbf{0}$ die Lösungsmenge leer und bei $\boldsymbol{b}=\mathbf{0}$ die Lösungsmenge ganz $K^{n}$. ${ }^{8}$ Für das prinzipielle Verfahren ist es vollkommen irrelevant, welches Element $\neq 0$ als Pivotelement $a_{11}$ verwendet wird. Bei der numerischen Behandlung linearer Gleichungssysteme erweist es sich jedoch günstig, das betragsmäßig größte Element als Pivot zu nehmen (Pivotisierung), um Rundungsfehler möglichst klein zu halten. Wir werden das in Abschnitt 9.2 noch ausführlich besprechen. ${ }^{9}$ Zur Vereinfachung der Notation werden die Elemente der transformierten Matrix mit denselben Buchstaben bezeichnet. [^27]: ${ }^{10}$ Dies funktioniert natürlich nur dann, wenn es ein Element $a_{i j} \neq 0$ mit $2 \leq i \leq m, 2 \leq j \leq n$, gibt. Ist es dabei nötig, zwei Spalten von $A^{\prime}$ zu vertauschen, so müssen die entsprechenden Elemente der ersten Zeile von $A$ auch vertauscht werden. ${ }^{11}$ Man beachte, dass die Transformationen $A^{*}=U A T$ und $b^{*}=U b$ mit regulären Matrizen als Basiswechsel interpretiert werden können. Das ursprüngliche lineare Gleichungssystem $A \boldsymbol{x}=\boldsymbol{b}$ ist ja die Koordinatendarstellung von $f(\boldsymbol{x})=\boldsymbol{b}$ mit einer linearen Abbildung $f: K^{n} \rightarrow K^{m}$, wobei jeweils die kanonischen Basen zugrundegelegt werden. Die Matrix $T$ entspricht nun einem Basiswechsel in $K^{n}$, wobei aber nur die Reihenfolge der Basisvektoren vertauscht wird. Die Matrix $U$ vermittelt einen Basiswechsel in $K^{m}$, der bewirkt, dass die Koordinatendarstellung von $f$ bezüglich dieser neuen Basis in $K^{m}$ einer Matrix entspricht, aus der die Lösung von $f(\boldsymbol{x})=\boldsymbol{b}$, d.h. das Finden des Urbilds $f^{-1}(\{\boldsymbol{b}\})$, einfacher abgelesen werden kann. [^28]: ${ }^{1}$ In der Mathematik werden auch abstraktere Mengen untersucht, in denen Abstände zwischen Elementen definiert sind. Solche Mengen werden metrische Räume genannt. Ein metrischer Raum $X$ heißt vollständig, falls jede Cauchyfolge in $X$ konvergiert. Spezielle vollständige metrische Räume, so genannte Hilberträume, spielen in vielen Teilen der Mathematik sowie beispielsweise in der Quantenphysik eine große Rolle. [^29]: ${ }^{2}$ In diesem Abschnitt werden wichtige Eigenschaften der Exponentialfunktion hergeleitet. Diese sind in Satz 4.74 zusammengefasst. Der gesamte Abschnitt ist dem Beweis dieses Satzes gewidmet. Dieser Beweis ist für interessierte Leser gedacht und kann übersprungen werden, ohne dass das Verständnis der nachfolgenden Abschnitte und Kapitel darunter leidet. [^30]: ${ }^{3}$ Der Arcussinus besitzt unendlich viele Zweige, da $\sin x$ nicht nur als Funktion auf dem Intervall $[-\pi / 2, \pi / 2]$ streng monoton wachsend und daher umkehrbar ist, sondern auch auf jedem Intervall der Form $[-\pi / 2+2 k \pi, \pi / 2+$ $2 k \pi]$ mit $k \in \mathbb{Z}$. [^31]: ${ }^{1}$ Man beachte, dass es sich hier nicht um einen Quotienten im üblichen Sinne handelt. Es wird bloß der Limes des Differenzenquotienten gebildet. Bei stetigen Funktionen konvergieren aber sowohl Nenner als auch Zähler gegen 0. Die Bezeichnung Differentialquotient hat historische Gründe und geht auf Leibniz zurück, der den Differentialquotienten als Quotienten von unendlich kleinen Größen $d f$ und $d x$, den so genannten Differentialen, definierte. Aus heutiger Sicht ist das jedoch insofern nicht korrekt, als es keine unendlich kleinen reellen Zahlen gibt. Die Schreibweise $\frac{d f}{d x}$ ist dennoch gebräuchlich und kann - nach Einführung entsprechender Begriffe - auch als Quotient interpretiert werden. [^32]: ${ }^{2}$ In der Physik wird die Ableitung nach der Zeit meist als $\dot{f}\left(t_{0}\right)$ geschrieben. [^33]: ${ }^{3}$ Michel Rolle (1652-1719), frz. Mathematiker [^34]: ${ }^{4}$ Marquis de l'Hospital (1661-1704) [^35]: ${ }^{5}$ Das Supremum und das Infimum von $f$ in einem Teilintervall der Zerlegung muss von $f$ nicht angenommen werden. [^36]: ${ }^{1}$ In der Analysis bezeichnet man oft auch Funktionen, wo alle Variablen linear auftreten (also solche der Form $f(x, y)=a x+b y+c$ ), als linear. Dies stimmt nicht mit der in der linearen Algebra üblichen Definition (siehe Kapitel 3) überein. Diese Funktionen beschreiben eine beliebige Ebene im dreidimensionalen Raum und werden in der linearen Algebra als affine Funktionen bezeichnet. [^37]: ${ }^{2}$ Das Teilgebiet der Mathematik, das sich unter anderem mit solchen Themen befasst, heißt Topologie. Die Gesamtheit aller offenen Mengen von $\mathbb{R}^{n}$ wird auch als Topologie des $\mathbb{R}^{n}$ bezeichnet. Allgemein kann man eine beliebige Menge $X$ mit einer Topologie ausstatten, indem man bestimmte Teilmengen von $X$ als offene Mengen auszeichnet. So lassen sich Begriffe wie Stetigkeit auf einen wesentlich allgemeineren Rahmen übertragen. [^38]: ${ }^{3}$ Es ist auch üblich, nicht konstante Faktoren in Operatorgleichungen zu verwenden und in analoger Weise zu interpretieren. So gilt beispielsweise (im Vektorraum der unendlich oft differenzierbaren Funktionen) $D_{x} D_{y}=$ $D_{y} D_{x}$ nach dem Satz von Schwarz. Der Operator $x D_{x}$ bildet $f(x)$ auf $x f^{\prime}(x)$ ab, während $D_{x} x$ diese Funktion auf $(x f(x))^{\prime}=x f^{\prime}(x)+f(x)$ abbildet; also gilt $x D_{x} \neq D_{x} x$. Wenn $h$ und $k$ Konstante sind, dann ist $D_{x} h=h D_{x}$, da $\left(D_{x} h\right)(f(x))=(h f(x))^{\prime}=h f^{\prime}(x)=h D_{x}(f(x))$. [^39]: ${ }^{4}$ Da die Produktionsfunktion $f(x, y, z)$ für $x, y, z \geq 0$ monoton in allen drei Variablen ist, wird das Maximum erzielt, wenn das vorhandene Budget voll ausgenützt wird. Andernfalls müsste die Nebenbedingung $3 x+2 y+$ $5 z-60 \leq 0$ lauten. [^40]: ${ }^{5}$ Wir haben keine mathematisch saubere Definition des Begriffs der Fläche (bzw. des Inhalts für $\mathbb{R}^{n}$ ) bereit gestellt. Dazu benötigt man die so genannte Maßtheorie, einen Zweig der Mathematik, der erst im 20. Jahrhundert entstanden ist. In der Maßtheorie wird das so genannte Lebesgue'sche Maß definiert, das Teilmengen von $\mathbb{R}^{2}$ eine Fläche zuordnet und mit dessen Hilfe auch andere Integralbegriffe als das Riemann'sche Integral definiert werden können. Die allgemeinere Version von Satz 6.44 tritt bereits bei einfachen Substitutionen wie z.B. der Transformation von kartesischen Koordinaten in Polarkoordinaten (Beispiel 6.45) auf. Da die Behandlung der Maßtheorie aber den Rahmen unseres Buches bei weitem sprengen würde, müssen wir uns an dieser Stelle mit der etwas ungenauen Formulierung zufrieden geben. [^41]: ${ }^{6}$ Mit linearer Massendichte bezeichnet man in der Physik das Produkt aus Volumsmassendichte und Fläche. Stellt man sich die Feder aus lauter unendlich dünnen Kreisscheiben zusammen gesetzt vor, so gibt die lineare Massendichte die Massenverteilung längs des Drahtes an, aus dem die Feder besteht. [^42]: ${ }^{1}$ Die Geschichte der Türme von Hanoi geht vermutlich auf den französischen Mathematiker Edouard Lucas zurück. Danach wären indische Mönche im großen Tempel von Benares, der den Mittelpunkt der Welt markiert, Tag und Nacht unablässig damit beschäftigt, einen Turm aus 64 goldenen Scheiben zu versetzen, und wenn ihnen das gelungen sei, wäre das Ende der Welt gekommen. [^43]: ${ }^{2}$ Die Fibonacci-Zahlen gehen auf den italienischen Mathematiker Fibonacci (Leonardo von Pisa) zurück, der sie in seinem Buch „Liber Abaci“ aus dem Jahr 1202 zur Beschreibung der Entwicklung einer Kaninchenkolonie verwendete. Sie besitzen unzählige Anwendungen vom Goldenen Schnitt aus der Architektur bis zur modernen Zahlentheorie. [^44]: ${ }^{3}$ Dabei hat das so genannte leere Produkt $\prod_{i=0}^{-1} a_{i}$ per definitionem den Wert 1. [^45]: ${ }^{4}$ Im Zusammenhang mit physikalischen Größen $x(t)$, wo die Variable $t$ als Zeit interpretiert werden kann, ist die Notation $\dot{x}(t)$ gebräuchlicher als das sonst verwendete $x^{\prime}(t)$. [^46]: ${ }^{1}$ Diese Quadraturformel geht auf den deutschen Mathematiker und Astronomen Johannes Kepler zurück und wurde zur Berechnung der Kapazität von Weinfässern angewendet. [^47]: ${ }^{2}$ Die Integralbestandteile an den Schnittlinien von verschiedenen Rechtecken, die bei der partiellen Integration auftreten, fallen insgesamt wieder weg.