Die o-Notation von Landau
Der lineare Approximationssatz besagt: Bis auf einen
„in erster Ordnung vernachlässigbaren Fehler r“
ist eine bei p differenzierbare Funktion f in der Nähe von p ihre dortige Tangente. Suggestiv ist eine symbolische Notation, die durch die Zahlentheoretiker Paul Bachmann und Edmund Landau um 1900 eingeführt und verbreitet wurden:
Die klein-o-Notation von Landau für die Differenzierbarkeit
Seien f, g : P → ℝ, und sei p ∈ P ein Häufungspunkt von P. Dann bedeutet
f (x) = g(x) + o(x − p) für x → p, (klein-o-Notation)
dass für die Funktion r : P → ℝ mit r(x) = f (x) − g(x) gilt:
(+) limx → p, x ≠ p r(x)x − p = 0
Das Landau-Symbol o(x − p) ersetzt die konkrete Angabe der Restfunktion r. Die Funktion f ist bei p bis auf einen „kleinen Fehler“ gleich g. Was als „kleiner Fehler“ gilt, wird durch (+) präzisiert: Der Fehler r(x) = f (x) − g(x) muss schneller als linear gegen Null konvergieren, wenn x gegen p strebt.
Die Differenzierbarkeit von f : P → ℝ bei p können wir nun notieren als
f (x) = f (p) + a (x − p) + o(x − p) für x → p.
Es gilt dann automatisch a = f ′(p). Bis auf ein „klein o“ der Form x − p ist f also gleich ihrer Tangente an der Stelle p.
Bestmögliche Approximation
Wählen wir eine andere Steigung für die approximierende Gerade, d. h., schreiben wir
f (x) = f (p) + a (x − p) + r(x) mit a ≠ f ′(p),
so gilt
limx → p r(x) = 0, limx → p r(x)x − p = f ′(p) − a ≠ 0
Die Restfunktion konvergiert zwar für x → p immer noch gegen 0, aber sie konvergiert nicht mehr schneller als linear gegen 0 (vgl. hierzu die obigen Abbildungen mit a ≠ f ′(p)). Die Tangente ist in diesem Sinn die bestmögliche Geraden-Approximation an f. Dabei wird stets eine bestimmte Stelle p betrachtet. Die Approximation ist lokal (in einem Punkt) und nicht global (auf dem gesamten Definitionsbereich).
Wir betrachten noch eine Verallgemeinerung der o-Notation.
Die allgemeine klein-o-Notation
Seien r, g : P → ℝ, und sei p ein Häufungspunkt von P (wobei nicht notwendig p ∈ P). Dann schreiben wir
r(x) = o(g(x)) für x → p, (allgemeine klein o-Notation)
falls gilt:
(+) ∀ε > 0 ∃δ > 0 ∀x ∈ P (|x − p| < δ → |r(x)| ≤ ε |g(x)|)
Ist g(x) ≠ 0 für alle x ∈ P, so ist (+) gleichwertig zu
limx → p r(x)g(x) = 0.
Ist p ∈ P und g(x) ≠ 0 für alle x ≠ p, so ist (+) gleichwertig zu
r(p) = 0 und limx → p, x ≠ p r(x)g(x) = 0.
Dies gilt für Funktionen der Form g(x) = (x − p)n für x ∈ P, n ≥ 1. Den Fall n = 1 haben wir bereits betrachtet. Höhere Exponenten (bessere Approximationen) werden bei der Taylor-Entwicklung auftreten. Statt r = o(g) ist auch die Notation r ∈ o(g) im Sinne einer Funktionenmenge üblich (und genauer), mit
o(g) = op(g) = { r : P → ℝ | r erfüllt (+) }.
Weiter bedeutet „r(x) = o(g(x)) für x → ∞“ und einer in ℝ unbeschränkten Menge P, dass
∀ε > 0 ∃n0 > 0 ∀x ∈ P (x ≥ n0 → |r(x)| ≤ ε|g(x)|)
Analoges gilt für „x → −∞“. Schließlich bedeuten Ausdrücke wie
f (x) = h(x) + o(g) für x → p
dass f (x) − h(x) = o(g(x)). Natürlich folgt aus f (x) = o(g(x)) und h(x) = o(g(x)) nicht, dass f = h. Die symbolisch durch „klein o“ bezeichneten Funktionen sind im Allgemeinen verschieden.
Beispiele
(1) | f (x) = 2(x − p) + o(x − p) für x → p ist äquivalent zu f (p) = 0, f ′(p) = 2. |
(2) | f (x) = c + a x + o(x) für x → 0 ist äquivalent zu f (0) = c, f ′(0) = a. |
(3) | Es gilt sin(x) = x + o(x) für x → 0, da limx → 0 (sin(x) − x)/x = limx → 0 sin(x)/x − 1 = 1 − 1 = 0. |
(4) | Sei c ≠ 0. Dann gilt (wenn wir kurz c statt constc schreiben): f (x) = o(c) für x → p ist äquivalent zu limx → p f (x) = 0. Denn es gilt limx → p f (x)/c = 0 genau dann, wenn limx → p f (x) = 0. Speziell ist o(c) als Funktionenklasse gleich o(1) mit o(1) = { f : ℝ → ℝ | limx → p f (x) = 0 }. Analog bedeutet f (x) = o(1) für x → ∞, dass f (x) gegen 0 konvergiert, wenn x gegen unendlich strebt. |
(5) | f (x) = o(0) für x → p ist äquivalent dazu, dass f in einer offenen Umgebung Uε(p) von p gleich Null ist. Weiter bedeutet f (x) = o(0) für x → ∞, dass f schließlich konstant gleich 0 ist. |
(6) | Für P ⊆ ℝ und einen Häufungspunkt p von P ist o(x − p) die Menge aller reellen Funktionen auf P, die bei p schneller als linear gegen 0 konvergieren. |
(7) | Es gelte f1(x) = o(x) und f2(x) = o(x) für x → 0. Dann gilt: f1(x) + f2(x) = o(x) und f1(x) · f2(x) = o(x2) für x → 0. |
(8) | Es gilt x2 = o(x3) für x → ∞, da limx → ∞ x2/x3 = limx → ∞ 1/x = 0. Dagegen gilt nicht, dass x2 = o(x2) für x → ∞. Allgemein gilt x2 = o(xa) für x → ∞ für alle Exponenten a > 2, etwa für a = 5/2. |
(9) | Es gilt x3 = o(x2) für x → 0, da limx → 0 x3/x2 = limx → 0 x = 0. |
(10) | Für alle n ≥ 1 gilt xn = o(ex) für x → ∞, da limx → ∞ xn/ex = 0. |
(11) | Für alle n ≥ 2 gilt log(x) = o(x1/n) für x → ∞, da limx → ∞ log(x)/x1/n = 0. |
(12) | Es gilt x2 sin(1/x) = o(sin(1/x)) für x → 0 und (sin(x)/x)2 = o(sin(x)/x) für x → ∞. |