Die o-Notation von Landau

 Der lineare Approximationssatz besagt: Bis auf einen

„in erster Ordnung vernachlässigbaren Fehler r“

ist eine bei p differenzierbare Funktion f in der Nähe von p ihre dortige Tangente. Suggestiv ist eine symbolische Notation, die durch die Zahlentheoretiker Paul Bachmann und Edmund Landau um 1900 eingeführt und verbreitet wurden:

Die klein-o-Notation von Landau für die Differenzierbarkeit

Seien f, g : P  , und sei p  ∈  P ein Häufungspunkt von P. Dann bedeutet

f (x)  =  g(x)  +  o(x − p)  für  x  p, (klein-o-Notation)

dass für die Funktion r : P   mit r(x) = f (x) − g(x) gilt:

(+)  limx  p, x ≠ p r(x)x − p  =  0

Das Landau-Symbol o(x − p) ersetzt die konkrete Angabe der Restfunktion r. Die Funktion f ist bei p bis auf einen „kleinen Fehler“ gleich g. Was als „kleiner Fehler“ gilt, wird durch (+) präzisiert: Der Fehler r(x) = f (x) − g(x) muss schneller als linear gegen Null konvergieren, wenn x gegen p strebt.

Die Differenzierbarkeit von f : P   bei p können wir nun notieren als

f (x)  =  f (p)  +  a (x − p)  +  o(x − p)  für x  p.

Es gilt dann automatisch a = f ′(p). Bis auf ein „klein o“ der Form x − p ist f also gleich ihrer Tangente an der Stelle p.

Bestmögliche Approximation

Wählen wir eine andere Steigung für die approximierende Gerade, d. h., schreiben wir

f (x)  =  f (p)  +  a (x − p)  +  r(x)  mit  a ≠ f ′(p),

so gilt

limx  p r(x)  =  0,  limx  p r(x)x − p  =  f ′(p)  −  a  ≠  0

Die Restfunktion konvergiert zwar für x  p immer noch gegen 0, aber sie konvergiert nicht mehr schneller als linear gegen 0 (vgl. hierzu die obigen Abbildungen mit a ≠ f ′(p)). Die Tangente ist in diesem Sinn die bestmögliche Geraden-Approximation an f. Dabei wird stets eine bestimmte Stelle p betrachtet. Die Approximation ist lokal (in einem Punkt) und nicht global (auf dem gesamten Definitionsbereich).

 Wir betrachten noch eine Verallgemeinerung der o-Notation.

Die allgemeine klein-o-Notation

Seien r, g : P  , und sei p ein Häufungspunkt von P (wobei nicht notwendig p  ∈  P). Dann schreiben wir

r(x)  =  o(g(x))  für x  p, (allgemeine klein o-Notation)

falls gilt:

(+)  ∀ε > 0 ∃δ > 0 ∀x  ∈  P (|x − p| < δ    |r(x)| ≤ ε |g(x)|)

Ist g(x) ≠ 0 für alle x  ∈  P, so ist (+) gleichwertig zu

lim p r(x)g(x)  =  0.

Ist p  ∈  P und g(x) ≠ 0 für alle x ≠ p, so ist (+) gleichwertig zu

r(p)  =  0  und  lim p, x ≠ p r(x)g(x)  =  0.

Dies gilt für Funktionen der Form g(x) = (x − p)n für x  ∈  P, n ≥ 1. Den Fall n = 1 haben wir bereits betrachtet. Höhere Exponenten (bessere Approximationen) werden bei der Taylor-Entwicklung auftreten. Statt r = o(g) ist auch die Notation r  ∈  o(g) im Sinne einer Funktionenmenge üblich (und genauer), mit

o(g)  =  op(g)  =  { r : P   | r erfüllt (+) }.

Weiter bedeutet „r(x) = o(g(x)) für x  ∞“ und einer in  unbeschränkten Menge P, dass

∀ε > 0 ∃n0 > 0 ∀x  ∈  P (x ≥ n0  |r(x)| ≤ ε|g(x)|)

Analoges gilt für „x  −∞“. Schließlich bedeuten Ausdrücke wie

f (x)  =  h(x)  +  o(g)  für x  p

dass f (x) − h(x) = o(g(x)). Natürlich folgt aus f (x) = o(g(x)) und h(x) = o(g(x)) nicht, dass f = h. Die symbolisch durch „klein o“ bezeichneten Funktionen sind im Allgemeinen verschieden.

Beispiele

(1)

f (x)  =  2(x − p)  +  o(x − p) für x  p  ist äquivalent zu  f (p) = 0,  f ′(p) = 2.

(2)

f (x)  =  c + a x + o(x)  für x  0  ist äquivalent zu  f (0) = c, f ′(0) = a.

(3)

Es gilt sin(x) = x + o(x)  für x  0, da

limx  0 (sin(x) − x)/x  =  limx  0 sin(x)/x − 1  =  1 − 1  =  0.

(4)

Sei c ≠ 0. Dann gilt (wenn wir kurz c statt constc schreiben):

f (x)  =  o(c)  für x  p  ist äquivalent zu  limx  p f (x)  =  0.

Denn es gilt limx  p f (x)/c = 0 genau dann, wenn limx  p f (x) = 0. Speziell ist o(c) als Funktionenklasse gleich o(1) mit

o(1)  =  { f :    | limx  p f (x)  =  0 }.

Analog bedeutet f (x) = o(1) für x  ∞, dass f (x) gegen 0 konvergiert, wenn x gegen unendlich strebt.

(5)

f (x) = o(0) für x  p ist äquivalent dazu, dass f in einer offenen Umgebung Uε(p) von p gleich Null ist. Weiter bedeutet f (x) = o(0) für x  ∞, dass f schließlich konstant gleich 0 ist.

(6)

Für P ⊆  und einen Häufungspunkt p von P ist o(x − p) die Menge aller reellen Funktionen auf P, die bei p schneller als linear gegen 0 konvergieren.

(7)

Es gelte f1(x) = o(x) und f2(x) = o(x) für x  0. Dann gilt:

f1(x) + f2(x) = o(x) und f1(x) · f2(x) = o(x2) für x  0.

(8)

Es gilt x2 = o(x3) für x  ∞, da limx  ∞ x2/x3  =  limx  ∞ 1/x  =  0.

Dagegen gilt nicht, dass x2 = o(x2) für x  ∞. Allgemein gilt x2 = o(xa) für x  ∞ für alle Exponenten a > 2, etwa für a = 5/2.

(9)

Es gilt x3 = o(x2) für x  0, da limx  0 x3/x2 = limx  0 x  =  0.

(10)

Für alle n ≥ 1 gilt xn = o(ex) für x  ∞, da limx  ∞ xn/ex = 0.

(11)

Für alle n ≥ 2 gilt log(x) = o(x1/n) für x  ∞, da limx  ∞ log(x)/x1/n = 0.

(12)

Es gilt x2 sin(1/x) = o(sin(1/x)) für x  0 und (sin(x)/x)2 = o(sin(x)/x) für x  ∞.