Mathematische Hintergründe

Hinweis: In diesem Abschnitt verwenden wir statt nur das Symbol um die Notation nicht zu überladen.

schätzen

Aus den Medien kennt man die Reproduktionszahl als die Anzahl der Menschen, die ein Infizierter im Durchschnitt ansteckt.

Meistens wissen wir aber nicht, wer wen angesteckt hat, und der naive Ansatz, für jeden Infizierten die von ihm angesteckten Personen zu zählen, und diese Zahlen zu mitteln, scheitert an der praktischen Durchführbarkeit.

Wenn der Zeitraum, in dem jemand ansteckend ist, genau einen Kalendertag lang wäre, dann wäre die Rechnung auch einfach. Sagen wir zum Beispiel, dass eine Person genau am 5. Tag nach ihrer Ansteckung selbst ansteckend ist. Dann müssten wir, um zu ermitteln, nur die heute Erkrankten durch die vor 5 Tagen Erkrankten dividieren.

Tatsächlich sind Infizierte aber an mehreren Tagen ansteckend, und stecken an jedem dieser Tage im Mittel unterschiedlich viele Menschen an.

Um nun doch zu einer Berechnungsmethode für zu gelangen, werden üblicherweise folgende Überlegungen angestellt:

Wenn wir die Anzahl an Personen, die ein/eine InfiziertEr am -ten Tag nach seiner Ansteckung durchschnittlich ansteckt, mit bezeichnen, dann steckt sie/er also insgesamt Personen an. (Hier sind wir davon ausgegangen, dass spätestens nach 20 Tagen keine Ansteckungen mehr passieren.) Diese Summe lässt sich in mathematischer Schreibweise auch mit dem Summensymbol schreiben: .

Wenn wir jedes durch dividieren, dann erhalten wir den Anteil an Ansteckungen, der am -ten Tag passiert. Dieser wird meist genannt: . Der Berechnung eines möglicherweise nicht konstanten, sondern zeitlich variablen liegt nun die Annahme zugrunde, dass selbst wenn sich ändert, die Anteile konstant bleiben.
Diese Anteile lassen sich schätzen, indem man für eine Stichprobe tatsächlich versucht Patienten zu finden, die einander angesteckt haben, und dann die jeweilige Anzahl der Tage zwischen den Ansteckungen in einer Tabelle sammelt. Der Vektor der beschreibt die Verteilung des sogenannten seriellen Intervalls.

Wenn also als konstant angenommen wird, die bekannt sind, und wir die Anzahl der am Tag angesteckten Personen mit bezeichnen, dann wissen wir, dass die Anzahl der am Tag angesteckten Personen

beträgt. Für ein zeitlich variierendes muss jetzt diese Abhängigkeit ebenfalls berücksichtigt werden. Naiverweise würde also die Formel lauten:

Hier wird, entsprechend der landläufigen Definition von im ersten Satz dieser Seite, eine Verringerung der Ansteckungen heute, am Tag , durch die Infizierten am Tag einer Verringerung der Reproduktionszahl am Tag zugeschrieben. Da die Ansteckungen aber heute, am Tag , passieren, und wir durch ja das Ansteckungsverhalten der Krankheit heute beschreiben wollen, lässt sich auch argumentieren, dass die obige Summe vielleicht besser

lauten sollte. Wenn auf diese Art definiert wird, dann wird in der Literatur meist von der effektiven Reproduktionszahl gesprochen. Diese Definition hat auch den wesentlichen Vorteil, dass sich eine Schätzung von recht leicht berechnen lässt. Wenn wir aus der Summe herausheben und durch die Summe dividieren, dann erhalten wir:

Im Kern ist das bereits die Formel, die vielen Schätzverfahren für zu Grunde liegt. Die Sache wird zusätzlich noch komplizierter dadurch, dass wir ja nicht davon ausgehen, dass die Ansteckungen am Tag vollständig determiniert sind, sondern wir gehen davon aus, dass auch viele zufällige Faktoren im Spiel sind. Um dies zu fassen, geht das mathematische Modell, das den meisten Schätzverfahren zu Grunde liegt, davon aus, dass anstatt

vielmehr gilt, dass die Anzahl der am Tag neu infizierten eine Zufallsvariable ist, deren Mittelwert der Ausdruck auf der rechten Seite ist. Genauer gesagt wird von einer Poisson-verteilten Zufallsvariablen ausgegangen. In Symbolen schreibt man
.

Aufbauend darauf wird ein bayessches Modell zur Schätzung von und zur Bestimmung von Kredibilitätsintervallen verwendet.
Dieses Verfahren ist im Softwarepaket EpiEstim implementiert, das vielerorts, und auch hier, eingesetzt wird und in Cori et al. (2013) präsentiert wird. (Wir verwenden EpiEstim mit einem seriellen Intervall, dessen Verteilung durch die Diskretisierung einer Gammaverteilung mit Mittel 4.46 und Standardabweichung 2.63 gegeben ist. Dies basiert auf Schätzungen der AGES.)

In der Bayes-Statistik werden empirische Beobachtungen (zum Beispiel die täglichen Fallzahlen) dazu verwendet, die Plausibilität verschiedener Werte eines Parameters zu beurteilen, und eine a-posteriori-Wahrscheinlichkeitsverteilung für den Parameter – in diesem Fall – zu berechnen. Hierbei fließt immer auch eine a-priori-Verteilung des Parameters ein, die versucht unser Vorwissen über den Parameter zu beschreiben. Kredibilitätsintervalle werden gefunden, indem man in der a-posteriori-Verteilung des Parameters ein Intervall ausmacht, in dem der Parameter in diesem Modell mit einer vorgegebenen Wahrscheinlichkeit liegt (auf unserer Seite sind 50% und 90%-Kredibilitätsintervalle abgebildet).

Kommen in einem Modell weitere Parameter vor, die nicht vollständig bekannt sind, so kann man auch diese Unsicherheit mit einfließen lassen, indem man versucht das Wissen über diesen weiteren Parameter ebenfalls durch eine a-priori-Verteilung zu beschreiben. Für den berechneten Schätzer hat das im Wesentlichen den Effekt, dass über die verschiedenen möglichen Werte des zusätzlichen Parameters gemittelt wird. Im Softwarepaket EpiEstim kann dies für die Verteilung des seriellen Intervall, die oben beschriebenen , getan werden.

Die von epiforecasts.io verwendete Methode basiert ebenfalls auf Bayesscher Schätzung und nimmt noch eine Reihe weiterer nur teilweise bekannter Parameter hinzu: Es fließen Unsicherheiten bezüglich der Meldeverzögerung, bezüglich der Anzahl der Tage von Krankheitsbeginn bis Symptombeginn und weiterer Parameter ein.

Hypothesentest

Vorrangig interessiert uns natürlich ob nun größer oder kleiner als eins ist. Um diese Frage zu entscheiden, eignet sich ein einfacher Hypothesentest, der auch leichter zu erklären ist, als die oben beschriebene Bayessche Schätzung. Dieser liegt auch der Plausibilitätsangabe von beziehungsweise auf der Startseite auf Basis der aktuellen Fallzahlen zu Grunde.

Nimmt man gegeben als an, und betrachtet man die Fallzahlen für Tage, die weiter als eine Woche zurückliegen als fix, dann lässt sich ausgehend vom selben mathematischen Modell wie im vorigen Abschnitt, nämlich

die Wahrscheinlichkeit berechnen, dass die Summe der Fallzahlen für die letzte Woche im Modell größer oder gleich der tatsächlich beobachteten Summe der Fallzahlen ist. Da ein kleineres R zu kleineren Fallzahlen, und somit zu einer kleineren Wahrscheinlichkeit, oder mehr Fälle zu beobachten, führt, ist für jeden Wert die Wahrscheinlichkeit oder mehr Fälle zu beobachten .

Ist das so berechnete sehr klein, dann müssen wir davon ausgehen, dass es wenig plausibel ist, dass unter 1 liegt.

Dieses lässt sich am einfachsten durch Simulation berechnen. Es werden also wieder auf Basis des Modells viele (z.B. 1000 000) verschiedene virtuelle Verläufe der Krankheit über den Zeitraum der letzten Woche simuliert, und dann der Anteil der Verläufe gezählt, wo die Summe der simulierten Fälle größer oder gleich war.

Analog zu den obigen Überlegungen kann man auch die Wahrscheinlichkeit berechnen, dass unter der Annahme im Modell oder weniger Fälle auftreten und hoffen, diesen Fall ausschließen zu können.

Natürlich könnte man auch hier versuchen, zusätzliche Unsicherheiten im Modell zu berücksichtigen, um zum Beispiel eine "worst case"- und "best case"-Aussage treffen zu können. Das ist momentan nicht implementiert. Durch die Mittelung der Fallzahlen über die letzte Woche, sollten zumindest die wochentagsabhängigen Schwankungen das Resultat nicht oder kaum verzerren.