⇒ beheben durch Data cleaning
Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum
Absolute Häufigkeit | $h(a)$ |
---|---|
Relative Häufigkeit | $p(a) = h(a) / n$ |
Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |
Median | |
Modus | Größte Häufigkeit |
Varianz | ??? |
Standartabweichung | ??? |
Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |
$X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ o = Beobachtete Häufigkeit e = Erwartete Häufigkeit Maß für die Stärke der Abhängigkeit |
Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |
skew | mode < median < mean ⇒ positively skewed mode > median > mean ⇒ negatively skewed |
striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |
---|---|
reflexivität | ??? |
??? |
alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen
Kein Weg ist kürzer als der direkte
euklidischer ist eine metrischer vektorraum
????
Euklidische Norm ($L_2$) | ??? |
---|---|
Manhatten-Norm ($L_1$) | $dist_1 = $ ???? |
Maximums-Norm | |
Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ |
Gewichtete Euklidische Norm | ??? |
Quadratische Form | ??? Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) Einheitsmatrix (Diagonale = 1) ⇒ Euklidische Distanz |
Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).
min-max Normalisierung | ??? |
---|---|
z-score Normalisierung | ??? |