⇒ beheben durch Data cleaning
Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum
| Absolute Häufigkeit | $h(a)$ |
|---|---|
| Relative Häufigkeit | $p(a) = h(a) / n$ |
| Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |
| Median | |
| Modus | Größte Häufigkeit |
| Varianz | ??? |
| Standartabweichung | ??? |
| Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |
| $X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ o = Beobachtete Häufigkeit e = Erwartete Häufigkeit Maß für die Stärke der Abhängigkeit |
| Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |
| skew | mode < median < mean ⇒ positively skewed mode > median > mean ⇒ negatively skewed |
| striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |
|---|---|
| reflexivität | ??? |
| ??? |
alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen
Kein Weg ist kürzer als der direkte
euklidischer ist eine metrischer vektorraum
????
| Euklidische Norm ($L_2$) | ??? |
|---|---|
| Manhatten-Norm ($L_1$) | $dist_1 = $ ???? |
| Maximums-Norm | |
| Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ |
| Gewichtete Euklidische Norm | ??? |
| Quadratische Form | ??? Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) Einheitsmatrix (Diagonale = 1) ⇒ Euklidische Distanz |
Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).
| min-max Normalisierung | ??? |
|---|---|
| z-score Normalisierung | ??? |