====== Preprocessing ======
===== Fehlerarten =====
  * Unsauber/verrauscht
  * Unvollständig
  * Inkonsistent
=> beheben durch //Data cleaning//

===== Hauptaufgaben =====
  * Data cleaning (glätten, interpolieren, outlier entfernen)
  * Data integration (Mehrere Datenquellen mergen)
  * Data transformation (Normalisieren (cm -> m))
  * Data reduction (Daten mergen)

===== Merkmale =====
  * Höhe
  * Breite
  * Kurvatur-Parameter
  * Farbhistogramme
  * Begriffhäufigkeit

Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum

===== Skalen Niveaus =====
  * Nominal (kathegorisch)
    * dichotom (2 mögliche Werte)
  * Ordinal
  * Metrisch
    * stetig/diskret

===== Lol, Statistik =====
^ Absolute Häufigkeit | $h(a)$ |
^ Relative Häufigkeit | $p(a) = h(a) / n$ |
^ Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |
^ Median | |
^ Modus | Größte Häufigkeit |
^ Varianz | ??? |
^ Standartabweichung | ??? |
^ Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |
^ $X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ \\ o = Beobachtete Häufigkeit \\ e = Erwartete Häufigkeit \\ Maß für die Stärke der Abhängigkeit |
^ Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |
^ skew | mode < median < mean => positively skewed \\ mode > median > mean => negatively skewed |

===== Räume/Distanzfunktion =====
==== Eigenschaften ====
^ striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |
^ reflexivität | ??? |
^ ??? | ???

alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen

==== Räume ====
=== Metrischer Raum ===
Kein Weg ist kürzer als der direkte

euklidischer ist eine metrischer vektorraum

????

==== Abstände (Euklidischer Vektorraum) ====
^ Euklidische Norm ($L_2$)| ??? |
^ Manhatten-Norm ($L_1$) | $dist_1 = $ ???? |
^ Maximums-Norm | |
^ Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ |
^ Gewichtete Euklidische Norm | ??? |
^ Quadratische Form | ??? \\ Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) \\ Einheitsmatrix (Diagonale = 1) => Euklidische Distanz |

Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).

==== Normalisierung ====
^ min-max Normalisierung | ??? |
^ z-score Normalisierung | ??? |

==== Ähnlichkeit ====
  * sim(x, y) = 0 => unendliche Distanz
  * sim(x, y) = 1 => dist(x, y) = 0
  * dist ??? (kann das sein mit \infty dist())