====== Preprocessing ====== ===== Fehlerarten ===== * Unsauber/verrauscht * Unvollständig * Inkonsistent => beheben durch //Data cleaning// ===== Hauptaufgaben ===== * Data cleaning (glätten, interpolieren, outlier entfernen) * Data integration (Mehrere Datenquellen mergen) * Data transformation (Normalisieren (cm -> m)) * Data reduction (Daten mergen) ===== Merkmale ===== * Höhe * Breite * Kurvatur-Parameter * Farbhistogramme * Begriffhäufigkeit Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum ===== Skalen Niveaus ===== * Nominal (kathegorisch) * dichotom (2 mögliche Werte) * Ordinal * Metrisch * stetig/diskret ===== Lol, Statistik ===== ^ Absolute Häufigkeit | $h(a)$ | ^ Relative Häufigkeit | $p(a) = h(a) / n$ | ^ Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ | ^ Median | | ^ Modus | Größte Häufigkeit | ^ Varianz | ??? | ^ Standartabweichung | ??? | ^ Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ | ^ $X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ \\ o = Beobachtete Häufigkeit \\ e = Erwartete Häufigkeit \\ Maß für die Stärke der Abhängigkeit | ^ Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? | ^ skew | mode < median < mean => positively skewed \\ mode > median > mean => negatively skewed | ===== Räume/Distanzfunktion ===== ==== Eigenschaften ==== ^ striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 | ^ reflexivität | ??? | ^ ??? | ??? alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen ==== Räume ==== === Metrischer Raum === Kein Weg ist kürzer als der direkte euklidischer ist eine metrischer vektorraum ???? ==== Abstände (Euklidischer Vektorraum) ==== ^ Euklidische Norm ($L_2$)| ??? | ^ Manhatten-Norm ($L_1$) | $dist_1 = $ ???? | ^ Maximums-Norm | | ^ Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ | ^ Gewichtete Euklidische Norm | ??? | ^ Quadratische Form | ??? \\ Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) \\ Einheitsmatrix (Diagonale = 1) => Euklidische Distanz | Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher). ==== Normalisierung ==== ^ min-max Normalisierung | ??? | ^ z-score Normalisierung | ??? | ==== Ähnlichkeit ==== * sim(x, y) = 0 => unendliche Distanz * sim(x, y) = 1 => dist(x, y) = 0 * dist ??? (kann das sein mit \infty dist())