uni:8:kdd1:preprocessing
Table of Contents
Preprocessing
Fehlerarten
- Unsauber/verrauscht
- Unvollständig
- Inkonsistent
⇒ beheben durch Data cleaning
Hauptaufgaben
- Data cleaning (glätten, interpolieren, outlier entfernen)
- Data integration (Mehrere Datenquellen mergen)
- Data transformation (Normalisieren (cm → m))
- Data reduction (Daten mergen)
Merkmale
- Höhe
- Breite
- Kurvatur-Parameter
- Farbhistogramme
- Begriffhäufigkeit
Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum
Skalen Niveaus
- Nominal (kathegorisch)
- dichotom (2 mögliche Werte)
- Ordinal
- Metrisch
- stetig/diskret
Lol, Statistik
Absolute Häufigkeit | $h(a)$ |
---|---|
Relative Häufigkeit | $p(a) = h(a) / n$ |
Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |
Median | |
Modus | Größte Häufigkeit |
Varianz | ??? |
Standartabweichung | ??? |
Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |
$X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ o = Beobachtete Häufigkeit e = Erwartete Häufigkeit Maß für die Stärke der Abhängigkeit |
Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |
skew | mode < median < mean ⇒ positively skewed mode > median > mean ⇒ negatively skewed |
Räume/Distanzfunktion
Eigenschaften
striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |
---|---|
reflexivität | ??? |
??? |
alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen
Räume
Metrischer Raum
Kein Weg ist kürzer als der direkte
euklidischer ist eine metrischer vektorraum
????
Abstände (Euklidischer Vektorraum)
Euklidische Norm ($L_2$) | ??? |
---|---|
Manhatten-Norm ($L_1$) | $dist_1 = $ ???? |
Maximums-Norm | |
Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ |
Gewichtete Euklidische Norm | ??? |
Quadratische Form | ??? Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) Einheitsmatrix (Diagonale = 1) ⇒ Euklidische Distanz |
Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).
Normalisierung
min-max Normalisierung | ??? |
---|---|
z-score Normalisierung | ??? |
Ähnlichkeit
- sim(x, y) = 0 ⇒ unendliche Distanz
- sim(x, y) = 1 ⇒ dist(x, y) = 0
- dist ??? (kann das sein mit \infty dist())
uni/8/kdd1/preprocessing.txt · Last modified: 2020-11-18 18:11 by 127.0.0.1