uni:8:kdd1:preprocessing
This is an old revision of the document!
Table of Contents
Preprocessing
Fehlerarten
- Unsauber/verrauscht
- Unvollständig
- Inkonsistent
⇒ beheben durch Data cleaning
Hauptaufgaben
- Data cleaning (glätten, interpolieren, outlier entfernen)
- Data integration (Mehrere Datenquellen mergen)
- Data transformation (Normalisieren (cm → m))
- Data reduction (Daten mergen)
Merkmale
- Höhe
- Breite
- Kurvatur-Parameter
- Farbhistogramme
- Begriffhäufigkeit
Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum
Skalen Niveaus
- Nominal (kathegorisch)
- dichotom (2 mögliche Werte)
- Ordinal
- Metrisch
- stetig/diskret
Lol, Statistik
| Absolute Häufigkeit | $h(a)$ |
|---|---|
| Relative Häufigkeit | $p(a) = h(a) / n$ |
| Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |
| Median | |
| Modus | Größte Häufigkeit |
| Varianz | ??? |
| Standartabweichung | ??? |
| Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |
| $X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ o = Beobachtete Häufigkeit e = Erwartete Häufigkeit Maß für die Stärke der Abhängigkeit |
| Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |
| skew | mode < median < mean ⇒ positively skewed mode > median > mean ⇒ negatively skewed |
uni/8/kdd1/preprocessing.1429604905.txt.gz · Last modified: (external edit)
