Wiki

A universe of ideas

User Tools

Site Tools


uni:8:kdd1:preprocessing

This is an old revision of the document!


Preprocessing

Fehlerarten

  • Unsauber/verrauscht
  • Unvollständig
  • Inkonsistent

⇒ beheben durch Data cleaning

Hauptaufgaben

  • Data cleaning (glätten, interpolieren, outlier entfernen)
  • Data integration (Mehrere Datenquellen mergen)
  • Data transformation (Normalisieren (cm → m))
  • Data reduction (Daten mergen)

Merkmale

  • Höhe
  • Breite
  • Kurvatur-Parameter
  • Farbhistogramme
  • Begriffhäufigkeit

Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum

Skalen Niveaus

  • Nominal (kathegorisch)
    • dichotom (2 mögliche Werte)
  • Ordinal
  • Metrisch
    • stetig/diskret

Lol, Statistik

Absolute Häufigkeit $h(a)$
Relative Häufigkeit $p(a) = h(a) / n$
Arithmetisches Mittel $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$
Median
Modus Größte Häufigkeit
Varianz ???
Standartabweichung ???
Erwartete Häufigkeit (bei Kontingenztabelle) $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$
$X^2$-Koeffizient (bei Kontingenztabelle) $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$
o = Beobachtete Häufigkeit
e = Erwartete Häufigkeit
Maß für die Stärke der Abhängigkeit
Korrelationskoeffizient (nur nominal) $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ????
skew mode < median < mean ⇒ positively skewed
mode > median > mean ⇒ negatively skewed
uni/8/kdd1/preprocessing.1429604905.txt.gz · Last modified: (external edit)