Wiki

A universe of ideas

User Tools

Site Tools


uni:8:kdd1:preprocessing

Preprocessing

Fehlerarten

  • Unsauber/verrauscht
  • Unvollständig
  • Inkonsistent

⇒ beheben durch Data cleaning

Hauptaufgaben

  • Data cleaning (glätten, interpolieren, outlier entfernen)
  • Data integration (Mehrere Datenquellen mergen)
  • Data transformation (Normalisieren (cm → m))
  • Data reduction (Daten mergen)

Merkmale

  • Höhe
  • Breite
  • Kurvatur-Parameter
  • Farbhistogramme
  • Begriffhäufigkeit

Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum

Skalen Niveaus

  • Nominal (kathegorisch)
    • dichotom (2 mögliche Werte)
  • Ordinal
  • Metrisch
    • stetig/diskret

Lol, Statistik

Absolute Häufigkeit $h(a)$
Relative Häufigkeit $p(a) = h(a) / n$
Arithmetisches Mittel $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$
Median
Modus Größte Häufigkeit
Varianz ???
Standartabweichung ???
Erwartete Häufigkeit (bei Kontingenztabelle) $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$
$X^2$-Koeffizient (bei Kontingenztabelle) $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$
o = Beobachtete Häufigkeit
e = Erwartete Häufigkeit
Maß für die Stärke der Abhängigkeit
Korrelationskoeffizient (nur nominal) $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ????
skew mode < median < mean ⇒ positively skewed
mode > median > mean ⇒ negatively skewed

Räume/Distanzfunktion

Eigenschaften

striktheit \forall p,q \in Dom, p \ne q : dist(p,q) > 0
reflexivität ???
???

alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen

Räume

Metrischer Raum

Kein Weg ist kürzer als der direkte

euklidischer ist eine metrischer vektorraum

????

Abstände (Euklidischer Vektorraum)

Euklidische Norm ($L_2$) ???
Manhatten-Norm ($L_1$) $dist_1 = $ ????
Maximums-Norm
Allgemeines $L_p$-Abstandsmaß $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$
Gewichtete Euklidische Norm ???
Quadratische Form ???
Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung)
Einheitsmatrix (Diagonale = 1) ⇒ Euklidische Distanz

Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).

Normalisierung

min-max Normalisierung ???
z-score Normalisierung ???

Ähnlichkeit

  • sim(x, y) = 0 ⇒ unendliche Distanz
  • sim(x, y) = 1 ⇒ dist(x, y) = 0
  • dist ??? (kann das sein mit \infty dist())
uni/8/kdd1/preprocessing.txt · Last modified: 2020-11-18 18:11 by 127.0.0.1