Processing math: 100%

Wiki

A universe of ideas

User Tools

Site Tools


uni:8:kdd1:preprocessing

This is an old revision of the document!


Preprocessing

Fehlerarten

  • Unsauber/verrauscht
  • Unvollständig
  • Inkonsistent

⇒ beheben durch Data cleaning

Hauptaufgaben

  • Data cleaning (glätten, interpolieren, outlier entfernen)
  • Data integration (Mehrere Datenquellen mergen)
  • Data transformation (Normalisieren (cm → m))
  • Data reduction (Daten mergen)

Merkmale

  • Höhe
  • Breite
  • Kurvatur-Parameter
  • Farbhistogramme
  • Begriffhäufigkeit

Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum

Skalen Niveaus

  • Nominal (kathegorisch)
    • dichotom (2 mögliche Werte)
  • Ordinal
  • Metrisch
    • stetig/diskret

Lol, Statistik

Absolute Häufigkeit h(a)
Relative Häufigkeit p(a)=h(a)/n
Arithmetisches Mittel μ=ˉx=1nni=1xi
Median
Modus Größte Häufigkeit
Varianz ???
Standartabweichung ???
Erwartete Häufigkeit (bei Kontingenztabelle) eij=npipj=hjhin
X2-Koeffizient (bei Kontingenztabelle) X2=ci=1rj=1(oijeij)2eij
o = Beobachtete Häufigkeit
e = Erwartete Häufigkeit
Maß für die Stärke der Abhängigkeit
Korrelationskoeffizient (nur nominal) rXY=ni=1() ????
skew mode < median < mean ⇒ positively skewed
mode > median > mean ⇒ negatively skewed
uni/8/kdd1/preprocessing.1429604905.txt.gz · Last modified: 2020-11-18 18:10 (external edit)