uni:8:kdd1:preprocessing
This is an old revision of the document!
−Table of Contents
Preprocessing
Fehlerarten
- Unsauber/verrauscht
- Unvollständig
- Inkonsistent
⇒ beheben durch Data cleaning
Hauptaufgaben
- Data cleaning (glätten, interpolieren, outlier entfernen)
- Data integration (Mehrere Datenquellen mergen)
- Data transformation (Normalisieren (cm → m))
- Data reduction (Daten mergen)
Merkmale
- Höhe
- Breite
- Kurvatur-Parameter
- Farbhistogramme
- Begriffhäufigkeit
Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum
Skalen Niveaus
- Nominal (kathegorisch)
- dichotom (2 mögliche Werte)
- Ordinal
- Metrisch
- stetig/diskret
Lol, Statistik
Absolute Häufigkeit | h(a) |
---|---|
Relative Häufigkeit | p(a)=h(a)/n |
Arithmetisches Mittel | μ=ˉx=1n⋅∑ni=1xi |
Median | |
Modus | Größte Häufigkeit |
Varianz | ??? |
Standartabweichung | ??? |
Erwartete Häufigkeit (bei Kontingenztabelle) | eij=n⋅pi⋅pj=hjhin |
X2-Koeffizient (bei Kontingenztabelle) | X2=∑ci=1∑rj=1(oij−eij)2eij o = Beobachtete Häufigkeit e = Erwartete Häufigkeit Maß für die Stärke der Abhängigkeit |
Korrelationskoeffizient (nur nominal) | rXY=∑ni=1() ???? |
skew | mode < median < mean ⇒ positively skewed mode > median > mean ⇒ negatively skewed |
uni/8/kdd1/preprocessing.1429604905.txt.gz · Last modified: 2020-11-18 18:10 (external edit)