⇒ beheben durch Data cleaning
Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum
Absolute Häufigkeit | h(a) |
---|---|
Relative Häufigkeit | p(a)=h(a)/n |
Arithmetisches Mittel | μ=ˉx=1n⋅∑ni=1xi |
Median | |
Modus | Größte Häufigkeit |
Varianz | ??? |
Standartabweichung | ??? |
Erwartete Häufigkeit (bei Kontingenztabelle) | eij=n⋅pi⋅pj=hjhin |
X2-Koeffizient (bei Kontingenztabelle) | X2=∑ci=1∑rj=1(oij−eij)2eij o = Beobachtete Häufigkeit e = Erwartete Häufigkeit Maß für die Stärke der Abhängigkeit |
Korrelationskoeffizient (nur nominal) | rXY=∑ni=1() ???? |
skew | mode < median < mean ⇒ positively skewed mode > median > mean ⇒ negatively skewed |
striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |
---|---|
reflexivität | ??? |
??? |
alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen
Kein Weg ist kürzer als der direkte
euklidischer ist eine metrischer vektorraum
????
Euklidische Norm (L2) | ??? |
---|---|
Manhatten-Norm (L1) | dist1= ???? |
Maximums-Norm | |
Allgemeines Lp-Abstandsmaß | distp=(‖p1−q1‖p+‖p1−q1‖p+…)1p |
Gewichtete Euklidische Norm | ??? |
Quadratische Form | ??? Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) Einheitsmatrix (Diagonale = 1) ⇒ Euklidische Distanz |
Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).
min-max Normalisierung | ??? |
---|---|
z-score Normalisierung | ??? |