* Unsauber/verrauscht
* Unvollständig
* Inkonsistent
=> beheben durch //Data cleaning//
* Data cleaning (glätten, interpolieren, outlier entfernen)
* Data integration (Mehrere Datenquellen mergen)
* Data transformation (Normalisieren (cm -> m))
* Data reduction (Daten mergen)
* Höhe
* Breite
* Kurvatur-Parameter
* Farbhistogramme
* Begriffhäufigkeit
Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum
* Nominal (kathegorisch)
* dichotom (2 mögliche Werte)
* Ordinal
* Metrisch
* stetig/diskret
^ Absolute Häufigkeit | $h(a)$ |
^ Relative Häufigkeit | $p(a) = h(a) / n$ |
^ Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |
^ Median | |
^ Modus | Größte Häufigkeit |
^ Varianz | ??? |
^ Standartabweichung | ??? |
^ Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |
^ $X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ \\ o = Beobachtete Häufigkeit \\ e = Erwartete Häufigkeit \\ Maß für die Stärke der Abhängigkeit |
^ Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |
^ skew | mode < median < mean => positively skewed \\ mode > median > mean => negatively skewed |
^ striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |
^ reflexivität | ??? |
^ ??? | ???
alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen
Kein Weg ist kürzer als der direkte
euklidischer ist eine metrischer vektorraum
????
^ Euklidische Norm ($L_2$)| ??? |
^ Manhatten-Norm ($L_1$) | $dist_1 = $ ???? |
^ Maximums-Norm | |
^ Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ |
^ Gewichtete Euklidische Norm | ??? |
^ Quadratische Form | ??? \\ Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) \\ Einheitsmatrix (Diagonale = 1) => Euklidische Distanz |
Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).
^ min-max Normalisierung | ??? |
^ z-score Normalisierung | ??? |
* sim(x, y) = 0 => unendliche Distanz
* sim(x, y) = 1 => dist(x, y) = 0
* dist ??? (kann das sein mit \infty dist())