Wiki

This page is read only. You can view the source, but not change it. Ask your administrator if you think this is wrong.

====== Preprocessing ======
===== Fehlerarten =====
  * Unsauber/verrauscht
  * Unvollständig
  * Inkonsistent
=> beheben durch //Data cleaning//

===== Hauptaufgaben =====
  * Data cleaning (glätten, interpolieren, outlier entfernen)
  * Data integration (Mehrere Datenquellen mergen)
  * Data transformation (Normalisieren (cm -> m))
  * Data reduction (Daten mergen)

===== Merkmale =====
  * Höhe
  * Breite
  * Kurvatur-Parameter
  * Farbhistogramme
  * Begriffhäufigkeit

Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum

===== Skalen Niveaus =====
  * Nominal (kathegorisch)
    * dichotom (2 mögliche Werte)
  * Ordinal
  * Metrisch
    * stetig/diskret

===== Lol, Statistik =====
^ Absolute Häufigkeit | $h(a)$ |
^ Relative Häufigkeit | $p(a) = h(a) / n$ |
^ Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |
^ Median | |
^ Modus | Größte Häufigkeit |
^ Varianz | ??? |
^ Standartabweichung | ??? |
^ Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |
^ $X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ \\ o = Beobachtete Häufigkeit \\ e = Erwartete Häufigkeit \\ Maß für die Stärke der Abhängigkeit |
^ Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |
^ skew | mode < median < mean => positively skewed \\ mode > median > mean => negatively skewed |

===== Räume/Distanzfunktion =====
==== Eigenschaften ====
^ striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |
^ reflexivität | ??? |
^ ??? | ???

alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen

==== Räume ====
=== Metrischer Raum ===
Kein Weg ist kürzer als der direkte

euklidischer ist eine metrischer vektorraum

????

==== Abstände (Euklidischer Vektorraum) ====
^ Euklidische Norm ($L_2$)| ??? |
^ Manhatten-Norm ($L_1$) | $dist_1 = $ ???? |
^ Maximums-Norm | |
^ Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ |
^ Gewichtete Euklidische Norm | ??? |
^ Quadratische Form | ??? \\ Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) \\ Einheitsmatrix (Diagonale = 1) => Euklidische Distanz |

Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).

==== Normalisierung ====
^ min-max Normalisierung | ??? |
^ z-score Normalisierung | ??? |

==== Ähnlichkeit ====
  * sim(x, y) = 0 => unendliche Distanz
  * sim(x, y) = 1 => dist(x, y) = 0
  * dist ??? (kann das sein mit \infty dist())

xxxxxxxxxx
 
====== Preprocessing =========== Fehlerarten =====  * Unsauber/verrauscht  * Unvollständig  * Inkonsistent=> beheben durch //Data cleaning//​===== Hauptaufgaben =====  * Data cleaning (glätten, interpolieren, outlier entfernen)  * Data integration (Mehrere Datenquellen mergen)  * Data transformation (Normalisieren (cm -> m))  * Data reduction (Daten mergen)​===== Merkmale =====  * Höhe  * Breite  * Kurvatur-Parameter  * Farbhistogramme  * Begriffhäufigkeit​Alle Werte in ein n-Tupel. Damit befinden sich die Objekte in einem n-dimensionalen Raum​===== Skalen Niveaus =====  * Nominal (kathegorisch)    * dichotom (2 mögliche Werte)  * Ordinal  * Metrisch    * stetig/diskret​===== Lol, Statistik =====^ Absolute Häufigkeit | $h(a)$ |^ Relative Häufigkeit | $p(a) = h(a) / n$ |^ Arithmetisches Mittel | $\mu = \bar x = \frac{1}{n} \cdot \sum^{n}_{i=1} x_i$ |^ Median | |^ Modus | Größte Häufigkeit |^ Varianz | ??? |^ Standartabweichung | ??? |^ Erwartete Häufigkeit (bei Kontingenztabelle) | $e{ij} = n \cdot p_i \cdot p_j = \frac{h_j h_i}{n}$ |^ $X^2$-Koeffizient (bei Kontingenztabelle) | $X^2 = \sum^c_{i=1}\sum^r_{j=1} \frac{(o_{ij}-e_{ij})^2}{e_{ij}}$ \\ o = Beobachtete Häufigkeit \\ e = Erwartete Häufigkeit \\ Maß für die Stärke der Abhängigkeit |^ Korrelationskoeffizient (nur nominal) | $r_{XY} = \sum^n_{i = 1} \frac{()}{}$ ???? |^ skew | mode < median < mean => positively skewed \\ mode > median > mean => negatively skewed |​===== Räume/Distanzfunktion ========= Eigenschaften ====^ striktheit | \forall p,q \in Dom, p \ne q : dist(p,q) > 0 |^ reflexivität | ??? |^ ??? | ???​alle drei sind beim euklidischen distanzmaß erfüllt, aber ggf. nicht bei anderen​==== Räume ======= Metrischer Raum ===Kein Weg ist kürzer als der direkte​euklidischer ist eine metrischer vektorraum​????​==== Abstände (Euklidischer Vektorraum) ====^ Euklidische Norm ($L_2$)| ??? |^ Manhatten-Norm ($L_1$) | $dist_1 = $ ???? |^ Maximums-Norm | |^ Allgemeines $L_p$-Abstandsmaß | $dist_p = (\|p_1-q_1\|^p + \|p_1-q_1\|^p + \ldots )^\frac{1}{p}$ |^ Gewichtete Euklidische Norm | ??? |^ Quadratische Form | ??? \\ Verwendet eine Matrix (mischt Eigenschaften vor der Distanzberechnung) \\ Einheitsmatrix (Diagonale = 1) => Euklidische Distanz |​Gewichtete Normen sind sonvoll, wenn die Wertebereiche der Eigenschaften sehr unterschiedliche sind (oder man normalisiert vorher).​==== Normalisierung ====^ min-max Normalisierung | ??? |^ z-score Normalisierung | ??? |​==== Ähnlichkeit ====  * sim(x, y) = 0 => unendliche Distanz  * sim(x, y) = 1 => dist(x, y) = 0  * dist ??? (kann das sein mit \infty dist())​​