Wiki

A universe of ideas

User Tools

Site Tools


uni:8:kdd1:start

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
uni:8:kdd1:start [2015-06-24 14:35] – [Aufgabe 1] skrupellosuni:8:kdd1:start [2020-11-18 18:11] (current) – external edit 127.0.0.1
Line 64: Line 64:
 ^ C | 1 | 1 | 3 ^ 5 ^ ^ C | 1 | 1 | 3 ^ 5 ^
 ^   ^ 7 ^ 3 ^ 5 ^   ^ ^   ^ 7 ^ 3 ^ 5 ^   ^
 +
 +
 +  * Precission: $\frac{|TP|}{|TP| + |FP|}$
 +  * Recall: ??
  
 ^ ^ $|TP|$ ^ $|FP|$ ^ $|FN|$ ^ ^ ^ $|TP|$ ^ $|FP|$ ^ $|FN|$ ^
Line 80: Line 84:
  
   * Mittlere Precision: $\frac{1}{3}\left(\frac{4}{7} + \frac{2}{3} + \frac{3}{5}\right) = 0.6$   * Mittlere Precision: $\frac{1}{3}\left(\frac{4}{7} + \frac{2}{3} + \frac{3}{5}\right) = 0.6$
 +==== Aufgabe 2 ====
 +=== Leave-one-out ===
 +Jeweils eins raus nehmen und es durch die dann vorherschende Mehrheit ersetzen
 +
 +  * <del>A</del> A A B B B => Das A wird ein B, da B nun die Mehrheit
 +  * A <del>A</del> A B B B => Das A wird ein B, da B nun die Mehrheit
 +  * A A <del>A</del> B B B => Das A wird ein B, da B nun die Mehrheit
 +  * A A A <del>B</del> B B => Das B wird ein A, da A nun die Mehrheit
 +  * A A A B <del>B</del> B => Das B wird ein A, da A nun die Mehrheit
 +  * A A A B B <del>B</del> => Das B wird ein A, da A nun die Mehrheit
 +
 +=> Fehlerrate 100%
 +
 +=== optimaler Klassifikator ===
 +????
 +
 +A A A B B B + ?
 +
 +Fehlerrate 50%
 +
 +=== Bootstrap ===
 +Zufälliges ziehen mit zurücklegen
 +
 +$1, 2, \ldots, n$
 +
 +$P(x) = \frac{1}{n} \Rightleftarrow P(\neg x) = 1 - \frac{1}{n}$
 +
 +$P_n(\neg x) = \left(1 - \frac{1}{n}\right)^n = e^{-1} = 0.368$
 +
 +Fehlerrate = 0.632 * Fehlerrate_Test + 0.368 * Fehlerrate_Training
 +
 +=== 10 Fach Kreuzvalidierung ===
 +
 +<WRAP center round box 60%>
 +**Beispiel 3 fach Kreuzvalidierung**
 +
 +Datensatz 3x unterschiedlich aufteilen:
 +
 +| Training | Training | Test |
 +
 +| Training | Test | Training |
 +
 +| Test | Training | Training |
 +</WRAP>
 +
 +=== Aufgabe 3 ===
 +A priori- und bedingte Wahrscheinlichktein:
 +  * $P(Ski) = \frac{1}{2}$
 +  * $P(\neg Ski) = \frac{1}{2}$
 +
 +Klasse Wetter = W
 +  * $P(W = Sonne \mid Ski) = \frac{1}{4}$
 +  * $P(W = Schnee \mid Ski) = \frac{2}{4}$
 +  * $P(W = Regen \mid Ski) = \frac{1}{4}$
 +  * $P(W = Sonne \mid \neg Ski) = \frac{1}{4}$
 +  * $P(W = Schnee \mid \neg Ski) = \frac{1}{4}$
 +  * $P(W = Regen \mid \neg Ski) = \frac{2}{4}$
 +
 +Klasse Schnee = S
 +  * $P(S < 50 \mid Ski) = \frac{1}{4}$
 +  * $P(S >= 50 \mid Ski) = \frac{3}{4}$
 +  * $P(S < 50 \mid \neg Ski) = \frac{3}{4}$
 +  * $P(S >= 50 \mid \neg Ski) = \frac{1}{4}$
 +
 +
 +=== a) ===
 +  * $W = \text{Sonne}, \text{Schnee} > 50$
 +  * $P(\text{Ski} \mid W=\text{Sonne} \wedge S >= 50) = \frac{P(W=\text{Sonne}, S>=50 \mid \text{Ski}) \cdot P(Ski)}{P(W=Sonne, S>= 50)} = \frac{P(Sonne \mid Ski) \cdot P(>=50 \mid Ski) \cdot P(Ski)}{P(Sonne, >=50)} = \frac{\nicefrac{1}{4} \cdot \nicefrac{3}{4} \nicefrac{1}{2}}{P(Sonne, >= 50} = \frac{\nicefrac{3}{32}}{P(\ldots)}$
 +  * $P(\neg Ski \mid Sonne, >= 50) = \frac{\nicefrac{1}{4} \cdot \nicefrac{1}{4} \cdot \nicefrac{1}{2}}{P(Sonne, >=50} = \frac{\nicefrac{1}{32}}{P(\ldots)}$
 +  * => $P(Ski | \ldots) = \frac{3}{4}$
 +
 +^  ^ a priori ^ Wetter ^^^ Schnee ^^
 +^ ::: ^ ::: ^ Sonne ^ Schnee ^ Regen ^ >= 50 ^ < 50 ^
 +| Ski | 1/2 | 1/4 | 2/4 | 2/4 | 1/4 | 3/4 | 1/4 |
 +| \neg Ski | 1/2 | 1/4 | 1/4 | 2/4 | 1/4 | 3/4 |
 +
 +==== Aufgabe 4 ====
 +  - Klassifikation (Die Klassen (Spam/Ham) stehen schon vorher fest)
 +  - Clustering
 +  - Clustering (Assoziationsregel / Wahrenkorbanalyse)
 +  - Clustering
 +  - Klassifikation
 +  - Clustering
 +  - Klassifikation
 +
 +===== Übung 11 =====
 +==== Aufgabe 1 ====
 +Wird immer als Kreis Klassifiziert
 +
 +==== Aufgabe 2 ====
 +XOR-Problem
 +
 +==== Aufgabe 3 ====
 +$Entropie(T) = - \sum^k_{i=1}p_i \cdot log(p_i)$
 +
 +$Informationsgewinn(T, A) = Entropie - \sum^m_{i=1} \frac{|T_i|}{|T|} Entropie(T_i)$
 +
 +  * Erster Teil von Informationsgewinn: vorher
 +  * Zweiter Teil von Informationsgewinn: mittlere Entropie nachher
 +
 +Mittlere Entropie: Gewicht nach ''Anteil'' an der Datenbank!
 +
 +=== a) ===
 +<WRAP center round important 60%>
 +Hier wird der 2-er Logarithmus verwendet. Es kann aber jeder verwendet werden, solange es überall verwendet wird.
 +</WRAP>
 +
 +== 1 Split ==
 +T ist noch die ganze DB
 +
 +$\text{Entropie}(T) = -(p_{\text{niedrig}} \cdot log_2(p_\text{niedrig}) + p_\text{hoch} \cdot log_2(p_\text{hoch}) = -\frac{1}{2}\cdot(-1)-\frac{1}{2}\cdot(-1) = 1$
 +
 +** Zeit seit Fahrprüfung**
 +^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^
 +|  1-2  |  3  |  1/3  |  2/3  |  $-\frac{1}{3}\log\frac{1}{3}-\frac{2}{3}\log{2}{3} = 0.918$ |
 +|  2-7  |  3  |  2/3  |  1/3  |  $-\frac{2}{3}\log\frac{2}{3}-\frac{1}{3}\log{1}{3} = 0.918$ |
 +|  >7    2  |  1/2  |  1/2  |  $-\frac{1}{2}\log\frac{1}{2}-\frac{1}{2}\log{1}{2} = 1$ |
 +
 +Informationsgewinn(T_i, Zeit) = 1 - (3/8 * 0.918 + 3/8 * 0.918 + 2/8 * 1) = 0.06
 +
 +**Geschlecht**
 +^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^
 +|  m  |  5  |  2/5  |  3/5  |  $-\frac{2}{5}\log\frac{2}{5}-\frac{3}{5}\log{3}{5} = 0.971$ |
 +|  w  |  3  |  2/3  |  1/3  |  $-\frac{2}{3}\log\frac{2}{3}-\frac{1}{3}\log{1}{3} = 0.918$ |
 +
 +Informationsgewinn(T_i, Geschlecht) = 1 - (5/8 * 0.971 + 3/8 * 0.918) = 0.05
 +
 +**Wohnort**
 +^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^
 +|  Stadt |  3  |  3/3  |  0/3  |  $-1\log1-0\log0 = -1\cdot0-0=0$ |
 +|   Land |  5  |  1/5  |  4/5  |  $-\frac{1}{5}\log\frac{1}{5}-\frac{4}{5}\log{4}{5} = 0.722$ |
 +
 +Informationsgewinn(T_i, Geschlecht) = 1 - (3/8 * 0 + 5/8 * 0.722) = 0.55 => Gewinner
 +
 +== 2. Split ==
 +T={2,3,4,5,6}
 +
 +$\text{Entropie}(T) = -(p_{\text{niedrig}} \cdot log_2(p_\text{niedrig}) + p_\text{hoch} \cdot log_2(p_\text{hoch}) = -\frac{1}{5}\cdot\log\frac{1}{5}-\frac{4}{5}\cdot(\frac{4}{5}) = 0.722$
 +
 +** Zeit seit Fahrprüfung**
 +^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^
 +|  1-2  |  2  |          $0$ |
 +|  2-7  |  1  |          $0$ |
 +|  >7    2  |  1/2  |  1/2  |  $1$ |
 +
 +Informationsgewinn(T_i, Zeit) = 0.722 - (0 + 0 + 2/3 * 1) = 0.322 => Gewinner
 +
 +**Geschlecht**
 +^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^
 +|  m  |  3  |          $0$ |
 +|  w  |  2  |  1/2  |  1/2  |  $1$ |
 +
 +Informationsgewinn(T_i, Geschlecht) = 0.722 - (0 + 2/5 * 1) = 0.322
 +
 +== Beispiel Gini ==
 +^ T_i ^ Anzahl ^ P_niedrig ^ P_hoch ^ gini(T_i) ^
 +| m | 5 | 2/5 | 3/5 | $1-((2/5)^2+(3/5)^2) = 0.48$ |
 +| w | 3 | 2/3 | 1/3 | $1-((2/3)^2+(1/3)^2) = 0.44$ |
 +
 +gini geschlecht(T) = 5/8 * 0.48 + 3/8 * 0.44
 +=== b) ===
 +...
 +
  
 ===== Foo ===== ===== Foo =====
uni/8/kdd1/start.1435149315.txt.gz · Last modified: (external edit)