uni:8:kdd1:start
Differences
This shows you the differences between two versions of the page.
Both sides previous revisionPrevious revisionNext revision | Previous revision | ||
uni:8:kdd1:start [2015-06-24 15:28] – [Aufgabe 2] skrupellos | uni:8:kdd1:start [2020-11-18 18:11] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 168: | Line 168: | ||
- Clustering | - Clustering | ||
- Klassifikation | - Klassifikation | ||
+ | |||
+ | ===== Übung 11 ===== | ||
+ | ==== Aufgabe 1 ==== | ||
+ | Wird immer als Kreis Klassifiziert | ||
+ | |||
+ | ==== Aufgabe 2 ==== | ||
+ | XOR-Problem | ||
+ | |||
+ | ==== Aufgabe 3 ==== | ||
+ | $Entropie(T) = - \sum^k_{i=1}p_i \cdot log(p_i)$ | ||
+ | |||
+ | $Informationsgewinn(T, | ||
+ | |||
+ | * Erster Teil von Informationsgewinn: | ||
+ | * Zweiter Teil von Informationsgewinn: | ||
+ | |||
+ | Mittlere Entropie: Gewicht nach '' | ||
+ | |||
+ | === a) === | ||
+ | <WRAP center round important 60%> | ||
+ | Hier wird der 2-er Logarithmus verwendet. Es kann aber jeder verwendet werden, solange es überall verwendet wird. | ||
+ | </ | ||
+ | |||
+ | == 1 Split == | ||
+ | T ist noch die ganze DB | ||
+ | |||
+ | $\text{Entropie}(T) = -(p_{\text{niedrig}} \cdot log_2(p_\text{niedrig}) + p_\text{hoch} \cdot log_2(p_\text{hoch}) = -\frac{1}{2}\cdot(-1)-\frac{1}{2}\cdot(-1) = 1$ | ||
+ | |||
+ | ** Zeit seit Fahrprüfung** | ||
+ | ^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^ | ||
+ | | 1-2 | 3 | 1/3 | 2/3 | $-\frac{1}{3}\log\frac{1}{3}-\frac{2}{3}\log{2}{3} = 0.918$ | | ||
+ | | 2-7 | 3 | 2/3 | 1/3 | $-\frac{2}{3}\log\frac{2}{3}-\frac{1}{3}\log{1}{3} = 0.918$ | | ||
+ | | >7 | ||
+ | |||
+ | Informationsgewinn(T_i, | ||
+ | |||
+ | **Geschlecht** | ||
+ | ^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^ | ||
+ | | m | 5 | 2/5 | 3/5 | $-\frac{2}{5}\log\frac{2}{5}-\frac{3}{5}\log{3}{5} = 0.971$ | | ||
+ | | w | 3 | 2/3 | 1/3 | $-\frac{2}{3}\log\frac{2}{3}-\frac{1}{3}\log{1}{3} = 0.918$ | | ||
+ | |||
+ | Informationsgewinn(T_i, | ||
+ | |||
+ | **Wohnort** | ||
+ | ^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^ | ||
+ | | Stadt | 3 | 3/3 | 0/3 | $-1\log1-0\log0 = -1\cdot0-0=0$ | | ||
+ | | Land | 5 | 1/5 | 4/5 | $-\frac{1}{5}\log\frac{1}{5}-\frac{4}{5}\log{4}{5} = 0.722$ | | ||
+ | |||
+ | Informationsgewinn(T_i, | ||
+ | |||
+ | == 2. Split == | ||
+ | T={2, | ||
+ | |||
+ | $\text{Entropie}(T) = -(p_{\text{niedrig}} \cdot log_2(p_\text{niedrig}) + p_\text{hoch} \cdot log_2(p_\text{hoch}) = -\frac{1}{5}\cdot\log\frac{1}{5}-\frac{4}{5}\cdot(\frac{4}{5}) = 0.722$ | ||
+ | |||
+ | ** Zeit seit Fahrprüfung** | ||
+ | ^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^ | ||
+ | | 1-2 | 2 | | ||
+ | | 2-7 | 1 | | ||
+ | | >7 | ||
+ | |||
+ | Informationsgewinn(T_i, | ||
+ | |||
+ | **Geschlecht** | ||
+ | ^ $T_i$ ^ Anzahl ^ $P_\text{niedrig}$ ^ $P_\text{hoch}$ ^ Entropie(T) ^ | ||
+ | | m | 3 | | ||
+ | | w | 2 | 1/2 | 1/2 | $1$ | | ||
+ | |||
+ | Informationsgewinn(T_i, | ||
+ | |||
+ | == Beispiel Gini == | ||
+ | ^ T_i ^ Anzahl ^ P_niedrig ^ P_hoch ^ gini(T_i) ^ | ||
+ | | m | 5 | 2/5 | 3/5 | $1-((2/ | ||
+ | | w | 3 | 2/3 | 1/3 | $1-((2/ | ||
+ | |||
+ | gini geschlecht(T) = 5/8 * 0.48 + 3/8 * 0.44 | ||
+ | === b) === | ||
+ | ... | ||
+ | |||
+ | |||
===== Foo ===== | ===== Foo ===== | ||
* **Datenbank** | * **Datenbank** |
uni/8/kdd1/start.1435152501.txt.gz · Last modified: (external edit)