Processing math: 100%

Wiki

A universe of ideas

User Tools

Site Tools


uni:8:kdd1:start

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
uni:8:kdd1:start [2015-06-24 15:10] – [Aufgabe 1] skrupellosuni:8:kdd1:start [2020-11-18 18:11] (current) – external edit 127.0.0.1
Line 148: Line 148:
   * P(S>=50¬Ski)=14   * P(S>=50¬Ski)=14
  
-=== Aufgabe 4 ===+ 
 +=== a) === 
 +  * W=Sonne,Schnee>50 
 +  * P(SkiW=SonneS>=50)=P(W=Sonne,S>=50Ski)P(Ski)P(W=Sonne,S>=50)=P(SonneSki)P(>=50Ski)P(Ski)P(Sonne,>=50)=\nicefrac14\nicefrac34\nicefrac12P(Sonne,>=50=\nicefrac332P() 
 +  * P(¬SkiSonne,>=50)=\nicefrac14\nicefrac14\nicefrac12P(Sonne,>=50=\nicefrac132P() 
 +  * => P(Ski|)=34 
 + 
 +^  ^ a priori ^ Wetter ^^^ Schnee ^^ 
 +^ ::: ^ ::: ^ Sonne ^ Schnee ^ Regen ^ >= 50 ^ < 50 ^ 
 +| Ski | 1/2 | 1/4 | 2/4 | 2/4 | 1/4 | 3/4 | 1/4 | 
 +| \neg Ski | 1/2 | 1/4 | 1/4 | 2/4 | 1/4 | 3/4 | 
 + 
 +==== Aufgabe 4 ====
   - Klassifikation (Die Klassen (Spam/Ham) stehen schon vorher fest)   - Klassifikation (Die Klassen (Spam/Ham) stehen schon vorher fest)
   - Clustering   - Clustering
Line 156: Line 168:
   - Clustering   - Clustering
   - Klassifikation   - Klassifikation
 +
 +===== Übung 11 =====
 +==== Aufgabe 1 ====
 +Wird immer als Kreis Klassifiziert
 +
 +==== Aufgabe 2 ====
 +XOR-Problem
 +
 +==== Aufgabe 3 ====
 +Entropie(T)=ki=1pilog(pi)
 +
 +Informationsgewinn(T,A)=Entropiemi=1|Ti||T|Entropie(Ti)
 +
 +  * Erster Teil von Informationsgewinn: vorher
 +  * Zweiter Teil von Informationsgewinn: mittlere Entropie nachher
 +
 +Mittlere Entropie: Gewicht nach ''Anteil'' an der Datenbank!
 +
 +=== a) ===
 +<WRAP center round important 60%>
 +Hier wird der 2-er Logarithmus verwendet. Es kann aber jeder verwendet werden, solange es überall verwendet wird.
 +</WRAP>
 +
 +== 1 Split ==
 +T ist noch die ganze DB
 +
 +Entropie(T)=(pniedriglog2(pniedrig)+phochlog2(phoch)=12(1)12(1)=1
 +
 +** Zeit seit Fahrprüfung**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  1-2  |  3  |  1/3  |  2/3  |  13log1323log23=0.918 |
 +|  2-7  |  3  |  2/3  |  1/3  |  23log2313log13=0.918 |
 +|  >7    2  |  1/2  |  1/2  |  12log1212log12=1 |
 +
 +Informationsgewinn(T_i, Zeit) = 1 - (3/8 * 0.918 + 3/8 * 0.918 + 2/8 * 1) = 0.06
 +
 +**Geschlecht**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  m  |  5  |  2/5  |  3/5  |  25log2535log35=0.971 |
 +|  w  |  3  |  2/3  |  1/3  |  23log2313log13=0.918 |
 +
 +Informationsgewinn(T_i, Geschlecht) = 1 - (5/8 * 0.971 + 3/8 * 0.918) = 0.05
 +
 +**Wohnort**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  Stadt |  3  |  3/3  |  0/3  |  1log10log0=100=0 |
 +|   Land |  5  |  1/5  |  4/5  |  15log1545log45=0.722 |
 +
 +Informationsgewinn(T_i, Geschlecht) = 1 - (3/8 * 0 + 5/8 * 0.722) = 0.55 => Gewinner
 +
 +== 2. Split ==
 +T={2,3,4,5,6}
 +
 +Entropie(T)=(pniedriglog2(pniedrig)+phochlog2(phoch)=15log1545(45)=0.722
 +
 +** Zeit seit Fahrprüfung**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  1-2  |  2  |          0 |
 +|  2-7  |  1  |          0 |
 +|  >7    2  |  1/2  |  1/2  |  1 |
 +
 +Informationsgewinn(T_i, Zeit) = 0.722 - (0 + 0 + 2/3 * 1) = 0.322 => Gewinner
 +
 +**Geschlecht**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  m  |  3  |          0 |
 +|  w  |  2  |  1/2  |  1/2  |  1 |
 +
 +Informationsgewinn(T_i, Geschlecht) = 0.722 - (0 + 2/5 * 1) = 0.322
 +
 +== Beispiel Gini ==
 +^ T_i ^ Anzahl ^ P_niedrig ^ P_hoch ^ gini(T_i) ^
 +| m | 5 | 2/5 | 3/5 | 1((2/5)2+(3/5)2)=0.48 |
 +| w | 3 | 2/3 | 1/3 | 1((2/3)2+(1/3)2)=0.44 |
 +
 +gini geschlecht(T) = 5/8 * 0.48 + 3/8 * 0.44
 +=== b) ===
 +...
 +
 +
 ===== Foo ===== ===== Foo =====
   * **Datenbank**   * **Datenbank**
uni/8/kdd1/start.1435151427.txt.gz · Last modified: 2020-11-18 18:10 (external edit)