Loading [MathJax]/jax/output/CommonHTML/jax.js

Wiki

A universe of ideas

User Tools

Site Tools


uni:8:kdd1:start

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
uni:8:kdd1:start [2015-04-14 10:48] – [Arten] skrupellosuni:8:kdd1:start [2020-11-18 18:11] (current) – external edit 127.0.0.1
Line 1: Line 1:
 ====== Knowledge Discovery in Databases I ====== ====== Knowledge Discovery in Databases I ======
 +===== Übung 1 =====
 +==== Aufgabe 1 ====
 +  * a) Klassifikation (erst des Bildes: Suchen nach Nummernschild. Dann von Buchstaben) & supervised (Man weiß, wie Nummernschilder aussehen)
 +  * b) Klassifikation & supervised (Es sind bereits klassifizierte Daten gegeben)
 +  * c) Outlier Detection & unsupervised
 +  * d) Clustering, evtl. Regression, Assoziation & unsupervised
 +  * e) Assoziation & unsupervised
 +  * f) Clustering, Assoziation & unsupervised
 +  * g) Kein Datamining
 +  * h) Kein Datamining
 +  * i) i) Regression & supervised
 +  * i) ii) Klassifikation & supervised
 +  * i) iii) Regression, unsupervised
 +
 +===== Übung 8 =====
 +==== Aufgabe 1 ====
 +^ Start ^ 2d. ^ 4d. ^
 +| A | 1 | 6 |
 +| B | 1 | 5 | | 4/(6+5+4+5) |
 +| C | 1 | 5 |
 +| D | 1 | 4 | 2/(1+1) | 4/(6+5+5+5) |
 +| E | 4 | 5 | 2/(4+4) | 5/(5+5+4+4+5) |
 +| F | 2 | 3 |
 +| G | 1 | 2 |
 +| H | 1 | 2 |
 +| I | 2 | 3 |
 +| J | 2 | 2 |
 +| K | 3 | 4 |
 +| L | 4 | 5 |
 +| M | 2 | 2 |
 +| N | 1 | 2 |
 +| O | 1 | 1 |
 +| P | 1 | 2 |
 +| Q | 1 | 2 |
 +| R | 1 | 1 |
 +| S | 1 | 2 |
 +| T | 2 | 2 |
 +
 +v)
 +Aggregierte 4. Distanz für T: 2+2+1+2=7 (die nachsten Nachbarn sind O, Q, R, S)
 +
 +i) k=2. E
 +LOF2(E)=12NN(E)o2NN(E)lrd2(o)lrd2(E)=12(lrd2(D)+lrd2(F)lrd2(E))=22+23228=3.333
 +
 +lrd2(E)=|2NN(E)|o2NN(E)reach-dist2(E,o)=2rdist2(E,D)+rdist2(E,F)=24+4=28
 +
 +rdist2(E,D)=max{2distt(e),dist(E,D)}=rdist2(E,F)=max{1,4}=4
 +
 +lrd2(D)=2rdist2(D,B)+rdist2(D,C)=21+1=22
 +
 +i) k=4. E
 +LOF_4(E) = \frac{1}{\left| 4NN(E) \right|}\sum_{o \in 4NN(E)} \frac{lrd_4(o)}{lrd_4(E)} = \frac{\frac{1}{5} \left(\frac{4}{20}+\frac{4}{20}+\frac{4}{21}+\frac{4}{10}+\frac{4}{10}}}{\frac{5}{23} = 1,279
 +
 +
 +===== Übung 10 =====
 +==== Aufgabe 1 ====
 +  * Ki: Klassifikator
 +  * Ci: Anzahl richtig
 +
 +^ Ki \\ Ci ^ A ^ B ^ C ^ ^
 +^ A | 4 | 0 | 1 ^ 5 ^
 +^ B | 2 | 2 | 1 ^ 5 ^
 +^ C | 1 | 1 | 3 ^ 5 ^
 +^   ^ 7 ^ 3 ^ 5 ^   ^
 +
 +
 +  * Precission: |TP||TP|+|FP|
 +  * Recall: ??
 +
 +^ ^ |TP| ^ |FP| ^ |FN| ^
 +| A | 4 | 3 | 1 |
 +| B | 2 | 1 | 3 |
 +| C | 3 |  |  |
 +
 +  * |TP|: Diagonale
 +  * Zeile?
 +  * Spalte?
 +
 +^ x ^ Precision(K, x) ^ Recall(K, x) ^ F_1(K, x) ^
 +| A | 47 | 45 | 23 |
 +| B | 23 | 25 | 12 |
 +| C | 35 | 35 | 35 |
 +
 +  * Mittlere Precision: 13(47+23+35)=0.6
 +==== Aufgabe 2 ====
 +=== Leave-one-out ===
 +Jeweils eins raus nehmen und es durch die dann vorherschende Mehrheit ersetzen
 +
 +  * <del>A</del> A A B B B => Das A wird ein B, da B nun die Mehrheit
 +  * A <del>A</del> A B B B => Das A wird ein B, da B nun die Mehrheit
 +  * A A <del>A</del> B B B => Das A wird ein B, da B nun die Mehrheit
 +  * A A A <del>B</del> B B => Das B wird ein A, da A nun die Mehrheit
 +  * A A A B <del>B</del> B => Das B wird ein A, da A nun die Mehrheit
 +  * A A A B B <del>B</del> => Das B wird ein A, da A nun die Mehrheit
 +
 +=> Fehlerrate 100%
 +
 +=== optimaler Klassifikator ===
 +????
 +
 +A A A B B B + ?
 +
 +Fehlerrate 50%
 +
 +=== Bootstrap ===
 +Zufälliges ziehen mit zurücklegen
 +
 +1,2,,n
 +
 +P(x)=1n\RightleftarrowP(¬x)=11n
 +
 +Pn(¬x)=(11n)n=e1=0.368
 +
 +Fehlerrate = 0.632 * Fehlerrate_Test + 0.368 * Fehlerrate_Training
 +
 +=== 10 Fach Kreuzvalidierung ===
 +
 +<WRAP center round box 60%>
 +**Beispiel 3 fach Kreuzvalidierung**
 +
 +Datensatz 3x unterschiedlich aufteilen:
 +
 +| Training | Training | Test |
 +
 +| Training | Test | Training |
 +
 +| Test | Training | Training |
 +</WRAP>
 +
 +=== Aufgabe 3 ===
 +A priori- und bedingte Wahrscheinlichktein:
 +  * P(Ski)=12
 +  * P(¬Ski)=12
 +
 +Klasse Wetter = W
 +  * P(W=SonneSki)=14
 +  * P(W=SchneeSki)=24
 +  * P(W=RegenSki)=14
 +  * P(W=Sonne¬Ski)=14
 +  * P(W=Schnee¬Ski)=14
 +  * P(W=Regen¬Ski)=24
 +
 +Klasse Schnee = S
 +  * P(S<50Ski)=14
 +  * P(S>=50Ski)=34
 +  * P(S<50¬Ski)=34
 +  * P(S>=50¬Ski)=14
 +
 +
 +=== a) ===
 +  * W=Sonne,Schnee>50
 +  * P(SkiW=SonneS>=50)=P(W=Sonne,S>=50Ski)P(Ski)P(W=Sonne,S>=50)=P(SonneSki)P(>=50Ski)P(Ski)P(Sonne,>=50)=\nicefrac14\nicefrac34\nicefrac12P(Sonne,>=50=\nicefrac332P()
 +  * P(¬SkiSonne,>=50)=\nicefrac14\nicefrac14\nicefrac12P(Sonne,>=50=\nicefrac132P()
 +  * => P(Ski|)=34
 +
 +^  ^ a priori ^ Wetter ^^^ Schnee ^^
 +^ ::: ^ ::: ^ Sonne ^ Schnee ^ Regen ^ >= 50 ^ < 50 ^
 +| Ski | 1/2 | 1/4 | 2/4 | 2/4 | 1/4 | 3/4 | 1/4 |
 +| \neg Ski | 1/2 | 1/4 | 1/4 | 2/4 | 1/4 | 3/4 |
 +
 +==== Aufgabe 4 ====
 +  - Klassifikation (Die Klassen (Spam/Ham) stehen schon vorher fest)
 +  - Clustering
 +  - Clustering (Assoziationsregel / Wahrenkorbanalyse)
 +  - Clustering
 +  - Klassifikation
 +  - Clustering
 +  - Klassifikation
 +
 +===== Übung 11 =====
 +==== Aufgabe 1 ====
 +Wird immer als Kreis Klassifiziert
 +
 +==== Aufgabe 2 ====
 +XOR-Problem
 +
 +==== Aufgabe 3 ====
 +Entropie(T)=ki=1pilog(pi)
 +
 +Informationsgewinn(T,A)=Entropiemi=1|Ti||T|Entropie(Ti)
 +
 +  * Erster Teil von Informationsgewinn: vorher
 +  * Zweiter Teil von Informationsgewinn: mittlere Entropie nachher
 +
 +Mittlere Entropie: Gewicht nach ''Anteil'' an der Datenbank!
 +
 +=== a) ===
 +<WRAP center round important 60%>
 +Hier wird der 2-er Logarithmus verwendet. Es kann aber jeder verwendet werden, solange es überall verwendet wird.
 +</WRAP>
 +
 +== 1 Split ==
 +T ist noch die ganze DB
 +
 +Entropie(T)=(pniedriglog2(pniedrig)+phochlog2(phoch)=12(1)12(1)=1
 +
 +** Zeit seit Fahrprüfung**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  1-2  |  3  |  1/3  |  2/3  |  13log1323log23=0.918 |
 +|  2-7  |  3  |  2/3  |  1/3  |  23log2313log13=0.918 |
 +|  >7    2  |  1/2  |  1/2  |  12log1212log12=1 |
 +
 +Informationsgewinn(T_i, Zeit) = 1 - (3/8 * 0.918 + 3/8 * 0.918 + 2/8 * 1) = 0.06
 +
 +**Geschlecht**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  m  |  5  |  2/5  |  3/5  |  25log2535log35=0.971 |
 +|  w  |  3  |  2/3  |  1/3  |  23log2313log13=0.918 |
 +
 +Informationsgewinn(T_i, Geschlecht) = 1 - (5/8 * 0.971 + 3/8 * 0.918) = 0.05
 +
 +**Wohnort**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  Stadt |  3  |  3/3  |  0/3  |  1log10log0=100=0 |
 +|   Land |  5  |  1/5  |  4/5  |  15log1545log45=0.722 |
 +
 +Informationsgewinn(T_i, Geschlecht) = 1 - (3/8 * 0 + 5/8 * 0.722) = 0.55 => Gewinner
 +
 +== 2. Split ==
 +T={2,3,4,5,6}
 +
 +Entropie(T)=(pniedriglog2(pniedrig)+phochlog2(phoch)=15log1545(45)=0.722
 +
 +** Zeit seit Fahrprüfung**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  1-2  |  2  |          0 |
 +|  2-7  |  1  |          0 |
 +|  >7    2  |  1/2  |  1/2  |  1 |
 +
 +Informationsgewinn(T_i, Zeit) = 0.722 - (0 + 0 + 2/3 * 1) = 0.322 => Gewinner
 +
 +**Geschlecht**
 +^ Ti ^ Anzahl ^ Pniedrig ^ Phoch ^ Entropie(T) ^
 +|  m  |  3  |          0 |
 +|  w  |  2  |  1/2  |  1/2  |  1 |
 +
 +Informationsgewinn(T_i, Geschlecht) = 0.722 - (0 + 2/5 * 1) = 0.322
 +
 +== Beispiel Gini ==
 +^ T_i ^ Anzahl ^ P_niedrig ^ P_hoch ^ gini(T_i) ^
 +| m | 5 | 2/5 | 3/5 | 1((2/5)2+(3/5)2)=0.48 |
 +| w | 3 | 2/3 | 1/3 | 1((2/3)2+(1/3)2)=0.44 |
 +
 +gini geschlecht(T) = 5/8 * 0.48 + 3/8 * 0.44
 +=== b) ===
 +...
 +
 +
 ===== Foo ===== ===== Foo =====
   * **Datenbank**   * **Datenbank**
Line 24: Line 272:
   * **Wissen**   * **Wissen**
  
 +
 +[[Preprocessing]]
 ===== Arten ===== ===== Arten =====
   * Supervised   * Supervised
uni/8/kdd1/start.1429001301.txt.gz · Last modified: 2020-11-18 18:10 (external edit)