This is an old revision of the document!
Knowledge Discovery in Databases I
Übung 1
Aufgabe 1
- a) Klassifikation (erst des Bildes: Suchen nach Nummernschild. Dann von Buchstaben) & supervised (Man weiß, wie Nummernschilder aussehen)
- b) Klassifikation & supervised (Es sind bereits klassifizierte Daten gegeben)
- c) Outlier Detection & unsupervised
- d) Clustering, evtl. Regression, Assoziation & unsupervised
- e) Assoziation & unsupervised
- f) Clustering, Assoziation & unsupervised
- g) Kein Datamining
- h) Kein Datamining
- i) i) Regression & supervised
- i) ii) Klassifikation & supervised
- i) iii) Regression, unsupervised
Übung 8
Aufgabe 1
Start | 2d. | 4d. | ||
---|---|---|---|---|
A | 1 | 6 | ||
B | 1 | 5 | 4/(6+5+4+5) | |
C | 1 | 5 | ||
D | 1 | 4 | 2/(1+1) | 4/(6+5+5+5) |
E | 4 | 5 | 2/(4+4) | 5/(5+5+4+4+5) |
F | 2 | 3 | ||
G | 1 | 2 | ||
H | 1 | 2 | ||
I | 2 | 3 | ||
J | 2 | 2 | ||
K | 3 | 4 | ||
L | 4 | 5 | ||
M | 2 | 2 | ||
N | 1 | 2 | ||
O | 1 | 1 | ||
P | 1 | 2 | ||
Q | 1 | 2 | ||
R | 1 | 1 | ||
S | 1 | 2 | ||
T | 2 | 2 |
v) Aggregierte 4. Distanz für T: 2+2+1+2=7 (die nachsten Nachbarn sind O, Q, R, S)
i) k=2. E $$LOF_2(E) = \frac{1}{2NN(E)} \cdot \sum_{o \in 2NN(E)} \frac{lrd_2(o)}{lrd_2(E)} = \frac{1}{2} \cdot \left( \frac{lrd_2(D)+lrd_2(F)}{lrd_2(E)}\right) = \frac{\frac{2}{2} + \frac{2}{3}}{2 \cdot \frac{2}{8}} = 3.333$$
$$lrd_2(E) = \frac{\left| 2NN(E) \right| }{\sum_{o \in 2NN(E)} \text{reach-dist}_2(E,o)} = \frac{2}{rdist_2(E,D) + rdist_2(E, F)} = \frac{2}{4+4} = \frac{2}{8}$$
$$rdist_2(E, D) = max\{2\cdot distt(e), dist(E,D)\} = rdist_2(E, F) = max\{1,4\}= 4$$
$$lrd_2(D) = \frac{2}{rdist_2(D,B) + rdist_2(D, C)} = \frac{2}{1+1} = \frac{2}{2}$$
i) k=4. E $$ LOF_4(E) = \frac{1}{\left| 4NN(E) \right|}\sum_{o \in 4NN(E)} \frac{lrd_4(o)}{lrd_4(E)} = \frac{\frac{1}{5} \left(\frac{4}{20}+\frac{4}{20}+\frac{4}{21}+\frac{4}{10}+\frac{4}{10}}}{\frac{5}{23} = 1,279$$
Foo
- Datenbank
- Fokusieren
- Beschaffen
- Selektieren
- Kleinere Datenmenge
- Vorverarbeitung
- Mergen
- Vervollständigen
- (Hier: Eine) Relation
- Transformation (Statistisches Zeug)
- Diskret ↔ Stetig
- Ableiten
- transformieren
- Transformierte Relationen
- Data Mining
- Generierung von Modellen
- Generierung von Mustern
- Muster
- Qualitätsprüfung
- Vorhersagekraft
- Wissen
Arten
- Supervised
- Outline Detection
- Klassifikation
- Regression
- Unsupervised
- Outlier Detection
- Clustering
- Assoziationsregeln