This is an old revision of the document!

Knowledge Discovery in Databases I

Übung 1

Aufgabe 1

a) Klassifikation (erst des Bildes: Suchen nach Nummernschild. Dann von Buchstaben) & supervised (Man weiß, wie Nummernschilder aussehen)
b) Klassifikation & supervised (Es sind bereits klassifizierte Daten gegeben)
c) Outlier Detection & unsupervised
d) Clustering, evtl. Regression, Assoziation & unsupervised
e) Assoziation & unsupervised
f) Clustering, Assoziation & unsupervised
g) Kein Datamining
h) Kein Datamining
i) i) Regression & supervised
i) ii) Klassifikation & supervised
i) iii) Regression, unsupervised

Übung 8

Aufgabe 1

Start	2d.	4d.
A	1	6
B	1	5		4/(6+5+4+5)
C	1	5
D	1	4	2/(1+1)	4/(6+5+5+5)
E	4	5	2/(4+4)	5/(5+5+4+4+5)
F	2	3
G	1	2
H	1	2
I	2	3
J	2	2
K	3	4
L	4	5
M	2	2
N	1	2
O	1	1
P	1	2
Q	1	2
R	1	1
S	1	2
T	2	2

v) Aggregierte 4. Distanz für T: 2+2+1+2=7 (die nachsten Nachbarn sind O, Q, R, S)

i) k=2. E $$LOF_2(E) = \frac{1}{2NN(E)} \cdot \sum_{o \in 2NN(E)} \frac{lrd_2(o)}{lrd_2(E)} = \frac{1}{2} \cdot \left( \frac{lrd_2(D)+lrd_2(F)}{lrd_2(E)}\right) = \frac{\frac{2}{2} + \frac{2}{3}}{2 \cdot \frac{2}{8}} = 3.333$$

$$lrd_2(E) = \frac{\left| 2NN(E) \right| }{\sum_{o \in 2NN(E)} \text{reach-dist}_2(E,o)} = \frac{2}{rdist_2(E,D) + rdist_2(E, F)} = \frac{2}{4+4} = \frac{2}{8}$$

$$rdist_2(E, D) = max\{2\cdot distt(e), dist(E,D)\} = rdist_2(E, F) = max\{1,4\}= 4$$

$$lrd_2(D) = \frac{2}{rdist_2(D,B) + rdist_2(D, C)} = \frac{2}{1+1} = \frac{2}{2}$$

i) k=4. E $$ LOF_4(E) = \frac{1}{\left| 4NN(E) \right|}\sum_{o \in 4NN(E)} \frac{lrd_4(o)}{lrd_4(E)} = \frac{\frac{1}{5} \left(\frac{4}{20}+\frac{4}{20}+\frac{4}{21}+\frac{4}{10}+\frac{4}{10}}}{\frac{5}{23} = 1,279$$

Übung 10

Aufgabe 1

$K_i$: Klassifikator
$C_i$: Anzahl richtig

$K_i \rightarrow$ $C_i$	A	B	C
A	4	0	1	5
B	2	2	1	5
C	1	1	3	5
	7	3	5

	$\|TP\|$	$\|FP\|$	$\|FN\|$
A	4	3	1
B	2	1	3
C	3

$|TP|$: Diagonale
Zeile?
Spalte?

x	Precision(K, x)	Recall(K, x)	F_1(K, x)
A	$\frac{4}{7}$	$\frac{4}{5}$	$\frac{2}{3}$
B	$\frac{2}{3}$	$\frac{2}{5}$	$\frac{1}{2}$
C	$\frac{3}{5}$	$\frac{3}{5}$	$\frac{3}{5}$

Mittlere Precision: $\frac{1}{3}\left(\frac{4}{7} + \frac{2}{3} + \frac{3}{5}\right) = 0.6$

Foo

Datenbank
Fokusieren
- Beschaffen
- Selektieren
Kleinere Datenmenge
Vorverarbeitung
- Mergen
- Vervollständigen
(Hier: Eine) Relation
Transformation (Statistisches Zeug)
- Diskret ↔ Stetig
- Ableiten
- transformieren
Transformierte Relationen
Data Mining
- Generierung von Modellen
- Generierung von Mustern
Muster
Evaluation
- Qualitätsprüfung
- Vorhersagekraft
Wissen

Preprocessing

Arten

Supervised
- Outline Detection
- Klassifikation
- Regression
Unsupervised
- Outlier Detection
- Clustering
- Assoziationsregeln

Wiki

Table of Contents

Knowledge Discovery in Databases I

Übung 1

Aufgabe 1

Übung 8

Aufgabe 1

Übung 10

Aufgabe 1

Foo

Arten