Tεχνικές Εξόρυξης Δεδομένων - Χειμερινό εξάμηνο 2011 - 12

Department of Informatics and Telecommunications
University of Athens


Tel: +30-210-727.5227, Fax: +30-210-727.5214
E-mail επικοινωνίας : ys11 at di.uoa.gr

ANAKOINWSH H ejetasi stis 11 Septembriou tha ginei kanonika.

ΑΝΑΚΟΙΝΩΣΗ Οι τελικοί βαθμοί βρίσκονται εδώ. Όποιος φοιτητής έχει απορία ή ένσταση για το βαθμό του, να επικοινωνήσει με τον διδάσκοντα.

ΑΝΑΚΟΙΝΩΣΗ Οι βαθμοί της δεύτερης άσκησης βρίσκονται εδώ. Όποιος φοιτητής έχει απορία ή ένσταση για το βαθμό του, να επικοινωνήσει με τον διδάσκοντα ή με τον επιβλέποντα της άσκησης.

ΑΝΑΚΟΙΝΩΣΗ Τη Δευτέρα 19/3/2012 στις 17:00 θα γίνει η εξέταση της δεύτερης άσκησης στην αίθουσα ΣΤ. Όποιος φοιτητής δεν μπορεί να έρθει να στείλει mail μέχρι το Σαββατοκύριακο.

ΑΝΑΚΟΙΝΩΣΗ Οι βαθμοί της πρώτης άσκησης βρίσκονται εδώ. Όποιος φοιτητής έχει απορία ή ένσταση για το βαθμό του, να επικοινωνήσει με τον διδάσκοντα ή με τον επιβλέποντα της άσκησης.

ΑΝΑΚΟΙΝΩΣΗ Η ύλη περιλαμβάνει τα Κεφάλαια 1, 2, 4, 5 έως και 5.3, 6 έως και 6.4, 8, 9 έως και 9.3, 9.5, 9.6 από το βιβλίο, και τις διαφάνειες για Clustering, Associated rules, Χρονοσειρές και Μεθόδους Μείωσης Διαστάσεων.

ΑΝΑΚΟΙΝΩΣΗ Η προθεσμία παράδοσης της 2ης άσκησης παρατείνεται μέχρι την Τετάρτη 7/3/2012.

ΑΝΑΚΟΙΝΩΣΗ Tο 1ο dataset-bundle για τη δεύτερη άσκηση βρίσκεται εδώ. Μέχρι το Σάββατο 28/1/2012 θα σας έχει δοθεί και το 2ο dataset-bundle.

Στο iris dataset που περιλαμβάνεται σε αυτό το πακέτο, τα 4 πρώτα γνωρίσματα κάθε εγγραφής είναι τα γνωρίσματα πάνω στα οποία θα γίνει η συσταδοποίηση. Αντίστοιχα στο balance-scale dataset, η συσταδοποίηση θα γίνει πάνω στα 4 τελευταία γνωρίσματα κάθε εγγραφής. Μην ασχοληθείτε με τις κλάσεις που αναφέρονται, αυτές προορίζονται για classification tasks, όχι για clustering.

Τα δύο datasets είναι τετραδιάστατα. Αυτό σημαίνει ότι ο αλγόριθμος συσταδοποίησης που θα υλοποιήσετε θα πρέπει να τρέχει τουλάχιστον στις 4 διαστάσεις. Όταν ο αλγόριθμος εκτελείται με σκοπό τα αποτελέσματά του να χρησιμοποιηθούν για οπτικοποίηση, θα λαμβάνετε υπόψιν σας μόνο τις 2 (ή τις 3 αν θέλετε) πρώτες διαστάσεις.

Τέλος, τα σημεία που εμπλέκονται σε must-link και cannot-link περιορισμούς, θα επιλέγονται τυχαία από το πρόγραμμά σας και θα εμφανίζεται ποια σημεία επιλέχτηκαν κάθε φορά (ώστε να μπορείτε και εσείς να καταλάβετε αν ο αλγόριθμος εκτελέστηκε σωστά ως προς τους περιορισμούς). Σε περιορισμούς να εμπλέκεται το 10-15% του συνολικού αριθμού των σημείων.

ΑΝΑΚΟΙΝΩΣΗ Την Παρασκευή 3/2/2012 στην ώρα του μαθήματος θα γίνει η εξέταση της πρώτης άσκησης και επίλυση αποριών για τη δεύτερη άσκηση. Η παρουσία όλων των ομάδων που παρέδωσαν πρώτη άσκηση είναι απαραίτητη.

ΑΝΑΚΟΙΝΩΣΗ Η εκφώνηση της δεύτερης άσκησης βρίσκεται εδώ.

ΑΝΑΚΟΙΝΩΣΗ Το μάθημα της Δευτέρας, 19/12/2011, δεν θα πραγματοποιηθεί λόγω ασθένειας του διδάσκοντα. Εφόσον υπάρξει ικανοποιητική προσέλευση, θα γίνει συμπληρωματική παρουσίαση της πρώτης άσκησης και του λογισμικού Weka

ΑΝΑΚΟΙΝΩΣΗ Την Παρασκευή 16/12/2011 στην ώρα του μαθήματος θα γίνει παρουσίαση της πρώτης άσκησης και επίδειξη του λογισμικού Weka

ΑΝΑΚΟΙΝΩΣΗ Η εκφώνηση της πρώτης άσκησης βρίσκεται εδώ. Dataset, 1ο λεξικό θετικών-αρνητικών λέξεων, 2ο λεξικό θετικών-αρνητικών λέξεων


Τεχνικές Εξόρυξης Δεδομένων

Αναλυτικό περιεχόμενο
  1. Εισαγωγή στις Τεχνικές Εξόρυξης Δεδομένων
    1. Δεδομένα
    2. Προβλήματα
    3. Εφαρμογές
    4. Γενικές Τεχνικές Ανάλυσης και Επεξεργασίας Δεδομένων
  2. Αλγόριθμοι Κατηγοριοποίησης Δεδομένων
    1. Δένδρα Αποφάσεων
    2. Στατιστικές Τεχνικές
    3. Κοντινότερος Γείτονας (Κ-ΝΝ)
    4. Naive Bayes
  3. Αλγόριθμοι Κατηγοριοποίησης Δεδομένων για Πολυδιάστατα Δεδομένα και για Χρονοσειρές
    1. Τεχνικές Μείωσης των Διαστάσεων του Προβλήματος
      1. SVD
      2. Fourier
      3. Wavelets
      4. ISOMAP
    2. Μετρικές για Χρονοσειρές
  4. Τεχνικές για Ομαδοποίηση Δεδομένων
    1. Ιεραρχικοί αλγόριθμοι
    2. K-means
    3. Αλγόριθμοι με βάση την Πυκνότητα
    4. Τεχνικές Αξιολόγησης των Αποτελεσμάτων της Ομαδοποίησης
  5. Τεχνικές για Ανεύρεση Συσχετισμών σε Πολυδιάστατα Δεδομένα και σε Σχεσιακά Δεδομένα
  6. Εφαρμογές των Τεχνικών Εξόρυξης Δεδομένων σε:
    1. Προβλήματα Αναζήτησης στο Διαδίκτυο
    2. Προβλήματα σε Βιοιατρική

Βιβλίο
Μ. Βαζιργιάννης, Μ. Χαλκίδη.
Εξόρυξη Γνώσης από Βάσεις Δεδομένων
Τυπωθήτω

Slides Μαθήματος

Χρήσιμες ιστοσελίδες
http://www.cs.sfu.ca/~han/dmbook
http://www.cs.waikato.ac.nz./ml/weka/