Διήθηση/Φιλτράρισμα Πληροφορίας (Information Filtering)

Η Διήθηση Πληροφορίας (Information Filtering) ή ΔΠ [23] είναι ένα όνομα, το οποίο χρησιμοποιείται για να περιγράψει μία ποικιλία διεργασιών σχετικά με την παράδοση πληροφοριών σε ανθρώπους που τη χρειάζονται. Τα συστήματα ΔΠ είναι σχεδιασμένα ώστε να εργάζονται με αδόμητα ή ημι-αδόμητα δεδομένα. Για να καταλάβουμε αυτούς τους δύο όρους θα τους αντιπαραθέσουμε με τα πλήρως δομημένα δεδομένα μίας βάσης δεδομένων, όπου αυτά είναι οργανωμένα ανά εγγραφές και για κάθε πεδίο εγγραφής καθορίζεται ένα πεδίο ορισμού ή ακόμα και ένα πεδίο τιμών. Εκτός όμως από τις δυνατές και έγγυρες τιμές τους, μία βάση δεδομένων ορίζει και τη σημασιολογία αυτών των δεδομένων. Κάτω από αυτό το πρίσμα (των τύπων δεδομένων), τα συστήματα ΔΠ ασχολούνται με δεδομένα που αναπαριστούν κείμενο, εικόνα, ήχο ή βίντεο και που δεν μπορούν να τα διαχειριστούν αποτελεσματικά οι βάσεις δεδομένων. Έτσι, τυπικές εφαρμογές ΔΠ αντλούν τα δεδομένα προς επεξεργασία από μία συνεχόμενη ροή δεδομένων, που είτε προέρχεται από κάποια απομακρυσμένη πηγή που μεταδίδει καθολικά πληροφορίες (π.χ. μία υπηρεσία μετάδοσης νέων), είτε από μία πηγή που αποστέλλει άμεσα πληροφορίες (π.χ. e-mail).

Παρ' όλα αυτά το σημαντικότερο χαρακτηριστικό των συστημάτων ΔΠ, που τα κάνει να ξεχωρίζουν από τα συστήματα ΑΠ, είναι το γεγονός ότι βασίζονται σε περιγραφές πληροφοριών για την ύπαρξη των οποίων θα ήθελαν ανεξάρτητα άτομα ή ομάδες να ενημερώνονται. Αυτός ο καθορισμός των πληροφοριών γίνεται ανά χρήστη ή ομάδα χρηστών και ονομάζεται προφίλ. Τα προφίλ χρηστών συνήθως αναπαριστούν μακροπρόθεσμα ενδιαφέροντα.

Figure: Ένα γενικό μοντέλο Διήθησης Πληροφορίας.
Image if

Ένα άλλο χαρακτηριστικό της ΔΠ είναι ότι χρησιμοποιείται συχνά για την αφαίρεση δεδομένων από μία εισερχόμενη ροή παρά για την εύρεση τους σε αυτή. Στην πρώτη περίπτωση, οι χρήστες βλέπουν τί απέμεινε στη ροή δεδομένων μετά την αφαίρεση, ενώ στη δεύτερη περίπτωση, βλέπουν τα δεδομένα που τελικά εξάχθηκαν. Ένα τυπικό παράδειγμα της πρώτης περίπτωσης είναι ένα φίλτρο για τα μηνύματα ηλεκτρονικού ταχυδρομείου, που είναι σχεδιασμένο ώστε να αφαιρεί τα μηνύματα που θεωρούνται ως ανεπιθύμητη αλληλογραφία (spam). Σύμφωνα με αυτά, ένα προφίλ μπορεί να εκφράζει τόσο το τί είδους πληροφορία θα ήθελε ένας χρήστης, όσο και το τί πληροφορία δεν θα ήθελε να παραλαμβάνει. Το Σχήμα 2.9 απεικονίζει ένα γενικό μοντέλο Διήθησης Πληροφορίας ενσωματώνοντας όλα τα χαρακτηριστικά στα οποία αναφερθήκαμε.

Σύμφωνα με αυτά θα μπορούσαμε να απαριθμήσουμε τις κύριες διαφορές των συστημάτων ΔΠ και ΑΠ:

Έχοντας περιγράψει τα διάφορα μοντέλα ανάκτησης πληροφορίας και τις παραλλαγές της (ανάκτηση δεδομένων, διήθηση πληροφορίας) θα περάσουμε στην περιγραφή της Δημοσίευσης / Συνδρομής. Αυτή η μορφή αλληλεπίδρασης συστήματος-χρήστη είναι όμοια με αυτή της διήθησης πληροφορίας. Η κύρια διαφορά τους έγγειται στο ότι η πρώτη ειδοποιεί τους χρήστες για γεγονότα που δύναται να τους ενδιαφέρουν, ενώ η δεύτερη προωθεί στους χρήστες της πληροφορίες που δύναται να τους ενδιαφέρουν.



Charalampos Nikolaou 2008-04-02