AWPS -- Ένα Μοντέλο Αναπαράστασης Πληροφορίας

Στις Ενότητες 2.3 και 2.4 παρουσιάστηκαν δύο βασικές λειτουργίες που προσφέρει η αρχιτεκτονική του συστήματος LibraRing, η Ανάκτηση Πληροφορίας και η Δημοσίευση / Συνδρομή. Και οι δύο λειτουργίες μαζί ορίζουν τη διεπαφή του συστήματος LibraRing προς το χρήστη του και τα όρια στα οποία μπορεί να το εκμεταλλευτεί. Έτσι, ένας χρήστης μπορεί να χρησιμοποιήσει τη λειτουργία της Ανάκτησης Πληροφορίας κατασκευάζοντας μία επερώτηση (query) και θέτοντάς την στο σύστημα LibraRing προς απάντηση. Εναλλακτικά, χρησιμοποιώντας τη δεύτερη λειτουργία, τη Δημοσίευση / Συνδρομή, ένας χρήστης είτε μπορεί να εισάγει δεδομένα στο σύστημα κατασκευάζοντας μία δημοσίευση (publication) και αποστέλλοντάς την σε αυτό, είτε μπορεί να ενημερωθεί για δεδομένα που καλύπτουν διάφορες περιοχές των ενδιαφερόντων του, μέσω της λήψης μίας ειδοποίησης (notification), αφού πρώτα έχει καταχωρήσει τις προτιμήσεις του μέσω της κατασκευής μίας συνδρομής (subscription).

Συνολικά, για αυτές τις δύο λειτουργίες, το σύστημα LibraRing προσφέρει στον χρήστη του τη διεπαφή που συνίσταται από τις παρακάτω ενέργειες:

  1. Επερώτηση,
  2. Δημοσίευση,
  3. Συνδρομή,
  4. Ειδοποίηση.

Το θέμα αυτής της ενότητας είναι η παρουσίαση ενός τρόπου μοντελοποίησης των πληροφοριών που εμπεριέχονται σε κάθε ενέργεια έτσι ώστε αυτές να είναι καταληπτές τόσο από το σύστημα όσο και από το χρήστη, ενώ ταυτόχρονα να έχουν μία μορφή που να μπορεί να είναι επεξεργάσιμη σε ένα χαμηλότερο επίπεδο αφαίρεσης από το σύστημα. Για την επίτευξη αυτού του σκοπού, είναι απαραίτητη η χρήση ενός Μοντέλου Αναπαράστασης Πληροφορίας, όπως το AWPS.

Το AWPS (Attribute Word-Pattern with Similarity) είναι ένα μοντέλο αναπαράστασης πληροφορίας που βασίζεται σε πολύ γνωστές έννοιες από τα μοντέλα Boolean και VSM. Υπό αυτή του την ιδιότητα αποτελεί ένα άλλο μοντέλο που θα μπορούσε να χρησιμοποιηθεί από κάθε σύστημα ΑΠ ή ΔΠ. Το AWPS παρουσιάστηκε για πρώτη φορά στη μορφή που θα το χρησιμοποιήσουμε στις εργασίες [21,27] από τους Μ. Κουμπαράκη, Τ. Κούτρης, Χ. Τρυφονόπουλος και Π. Ραυτοπούλου κατά την ανάπτυξη της αρχιτεκτονικής DIAS (Distributed Information Alert System) στα πλαίσια του ευρωπαϊκού προγράμματος DIET [25,11,1] για τον προσδιορισμό και την αναπαράσταση των επερωτήσεων και ειδοποιήσεων. Το μοντέλο αυτό είναι επέκταση των μοντέλων WP (Word-Pattern) και AWP (Attribute Word-Pattern) και προσφέρει μία αποτελεσματικότερη και υψηλότερης πιστότητας αναπαράσταση πληροφοριών. Το AWPS βασίζεται σε γνωρίσματα (attributes) ή πεδία (fields) με λεκτικές τιμές πεπερασμένου μήκους. Επίσης, παρέχεται και ο τελεστής '$ \sim$ ' που αναπαριστά την ομοιότητα (similarity) για να εκφράσει τη συνάφεια που υπεισέρχεται σε συστήματα ΑΠ, όπως παρουσιάστηκε και στην ενότητα 2.3. Ο ακριβής μαθηματικός ορισμός του WP δίνεται στα [19,20], ενώ των AWP και AWPS δίνεται στο [21].

Στη συνέχεια θα περιγράψουμε το μοντέλο AWPS δίνοντας ένα παράδειγμα εφαρμογής του πάνω στην αναπαράσταση μίας δημοσίευσης και μίας επερώτησης. Όμοια μπορεί να εφαρμοστεί και για την αναπαράσταση της συνδρομής. Σημειώνεται, ότι για την ειδοποίηση δεν τίθεται θέμα αναπαράστασης, αφού δεν φέρει πολύπλοκες και δυναμικές πληροφορίες. Ειδικά στο σύστημα LibraRing μία ειδοποίηση συνίσταται σε ένα ζεύγος τιμών που αναπαριστούν την οντότητα του παρόχου που δημοσίευσε τον πόρο και ένα αναγνωριστικό για τον ίδιο τον πόρο.

Μία δημοσίευση είναι ένα σύνολο από ζεύγη γνώρισμα-τιμή $ (A, s)$ , όπου $ A$ είναι το όνομα του γνωρίσματος, $ s$ η λεκτική τιμή του και όλα τα γνωρίσματα είναι μοναδικά. Το παρακάτω είναι ένα παράδειγμα μίας δημοσίευσης:

{ (AUTHOR, ``John Smith''), (TITLE, ``Information dissemination in P2P ...''), (ABSTRACT, ``In this paper we show that ...'') }

Για μία επερώτηση, το μοντέλο AWPS προσφέρει επιπλέον τελεστές ισότητας, περιεκτικότητας και ομοιότητας που εφαρμόζονται πάνω στις τιμές των γνωρισμάτων. Ο τελεστής περιεκτικότητας μεταφράζεται βάσει του μοντέλου Boolean2.13 και επιτρέπει επερωτήσεις τύπου Boolean και εγγύτητας λέξεων (word proximity). Ο τελεστής ομοιότητας ορίζεται ως το συνημίτονο της γωνίας που σχηματίζουν δύο διανύσματα που αντιστοιχούν στις λεκτικές τιμές αντίστοιχων γνωρισμάτων μίας δημοσίευσης και της επερώτησης. Οι διανυσματικές αναπαραστάσεις των λεκτικών τιμών των γνωρισμάτων μπορούν να υπολογισθούν χρησιμοποιώντας τα μοντέλα VSM2.14 (Vector Space Model) ή LSI (Latent Semantic Indexing). Στην υλοποίηση του συστήματος LibraRing έχει χρησιμοποιηθεί μόνο το μοντέλο VSM.

Πιο συγκεκριμένα, μία επερώτηση είναι μία σύζευξη από ατομικές επερωτήσεις της μορφής

$\displaystyle A = s, A \leq wp \textrm{ ή } A \sim_k s
$

, όπου το $ A$ είναι ένα γνώρισμα, το $ s$ είναι η λεκτική του τιμή, το $ wp$ είναι μία σύζευξη από λέξεις και φόρμουλες εγγύτητας (proximity formulas) με υποφόρμουλες που αποτελούνται μόνο από λέξεις, και το $ k$ είναι το κατώφλι ομοιότητας (similarity threshold), δηλαδή ένας πραγματικός αριθμός στο διάστημα $ [0, 1]$ . Έτσι, οι επερωτήσεις μπορούν να έχουν δύο τμήματα: ένα τμήμα που ερμηνεύεται σύμφωνα με το μοντέλο Boolean και ένα τμήμα που ερμηνεύεται σύμφωνα με το μοντέλο VSM ή LSI. Το παρακάτω είναι ένα παράδειγμα μίας επερώτησης:

(AUTHOR $ =$ ``John Smith'') $ \wedge$ (TITLE $ \sqsupseteq$ P2P $ \wedge$ (information $ \prec_{[0,0]}$ alert)) $ \wedge$ (ABSTRACT $ \sim_{0.7}$ ``P2P architecture have been...'')

Η παραπάνω επερώτηση αιτεί όλες τις δημοσιεύσεις που έχουν συνταχθεί από τον John Smith, και ο τίτλος τους περιέχει τη λέξη P2P και ένα λεκτικό πρότυπο ή σχήμα (word pattern), όπου η λέξη information ακολουθείται άμεσα από τη λέξη alert. Επιπροσθέτως, οι δημοσιεύσεις θα πρέπει να έχουν μία περίληψη που το περιεχόμενό της να είναι όμοιο με τη λεκτική τιμή ``P2P architecture have been...'' με ποσοστό ομοιότητας μεγαλύτερο του $ 0.7$ .

Charalampos Nikolaou 2008-04-02