Ανάκτηση Δεδομένων και Ανάκτηση Πληροφορίας

Πολλές φορές η έννοια της ΑΠ συγχέεται με αυτή της Ανάκτησης Δεδομένων (ΑΔ, Data Retrieval). Η ΑΔ, στα πλαίσια ενός συστήματος ΑΠ, έχει να κάνει κατά βάση με τον προσδιορισμό των εγγράφων μίας συλλογής που περιέχουν τις λέξεις-κλειδιά που περιέχονται στην επερώτηση του χρήστη, κάτι το οποίο τις περισσότερες φορές δεν είναι επαρκές για να καλύψει τις πληροφορίες που χρειάζεται ο χρήστης. Στη πράξη, ένας χρήστης ενός συστήματος ΑΠ ενδιαφέρεται περισσότερο για την ανάκτηση πληροφοριών σχετικά με ένα θέμα παρά για την ανάκτηση δεδομένων που ικανοποιούν τη δεδομένη επερώτηση. Μία γλώσσα ανάκτησης δεδομένων έχει ως σκοπό την ανάκτηση όλων των αντικειμένων που ικανοποιούν κάποιες συνθήκες, όπως αυτές των κανονικών εκφράσεων ή των σχεσιακών αλγεβρικών εκφράσεων. Έτσι, για ένα σύστημα ΑΔ, ένα και μόνο εσφαλμένο (που δεν ικανοποιεί, δηλαδή, τις συνθήκες της επερώτησης) αντικείμενο ανάμεσα σε χιλιάδες άλλα ανακτηθέντα σημαίνει ολική αποτυχία. Από την άλλη, για ένα σύστημα ΑΠ, τα ανακτηθέντα αντικείμενα μπορεί να είναι ανακριβή και μικρά σφάλματα είναι πιθανόν να μην γίνουν αντιληπτά. Η κύρια αιτία για αυτή τη διαφορά των δύο τύπων συστημάτων είναι ότι αυτό του δεύτερου τύπου συχνά έχει να κάνει με κείμενα γραμμένα σε φυσική γλώσσα, τα οποία μπορεί να μην είναι πάντοτε καλά δομημένα και μπορεί να είναι διφορούμενα ως προς τη σημασιολογία. Από την άλλη πλευρά, ένα σύστημα ΑΔ (όπως μία σχεσιακή βάση δεδομένων) έχει να κάνει με δεδομένα που έχουν μία καλά ορισμένη δομή και σημασιολογία.

Η ΑΔ, ενώ παρέχει μία λύση στον χρήστη ενός συστήματος βάσης δεδομένων, δεν λύνει το πρόβλημα της ανάκτησης πληροφορίας σχετικά με κάποιο θέμα ή ζήτημα. Για να είναι αποτελεσματική η προσπάθεια ενός συστήματος ΑΠ να ικανοποιήσει το αίτημα του χρήστη για πληροφορίες, θα πρέπει αυτό να ερμηνεύσει με κάποιο τρόπο τα περιεχόμενα των αντικειμένων πληροφορίας (των εγγράφων) μίας συλλογής και να τα κατατάξει σύμφωνα με ένα βαθμό συνάφειας ως προς την επερώτηση του χρήστη. Αυτή η ερμηνεία των περιεχομένων των εγγράφων εμπεριέχει την απόσπαση συντακτικών και σημασιολογικών πληροφοριών από το κείμενο και σε δεύτερο στάδιο το ταίριασμά τους με τις πληροφορίες που χρειάζεται ο χρήστης. Η δυσκολία δεν εμπεριέχεται μόνο στον τρόπο εξαγωγής αυτών των πληροφοριών, αλλά και στον τρόπο χρήσης τους έτσι ώστε να αποφασιστεί η συνάφειά τους ως προς την επερώτηση του χρήστη. Έτσι, η έννοια της συνάφειας βρίσκεται στο επίκεντρο της ΑΠ. Στην πράξη, ο πρωτεύον σκοπός ενός συστήματος ΑΠ είναι να ανακτήσει όλα τα έγγραφα που είναι συναφή ως προς την επερώτηση του χρήστη, ενώ ταυτόχρονα να ανακτήσει όσο το δυνατόν λιγότερα άσχετα έγγραφα.



Charalampos Nikolaou 2008-04-02