Γυρνώντας πίσω στην εποχή της πανδημίας εύκολα θα θυμηθούμε πόσες πληροφορίες και οδηγίες για την προστασία μας βλέπαμε στο διαδίκτυο κατά κύριο λόγο στα αγγλικά, αλλά και στη γλώσσα μας.
Σε τέτοιες κρίσεις θεωρείται επιβεβλημένο να φτάνει η κάθε κρίσιμη πληροφορία ακόμη και στον τελευταίο κάτοικο αυτού του πλανήτη, στη γλώσσα του, με τρόπο ακριβή και πολιτισμικά συμβατό.
Φτάνει όμως πραγματικά;
Μάλλον όχι! Δεν είναι τυχαίο ότι η κυβέρνηση της Ν. Αφρικής, για παράδειγμα, κατά τη διάρκεια της πανδημίας επικρίθηκε στα μέσα κοινωνικής δικτύωσης επειδή έκανε ενημερώσεις κυρίως στα αγγλικά και όχι σε τουλάχιστον 2 (π.χ. Ζουλού ή Κόσα) από τις 11 άλλες επίσημες γλώσσες της.
Κρίσεις όπως η πανδημία αναδεικνύουν τόσο τα ελαττώματα όσο και τις δυνατότητες που υπάρχουν σε ένα σύστημα. Το ελάττωμα στη γλωσσική δομή του διαδικτύου είναι ότι οι τεχνολογικές πλατφόρμες υποστηρίζουν κατά κύριο λόγο περίπου 30-100 μεγάλες και πλουσιότερες γλώσσες.
Τι γίνεται λοιπόν με τις χιλιάδες άλλες γλώσσες που μιλιούνται από πληθυσμούς που είναι εξίσου ευάλωτοι σε κάθε κρίση;
Για παράδειγμα, στη Λαϊκή Δημοκρατία του Κονγκό χρησιμοποιούνται τουλάχιστον 7 κύριες γλώσσες-γαλλικά, Kikongo (Kituba), Lingala, Swahili, Tsiluba, γαλλόφωνη αφρικανική νοηματική γλώσσα και αμερικανική νοηματική γλώσσα, και ακόμη περισσότερες γλώσσες που είναι κοινές σε συγκεκριμένες περιοχές.
«Αυτή τη στιγμή οι άνθρωποι που κατοικούν στον πλανήτη μας μιλούν περίπου 7000 γλώσσες!
Όχι διαλέκτους, γλώσσες, που η κάθε μια είναι ένας διαφορετικός μηχανισμός με τις ιδιαιτερότητές του», μου λέει μέσω Zoom ο καθηγητής στο πανεπιστήμιο George Mason Αντώνης Αναστασόπουλος από το Fairfax της Βιρτζίνια, ο οποίος ηγείται του George Mason Natural Language Processing Group (Ομάδα Επεξεργασίας Φυσικής Γλώσσας).
Επεξεργασία φυσικής γλώσσας
Η επεξεργασία φυσικής γλώσσας (Natural Language Processing -- NLP) επιτρέπει στους υπολογιστές να χρησιμοποιούν ανθρώπινες (φυσικές) γλώσσες έτσι ώστε οι χρήστες να μπορούν, για παράδειγμα, να αλληλεπιδρούν με τους υπολογιστές ή να επικοινωνούν με άτομα που δεν μιλούν μια κοινή γλώσσα ή να χειρίζονται δεδομένα ομιλίας ή κειμένου σε κλίμακες που διαφορετικά δεν είναι εφικτές.
Η ομάδα NLP στο τμήμα Πληροφορικής του George Mason ενδιαφέρεται για όλες τις πτυχές της επεξεργασίας φυσικής γλώσσας. Αυτήν τη στιγμή εργάζεται σε πολυγλωσσικά μοντέλα, στην δημιουργία ισχυρής Μηχανικής Μετάφρασης σε παραλλαγές γλωσσών (διαλέκτους, «δεύτερη» γλώσσα, κτλ), σε στατιστικές μεθόδους για τεκμηρίωση γλωσσών που απειλούνται με εξαφάνιση, στην δημιουργία διαδραστικών διεπαφών φυσικής γλώσσας, και γενικά στη βελτίωση της αποτελεσματικότητας μοντέλων επεξεργασίας φυσικής γλώσσας.
Τα τελευταία χρόνια η έρευνα της ομάδας χρηματοδοτείται από το Εθνικό Ίδρυμα Επιστημών και το Εθνικό Ίδρυμα για τις Ανθρωπιστικές Επιστήμες των ΗΠΑ, την Google, την Amazon, τη Meta, και τη Microsoft.
«Προσπαθούμε ουσιαστικά να κάνουμε τους υπολογιστές να καταλάβουν και να αναπαραγάγουν την κάθε φυσική γλώσσα μαζί με όλα τα ενδιάμεσα, όπως μεταγραφή φωνής από ηχητικό σε κείμενο κλπ. Για πάρα πολλές γλώσσες δεν έχουμε επάρκεια δεδομένων, οπότε τα μοντέλα που φτιάχνουμε δεν είναι τόσο καλά.
Εμείς εστιάζουμε στην ανάπτυξη τεχνολογιών γλώσσας που να δουλεύουν εξίσου καλά για όλους και να είναι εναρμονισμένες με την κουλτούρα του εκάστοτε χρήστη. Το ‘για όλους’ σημαίνει να δουλεύουν για γλώσσες για τις οποίες δεν έχουμε πολλά δεδομένα ή για διαλέκτους ή για γλώσσες υπό εξαφάνιση», προσθέτει ο επιστήμονας.
Κατά την πανδημία, αρκετοί ακαδημαϊκοί φορείς, όπως τα Πανεπιστήμια Carnegie Mellon, Johns Hopkins, αλλά και η ομάδα του καθηγητή στο Πανεπιστήμιο George Mason, συνεργάστηκαν με βιομηχανικούς εταίρους όπως Amazon, Meta, Google, Microsoft, κ.α για να δημιουργήσουν, μέσω της πρωτοβουλίας Translation Initiative for Covid-19 (TICO-19), προσβάσιμο υλικό για την διαχείριση της COVID -19 σε 35 διαφορετικές γλώσσες του κόσμου. Εκτός από 9 γλώσσες με “υψηλούς πόρους”, η ομάδα του καθηγητή εστίασε και σε 26 γλώσσες με “ χαμηλούς πόρους” (που παρουσιάζονται ελάχιστα σε διαδικτυακούς χώρους και σε σύνολα δεδομένων εκπαίδευσης AI), ιδιαίτερα σε γλώσσες της Αφρικής, της Νότιας και της Νοτιοανατολικής Ασίας (όπως Dari, Dinka, Hausa, Luganda, Pashto και Zulu), των οποίων οι πληθυσμοί ήταν οι πιο ευάλωτοι στην εξάπλωση του ιού.
Το υλικό που παράχθηκε χρησιμοποιήθηκε από επαγγελματίες μεταφραστές, αλλά και από ειδικούς για την εκπαίδευση μοντέλων Μηχανικής Μετάφρασης (ΜΤ) τελευταίας τεχνολογίας.
Γεφυρώνοντας τις αυτόχθονες γλώσσες με τον υπόλοιπο κόσμο
Ο καθηγητής Αναστασόπουλος σπούδασε Ηλεκτρολόγος Μηχανικός στο ΕΜΠ, έλαβε το διδακτορικό του στην Επιστήμη των Υπολογιστών από το Πανεπιστήμιο της Notre Dame εκπονώντας τη διατριβή του στην Επεξεργασία φυσικής γλώσσας για τεκμηρίωση απειλούμενων γλωσσών (“NLP for Endangered Languages Documentation”) και συνέχισε μεταδιδακτορική έρευνα στο Language Technologies Institute του Πανεπιστημίου Carnegie Mellon. Τα τελευταία χρόνια είναι επίκουρος καθηγητής στο George Mason.
Όπως ο ίδιος λέει, πάντα του άρεσαν οι ξένες γλώσσες και παρότι είναι καθηγητής Πληροφορικής, σε όλη του διαδρομή έχει δουλέψει κυρίως με γλωσσολόγους, με κοινωνιολόγους, και με ανθρωπολόγους γιατί θεωρεί τις γλώσσες πολύ σημαντικό κομμάτι στην ιστορία της ανθρωπότητας.
«Με ενδιαφέρουν περισσότερο οι άνθρωποι από τους υπολογιστές και αν με ρωτάς γιατί είναι σημαντικό να κάνουμε δουλειά σε όλες τις γλώσσες του κόσμου, σου έχω συγκεκριμένη απάντηση: Ως ανθρωπότητα, περνάμε πληροφορίες στις επόμενες γενιές με δυο τρόπους, η μια είναι μέσω του DNA και η άλλη μέσω της γλώσσας.
Με το DNA έχουμε έναν μοναδικό τρόπο να περνάμε πληροφορίες, ενώ με τη γλώσσα έχουμε 7000 τρόπους. Κάθε γλώσσα είναι ένας διαφορετικός ζωντανός ‘οργανισμός’ που φέρει κωδικοποιημένες διαφορετικές πληροφορίες, οπότε έχει ενδιαφέρον να μελετηθεί. Μαζί με κάθε γλώσσα που πεθαίνει, η ανθρωπότητα χάνει σημαντικές πληροφορίες».
Ο Έλληνας επιστήμονας τροφοδοτεί τα γλωσσικά μοντέλα του με δεδομένα που του δίνουν οι γλωσσολόγοι με τους οποίους συνεργάζεται ή με δεδομένα που λαμβάνει ο ίδιος δουλεύοντας απευθείας με τις κοινότητες. «Στη Χιλή που ήμουν πριν τρεις μήνες δουλέψαμε με την κοινότητα Mapuche, η οποία δεν βρίσκεται ακριβώς υπό εξαφάνιση, υπάρχουν περίπου 300.000 άτομα που μιλούν τη γλώσσα συγκριτικά για παράδειγμα, με τα Griko στην Κάτω Ιταλία όπου έχουν απομείνει περίπου 10.000 ομιλούντες».
Ο καθηγητής μού λέει πως έχει γνωρίσει κοινότητες οι οποίες έχουν γίνει πολύ εσωστρεφείς και δεν δίνουν δεδομένα, γιατί πριν 50-60 χρόνια γλωσσολόγοι κυρίως από τη Δύση, τις επισκέφτηκαν, απέσπασαν ένα σωρό δεδομένα πάνω στα οποία έστησαν καριέρες και δεν τους επέτρεψαν ποτέ τίποτα ως προϊόν.
Τον περασμένο Ιανουάριο μια ομάδα ερευνητών, ανάμεσά τους και ο καθηγητής Αναστασόπουλος συγκέντρωσαν σε ένα workshop στη Χιλή μέλη γλωσσικών κοινοτήτων, γλωσσολόγους και τεχνολόγους για να συζητήσουν πώς να γεφυρώσουν το χάσμα των ψηφιακών τεχνολογιών με αυτόχθονες γλώσσες και να δημιουργήσουν πρωτότυπα καινοτόμων και πρακτικών τεχνολογιών αναζωογόνησης της γλώσσας.
«Ίσως το πιο ενδιαφέρον από τα outputs του workshop ήταν δυο εκπαιδευτικά παιχνίδια που δημιουργήσαμε σε συνεργασία με δασκάλες των Mapudungun, Quechua, Aymara, και Ckunza (4 αυτόχθονες γλώσσες της Χιλής στις οποίες εστιάσαμε) για να τα χρησιμοποιούν στην τάξη. Το ένα είναι η γνωστή “κρεμάλα” (αγγλιστί hangman) και το άλλο ένας τύπος αναγραμματισμού (ανακατεύει τα γράμματα και πρέπει να βρεις τη λέξη). Συνολικά δημιουργήσαμε 8 παιχνίδια που είναι διαθέσιμα online, (οι οδηγίες είναι στις αυθεντικές γλώσσες και στα Ισπανικά)»
Πρόσφατα ο καθηγητής απέσπασε χρηματοδότηση 63.680 $ από την Barron Associates, Inc., και από το Υπουργείο Άμυνας των ΗΠΑ για το πρότζεκτ «Μηχανική Μετάφραση για Αυστρονησιακές Γλώσσες». Ο Έλληνας επιστήμονας θα συνεισφέρει στην ανάπτυξη μιας τεχνολογίας που θα μεταφράζει αυτόματα γλώσσες των περιοχών της νοτιοανατολικής Ασίας και του Ειρηνικού, με ιδιαίτερη έμφαση στις γλώσσες της Ινδονησίας και των Φιλιππίνων. Οι Αυστρονησιακές γλώσσες είναι μια ομάδα γλωσσών που προέρχονται από την Ταϊβάν και διασκορπίστηκαν στη νοτιοανατολική θαλάσσια Ασία, στη Μαδαγασκάρη και στα νησιά του Ειρηνικού Ωκεανού. Λίγες από αυτές τις γλώσσες ομιλούνται στην ηπειρωτική Ασία από 386 εκατομμύρια άτομα.
«Είναι ένα πρότζεκτ που θα ολοκληρωθεί τον Ιούλιο του 2025 όπου θέλουμε να δημιουργήσουμε μηχανική μετάφραση για μικρές γλώσσες στις Φιλιππίνες και στην Ινδονησία, περιοχές όπου συνολικά ομιλούνται πάνω από 1000 γλώσσες. Μόνο στο νησί της Νέας Γουινέας οι άνθρωποι μιλούν περίπου 800 γλώσσες, όχι διαλέκτους!», εξηγεί ο καθηγητής, προσθέτοντας πως παράλληλα εστιάζει και σε γλώσσες της Αφρικής και της Ανατολικής Ασίας γιατί εκεί εντοπίζεται ένα δισεκατομμύριο χρηστών περίπου που θα χρησιμοποιεί το ίντερνετ στο (πολύ) εγγύς μέλλον.
Διασώζοντας γλώσσες που εξαφανίζονται
Πέρσι τον Φεβρουάριο στη νότια Χιλή μια ηλικιωμένη γυναίκα πέθανε και μια γλώσσα σιώπησε. Η 93χρονη Cristina CalderÓn ήταν η τελευταία που μιλούσε Yaghan, μια γλώσσα που κάποτε ακουγόταν σε όλη τη Γη του Πυρός. Η απώλεια οποιασδήποτε γλώσσας, όπως της Yaghan παρομοιάζεται από τους γλωσσολόγους με τραγωδία. Η συγκεκριμένη ήταν μια απομονωμένη γλώσσα, εντελώς διαφορετική από αυτές που ομιλούνται οπουδήποτε αλλού στον κόσμο, που δεν έχει γραπτή μορφή. Απομονωμένες γλώσσες σαν τη Yaghan υπάρχουν περίπου 200 από τις εκτιμώμενες 7165 γλώσσες που χρησιμοποιούνται σήμερα και πολλές είναι επικίνδυνα κοντά στο να την ακολουθήσουν στη λήθη.
Οι γλωσσολόγοι εκτιμούν πως μέχρι το 2100 οι μισές από τις γλώσσες που μιλούν σήμερα εκατομμύρια άνθρωποι αλλά και κάποιοι μετρημένοι στα δάχτυλα, θα έχουν εξαφανιστεί.
Ο βασικότερος λόγος είναι ότι οι κοινωνίες συσπειρώνονται γύρω από άλλες, μεγαλύτερες και κοινωνικά και οικονομικά ισχυρότερες οι οποίες μιλούν γλώσσες παγκόσμιας δυναμικής όπως Αγγλικά και Ισπανικά, την Ινδική γλώσσα ή τα Σουαχίλι. Κάπως έτσι όμως θα χαθούν και μικροί πολιτισμοί που εκφράζονται με τη γλώσσα τους, με αποτέλεσμα να φτωχύνει ο πλανήτης από την πολυχρωμία και την πολυφωνία των ετερόκλητων πολιτισμών.
Ο καθηγητής Αναστασόπουλος στο πλαίσιο της έρευνάς του για γλώσσες που απειλούνται με εξαφάνιση, «τρέχει» ένα πρότζεκτ σε συνεργασία με τον Graham Neubig, καθηγητή στο Carnegie Mellon που επιτρέπει σε μη ειδικούς να χρησιμοποιήσουν και να εκπαιδεύσουν νευρωνικά μοντέλα.
«Συγκεκριμένα έχουμε εστιάσει σε τεχνολογίες που είναι χρήσιμες για γλώσσες υπό εξαφάνιση, όπως το Optical Character Recognition (χρήσιμο για την ψηφιοποίηση παλιών βιβλίων, λεξικών, κτλ), η αναγνώριση φωνής και η αυτόματη μετάφραση».
Γλωσσικά μοντέλα για ελληνικές διαλέκτους
Ο Έλληνας επιστήμονας είναι επίσης μέλος της μονάδας «ΑΡΧΙΜΗΔΗΣ», του Κέντρου Έρευνας στην Τεχνητή Νοημοσύνη, την Επιστήμη Δεδομένων και τους Αλγορίθμους, του Ερευνητικού Κέντρου «Αθηνά», που ιδρύθηκε τον Ιανουάριο του 2022. Εκεί αναπτύσσει γλωσσικά μοντέλα για ελληνικές διαλέκτους.
«Κάθε γλώσσα έχει διαλέκτους και οι ελληνικές διάλεκτοι έχουν πολύ ενδιαφέρον από επιστημονική άποψη, όπως για παράδειγμα τα Λεσβιακά ή τα Αϊβαλιώτικα που έχουν επιρροές από την Τουρκία ή τα Greko (Καλαβρία) και Griko (Απουλία) που έχουν επιρροές από τις τοπικές Ιταλικές διαλέκτους. Έχουμε επίσης διαλέκτους από την Κύπρο ή την Κρήτη με αρχαΐζουσα ρίζα και διαχρονικότητα. Από την οπτική της επιστήμης των υπολογιστών, πέρα από το πρακτικό κομμάτι, το να μοντελοποιήσεις όλη αυτή τη γλωσσική ποικιλία είναι μια μεγάλη πρόκληση».
Από την κουβέντα μας με τον καθηγητή δεν λείπει και το θέμα της μεροληψίας (bias) των δεδομένων με τα οποία εκπαιδεύονται τα μοντέλα, στα οποία ενσωματώνονται κοινωνικές προκαταλήψεις (όπως ο σεξισμός και οι διακρίσεις κατά των μειονοτήτων). «Τέτοια μοντέλα όχι μόνο μας δίνουν απαντήσεις με προκαταλήψεις, αλλά μας δίνουν απαντήσεις που μεγεθύνουν αυτές τις προκαταλήψεις. Εμείς εργαζόμαστε πάνω σε αυτό και μελετάμε πώς θα το διορθώσουμε».
Λίγο πριν ολοκληρωθεί αυτή η κουβέντα ζητάω από τον δρα Αναστασόπουλο να μου σχολιάσει την άποψη ορισμένων ειδικών στον χώρο της τεχνητής νοημοσύνης ότι τα μεγάλα γλωσσικά μοντέλα (Large Language Model-LLM) έχουν πιάσει “ταβάνι” ή αν δεν έχουν, θα πιάσουν σύντομα:
«Νομίζω ότι είναι λίγο υπερβολικό, δεν είμαστε ακόμη εκεί, αλλά θα φτάσουμε κάποτε στο “ταβάνι” όχι για άλλο λόγο αλλά γιατί απλά θα τελειώσουν τα δεδομένα. Ως ιδέα υπάρχει αυτή τη στιγμή η χρήση των ίδιων των μοντέλων για να δημιουργήσουμε καινούρια δεδομένα. Και αυτό είναι προβληματικό γιατί δημιουργείται έτσι ένας φαύλος κύκλος. Ένα μεγάλο κομμάτι του ίντερνετ θα δημιουργείται αυτόματα από δεδομένα. Αυτό το βλέπουμε ήδη στη μηχανική μετάφραση. Αν πάρω για παράδειγμα, κακές μεταφράσεις από παλαιότερες εκδόσεις του google translate και εκπαιδεύσω ένα μοντέλο, τότε θα το εκπαιδεύσω στα κακά outputs του προηγούμενου μοντέλου, οπότε εντέλει θα γίνεται όλο και χειρότερο αντί να γίνεται καλύτερο. Αυτό θα είναι ένα θέμα που θα μας απασχολήσει σύντομα», εκτιμά ο Έλληνας επιστήμονας, αναφέροντας ένα ακόμη παράδειγμα:
«Για τους προγραμματιστές υπάρχει ένας ιστότοπος με ερωτήσεις και απαντήσεις, το Stack Overflow. Παλαιότερα, όποιο πρόβλημα αν είχες πήγαινες εκεί και έβρισκες την απάντηση γιατί κάποιος άλλος πριν από σένα είχε κάνει την ίδια ερώτηση και κάποιος άλλος που ήξερε (άνθρωπος) είχε απαντήσει. Από τη ώρα που βγήκε το ChatGPT ο κόσμος ξέχασε το Stack Overflow και ρωτάει το ChatGPT για να βρει την απάντηση. Οπότε τι έγινε; Αυτή η κοινότητα που αποτελούσε μια αναπτυσσόμενη πηγή πληροφοριών για τους προγραμματιστές σταμάτησε να μεγαλώνει. Συνεπώς χάνουμε την κοινότητα που είχε δημιουργηθεί στο ίντερνετ από τους ανθρώπους και πάμε στο μοντέλο, το οποίο όμως λειτουργεί μόνο επειδή υπήρχε η κοινότητα. Όμως αν δε συνεχίσει να αυξάνεται η κοινότητα, το μοντέλο θα παραμείνει στάσιμο και επ’ ουδενί δεν θα γίνει καλύτερο. Αντίθετα, η κοινότητα θα γινόταν καλύτερη», καταλήγει ο καθηγητής.