Το να μαθαίνουν οι μηχανές από την εμπειρία κάποτε θεωρείτο αδιέξοδο, αλλά πλέον αυτό είναι κρίσιμο για την τεχνητή νοημοσύνη. Η προσπάθεια σε αυτόν τον τομέα χάρισε πέρσι σε δύο επιστήμονες την ύψιστη τιμή στην επιστήμη των υπολογιστών, το βραβείο ACM AM Turing 2024, που συχνά αποκαλείται «Βραβείο Νόμπελ Πληροφορικής».
Οι επιστήμονες κέρδισαν το βραβείο για το έργο τους στην ενισχυτική μάθηση (reinforcement learning) και τώρα, ο ένας εκ των δύο κάθεται δίπλα μου σε έναν καναπέ στον πρώτο όροφο του Νέου Πανεπιστημίου της Χαϊδελβέργης, όπου λαμβάνει χώρα το 12ο Heidelberg Laureates Forum 2025, η ετήσια «πνευματική ανταλλαγή»-θεσμός μεταξύ διαφορετικών γενεών επιστημόνων υπολογιστών και μαθηματικών από όλο τον κόσμο.
Ο Richard Sutton είναι Καθηγητής Επιστήμης Υπολογιστών στο Πανεπιστήμιο της Αλμπέρτα, Ερευνητής στην Keen Technologies (μια εταιρεία τεχνητής γενικής νοημοσύνης με έδρα το Ντάλας του Τέξας) και Κύριος Επιστημονικός Σύμβουλος του Ινστιτούτου Μηχανικής Νοημοσύνης της Αλμπέρτα (Amii). Ο Sutton μοιράστηκε το ACM AM Turing 2024 με τον Andrew G. Barto.
Νωρίτερα ο Sutton είχε ξεκινήσει την ομιλία του στο αμφιθέατρο παρουσιάζοντάς μας το όραμά του για το μέλλον της τεχνητής νοημοσύνης: «Η τεχνητή νοημοσύνη δεν είναι κάτι το εξωγήινο, αντικατοπτρίζει μια από τις παλαιότερες ανθρώπινες προσπάθειες. Για χιλιάδες χρόνια φιλόσοφοι και απλοί άνθρωποι προσπαθούν να κατανοήσουν την ανθρώπινη νοημοσύνη. Πώς δουλεύει και πώς μπορούμε να την κάνουμε να δουλέψει καλύτερα. Η κατανόησή της είναι διαχρονικά το ‘ιερό δισκοπότηρο’ των θετικών και των ανθρωπιστικών επιστημών», είπε.
Παρομοιάζοντας την εξέλιξη της τεχνητής νοημοσύνης με έναν μαραθώνιο, ο καθηγητής υποστήριξε ότι η δημιουργία ‘υπερ-νοημόνων’ πρακτόρων (agents) πιθανώς να πάρει αρκετές δεκαετίες, αλλά πιστεύει ότι το αποτέλεσμα θα είναι ένα «ανόθευτο αγαθό» για τον κόσμο. Σαφώς και θα συμβούν κακά πράγματα, αλλά όχι λόγω της υπερβολικής νοημοσύνης.
Αντιμετωπίζοντας την τεχνητή νοημοσύνη ως την προσπάθεια κατανόησης του ανθρώπινου νου ο Shutton ισχυρίζεται πως «οι ερευνητές της τεχνητής νοημοσύνης θα κατανοήσουν τις αρχές της ανθρώπινης νοημοσύνης τόσο καλά ώστε να δημιουργήσουν όντα με πολύ μεγαλύτερη νοημοσύνη. Θα είναι το μεγαλύτερο πνευματικό επίτευγμα όλων των εποχών, του οποίου η σημασία είναι πέρα από την ανθρωπότητα, πέρα από τη ζωή, πέρα από το καλό και το κακό. Αλλά η πλήρης υπερ-νοημοσύνη θα απαιτήσει εμπειρική μάθηση από την ενισχυτική μάθηση», τόνισε.
Τελικά από ποιόν μαθαίνει η τεχνητή νοημοσύνη;
Ο τομέας της τεχνητής νοημοσύνης στηρίζεται σε μεγάλο βαθμό στη δημιουργία πρακτόρων (agents) δηλαδή οντοτήτων που αντιλαμβάνονται και ενεργούν. Πιο ευφυείς πράκτορες είναι αυτοί που επιλέγουν καλύτερες οδούς δράσης. Επομένως, η ιδέα ότι ορισμένες οδοί δράσης είναι καλύτερες από άλλες είναι κεντρικής σημασίας στην τεχνητή νοημοσύνη. Η ανταμοιβή, ένας όρος δανεισμένος από την ψυχολογία και τη νευροεπιστήμη, υποδηλώνει ένα σήμα που παρέχεται σε έναν πράκτορα και επηρεάζει τη συμπεριφορά του. Η ενισχυτική μάθηση είναι η διαδικασία εκμάθησης μιας πιο επιτυχημένης συμπεριφοράς δεδομένου αυτού του σήματος. Στην ενισχυτική μάθηση αυτές οι «ανταμοιβές» υπολογίζονται μαθηματικά. Αριθμοί αντιστοιχίζονται σε επιθυμητά αποτελέσματα και οι αλγόριθμοι εκτελούνται μέχρι να μεγιστοποιήσουν την ανταμοιβή, καθορίζοντας τελικά πώς να ολοκληρώσουν τις υπολογιστικές εργασίες με τον πιο επιθυμητό και αποτελεσματικό τρόπο.
Η ενισχυτική μάθηση χρησιμοποιήθηκε από την Google DeepMind το 2016 για την κατασκευή του AlphaGo, ενός προγράμματος που έμαθε μόνο του πώς να παίζει το απίστευτα πολύπλοκο επιτραπέζιο παιχνίδι Go σε επίπεδο εμπειρογνώμονα. Αυτή η επίδειξη πυροδότησε νέο ενδιαφέρον για την τεχνολογία, η οποία έχει χρησιμοποιηθεί στη βελτιστοποίηση της χρήσης ενέργειας των κέντρων δεδομένων, στα χρηματοοικονομικά και στον σχεδιασμό τσιπ, ενώ έχει επίσης μακρά ιστορία στη ρομποτική, όπου μπορεί να βοηθήσει τις μηχανές να μάθουν να εκτελούν φυσικές εργασίες μέσω δοκιμών και σφαλμάτων.
Πιο πρόσφατα, η ενισχυτική μάθηση διαδραμάτισε κρίσιμο ρόλο στην καθοδήγηση παραγωγής μεγάλων γλωσσικών μοντέλων (LLM) και εξαιρετικά ικανών προγραμμάτων chatbot. Η ίδια μέθοδος χρησιμοποιείται επίσης για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης που να μιμούνται την ανθρώπινη συλλογιστική και να δημιουργούν πιο ικανούς πράκτορες (agents).
Ο Sutton σημειώνει, ωστόσο, ότι οι μέθοδοι που χρησιμοποιούνται για την καθοδήγηση των LLM περιλαμβάνουν ανθρώπους που θέτουν στόχους και όχι έναν αλγόριθμο που μαθαίνει αποκλειστικά μέσω της δικής του εξερεύνησης, υποστηρίζοντας ότι το να μαθαίνουν οι μηχανές εντελώς μόνες τους μπορεί τελικά να είναι πιο καρποφόρο. «Το μεγάλο δίλημμα είναι αν η τεχνητή νοημοσύνη πρέπει να μαθαίνει από τους ανθρώπους ή από τη δική της εμπειρία», σημειώνει.
Τεχνητή νοημοσύνη μέσω δοκιμών και σφαλμάτων
Η συμβολή του Sutton στην τεχνητή νοημοσύνη χρονολογείται εδώ και δεκαετίες. Υπήρξε Διακεκριμένος Ερευνητής στην Deep Mind από το 2017 έως το 2023. Πριν ενταχθεί στο Πανεπιστήμιο της Αλμπέρτα, υπηρέτησε ως Κύριο Τεχνικό Μέλος του Προσωπικού στο Τμήμα Τεχνητής Νοημοσύνης στο Εργαστήριο AT&T Shannon στο Florham Park του Νιου Τζέρσεϊ, από το 1998 έως το 2002.
Ωστόσο, αυτό που του πιστώνεται ως η πιο σημαντική επίδραση στον τομέα, είναι στην ενισχυτική μάθηση, που επιτρέπει στην τεχνητή νοημοσύνη να μαθαίνει μέσω δοκιμών και σφαλμάτων, παρόμοια με τον τρόπο που ένα παιδί μαθαίνει ότι το να αγγίζει το μάτι μιας εστίας που καίει είναι κακή ιδέα, αλλά το να φτάνει ένα παιχνίδι στο πάνω ράφι είναι καλή. Με την πάροδο του χρόνου, το σύστημα τεχνητής νοημοσύνης βελτιώνει τη διαδικασία λήψης αποφάσεων μεγιστοποιώντας τις ανταμοιβές και ελαχιστοποιώντας τα λάθη.
Οι Barto και Sutton, από κοινού και με άλλους, ανέπτυξαν πολλές από τις βασικές αλγοριθμικές προσεγγίσεις για την ενισχυτική μάθηση. Το εγχειρίδιό τους με τίτλο: «Reinforcement Learning: An Introduction» (1998), με περισσότερες από 75.000 ετεροαναφορές, εξακολουθεί να αποτελεί τυπικό σημείο αναφοράς στον τομέα και να εμπνέει σημαντική ερευνητική δραστηριότητα στην επιστήμη των υπολογιστών.
Ο καθηγητής δεν είναι πεπεισμένος ότι η απλή χρήση περισσότερης υπολογιστικής ισχύος στην τεχνητή νοημοσύνη θα οδηγήσει σε μηχανές που σκέφτονται σαν άνθρωποι. Σε προηγούμενες συνεντεύξεις του έχει πει ότι η σημερινή εμμονή με την κλιμάκωση της βαθιάς μάθησης μπορεί να εμποδίζει την τεχνητή νοημοσύνη να αξιοποιήσει πλήρως τις δυνατότητές της. Πιστεύει ότι η πραγματική πρόοδος θα προέλθει από τη βελτίωση των αλγορίθμων που διέπουν τον τρόπο με τον οποίο μαθαίνουν οι μηχανές, όχι απλώς από τη μεγέθυνσή τους.
Για αυτό και παρότρυνε τους ερευνητές στο 12ο Heidelberg Laureates Forum να εστιάσουν στον σχεδιασμό καλύτερων αλγόριθμων, παραπέμποντάς τους στο “The Alberta plan for AI research”, ένα σχέδιο του καθηγητή-ένα περίγραμμα 12 σταδίων- που συνέταξε για να εργαστεί προς αυτό που αποκαλεί «πλήρη νοημοσύνη».
Ο ίδιος πιστεύει ότι η ενισχυτική μάθηση δεν έχει αξιοποιήσει πλήρως τη δύναμή της, ακριβώς επειδή οι περισσότεροι αλγόριθμοι εξακολουθούν να είναι ανίκανοι για συνεχή μάθηση και μετα-μάθηση, αυτό που ονομάζει «μάθηση για να μαθαίνεις» και μου λέει πως υπάρχει ακόμη ανεξερεύνητο ένα πολύ μικρό ποσοστό των δυνατοτήτων της, περίπου 1%.
Ο φόβος για την τεχνητή νοημοσύνη είναι μεν υπερβολικός αλλά…
Ο καθηγητής κατά την ομιλία του αναγνώρισε ότι υπάρχουν «αντιφατικές διαισθήσεις» σχετικά με τον καλύτερο τρόπο διαχείρισης της τεχνητής νοημοσύνης και συμφώνησε στο ότι σήμερα η τεχνητή νοημοσύνη είναι πολιτικά φορτισμένη.
«Η τεχνητή νοημοσύνη αποτελεί επίκεντρο γεωπολιτικού ανταγωνισμού μεταξύ εθνών και κρατών και το κοινό φοβάται. Η άποψή μου είναι ότι ο φόβος για αυτήν τροφοδοτείται υπερβολικά», είπε, σημειώνοντας ότι «γίνονται τόσες πολλές εκκλήσεις για ασφάλεια, οι οποίες στην πραγματικότητα είναι εκκλήσεις για κεντρικό έλεγχο». Προειδοποίησε ότι ένας τέτοιος έλεγχος μακροπρόθεσμα θα παρεμπόδιζε τη συνεργασία, η οποία είναι «η πηγή όλων όσων γίνονται σωστά και καλά στον κόσμο».
Η συνεργασία της κοινωνίας με τη τεχνητή νοημοσύνη είναι ο καλύτερος τρόπος χρήσης της τεχνολογίας, μου λέει κατ’ ιδίαν, εκτιμώντας πως οι εκκλήσεις για κεντρικό έλεγχο στηρίζονται στον φόβο και θα μπορούσαν να προκαλέσουν επικίνδυνη ρήξη μεταξύ αυτών που μπορούν και θέλουν να συνυπάρχουν ειρηνικά και να εργάζονται για το κοινό καλό.
Κατά την άποψή του, η πολιτική χρήσης της τεχνητής νοημοσύνης αντικατοπτρίζει την ανθρώπινη πολιτική. «Πρέπει να ανησυχούμε! Αν οι όποιες συγκεντρωτικές αρχές αναλάβουν υπερβολική εξουσία, θα την καταχραστούν και θα γίνουν αυταρχικές ή θα εισαγάγουν ένα είδος σύγκρουσης στη ζωή μας. Απλώς πρέπει να αντισταθούμε στις εκκλήσεις για κεντρικό έλεγχο», προειδοποιεί.
«Αλλάξτε τον κόσμο μας, όχι τη τεχνητή νοημοσύνη», είναι το μότο του καθηγητή. Όπως λέει, οι κίνδυνοι της τεχνητής νοημοσύνης δεν οφείλονται στην τεχνολογία αλλά στους ίδιους τους ανθρώπους.
«Οι άνθρωποι θα αντιδρούν ανάλογα με το περιβάλλον τους, αν μεγαλώσουν σε ένα περιβάλλον όπου δεν είναι λογικό να συνεργάζονται, τότε δεν θα συνεργάζονται. Επιθυμώ έναν κόσμο στον οποίο η τεχνητή νοημοσύνη θα βλέπει τη συνεργασία ως ένα φυσικό πράγμα μεταξύ των ανθρώπινων κοινωνιών».
Ρωτάω τον καθηγητή αν πιστεύει πως η τεχνητή νοημοσύνη θα φτάσει κάποτε σε ανθρώπινο επίπεδο και μου λέει πως έχει ήδη κάνει μια δημόσια πρόβλεψη για αυτό: «Αυτή η πιθανότητα είναι 25% μέχρι το 2030 και 50% μέχρι το 2040, καθώς η υπολογιστική ισχύς θα γίνεται όλο και φθηνότερη», μια εντυπωσιακά αισιόδοξη πρόβλεψη συγκριτικά με πολλούς άλλους συναδέλφους του, οι οποίοι συχνά ισχυρίζονται ότι αυτό απέχει ακόμη αρκετές δεκαετίες.
«Η τεχνητή νοημοσύνη έρχεται και αν θέλετε να είστε μέρος της, κρατήστε τα μάτια σας στραμμένα στο ‘έπαθλο’. Το ‘έπαθλο’ είναι η κατανόηση της νοημοσύνης», έκλεισε νωρίτερα την ομιλία του ο Sutton και εγώ τον αποχαιρετώ κρατώντας στο μυαλό μου κάποιες από τις προβλέψεις του:
«Δεν υπάρχει συναίνεση για το πώς πρέπει να κυριαρχείται ο κόσμος. Καμία άποψη δεν έχει μεγαλύτερη ισχύ έναντι όλων των άλλων. Κάποια μέρα κάποιοι άνθρωποι θα κατανοήσουν τη νοημοσύνη τόσο καλά ώστε να τη δημιουργήσουν με την τεχνολογία. Η διαδικασία δεν θα σταματήσει στη νοημοσύνη των σημερινών ανθρώπων, η οποία σύντομα θα ξεπεραστεί κατά πολύ. Με την πάροδο του χρόνου όμως, η δύναμη και οι πόροι θα ρέουν προς τους πιο έξυπνους».
Αισιόδοξα ή απαισιόδοξα, ο καθένας βγάζει τα συμπεράσματά του. Το σίγουρο είναι κατά τον καθηγητή ότι: «Η τεχνητή νοημοσύνη είναι το αναπόφευκτο επόμενο βήμα στην ανάπτυξη του σύμπαντος»…




























