Τις τελευταίες ημέρες κυκλοφόρησαν δημοσιεύματα που παρουσιάζουν το νέο μοντέλο της Anthropic ως τον νέο «βασιλιά» της τεχνητής νοημοσύνης. Αφορμή αποτέλεσαν ορισμένες αξιολογήσεις στις οποίες το Claude Fable 5 εμφανίζεται να συγκεντρώνει υψηλότερη βαθμολογία από το GPT-5.5 και το Gemini.
Το πρόβλημα δεν βρίσκεται στα αποτελέσματα των αξιολογήσεων. Το πρόβλημα βρίσκεται στον τρόπο που αυτά παρουσιάζονται.
Όταν ένας τίτλος αναφέρει ότι «το Claude ξεπέρασε το GPT και το Gemini», ο μέσος αναγνώστης αντιλαμβάνεται ότι ένα σύστημα τεχνητής νοημοσύνης είναι πλέον συνολικά ανώτερο από τα υπόλοιπα. Αυτό όμως δεν είναι το συμπέρασμα που προκύπτει από τα δεδομένα.
Η πραγματικότητα είναι πολύ πιο σύνθετη.
Τα σύγχρονα μοντέλα τεχνητής νοημοσύνης αξιολογούνται μέσα από δεκάδες διαφορετικές δοκιμές. Άλλες μετρούν την ικανότητα λογικής σκέψης, άλλες τον προγραμματισμό, άλλες την κατανόηση κειμένου, άλλες την πολυτροπικότητα, δηλαδή την επεξεργασία εικόνας, ήχου και βίντεο, και άλλες τη διαχείριση πολύ μεγάλου όγκου πληροφοριών.
Ένα μοντέλο μπορεί να βρίσκεται πρώτο σε μία κατηγορία και να υστερεί σε κάποια άλλη.
Το να μετατρέπεται λοιπόν μια επιμέρους επίδοση σε γενικό συμπέρασμα περί «ανωτερότητας» θυμίζει περισσότερο διαφημιστική καμπάνια παρά δημοσιογραφική ενημέρωση.
Το ακόμη πιο ενδιαφέρον στοιχείο είναι ότι η σύγκριση γίνεται ανάμεσα σε τελείως διαφορετικά οικοσυστήματα.
Το GPT δεν είναι απλώς ένα γλωσσικό μοντέλο. Αποτελεί τον πυρήνα μιας ολόκληρης πλατφόρμας που χρησιμοποιείται από εκατοντάδες εκατομμύρια ανθρώπους σε καθημερινή βάση και έχει ενσωματωθεί σε αμέτρητες εφαρμογές και υπηρεσίες.
Το Gemini, από την άλλη πλευρά, δεν μπορεί να εξεταστεί αποκομμένο από το οικοσύστημα της Google. Συνδέεται με την αναζήτηση, το Android, το Gmail, το YouTube, το Maps, το Workspace και τις υποδομές cloud μιας από τις μεγαλύτερες τεχνολογικές εταιρείες του πλανήτη.
Η Anthropic διαθέτει εξαιρετική τεχνολογία και το Claude έχει αποδείξει επανειλημμένα ότι ανήκει στην κορυφή της παγκόσμιας αγοράς. Αυτό όμως δεν σημαίνει ότι η πρωτιά σε έναν πίνακα αξιολόγησης μεταφράζεται αυτομάτως σε συνολική κυριαρχία.
Η βιομηχανία της τεχνητής νοημοσύνης έχει αρχίσει να μοιάζει όλο και περισσότερο με τη βιομηχανία των κινητών τηλεφώνων πριν από μερικά χρόνια. Κάθε εταιρεία αναζητά το benchmark που την ευνοεί περισσότερο και στη συνέχεια το μετατρέπει σε κεντρικό εργαλείο επικοινωνίας.
Ο αναγνώστης βλέπει έναν αριθμό και πιστεύει ότι βλέπει την αλήθεια.
Στην πραγματικότητα βλέπει μόνο ένα μικρό κομμάτι της.
Η ουσία είναι ότι σήμερα δεν υπάρχει ένας αδιαμφισβήτητος νικητής στην τεχνητή νοημοσύνη. Υπάρχουν διαφορετικές προσεγγίσεις, διαφορετικές φιλοσοφίες ανάπτυξης και διαφορετικά πλεονεκτήματα.
Το Claude μπορεί να προηγείται σε ορισμένες δοκιμές.
Το GPT μπορεί να υπερέχει σε άλλες.
Το Gemini μπορεί να αξιοποιεί τη δύναμη ενός ολόκληρου τεχνολογικού οικοσυστήματος που δεν μπορεί να αποτυπωθεί σε έναν απλό αριθμό.
Γι’ αυτό και όταν διαβάζουμε ότι ένα μοντέλο «ξεπέρασε» κάποιο άλλο, καλό είναι να αναρωτιόμαστε πρώτα μια πολύ απλή ερώτηση:
Σε τι ακριβώς το ξεπέρασε;
Αν η απάντηση δεν βρίσκεται ήδη στον τίτλο, τότε πιθανότατα ο τίτλος δεν γράφτηκε για να ενημερώσει. Γράφτηκε για να τραβήξει την προσοχή.

