Η τεχνητή νοημοσύνη βασίζει την εκπαίδευσή της σε υψηλής ποιότητας δεδομένα. Το ChatGPT εκπαιδεύτηκε πάνω σε 570 gigabytes κειμένου ή περίπου 300 δισεκατομμύρια λέξεις. Παρομοίως, ο stable diffusion αλγόριθμος που βρίσκεται πίσω από το Midjourney και το DALL-E, εκπαιδεύτηκε με το LIAON-5B σετ δεδομένων που περιλαμβάνει 5.8 δισεκατομμύρια σετ εικόνων-κειμένων.
Η ποιότητα των εκπαιδευτικών δεδομένων είναι πολύ σημαντική για την AI. Δεδομένα με χαμηλή ποιότητα όπως social media posts ή θολές φωτογραφίες είναι εύκολο να βρεθούν, αλλά δεν είναι κατάλληλα. Κείμενο από social media πλατφόρμες μπορεί να περιέχει προκατάληψη ή παραπληροφόρηση η οποία έπειτα μπορεί να αναπαραχθεί από τον αλγόριθμο. Για αυτό το λόγο οι προγραμματιστές AI αναζητούν υψηλής ποιότητας περιεχόμενο από βιβλία, επιστημονικές έρευνες, Wikipedia και διάφορες φιλτραρισμένες πηγές του διαδικτύου.
Ωστόσο μία έρευνα προβλέπει πως η AI θα εξαντλήσει τα υψηλής ποιότητας δεδομένα για την εκπαίδευσή της μέχρι το 2026 με τους σημερινούς ρυθμούς. Υπολογίζει επίσης πως τα χαμηλής ποιότητας γλωσσικά δεδομένα θα εξαντληθούν κάποια στιγμή ανάμεσα στο 2030 και στο 2050 και τα χαμηλής ποιότητας δεδομένα εικόνας μεταξύ 2030 και 2060.
Αυτό μπορεί να βάλει φρένο στην ανάπτυξη της τεχνητής νοημοσύνης, η οποία υπολογίζεται πως θα συμβάλει μέχρι το 2030 στην παγκόσμια οικονομία με $15.7 τρισεκατομμύρια.
Φυσικά, η μελλοντική ανάπτυξη της AI κρύβει πολλούς άγνωστους παράγοντες. Μπορεί να βρεθεί τρόπος για παράδειγμα να εκπαιδευτεί η AI πιο αποδοτικά με τα δεδομένα που ήδη έχει, ενώ μερικοί υποστηρίζουν πως στα επόμενα χρόνια θα μπορούμε να εκπαιδεύσουμε υψηλών αποδόσεων AI χρησιμοποιώντας λιγότερα δεδομένα και λιγότερη υπολογιστική ισχύ. Μία άλλη επιλογή είναι η AI να δημιουργήσει συνθετικά δεδομένα για να εκπαιδεύσει τα συστήματά της, δηλαδή απλά να παράγει τα δεδομένα που χρειάζεται βάσει των αναγκών του συγκεκριμένου AI μοντέλου.
Οι ερευνητές στρέφουν την προσοχή τους τώρα και στις πηγές που δεν είναι διαθέσιμες online. Σκεφτείτε τα εκατομμύρια βιβλία που υπήρχαν πριν την εποχή του internet. Αν αυτά ψηφιοποιηθούν, θα μπορέσουν να προσφέρουν μία νέα πηγή δεδομένων για τα AI projects. Συμφωνίες με κατόχους περιεχομένου που έχουν δεδομένα πίσω από ένα paywall, μπορούν να αποτελέσουν ακόμα μία πηγή εκπαίδευσης των αλγορίθμων, οι οποίοι έως τώρα βασίζονται σε ό,τι παρέχεται δωρεάν στο internet.