12.8 C
Chania
Sunday, January 26, 2025

Deep Seek: Το μικρό κινεζικό εργαστήρι που σόκαρε τους δισεκατομμυριούχους της Σίλικον Βάλεϊ

Ημερομηνία:

Ένα μικρό κινεζικό εργαστήριο τεχνητής νοημοσύνης εξέπληξε τον κόσμο αυτήν την εβδομάδα αποκαλύπτοντας την τεχνική «συνταγή» για το προηγμένο μοντέλο του.

Και ο μάλλον εσωστρεφής επικεφαλής του μετατράπηκε αίφνης σε εθνικό ήρωα που αψηφά τις αμερικανικές προσπάθειες για μπλόκο στις υψηλές τεχνολογικές φιλοδοξίες της Κίνας.

Η DeepSeek, που ιδρύθηκε από τον διαχειριστή hedge fund Λιανγκ Γουενφένγκ, κυκλοφόρησε το μοντέλο R1 τη Δευτέρα, εξηγώντας σε λεπτομερές έγγραφο πώς μπόρεσε να κατασκευάσει ένα μεγάλο γλωσσικό μοντέλο με περιορισμένο προϋπολογισμό, το οποίο μπορεί να μαθαίνει και να βελτιώνεται αυτόματα χωρίς ανθρώπινη επίβλεψη.

Οι αμερικανικές εταιρείες, συμπεριλαμβανομένων των OpenAI και Google DeepMind, πρωτοστάτησαν στις εξελίξεις στα πολυγλωσσικά μοντέλα, ένα σχετικά νέο πεδίο έρευνας τεχνητής νοημοσύνης που στοχεύει στο να κάνει τις «μηχανές» να ανταποκρίνονται στις ανθρώπινες γνωστικές ικανότητες. Τον Δεκέμβριο, η OpenAI με έδρα το Σαν Φρανσίσκο κυκλοφόρησε την πλήρη έκδοση του μοντέλου o1 αλλά κράτησε μυστικές τις μεθόδους της.

Ανησυχία στις ΗΠΑ, υπερηφάνεια στην Κίνα

Όπως επισημαίνουν σε σχετικό ρεπορτάζ τους οι Financial Times, η κυκλοφορία του R1 από τη DeepSeek προκάλεσε έντονη συζήτηση στη Silicon Valley σχετικά με το αν οι καλύτερα χρηματοδοτούμενες αμερικανικές εταιρείες AI, όπως η Meta και η Anthropic, μπορούν να διατηρήσουν το τεχνολογικό τους πλεονέκτημα.

Την ίδια στιγμή, ο Λιανγκ έχει γίνει σημείο εθνικής υπερηφάνειας στην Κίνα. Αυτήν την εβδομάδα, ήταν ο μόνος ηγέτης AI που επιλέχθηκε να παρευρεθεί σε δημοσιοποιημένη συνάντηση επιχειρηματιών με τον δεύτερο ισχυρότερο ηγέτη της χώρας, τον πρωθυπουργό, Λι Τσιανγκ. Οι επιχειρηματίες κλήθηκαν να «εντείνουν τις προσπάθειες για να ξεπεράσουν βασικές τεχνολογικές προκλήσεις».

Πώς άρχισαν όλα

Το 2021, ο Λιανγκ άρχισε να αγοράζει χιλιάδες κάρτες γραφικών της Nvidia για το πλάγιο project τεχνητής νοημοσύνης του, ενώ διηύθυνε το αμοιβαίο κεφάλαιο ποσοτικής διαπραγμάτευσης High-Flyer. Οι γνώστες της βιομηχανίας πίστευαν ότι πρόκειται απλώς για «εκκεντρικές ενέργειες» ενός δισεκατομμυριούχου που αναζητούσε ένα νέο χόμπι.

«Όταν τον γνωρίσαμε για πρώτη φορά, ήταν ένας πολύ nerd τύπος με άθλιο κούρεμα που μιλούσε για τη δημιουργία ενός cluster 10.000 chips για να εκπαιδεύσει τα δικά του μοντέλα. Δεν τον πήραμε στα σοβαρά,» δήλωσε επιχειρηματίας που έχει συνεργαστεί μαζί του στους Financial Times.

«Δεν μπορούσε να εκφράσει το όραμά του πέρα από το να λέει: Θέλω να το φτιάξω και θα αλλάξει το παιχνίδι. Νομίζαμε ότι αυτό ήταν δυνατό μόνο από γίγαντες όπως η ByteDance και η Alibaba,» πρόσθεσε η ίδια πηγή.

Η κατάσταση του Λιανγκ ως εξωτερικού παράγοντα στον τομέα της τεχνητής νοημοσύνης αποδείχθηκε μια απρόσμενη πηγή δύναμης.

Συγκέντρωσε τους καλύτερους

Στη High-Flyer, έχτισε μια περιουσία χρησιμοποιώντας τεχνητή νοημοσύνη και αλγόριθμους για να εντοπίσει μοτίβα που θα μπορούσαν να επηρεάσουν τις τιμές των μετοχών. Η ομάδα του έγινε έμπειρη στη χρήση των ημιαγωγών της Nvidia για να βγάλει χρήματα από τις συναλλαγές μετοχών. Το 2023, ίδρυσε την DeepSeek, ανακοινώνοντας την πρόθεσή του να αναπτύξει τεχνητή νοημοσύνη σε ανθρώπινο επίπεδο.

«Ο Λιανγκ δημιούργησε μια εξαιρετική ομάδα υποδομής που καταλαβαίνει πραγματικά πώς λειτουργούσαν τα τσιπ», είπε ένας ιδρυτής σε μια ανταγωνιστική εταιρεία μεγάλων γλωσσικών μοντέλων (LLM). «Πήρε μαζί του τους καλύτερους ανθρώπους του από το hedge fund στην DeepSeek».

Αφού η Ουάσιγκτον απαγόρευσε στην Nvidia να εξάγει τα πιο ισχυρά της τσιπ στην Κίνα, οι τοπικές εταιρείες AI αναγκάστηκαν να βρουν καινοτόμους τρόπους για να μεγιστοποιήσουν την υπολογιστική ισχύ ενός περιορισμένου αριθμού τσιπ – ένα πρόβλημα που η ομάδα του Λιανγκ ήξερε ήδη πώς να λύσει.

Γιατί η κινεζική DeepSeek είναι επικίνδυνη για τους κολοσσούς της ΑΙ

«Οι μηχανικοί της DeepSeek ξέρουν πώς να ξεκλειδώσουν τις δυνατότητες αυτών των GPU, ακόμα κι αν δεν είναι τελευταίας τεχνολογίας», δήλωσε ένας ερευνητής τεχνητής νοημοσύνης κοντά στην εταιρεία.

Οι γνώστες του κλάδου λένε ότι η μοναδική εστίαση της DeepSeek στην έρευνα την καθιστά επικίνδυνο ανταγωνιστή επειδή είναι πρόθυμη να μοιραστεί τις ανακαλύψεις της αντί να τις προστατεύσει για εμπορικά κέρδη. Η DeepSeek δεν έχει συγκεντρώσει χρήματα από εξωτερικά κεφάλαια ούτε έχει κάνει σημαντικές κινήσεις για τη δημιουργία εσόδων από τα μοντέλα της.

«Η DeepSeek λειτουργεί όπως τις πρώτες μέρες του DeepMind», είπε ένας επενδυτής τεχνητής νοημοσύνης στο Πεκίνο. «Εστιάζει καθαρά στην έρευνα και τη μηχανική».

Ο Λιανγκ ο οποίος εμπλέκεται προσωπικά στην έρευνα της DeepSeek, χρησιμοποιεί τα έσοδα από τις συναλλαγές του hedge funds για να πληρώσει κορυφαίους μισθούς για τα καλύτερα ταλέντα AI.

Μαζί με τον ιδιοκτήτη του TikTok ByteDance, η DeepSeek είναι γνωστό για την παροχή της υψηλότερης διαθέσιμης αμοιβής σε μηχανικούς τεχνητής νοημοσύνης στην Κίνα, με προσωπικό που εδρεύει σε γραφεία στο Hangzhou και στο Πεκίνο.

«Πανεπιστημιούπολη» για σοβαρούς ερευνητές

«Τα γραφεία της DeepSeek μοιάζουν σαν μια πανεπιστημιούπολη για σοβαρούς ερευνητές», είπε ο επιχειρηματικός συνεργάτης. «Η ομάδα πιστεύει στο όραμα του Liang: να δείξει στον κόσμο ότι οι Κινέζοι μπορούν να είναι δημιουργικοί και να χτίσουν κάτι από το μηδέν».

Οι DeepSeek και High-Flyer δεν απάντησαν σε αίτημα για σχολιασμό.

Ο Λιανγκ έχει χαρακτηρίσει την DeepSeek ως μια μοναδικά «τοπική» εταιρεία, στελεχωμένη με διδάκτορες από κορυφαία κινεζικά σχολεία, πανεπιστήμια του Πεκίνου και άλλων κινεζικών πόλεων και όχι ειδικούς από ιδρύματα των ΗΠΑ.

Σε μια συνέντευξη στον κινεζικό Τύπο πέρυσι, είπε ότι η βασική ομάδα του «δεν είχε ανθρώπους που επέστρεψαν από το εξωτερικό. Είναι όλα τοπικά… Πρέπει να αναπτύξουμε μόνοι μας τα κορυφαία ταλέντα». Η ταυτότητα της DeepSeek ως αμιγώς κινεζικής εταιρείας LLM την έχει κερδίσει τα εύσημα στο σπίτι.

Η DeepSeek ισχυρίστηκε ότι χρησιμοποίησε μόλις 2.048 Nvidia H800 και 5,6 εκατομμύρια δολάρια για να εκπαιδεύσει ένα μοντέλο με 671 δισεκατομμύρια παραμέτρους, ένα κλάσμα από όσα ξόδεψαν η OpenAI και η Google για την εκπαίδευση μοντέλων συγκρίσιμου μεγέθους.

Ο Ρίτουικ Γκούπτα, ερευνητής τεχνητής νοημοσύνης στο Πανεπιστήμιο της Καλιφόρνια στο Μπέρκλεϋ, είπε ότι οι πρόσφατες εκδόσεις μοντέλων της DeepSeek αποδεικνύουν ότι «δεν υπάρχει ταβάνι όσον αφορά τις δυνατότητες τεχνητής νοημοσύνης».

«Το πρώτο άτομο που θα εκπαιδεύσει μοντέλα πρέπει να ξοδέψει πολλούς πόρους για να φτάσει εκεί», είπε. «Αλλά ο δεύτερος μπορεί να φτάσει εκεί φθηνότερα και πιο γρήγορα».

Ο Γκούπτα πρόσθεσε ότι η Κίνα είχε πολύ μεγαλύτερη δεξαμενή ταλέντων μηχανικών συστημάτων από τις ΗΠΑ. Οι γνώστες του κλάδου λένε ότι παρόλο που το DeepSeek έχει δείξει εντυπωσιακά αποτελέσματα με περιορισμένους πόρους, παραμένει ανοιχτό το ερώτημα εάν μπορεί να συνεχίσει να είναι ανταγωνιστική καθώς εξελίσσεται ο κλάδος.

Αυτή την εβδομάδα, η OpenAI είπε ότι δημιουργούσε μια κοινοπραξία με την ιαπωνική SoftBank, με το όνομα Stargate, με σχέδια να δαπανήσει τουλάχιστον 100 δισεκατομμύρια δολάρια σε υποδομές τεχνητής νοημοσύνης στις ΗΠΑ. Η xAI του Έλον Μασκ επεκτείνει μαζικά τον υπερυπολογιστή του Colossus ώστε να περιέχει περισσότερα από 1 εκατομμύριο GPU για να βοηθήσει στην εκπαίδευση των μοντέλων Grok AI.

naftemporiki.gr

"google ad"

Ακολουθήστε το agonaskritis.gr στο Google News, στο facebook και στο twitter και μάθετε πρώτοι όλες τις ειδήσεις

Αγώνας της Κρήτηςhttp://bit.ly/agonaskritis
Ο “Αγώνας της Κρήτης” εκδόθηκε στις 8 Ιουλίου του 1981. Είναι η έκφραση μιας πολύχρονης αγωνιστικότητας. Έμεινε όλα αυτά τα χρόνια σταθερός στη διακήρυξή του για έγκυρη – έγκαιρη ενημέρωση χωρίς παρωπίδες. Υπηρετεί και προβάλλει, με ευρύτητα αντίληψης, αξίες και οράματα για μία καλύτερη κοινωνία. Η βασική αρχή είναι η κριτική στην εξουσία όποια κι αν είναι αυτή, ιδιαίτερα στα σημεία που παρεκτρέπεται από τα υποσχημένα, που μπερδεύεται με τη διαφθορά, που διαφθείρεται και διαφθείρει. Αυτός είναι και ο βασικός λόγος που η εφημερίδα έμεινε μακριά από συσχετισμούς και διαπλοκές, μακριά από μεθοδεύσεις και ίντριγκες.

Τελευταία Νέα

Περισσότερα σαν αυτό
ΕΠΙΚΑΙΡΟΤΗΤΑ

Ο Τράμπ και οι δύο κόσμοι

Του Αργύρη Αργυριάδη Δικηγόρου Ο νέος πλανητάρχης ανέλαβε καθήκοντα. Λίγες μόλις...

Το μέγεθος της πορείας στα Χανιά μέσα από φωτογραφίες drone

Εντυπωσιάζουν οι εικόνες από drone που κατέγραψε ο Dionysios...

Πρωτότοκοι και Υστερότοκοι

του Απόστολου Δ. Καραμπά ‘’Ήτον του ρήγα τ΄ Αναπλιού ο...

Ηράκλειο: Μάχη για τη ζωή ενός τρίχρονου μετά από φρικτή κακοποίηση – Συλλήψεις της μητέρας και του συντρόφου της

Σε κρίσιμη κατάσταση νοσηλεύεται διασωληνωμένο στη Μονάδα Εντατικής Θεραπείας...