Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis
Chińska sztuczna inteligencja: DeepSeek mocno zamieszała w branży AI. Jednym z szokujących twierdzeń chińskich twórców tego modelu są deklarowane przez nich znikome, w stosunku do innych modeli AI, koszty szkolenia. Szkoda tylko, że podane kwoty mocno rozmijają się z prawdopodobnym stanem faktycznym. SemiAnalysis to niezależna firma badawcza i analityczna specjalizująca się w branży półprzewodników i... Jeśli artykuł Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.
![Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis](https://imagazine.pl/wp-content/uploads/2025/02/DeepSeek.jpg)
![DeepSeek](https://imagazine.pl/wp-content/uploads/2025/02/DeepSeek.jpg)
Chińska sztuczna inteligencja: DeepSeek mocno zamieszała w branży AI. Jednym z szokujących twierdzeń chińskich twórców tego modelu są deklarowane przez nich znikome, w stosunku do innych modeli AI, koszty szkolenia. Szkoda tylko, że podane kwoty mocno rozmijają się z prawdopodobnym stanem faktycznym.
SemiAnalysis to niezależna firma badawcza i analityczna specjalizująca się w branży półprzewodników i sztucznej inteligencji (AI). Oferuje dogłębną analizę całego łańcucha dostaw, od produkcji półprzewodników po najnowsze modele AI, oprogramowanie i infrastrukturę. I właśnie eksperci z tej organizacji wzięli na warsztat analizę faktycznych kosztów treningu najnowszego chińskiego modelu sztucznej inteligencji.
Wnioski? Pokrywają się z przypuszczeniami tych, którzy od początku ogłoszenia DeepSeek przez chiński podmiot wątpili w deklarowane przez twórców koszty treningu nowego modelu. Przypomnijmy, że Chińczycy deklarowali iż wytrenowanie DeepSeek kosztowało ok. 6 mln dolarów. Eksperci SemiAnalysis twierdzą, że to tak, jakby wskazać część materiałów tworzących jakiś produkt i przypisać ją jako całkowity koszt wytworzenia danego produktu. Kwota 6 mln dolarów to ich zdaniem koszt wstępnego szkolenia, co jednocześnie stanowi bardzo wąską część całkowitego kosztu budowy tak rozbudowanego modelu AI jak DeepSeek.
Przede wszystkim eksperci zwracają uwagę, że DeepSeek to nie jest firma istniejąca od wczoraj, lecz organizacja, która przez lata gromadziła środki i potencjał do rozwijania prowadzonych przez nią działań. Kilka lat temu kontrola eksportu półprzewodników ze Stanów Zjednoczonych była znacznie mniej szczelna niż obecnie, to najprawdopodobniej pozwoliło chińskiemu podmiotowi zgromadzić potencjał obliczeniowy, którego koszt całkowicie pominięto w owych deklarowanych przez Chińczyków kosztach szkolenia.
Zdaniem SemiAnalysis wykluczono ważne elementy układanki, takie jak badania i rozwój oraz TCO (całkowity koszt posiadania – Total Cost of Ownership) samego sprzętu. Dla porównania, szkolenie Claude 3.5 Sonnet, modelu zbudowanego przez Anthropic, kosztowało dziesiątki milionów USD, a gdyby to był całkowity koszt potrzebny Anthropic, firma ta nie pozyskałaby miliardów dolarów inwestycji od Google i dziesiątek miliardów od Amazon. Sam trening to nie wszystko, budowa AI to również eksperymenty, opracowywanie nowych architektur, gromadzenie i czyszczenie danych przeznaczonych do treningu sztucznej inteligencji, koszty utrzymania mocy obliczeniowej, energii, lokalizacji, pensje dla pracowników i cała masa innych elementów stanowiących faktyczny, całkowity koszt budowy danego rozwiązania.
SemiAnalysis zwraca uwagę na jeszcze jedną istotną rzecz: DeepSeek V3 jest ich zdaniem niewątpliwie imponującym pod wieloma względami modelem, porównywanym np. do GPT-4o od OpenAI. Jednak trzeba pamiętać, że wykorzystywany dziś GPT-4o to model, który został udostępniony w maju 2024 roku, ponad pół roku temu. W rozwoju sztucznej inteligencji to dużo czasu, biorąc pod uwagę tempo tego rozwoju. Dlatego dobrze jest zachować odpowiednią perspektywę.
Jakoś nikt specjalnie nie zachwyca się istniejącymi już dziś modelami, które są w stanie działać lokalnie i mogą być wytrenowane i uruchomione nawet na dobrze wyposażonym laptopie, a oferują potencjał porównywalny z GPT-3, modelem, którego koszt treningu wymagał całych centrów danych, olbrzymiej mocy i znacznych nakładów. Finalnie SemiAnalysis oszacowało faktyczny koszt wytworzenia DeepSeek na poziomie ok. 1,6 miliarda dolarów. To trochę większa kwota od deklarowanej przez Chińczyków, prawda?
Wszystkich zainteresowanych odsyłam do źródła, raportu SemiAnalysis, który w znacznie bardziej szczegółowy sposób wyjaśnia meandry związane z faktycznymi kosztami treningu modeli zależnie od ich efektów działania.
Jeśli artykuł Trening modelu DeepSeek nie kosztował 6 mln dolarów, lecz 1,3 miliarda dolarów – raport SemiAnalysis nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.