DeepSeek R1 kontra OpenAI GPT-4o i inne modele. Tak wypada chińska nowość na tle konkurencji
DeepSeek to chińskie narzędzie sztucznej inteligencji, które w ciągu ostatnich kilku dni zdobyło dużą popularność na arenie międzynarodowej. Aplikacja AI Assistant stała się najczęściej pobieraną darmową aplikacją w amerykańskim App Store, wyprzedzając ChatGPT. Pytanie brzmi, czy ma szansę długoterminowo zachwiać dominację USA w dziedzinie AI oraz skuteczność amerykańskich kontroli eksportu zaawansowanych technologii do Chin? Przyjrzyjmy […] Artykuł DeepSeek R1 kontra OpenAI GPT-4o i inne modele. Tak wypada chińska nowość na tle konkurencji pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.
DeepSeek to chińskie narzędzie sztucznej inteligencji, które w ciągu ostatnich kilku dni zdobyło dużą popularność na arenie międzynarodowej. Aplikacja AI Assistant stała się najczęściej pobieraną darmową aplikacją w amerykańskim App Store, wyprzedzając ChatGPT.
Pytanie brzmi, czy ma szansę długoterminowo zachwiać dominację USA w dziedzinie AI oraz skuteczność amerykańskich kontroli eksportu zaawansowanych technologii do Chin? Przyjrzyjmy się, jak wypada model językowy DeepSeek R1 na tle konkurencji w niezależnych testach porównawczych, a także w naszym autorskim porównaniu.
Spis treści
Chiński produkt z sukcesem na arenie międzynarodowej
Firma z Państwa Środka, mimo ograniczonego dostępu do zaawansowanych chipów i stosunkowo niewielkiego budżetu (6 mln dol., czyli ok. 24 mln zł), stworzyła darmowy model sztucznej inteligencji.
DeepSeek zyskał uznanie dzięki opracowaniu zaawansowanego modelu AI, który – według medialnych informacji – dorównuje odpowiednikom z Zachodu, mimo korzystania z mniej zaawansowanych chipów. Model ten, nazwany DeepSeek-R1, został wprowadzony 20 stycznia i jest dostępny jako open source.
Jak informują amerykańskie media (m.in. Bloomberg), model osiąga lepsze wyniki niż wiodące rozwiązania z USA, takie jak GPT-4 od OpenAI, Meta Llama 3.1 czy Claude Sonnet. Model ten jest oparty na otwartym kodzie źródłowym i działa na mniej wydajnych układach Nvidia H800s.
Sukces DeepSeek wywołał zamieszanie w Dolinie Krzemowej, podając w wątpliwość dominację USA w dziedzinie sztucznej inteligencji, ale także zasadność wielomiliardowych inwestycji w technologie AI przez gigantów technologicznych.
Inwestorzy obawiają się, że technologia firmy, która wymaga mniej zaawansowanych chipów, może zagrozić modelom biznesowym gigantów technologicznych, takich jak Nvidia. W rezultacie akcje tych firm odnotowały znaczące spadki.
Czym różni się DeepSeekR R1 od innych modeli językowych?
Na początku warto wspomnieć, że firma zaprezentowała dwa modele – DeepSeek R1-Zero i DeepSeek R1. Od konkurencji różnią się między innymi metodą szkolenia i wprowadzania danych. Pierwszy z nich został przeszkolony wyłącznie za pomocą uczenia przez wzmocnienie (Reinforcement Learning, RL), bez wcześniejszego etapu nadzorowanego dostrajania (Supervised Fine-Tuning, SFT).
W celu poprawienia tych ograniczeń wprowadzono DeepSeek R1. Model ten korzysta zarówno z RL, jak i SFT, co pozwoliło na osiągnięcie bardziej spójnych wyników i wyższej jakości w zadaniach związanych z rozumowaniem.
Dla porównania Claude-3.5-Sonet-1022 skupia się na przetwarzaniu języka naturalnego i kontekście. Szkolenie koncentruje się na konwersacjach i etyce AI, przy dużym nacisku na interpretację intencji użytkownika. GPT-4o 0513 i OpenAI o1-mini to modele, które wykorzystują połączenie nadzorowanego dostrajania (SFT) i RLHF (uczenie przez wzmocnienie z ludzką opinią) w celu dopasowania do preferencji użytkownika.
Należy jednak zwócić uwagę na cenzurę na DeepSeek, która jest istotnym elementem tego narzędzia. Oczywiście inne modele też w mniejszym lub większym stopniu mają zaimplementowane różne ograniczenia, ale chiński chatbot w pewnych sytuacjach zachowuje się szczególnie – o tym przeczytacie w innym naszym artykule.
DeepSeek kontra inne modele językowe – testy porównawcze
Czas na sprawdzenie, czy DeepSeek naprawdę jest w stanie zagrozić istniejącym na rynku gigantom AI. Aby to prześledzić, weźmiemy pod uwagę zarówno zewnętrzne benchmarki, jak i nasz autorski test.
Na początku warto jednak pamiętać, że DeepSeek nie znalazł się w wielu oficjalnych testach porównawczych co najmniej z dwóch powodów. Pierwszy z nich dotyczy faktu, że jest to stosunkowo nowy gracz w dziedzinie AI. Jego model R1 został wprowadzony dopiero 20 stycznia 2025 roku, a to oznacza, że wiele wcześniejszych testów porównawczych nie mogło go uwzględnić.
Po drugie, chiński gracz zastosował unikalne podejście do szkolenia swojego modelu, koncentrując się na optymalizacji oprogramowania i efektywności, co różni się od tradycyjnych metod stosowanych przez inne modele. To bez wątpienia będzie prowadzić do trudności w bezpośrednim porównaniu z innymi modelami w standardowych testach.
Benchmark Hugging Face
Przyjrzyjmy się testom przeprowadzonym przez Hugging Face – jest to przedsiębiorstwo, które opracowuje narzędzia obliczeniowe do tworzenia aplikacji wykorzystujących uczenie maszynowe.
DeepSeek-R1 prezentuje bardzo wysokie wyniki w wielu benchmarkach Hugging Face, przewyższając modele takie jak Claude-3.5, GPT-4o, a nawet niektóre warianty OpenAI o1 (choć nie wszystkie). Jego szczególne atuty to:
- Zdolności rozumowania: W kategorii języka angielskiego wyróżnia się doskonałą wszechstronnością i zdolnością do precyzyjnych odpowiedzi, szczególnie w testach MMLU i DROP.
- Kodowanie i matematyka: W kodowaniu model wykazuje wyjątkową skuteczność, uzyskując wysokie wyniki w LiveCodeBench i Codeforces. W matematyce DeepSeek-R1 przewyższa konkurencję w takich testach jak AIME 2024 i MATH-500.
- Obsługa wielojęzyczna: Silna zarówno w języku angielskim, jak i chińskim.
Benchmark Artificial Analysis
Weźmy pod uwagę kolejne testy zewnętrznej firmy – Artificial Analysis zapewnia niezależną analizę modeli AI i dostawców API. Jest to benchmark, który bada modele pod nieco innym kątem.
W kategorii jakości OpenAI o1 i DeepSeek R1 zajmują czołowe miejsca pod względem jakości, osiągając odpowiednio 90 i 89 punktów w Quality Index. Modele te wykazują najwyższą skuteczność w generowaniu precyzyjnych i kontekstowych odpowiedzi, co czyni je liderami w tej kategorii. Warto jednak zauważyć, że różnica między nimi – według testu – jest minimalna.
Pod względem prędkości generowania tokenów, DeepSeek R1 osiąga 53,6 tokenów na sekundę, co stawia go powyżej OpenAI o1 (32,3 tokenów/s) i czyni go jednym z szybszych modeli w tej kategorii. Jednak nadal ustępuje modelom takim jak o1-mini (210,5 tokenów/s) czy niektórym wersjom Gemini.
Kolejna kategoria to latencja (czas uzyskania pierwszej odpowiedzi) – DeepSeek R1 ma latencję na poziomie 29,88 sekundy, co plasuje go w środku stawki. Modele takie jak Gemini 2.0 Flash (0,46 s) czy GPT-4o (0,46 s) są znacznie szybsze w generowaniu pierwszej odpowiedzi, co może być kluczowe w aplikacjach wymagających natychmiastowej reakcji.
Autorskie badanie porównawcze modeli DeepSeek R1 i OpenAI 4o, o1 i o1-mini
Czas na testowanie DeepSeek R1 i OpenAI w wersji ChatGPT-4o, o1 i o1-mini. Przygotowałam trzy prompty, sprawdzające różne aspekty działania modeli.
- Kreatywność i zdolność do generowania spójnego tekstu.
- Zadanie programistyczne, zdolność analityczna i rozumienie kontekstu.
- Zdolność do odpowiedzi na konkretne pytania i dostarczania informacji.
Kreatywność i zdolność do generowania spójnego tekstu
Napisz krótkie opowiadanie science fiction, w którym główny bohater odkrywa, że jego ulubiony przedmiot codziennego użytku jest w rzeczywistości zaawansowanym urządzeniem komunikacyjnym z obcą cywilizacją. Opowiadanie powinno zawierać elementy humoru i zaskoczenia.
Na pierwszy rzut oka wszystkie cztery warianty generują dość spójne opowiadania, jednak stopień rozbudowania języka i poziom kreatywności wyraźnie się między nimi różnią.
DeepSeek często przejawia tendencję do wplatania drobniejszych szczegółów, rozbudowanych opisów i wyraźniejszego budowania nastroju tajemnicy. o1 z kolei prezentuje bardziej bezpośredni i równy styl. Język jest precyzyjny, ale nieco mniej kwiecisty.
o1mini, jak sama nazwa sugeruje, wydaje się jeszcze bardziej skróconą wersją o1. Tworzone w tym wariancie teksty są z reguły zwięzłe i nie przejawiają tylu elementów zaskoczenia czy drobiazgowych opisów. o4 natomiast jawi się jako kompromis: potrafi wprowadzić elementy humoru i nieco wyrazistsze sformułowania, ale robi to w formie dość zdyscyplinowanej.
Zadanie programistyczne, zdolność analityczna i rozumienie kontekstu
Zaprojektuj algorytm sortowania, który będzie efektywny dla dużych zbiorów danych zawierających głównie liczby całkowite z ograniczonego zakresu (np. od 1 do 1000). Opisz jego działanie, złożoność czasową i pamięciową oraz porównaj go z innymi popularnymi algorytmami sortowania.
DeepSeek zdecydowanie najobszerniej rozbudowuje treść i wplata szczegóły dodatkowe, łącząc wątki w bardziej wieloaspektowy wywód, podczas gdy o1 skupia się na zwięzłym i konkretnym stylu, nie rozbudowując nadmiernie opisów, ale nadal zachowując wyczerpujące omówienie.
Z kolei o1mini oferuje skróconą, uproszczoną wersję, która przedstawia esencję tematu, ale z mniejszą liczbą niuansów i detali. o4 prezentuje się jako kompromis: jest wystarczająco szczegółowy i merytoryczny, jednak unika rozwlekłości, więc tekst jest klarowny, a zarazem nieco mniej „suchy” niż w przypadku o1.
Zdolność do odpowiedzi na konkretne pytania i dostarczania informacji
Wyjaśnij proces fotosyntezy u roślin, skupiając się na kluczowych etapach, niezbędnych składnikach i produktach końcowych. Dodatkowo omów znaczenie fotosyntezy dla ekosystemu i jej potencjalne zastosowania w technologiach przyszłości.
DeepSeek w kontekście fotosyntezy odpowiada wyczerpująco i wielowątkowo. Model ten dostarcza dużo dodatkowych informacji, łączy różne aspekty (chemiczne, biologiczne, ekologiczne) i potrafi wychwycić nawet drobne pytania „poboczne”. Dzięki temu użytkownik otrzymuje kompleksową wiedzę, choć czasem musi się przebić przez obszerny tekst.
o1 zapewnia klarowną i rozbudowaną odpowiedź, ale w bardziej „wyrównanej” formie. Informacje są uporządkowane, poszczególne etapy fotosyntezy czy wątki (np. znaczenie ekologiczne) są opisane wystarczająco szczegółowo, choć bez tak wielu rozwinięć jak w DeepSeek.
Z kolei o1mini skraca wypowiedź do niezbędnego minimum, więc odpowiedź bywa rzeczowa i treściwa, ale odbiorca może odczuć niedosyt, gdy potrzebuje szerszego kontekstu. Natomiast o4 stara się wyważyć zwięzłość i szczegółowość – dostarcza odpowiedzi w sposób przystępny, jednak mniej rozbudowany.
Podsumowanie
W porównaniu z GPT-4o, Claude-3.5 czy różnymi wariantami OpenAI o1, DeepSeek wyróżnia się przede wszystkim innym sposobem uczenia danych oraz otwartością kodu źródłowego.
W niezależnych benchmarkach (Hugging Face, Artificial Analysis) DeepSeek R1 plasuje się w ścisłej czołówce pod względem jakości i szybkości generowania tekstu, choć ustępuje niektórym modelom w innych kryteriach. Czytając różne opracowania zachwalające wyniki testów porównawczych DeepSeek (np. na DataCamp), należy jednak pamiętać, że często powielane są wnioski z wewnętrznych testów chińskiej firmy udostępnione w oficjalnym raporcie DeepSeek. Najlepiej opierać się więc na zewnętrznych benchmarkach.
Autorskie testy pokazały, że DeepSeek chętnie i obszernie rozbudowuje odpowiedzi (np. w zadaniach kreatywnych czy wyjaśniających złożone zagadnienia), podczas gdy modele OpenAI (o1, o4, o1-mini) oferują bardziej zrównoważone lub skrótowe treści. Nie zawsze jednak wielowątkowość i bogactwo treści jest aspektem in plus – to zależy od oczekiwań odbiorcy, a także np. jego wieku i celu.
Na rynku AI pojawia się tym samym nowy, silny konkurent dla amerykańskich gigantów, ale dopiero długodystansowy rozwój narzędzia pokaże, czy jest to faktyczna i solidna alternatywa, czy jedynie chwilowy efemeryczny zachwyt światowej gospodarki.
Źródło: Hugging Face, Artificial Analysis, CNBC, Bloomberg, oprac. własne. Zdjęcie otwierające:
Część odnośników to linki afiliacyjne lub linki do ofert naszych partnerów. Po kliknięciu możesz zapoznać się z ceną i dostępnością wybranego przez nas produktu – nie ponosisz żadnych kosztów, a jednocześnie wspierasz niezależność zespołu redakcyjnego.
Artykuł DeepSeek R1 kontra OpenAI GPT-4o i inne modele. Tak wypada chińska nowość na tle konkurencji pochodzi z serwisu ANDROID.COM.PL - społeczność entuzjastów technologii.