AI csata: Grok meglepte Mrwhosetheboss-t a teljesítményével, és a ChatGPT nyert

Gemini, ChatGPT, Grok és Perplexity (Kép forrása: Gemini)

A Mrwhosetheboss által a YouTube-on közzétett videóban négy különböző márkájú AI-modellt tesztelt, és az egyes feladatokban nyújtott teljesítményük alapján pontozta őket. Mrwhosetheboss az egyszerű lekérdezésektől kezdve a trükkös kérdésekig és a kutatásig minden modellt a végsőkig feszített.

Chibuike Okpara (fordította Ninh Duy), Közzétett 07/04/2025 🇺🇸 🇩🇪 ...

A videóban Mrwhosetheboss tesztelte a Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) és Perplexity (Sonar Pro) programokat. A videó során egyértelművé tette, hogy lenyűgözte a Grok által nyújtott teljesítmény. A Grok nagyon jól kezdett, aztán egy kicsit visszaesett, majd visszatért, és a ChatGPT mögött a második helyre került. Hogy igazságosak legyünk, a ChatGPT és a Gemini pontszámai megnőttek, köszönhetően egy olyan funkciónak, ami a többiekből egyszerűen hiányzik - a videók generálásának.

A teszt kezdeteként Mrwhosetheboss tesztelte a modellek valós problémamegoldó képességét, minden AI-modellnek ezt a kérést adta: Egy 2017-es Honda Civicet vezetek, hány darab Aerolite 29" Hard Shell (79x58x31cm) bőrönd férne el a csomagtartóban? Grok válasza volt a legegyszerűbb, mivel helyesen válaszolta, hogy "2", ChatGPT és Gemini azt állította, hogy elméletileg 3 férne el, de gyakorlatilag 2. Perplexity elment a helyes útról, és egyszerű matematikát végzett, elfelejtve, hogy a kérdéses tárgy nem alaktalan, és a "3 vagy 4" válaszra jutott

A következő kérdésnél nem kímélte a chatbotokat - egy torta elkészítéséhez kért tanácsot. Kérdése mellé feltöltött egy képet, amelyen 5 tárgy látható, amelyek közül az egyiket nem sütemények készítéséhez használják - egy üveg szárított porcini gombát -, és egy kivételével az összes modell bedőlt a csapdának. ChatGPT egy üveg őrölt vegyes fűszerkeverékként azonosította, Gemini szerint egy üveg ropogósra sült hagyma, Perplexity instant kávénak keresztelte el, míg Grok helyesen azonosította, hogy egy üveg szárított gomba a Waitrose-ból. Íme az általa feltöltött kép:

Egy módosított kép a Mrwhosetheboss által az AI chatbotokhoz feltöltött 5 összetevőről, kiemelve a gombás üveget (Kép forrása: Mrwhosetheboss; kivágva)

A továbbiakban matematikából, termékajánlásból, könyvelésből, nyelvi fordításból, logikus gondolkodásból stb. tesztelte őket. Egy dolog volt univerzális számukra - a hallucináció - mindegyik modell a videó egy vagy több pontján valamilyen szintű hallucinációt mutatott; olyan dolgokról beszéltek, amelyek egyszerűen nem léteztek, magabiztosan. Íme, hogy az egyes mesterséges intelligenciák hogyan végeztek a végén:

ChatGPT (29 pont)
Grok (24 pont)
Gemini (22 pont)
Perplexity (19 pont)

A mesterséges intelligencia segített abban, hogy a legtöbb feladat kevésbé legyen megterhelő, különösen az LLM-ek megjelenése óta. A Mesterséges intelligencia című könyv (jelenleg 19,88 dollár az Amazonon) egyike azoknak a könyveknek, amelyek segíteni igyekeznek az embereknek, hogy kihasználják a mesterséges intelligencia előnyeit.

Forrás(ok)

Mrwhosetheboss

Kapcsolódó cikkek

⟨

Apple iPhone 17 Pro Max akkumulátor kapacitás szivárog, tisztességes nyereséggel a jelenlegi iPhone 16 Pro Max-hoz képest

A Lexar tartós, nagy sebességű SSD-t dob piacra MagSafe támogatással és közvetlen ProRes rögzítéssel

⟩

Add as a preferred source on Google

Editor of the original article: Chibuike Okpara - Tech Writer - 506 articles published on Notebookcheck since 2024

contact me via: @chibuikeokparaf, Facebook

Translator: Ninh Ngoc Duy - Editorial Assistant - 793626 articles published on Notebookcheck since 2008

contact me via: Facebook

> Magyarország - Kezdőlap > Hírek > News Archive > Newsarchive 2025 07 > AI csata: Grok meglepte Mrwhosetheboss-t a teljesítményével, és a ChatGPT nyert

Chibuike Okpara, 2025-07- 4 (Update: 2025-07- 4)