Notebookcheck Logo

AI csata: Grok meglepte Mrwhosetheboss-t a teljesítményével, és a ChatGPT nyert

Gemini, ChatGPT, Grok és Perplexity (Kép forrása: Gemini)
Gemini, ChatGPT, Grok és Perplexity (Kép forrása: Gemini)
A Mrwhosetheboss által a YouTube-on közzétett videóban négy különböző márkájú AI-modellt tesztelt, és az egyes feladatokban nyújtott teljesítményük alapján pontozta őket. Mrwhosetheboss az egyszerű lekérdezésektől kezdve a trükkös kérdésekig és a kutatásig minden modellt a végsőkig feszített.
AI

A videóban Mrwhosetheboss tesztelte a Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) és Perplexity (Sonar Pro) programokat. A videó során egyértelművé tette, hogy lenyűgözte a Grok által nyújtott teljesítmény. A Grok nagyon jól kezdett, aztán egy kicsit visszaesett, majd visszatért, és a ChatGPT mögött a második helyre került. Hogy igazságosak legyünk, a ChatGPT és a Gemini pontszámai megnőttek, köszönhetően egy olyan funkciónak, ami a többiekből egyszerűen hiányzik - a videók generálásának.

A teszt kezdeteként Mrwhosetheboss tesztelte a modellek valós problémamegoldó képességét, minden AI-modellnek ezt a kérést adta: Egy 2017-es Honda Civicet vezetek, hány darab Aerolite 29" Hard Shell (79x58x31cm) bőrönd férne el a csomagtartóban? Grok válasza volt a legegyszerűbb, mivel helyesen válaszolta, hogy "2", ChatGPT és Gemini azt állította, hogy elméletileg 3 férne el, de gyakorlatilag 2. Perplexity elment a helyes útról, és egyszerű matematikát végzett, elfelejtve, hogy a kérdéses tárgy nem alaktalan, és a "3 vagy 4" válaszra jutott

A következő kérdésnél nem kímélte a chatbotokat - egy torta elkészítéséhez kért tanácsot. Kérdése mellé feltöltött egy képet, amelyen 5 tárgy látható, amelyek közül az egyiket nem sütemények készítéséhez használják - egy üveg szárított porcini gombát -, és egy kivételével az összes modell bedőlt a csapdának. ChatGPT egy üveg őrölt vegyes fűszerkeverékként azonosította, Gemini szerint egy üveg ropogósra sült hagyma, Perplexity instant kávénak keresztelte el, míg Grok helyesen azonosította, hogy egy üveg szárított gomba a Waitrose-ból. Íme az általa feltöltött kép:

Egy módosított kép a Mrwhosetheboss által az AI chatbotokhoz feltöltött 5 összetevőről, kiemelve a gombás üveget (Kép forrása: Mrwhosetheboss; kivágva)
Egy módosított kép a Mrwhosetheboss által az AI chatbotokhoz feltöltött 5 összetevőről, kiemelve a gombás üveget (Kép forrása: Mrwhosetheboss; kivágva)

A továbbiakban matematikából, termékajánlásból, könyvelésből, nyelvi fordításból, logikus gondolkodásból stb. tesztelte őket. Egy dolog volt univerzális számukra - a hallucináció - mindegyik modell a videó egy vagy több pontján valamilyen szintű hallucinációt mutatott; olyan dolgokról beszéltek, amelyek egyszerűen nem léteztek, magabiztosan. Íme, hogy az egyes mesterséges intelligenciák hogyan végeztek a végén:

  1. ChatGPT (29 pont)
  2. Grok (24 pont)
  3. Gemini (22 pont)
  4. Perplexity (19 pont)

A mesterséges intelligencia segített abban, hogy a legtöbb feladat kevésbé legyen megterhelő, különösen az LLM-ek megjelenése óta. A Mesterséges intelligencia című könyv (jelenleg 19,88 dollár az Amazonon) egyike azoknak a könyveknek, amelyek segíteni igyekeznek az embereknek, hogy kihasználják a mesterséges intelligencia előnyeit.

Forrás(ok)

Please share our article, every link counts!
Mail Logo
> Magyarország - Kezdőlap > Newsarchive 2025 07 > AI csata: Grok meglepte Mrwhosetheboss-t a teljesítményével, és a ChatGPT nyert
Chibuike Okpara, 2025-07- 4 (Update: 2025-07- 4)