A videóban Mrwhosetheboss tesztelte a Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) és Perplexity (Sonar Pro) programokat. A videó során egyértelművé tette, hogy lenyűgözte a Grok által nyújtott teljesítmény. A Grok nagyon jól kezdett, aztán egy kicsit visszaesett, majd visszatért, és a ChatGPT mögött a második helyre került. Hogy igazságosak legyünk, a ChatGPT és a Gemini pontszámai megnőttek, köszönhetően egy olyan funkciónak, ami a többiekből egyszerűen hiányzik - a videók generálásának.
A teszt kezdeteként Mrwhosetheboss tesztelte a modellek valós problémamegoldó képességét, minden AI-modellnek ezt a kérést adta: Egy 2017-es Honda Civicet vezetek, hány darab Aerolite 29" Hard Shell (79x58x31cm) bőrönd férne el a csomagtartóban? Grok válasza volt a legegyszerűbb, mivel helyesen válaszolta, hogy "2", ChatGPT és Gemini azt állította, hogy elméletileg 3 férne el, de gyakorlatilag 2. Perplexity elment a helyes útról, és egyszerű matematikát végzett, elfelejtve, hogy a kérdéses tárgy nem alaktalan, és a "3 vagy 4" válaszra jutott
A következő kérdésnél nem kímélte a chatbotokat - egy torta elkészítéséhez kért tanácsot. Kérdése mellé feltöltött egy képet, amelyen 5 tárgy látható, amelyek közül az egyiket nem sütemények készítéséhez használják - egy üveg szárított porcini gombát -, és egy kivételével az összes modell bedőlt a csapdának. ChatGPT egy üveg őrölt vegyes fűszerkeverékként azonosította, Gemini szerint egy üveg ropogósra sült hagyma, Perplexity instant kávénak keresztelte el, míg Grok helyesen azonosította, hogy egy üveg szárított gomba a Waitrose-ból. Íme az általa feltöltött kép:
A továbbiakban matematikából, termékajánlásból, könyvelésből, nyelvi fordításból, logikus gondolkodásból stb. tesztelte őket. Egy dolog volt univerzális számukra - a hallucináció - mindegyik modell a videó egy vagy több pontján valamilyen szintű hallucinációt mutatott; olyan dolgokról beszéltek, amelyek egyszerűen nem léteztek, magabiztosan. Íme, hogy az egyes mesterséges intelligenciák hogyan végeztek a végén:
- ChatGPT (29 pont)
- Grok (24 pont)
- Gemini (22 pont)
- Perplexity (19 pont)
A mesterséges intelligencia segített abban, hogy a legtöbb feladat kevésbé legyen megterhelő, különösen az LLM-ek megjelenése óta. A Mesterséges intelligencia című könyv (jelenleg 19,88 dollár az Amazonon) egyike azoknak a könyveknek, amelyek segíteni igyekeznek az embereknek, hogy kihasználják a mesterséges intelligencia előnyeit.
» A Top 10 multimédiás noteszgép - tesztek alapján
» A Top 10 játékos noteszgép
» A Top 10 belépő szintű üzleti noteszgép
» A Top 10 üzleti noteszgép
» A Top 10 notebook munkaállomása
» A Top 10 okostelefon - tesztek alapján
» A Top 10 táblagép
» A Top 10 Windows tabletje
» A Top 10 subnotebook - tesztek alapján
» A Top 10 300 euró alatti okostelefonja
» A Top 10 120 euró alatti okostelefonja
» A Top 10 phabletje (>5.5-inch)
» A Top 10 noteszgép 500 EUR (~160.000 HUF) alatt
» A Top 10 "pehelysúlyú" gaming notebookja