A mesterséges intelligencia asszisztensek meglepően ügyesen tudnak információkat kitalálni és tényként feltüntetni. Hamis állítások, kitalált források és hamis idézetek mind a keverék részét képezik. Ezeket a hibákat általában hallucinációnak nevezik. Sok felhasználó valószínűleg hozzászokott a problémához, gyakran a saját tényellenőrzésükre hagyatkozva választják el az igazságot a fikciótól. De a az OpenAI szerintszerint lehet, hogy van alternatíva. Szeptember 5-én a ChatGPT mögött álló cég részletes tanulmányt adott ki, amely új magyarázatot kínál arra, hogy miért fordulnak elő hallucinációk - és egy lehetséges megoldást.
A találgatást jutalmazzák, a bizonytalanságot büntetik
A 36 oldalas dokumentum, amelynek szerzői Adam Kalai, Santosh Vempala a Georgia Tech-ről és más OpenAI-kutatók, egy dolgot világossá tesz: a hallucinációkat nem a hanyag írás okozza, hanem a jelenlegi értékelési metrikák felépítése. Ezek a metrikák hajlamosak a magabiztos találgatásokat jutalmazni, és büntetik a bizonytalanság kifejezését. A kutatók ezt a feleletválasztós tesztekhez hasonlítják - aki tippel, az pontokat kaphat, aki viszont üresen hagyja a kérdéseket, az nem kap semmit. Statisztikailag a tippelős modell áll jobban, még akkor is, ha gyakran téves információt szolgáltat.
Ennek eredményeképpen a mai ranglisták - amelyek az AI teljesítményét rangsorolják - szinte kizárólag a pontosságra összpontosítanak, figyelmen kívül hagyva a hibaarányokat és a bizonytalanságot. Az OpenAI most változtatásra szólít fel. Ahelyett, hogy egyszerűen csak a helyes válaszokat számolnák össze, az eredménytábláknak erőteljesebben kellene büntetniük a magabiztos hibákat, miközben az óvatos tartózkodásért is járna némi elismerés. A cél az, hogy a modelleket a bizonytalanság elismerésére ösztönözzék, ahelyett, hogy magabiztosan, tényként tüntetnék fel a hamis információkat.
Kevesebb találgatás, több őszinteség
A tanulmányban szereplő egyik példa jól mutatja, hogy ez a megközelítés milyen különbséget jelenthet. A SimpleQA benchmarkban az egyik modell a kérdések több mint felére nem válaszolt, de a válaszok mindössze 26%-ában tévedett. Egy másik modell szinte minden kérdésre válaszolt - mégis az esetek 75%-ában hallucinált. A tanulság egyértelmű: a bizonytalanság kimutatása megbízhatóbb, mint a magabiztos találgatás, amely csak a pontosság illúzióját kelti.
Forrás(ok)
» A Top 10 multimédiás noteszgép - tesztek alapján
» A Top 10 játékos noteszgép
» A Top 10 belépő szintű üzleti noteszgép
» A Top 10 üzleti noteszgép
» A Top 10 notebook munkaállomása
» A Top 10 okostelefon - tesztek alapján
» A Top 10 táblagép
» A Top 10 Windows tabletje
» A Top 10 subnotebook - tesztek alapján
» A Top 10 300 euró alatti okostelefonja
» A Top 10 120 euró alatti okostelefonja
» A Top 10 phabletje (>5.5-inch)
» A Top 10 noteszgép 500 EUR (~160.000 HUF) alatt
» A Top 10 "pehelysúlyú" gaming notebookja