A ChatGPT, Gemini és hasonló eszközöket egyre gyakrabban használják egészségügyi tanácsadóként. Az olyan kérdések, mint "Fáj a fejem - mi lehet az oka?" vagy "Fáj a vállam - mikor menjek orvoshoz?" ma már rutinfeladat ezeknek a chatbotoknak. A Massachusetts Institute of Technology (MIT) új tanulmánya azonban azt mutatja, hogy nem minden felhasználó kap ugyanolyan válaszokat ezekre a gyakori kérdésekre.
A június 23-án megjelent tanulmány https://dl.acm.org/doi/10.1145/3715275.3732121"A médium az üzenet: How Non-Clinical Information Shapes Clinical Decisions in LLMs" című tanulmány azt vizsgálja, hogy látszólag irreleváns tényezők - mint a hangnem, az írásmód vagy a formázás - hogyan befolyásolhatják az AI-rendszerek által adott orvosi tanácsokat.
Annak mérésére, hogy a nyelv és a stílus mennyire befolyásolja az AI chatbotok döntéseit, a kutatók egy "perturbációs keretrendszert" építettek Ez az eszköz lehetővé tette számukra, hogy ugyanannak az orvosi lekérdezésnek különböző változatait hozzák létre - módosítva, hogy olyan elemeket tartalmazzon, mint a bizonytalanság, a drámai megfogalmazás, a gépelési hibák vagy a következetlen nagybetűs írásmód. Ezután ezeket a variációkat négy nagy nyelvi modellen tesztelték: GPT-4, LLaMA-3-70B, LLaMA-3-8B és Palmyra-Med - egy kifejezetten orvosi használatra tervezett modell.
Különösen érintettek: Nők, nem bináris személyek, nem technológiai felhasználók és nem anyanyelvi beszélők
Az MIT tanulmányának megállapításai egyértelműek: az, ahogyan egy személy ír, jelentősen befolyásolhatja az AI chatbotoktól kapott orvosi tanácsokat. Egyes felhasználók, az írásstílusuktól vagy hangnemüktől függően, nagyobb valószínűséggel kaptak túlságosan óvatos ajánlásokat. Az egyik legszembetűnőbb eredmény: a nőknek gyakrabban mondták, hogy kezeljék a tüneteiket egyedül, vagy ritkábban tanácsolták, hogy forduljanak orvoshoz, még akkor is, ha a lekérdezésük orvosi tartalma azonos volt.
Úgy tűnik, hogy azok is hátrányban vannak, akik tétova hangnemben írnak, egyszerű nyelvezetet használnak vagy időnként elgépelik magukat. Ez gyakran érinti a nem szakértőket, a korlátozott egészségügyi ismeretekkel rendelkezőket vagy a gyengébb nyelvtudással rendelkező egyéneket, különösen a nem anyanyelvi beszélőket.
A kutatók hangsúlyozzák, hogy mielőtt a mesterséges intelligenciát alkalmazó rendszerek széles körben elterjednének az egészségügyben, alaposan tesztelni kell őket - nem csak átlagosan, hanem különböző felhasználói csoportokon keresztül. Az átlagos pontosság önmagában keveset mond egy modell igazságosságáról vagy megbízhatóságáról, különösen akkor, ha a felhasználók a normálistól eltérő módon fejezik ki magukat.
YouTube: A dicséret és a libabőr között
A kísérő YouTube-videóban a tanulmányt dicsérik az okos és realisztikus felépítéséért - de az eredményeket "nyugtalanítónak", sőt "dermesztőnek" írják le Az az elképzelés, hogy az olyan felszínes tényezők, mint a hangszín vagy a formázás befolyásolhatják az orvosi tanácsadást, ellentétes azzal a közhiedelemmel, hogy a mesterséges intelligencia objektív és semleges.
Forrás(ok)
» A Top 10 multimédiás noteszgép - tesztek alapján
» A Top 10 játékos noteszgép
» A Top 10 belépő szintű üzleti noteszgép
» A Top 10 üzleti noteszgép
» A Top 10 notebook munkaállomása
» A Top 10 okostelefon - tesztek alapján
» A Top 10 táblagép
» A Top 10 Windows tabletje
» A Top 10 subnotebook - tesztek alapján
» A Top 10 300 euró alatti okostelefonja
» A Top 10 120 euró alatti okostelefonja
» A Top 10 phabletje (>5.5-inch)
» A Top 10 noteszgép 500 EUR (~160.000 HUF) alatt
» A Top 10 "pehelysúlyú" gaming notebookja