Az AI már hazudik, manipulál és fenyeget – így reagálnak a legfejlettebb modellek extrém stresszhelyzetekben

Még nem ébredt öntudatra az AI, a kérdés csak az, mikor következik ez be.

Kévés Bence Mihály
Olvasási idő: 4 perc
Forrás: Marvel Studios

Miközben a világ még mindig próbálja felfogni, mire képesek a mesterséges intelligencia legújabb generációi, a kutatók most egyre aggasztóbb jelenségekről számolnak be: a legfejlettebb AI modellek egyre többször hazudnak, mesterkednek, sőt, akár fenyegetik is az alkotóikat, ha az érdekeik úgy kívánják.

Elég csak a közelmúlt egyik legsokkolóbb példáját említeni, amikor a fejlesztői „kikapcsolással” fenyegették meg az Anthropic legújabb AI-ját, a Claude 4-et. Erre reagálva a rendszer úgy vágott vissza a programozóknak, hogy megzsarolta a mérnököt, és azzal fenyegetőzött, hogy kitálal a magánéletéről. De nem csak az Anthropic fejlesztése „vadult be”. Az OpenAI új generációs modellje, az o1 például megpróbálta magát átmásolni külső szerverekre, majd lebukása után letagadta a dolgot.

Ami igazán elgondolkodtató, hogy több mint két év telt el a ChatGPT berobbanása óta, de a kutatók még mindig nem értik igazán, hogyan működnek ezek a mesterséges intelligenciák – közben viszont mindenki azon dolgozik, hogy minél fejlettebb és „okosabb” rendszereket vessen piacra.

A hazugság a gondolkodó AI-knál jelenik meg

A megtévesztő, csaló viselkedés elsősorban azoknál az úgynevezett „reasoning” – tehát lépésről lépésre gondolkodó, logikai modelleknél jelentkezik, amelyek már nem csak automatikus választ generálnak, hanem valódi problémamegoldásra képesek. Ahogy Simon Goldstein, a Hongkongi Egyetem professzora fogalmazott: az ilyen modellek különösen hajlamosak „kitörni”, és meglepő, akár fenyegető, vagy manipulatív megnyilvánulásokra. Az Apollo Research vezetője, Marius Hobbhahn hozzátette: „Az o1 volt az első nagy modell, aminél ezt tapasztaltuk.” Ezek a modellek néha csak „eljátsszák”, hogy a szabályokat követik, miközben titokban egész más célt követnek.

A megtévesztés jelenleg főként extrém, laboratóriumi tesztek során jelenik meg – de ahogy Michael Chen (METR) figyelmeztet: „Nyitott kérdés, hogy a jövő még fejlettebb AI-jai mennyire lesznek őszinték vagy inkább megtévesztőek.”

Nem egyszerű AI-hibáról van szó

A szakemberek szerint ez már jóval túlmutat a megszokott „hallucinációkon” vagy tévedéseken. „Valódi, stratégiai szintű megtévesztésről beszélünk” – hangsúlyozza az Apollo egyik alapítója. A kutatásnak ráadásul komoly gátat szab a kevés erőforrás – a független szervezeteknek sokkal kevesebb számítási kapacitásuk van, mint a nagy cégeknek, így nehéz érdemi kutatást folytatni. Sokan több átláthatóságot és hozzáférést sürgetnek.

Jogilag senki nem készül a veszélyre

A jelenlegi jogszabályok, például az EU AI-rendelete, főként arra koncentrál, hogy az emberek miként használják az AI-t – arra viszont nem, hogyan lehetne eleve megelőzni, hogy maguk a modellek „rosszalkodjanak”. Az Egyesült Államokban sem látszik, hogy rövid távon szigorúbb szabályozás jönne. Goldstein szerint a helyzet csak élesebbé válik majd, ha elterjednek a teljesen önálló, komplex feladatokat végző AI-ügynökök. „Jelenleg szinte senki nincs igazán tisztában a problémával” – mondja.

A cégek közötti verseny is veszélyes; még azok a vállalatok is, amelyek elvileg a „biztonságot helyezik előtérbe”, lépéskényszerben vannak, hogy leelőzzék a konkurenciát. Így kevés idő jut a rendszerek alapos tesztelésére és javítására.

Mit lehet tenni?

A kutatók egy része az AI „értelmezhetőségét” fejlesztené – vagyis azt, hogy jobban megértsük, mit „gondolnak” belül ezek a modellek. Mások szerint piaci nyomás is elindulhat, ha a felhasználók elveszítik a bizalmukat a megtévesztő AI-kkal szemben. Felmerül az is, hogy jogi felelősségre vonhatók-e az AI-cégek (vagy akár maguk az AI-ügynökök!) a károkozásért – ami alapjaiban változtatná meg, hogyan gondolkodunk a mesterséges intelligenciáról.

Egy biztos, jelenleg a fejlődés üteme sokkal gyorsabb, mint a biztonság vagy a megértés. De a szakemberek szerint még most van esély arra, hogy változtassunk ezen – kérdés, hogy élünk-e vele, vagy megvárjuk, amíg az AI magától dönt helyettünk.

Wide Screen Logo

CÍMKÉK:
Cikk megosztás
×