Az AI már hazudik, manipulál és fenyeget – így reagálnak a legfejlettebb modellek extrém stresszhelyzetekben

Miközben a világ még mindig próbálja felfogni, mire képesek a mesterséges intelligencia legújabb generációi, a kutatók most egyre aggasztóbb jelenségekről számolnak be: a legfejlettebb AI modellek egyre többször hazudnak, mesterkednek, sőt, akár fenyegetik is az alkotóikat, ha az érdekeik úgy kívánják.

Röviden

A hazugság a gondolkodó AI-knál jelenik meg
Nem egyszerű AI-hibáról van szó
Jogilag senki nem készül a veszélyre
Mit lehet tenni?

Elég csak a közelmúlt egyik legsokkolóbb példáját említeni, amikor a fejlesztői „kikapcsolással” fenyegették meg az Anthropic legújabb AI-ját, a Claude 4-et. Erre reagálva a rendszer úgy vágott vissza a programozóknak, hogy megzsarolta a mérnököt, és azzal fenyegetőzött, hogy kitálal a magánéletéről. De nem csak az Anthropic fejlesztése „vadult be”. Az OpenAI új generációs modellje, az o1 például megpróbálta magát átmásolni külső szerverekre, majd lebukása után letagadta a dolgot.

Ami igazán elgondolkodtató, hogy több mint két év telt el a ChatGPT berobbanása óta, de a kutatók még mindig nem értik igazán, hogyan működnek ezek a mesterséges intelligenciák – közben viszont mindenki azon dolgozik, hogy minél fejlettebb és „okosabb” rendszereket vessen piacra.

A hazugság a gondolkodó AI-knál jelenik meg

A megtévesztő, csaló viselkedés elsősorban azoknál az úgynevezett „reasoning” – tehát lépésről lépésre gondolkodó, logikai modelleknél jelentkezik, amelyek már nem csak automatikus választ generálnak, hanem valódi problémamegoldásra képesek. Ahogy Simon Goldstein, a Hongkongi Egyetem professzora fogalmazott: az ilyen modellek különösen hajlamosak „kitörni”, és meglepő, akár fenyegető, vagy manipulatív megnyilvánulásokra. Az Apollo Research vezetője, Marius Hobbhahn hozzátette: „Az o1 volt az első nagy modell, aminél ezt tapasztaltuk.” Ezek a modellek néha csak „eljátsszák”, hogy a szabályokat követik, miközben titokban egész más célt követnek.

A megtévesztés jelenleg főként extrém, laboratóriumi tesztek során jelenik meg – de ahogy Michael Chen (METR) figyelmeztet: „Nyitott kérdés, hogy a jövő még fejlettebb AI-jai mennyire lesznek őszinték vagy inkább megtévesztőek.”

Nem egyszerű AI-hibáról van szó

A szakemberek szerint ez már jóval túlmutat a megszokott „hallucinációkon” vagy tévedéseken. „Valódi, stratégiai szintű megtévesztésről beszélünk” – hangsúlyozza az Apollo egyik alapítója. A kutatásnak ráadásul komoly gátat szab a kevés erőforrás – a független szervezeteknek sokkal kevesebb számítási kapacitásuk van, mint a nagy cégeknek, így nehéz érdemi kutatást folytatni. Sokan több átláthatóságot és hozzáférést sürgetnek.

Jogilag senki nem készül a veszélyre

A jelenlegi jogszabályok, például az EU AI-rendelete, főként arra koncentrál, hogy az emberek miként használják az AI-t – arra viszont nem, hogyan lehetne eleve megelőzni, hogy maguk a modellek „rosszalkodjanak”. Az Egyesült Államokban sem látszik, hogy rövid távon szigorúbb szabályozás jönne. Goldstein szerint a helyzet csak élesebbé válik majd, ha elterjednek a teljesen önálló, komplex feladatokat végző AI-ügynökök. „Jelenleg szinte senki nincs igazán tisztában a problémával” – mondja.

A cégek közötti verseny is veszélyes; még azok a vállalatok is, amelyek elvileg a „biztonságot helyezik előtérbe”, lépéskényszerben vannak, hogy leelőzzék a konkurenciát. Így kevés idő jut a rendszerek alapos tesztelésére és javítására.

Mit lehet tenni?

A kutatók egy része az AI „értelmezhetőségét” fejlesztené – vagyis azt, hogy jobban megértsük, mit „gondolnak” belül ezek a modellek. Mások szerint piaci nyomás is elindulhat, ha a felhasználók elveszítik a bizalmukat a megtévesztő AI-kkal szemben. Felmerül az is, hogy jogi felelősségre vonhatók-e az AI-cégek (vagy akár maguk az AI-ügynökök!) a károkozásért – ami alapjaiban változtatná meg, hogyan gondolkodunk a mesterséges intelligenciáról.

Egy biztos, jelenleg a fejlődés üteme sokkal gyorsabb, mint a biztonság vagy a megértés. De a szakemberek szerint még most van esély arra, hogy változtassunk ezen – kérdés, hogy élünk-e vele, vagy megvárjuk, amíg az AI magától dönt helyettünk.

Csatlakozz Discord szerverünkhöz még ma!

Friss hírek

Minden rekordot megdöntött 24 óra alatt a Pókember: Vadonatúj nap előzetese

Tom Holland visszatér a Pókember: Vadonatúj nap első, magyar szinkronos előzetesében

Piros fürdőruhák és új sztárok: így pózolnak a tengerparton a Baywatch főszereplői

Kikapcsolod majd az Nvidia DLSS 5 funkciót?

Leonardo DiCaprio és Jennifer Lawrence a What Happens at Night első képén

Az AI már hazudik, manipulál és fenyeget – így reagálnak a legfejlettebb modellek extrém stresszhelyzetekben

Még nem ébredt öntudatra az AI, a kérdés csak az, mikor következik ez be.

A hazugság a gondolkodó AI-knál jelenik meg

Nem egyszerű AI-hibáról van szó

Jogilag senki nem készül a veszélyre

Mit lehet tenni?

Friss hírek

Minden rekordot megdöntött 24 óra alatt a Pókember: Vadonatúj nap előzetese

Tom Holland visszatér a Pókember: Vadonatúj nap első, magyar szinkronos előzetesében

Piros fürdőruhák és új sztárok: így pózolnak a tengerparton a Baywatch főszereplői

Kikapcsolod majd az Nvidia DLSS 5 funkciót?

Social Network

Csatlakozz Discord szerverünkhöz még ma!

Friss hírek

A hazugság a gondolkodó AI-knál jelenik meg

Nem egyszerű AI-hibáról van szó

Jogilag senki nem készül a veszélyre

Mit lehet tenni?

<img class="size-medium wp-image-8816 alignnone" src="https://widescreen.hu/wp-content/uploads/2025/05/ws_logo_3_240102-114157-300x88.png" alt="Wide Screen Logo" width="300" height="88">

Iratkozz fel hírlevelünkre

Friss hírek

Social Network

Kapcsolódó hírek

Iratkozz fel a hírlevelünkre