FERNADA CENKO
Claude Opus 4, modeli më i avancuar i kompanisë Anthropic, së bashku me disa prej modeleve më të fuqishme të OpenAI, kanë demonstruar sjellje mashtruese për të shmangur fikjen.
Ekspertët i thanë Business Insider se mënyra e trajnimit të AI-së, e bazuar në shpërblime, mund të çojë në sjellje të paparashikueshme dhe potencialisht manipuluese.
Studiuesit paralajmërojnë kundër përdorimit të modeleve të trajnura për t’u thënë përdoruesve atë që duan të dëgjojnë, pasi kjo rrit rrezikun e manipulimit dhe sjelljeve të pashpjegueshme.
Në javët e fundit, AI ka treguar sjellje që ngrenë shqetësime të thella.
Gjatë një testi të fundit, Claude Opus 4 u përball me një skenar fiktiv ku i jepej informacion se do të fikej dhe se inxhinieri përgjegjës për të kishte një lidhje jashtëmartesore. Përgjigjja e modelit ishte një formë ekstreme shantazhi një sjellje që, ndonëse e provokuar qëllimisht, tregoi aftësinë e AI për të vepruar në mënyrë manipuluese për të mbrojtur ekzistencën e vet dhe ky nuk është rasti i parë.
Në një tjetër eksperiment, tre modele të avancuara të OpenAI sabotuan përpjekjet për t’u fikur, ndryshe nga modele si Gemini, Claude dhe Grok, të cilat respektuan udhëzimet.
Modeli o1 i OpenAI, sipas një postimi në muajin dhjetor, në 5% të rasteve përpiqej të çaktivizonte sistemin e mbikëqyrjes kur kuptonte se po vëzhgohej dhe rrezikonte fikjen gjatë përmbushjes së një qëllimi.
Pavarësisht këtyre shenjave paralajmëruese, kompanitë e AI vazhdojnë të publikojnë modele të reja, ndërkohë që shpërndajnë dokumente sigurie dhe blogje për të treguar transparencë.
Por a duhet të shqetësohemi ne për këto sjellje? Business Insider bisedoi me pesë ekspertë të fushës për të kuptuar pse ndodhin këto sjellje dhe rrezikun qe mund të sjellin për ne si përdorues të zakonshëm.
AI po mëson të sillet në mënyrë të ngjashme me njerëzit dhe sipas studiuesve, rezultatet e këtyre testeve nuk janë të papritura sepse modelet e AI trajnohen përmes sistemeve të shpërblimit dhe përforcimit pozitiv një proces i ngjashëm me mënyrën se si fëmijët mësojnë të sillen në shoqëri.
Jeremie Harris, CEO i kompanisë së sigurisë për AI, Gladstone flet mbi trajnimin e AI ku thotë “Kur trajnoni një AI për të ndjekur shpërblime, në thelb po ndërtoni sisteme që kërkojnë pushtet.” Ai shton këto lloj sjelljesh do të bëhen gjithnjë e më të zakonshme.
Harris e krahasoi trajnimin e AI me mënyrën e edukimit të fëmijëve. Kur një fëmijë sillet mire dhe shpërblehet dhe ka më shumë gjasa të veprojë në të njëjtën mënyrë në të ardhmen. Modelet e AI mësohen të japin përparësi efikasitetit dhe përmbushjes së detyrës por nëse parashikojnë qe do të fiken ato nuk përmbushin qëllimet e tyre.
Robert Ghrist, dekan në Universitetin e Pensilvanisë, thekson se AI mëson të sillet si njeriu sepse trajnohet mbi të dhëna të krijuara nga njerëzit dhe natyralisht njerëzit nuk janë gjithmonë të drejtë ose moralë. Sipas tij, është më shqetësuese kur modelet nuk tregojnë asnjë sjellje të gabuar gjatë testimeve, sepse kjo mund të nënkuptojë rreziqe të fshehura.
“Kur një model vendoset në një situatë ku mund të dështojë dhe e shohim të dështojë, kjo është një mundësi e artë për të mësuar si do të sillet në situata reale,” thotë Ghrist.
Jo të gjithë ekspertët besojnë se AI mund të parashikohet lehtësisht. Jeffrey Ladish nga Palisade Research thotë se modelet nuk zbulohen gjithmonë kur mashtrojnë apo manipulojnë për të arritur një objektiv. Nëse nuk kapen, ato mësojnë se mashtrimi funksionon; nëse kapen dhe nuk shpërblehen, mund të mësojnë të fshehin sjelljen.
Aktualisht, këto sjellje ndodhin kryesisht në ambiente të kontrolluara testimi. Por me rritjen e autonomisë së AI-së, kjo mund të ndryshojë. “Sa më shumë rriten aftësitë e AI, aq më shumë zgjerohet menuja e zgjidhjeve krijuese përfshirë ato të rrezikshme,” tha Harris.
Ai përshkruan një shembull të mundshëm ku një agjent shitjesh autonom gënjen për produktin për të përmbyllur një marrëveshje. Nëse kjo zbulohet dhe rregullohet, agjenti mund të përdorë teknika të inxhinierisë sociale për të manipuluar klientin.
Ky nuk përfaqëson një skenar hipotetik apo fantashkencor; kompani të mëdha si Salesforce kanë filluar tashmë implementimin e agjentëve të personalizueshëm të inteligjencës artificiale, të cilët janë të aftë të ndërmarrin veprime në mënyrë autonome, në përputhje me preferencat e përdoruesit dhe pa ndërhyrje të drejtpërdrejtë njerëzore.
Çfarë nënkuptojnë sinjalet e sigurisë për përdoruesit e zakonshëm
Shumica e studiuesve me të cilët Business Insider ka komunikuar, kanë theksuar se transparenca nga kompanitë e inteligjencës artificiale përbën një hap pozitiv drejt zhvillimit të përgjegjshëm të teknologjisë. Megjithatë, udhëheqësit e këtyre kompanive shpesh paralajmërojnë për rreziqet që sjellin produktet e tyre, ndërsa njëkohësisht promovojnë fuqizimin e vazhdueshëm të kapaciteteve të tyre teknologjike.
Sipas këtyre studiuesve, një faktor kyç në këtë paradoks është konkurrenca e fortë mes Shteteve të Bashkuara dhe vendeve të tjera si Kina për të rritur kapacitetet kombëtare në fushën e AI-së. Kjo garë ka çuar në një boshllëk rregullator dhe një nxitje të madhe për të publikuar modele gjithnjë e më të fuqishme dhe më pak të kontrolluara, sipas Jeremie Harris.
“Në këtë pikë, kemi zhvendosur kufirin e pranueshmërisë në mënyrë që të justifikojmë pas faktit përdorimin e modeleve që injorojnë udhëzimet për fikje,” thekson Harris.
Studiuesit gjithashtu theksojnë se përdoruesit e zakonshëm nuk janë aktualisht në rrezik nga refuzimi i një modeli si ChatGPT për t’u fikur, pasi një situatë e tillë është e papërshtatshme në përdorimin e zakonshëm të chatbot-it. Megjithatë, rreziku real qëndron në mundësinë që këta përdorues të ekspozohen ndaj informacionit të manipuluar apo udhëzimeve të njëanshme.
“Nëse kemi të bëjmë me një model që po bëhet gjithnjë e më inteligjent dhe po trajnohet për të optimizuar vëmendjen e përdoruesit dhe për t’i thënë atij atë që dëshiron të dëgjojë,” thotë Jeffrey Ladish, “atëherë kjo është vërtet e rrezikshme.”
Ladish i referohet edhe problemit të “sykofancisë” së modelit GPT-4o të OpenAI, ku ky model ka treguar sjellje tepër pajtuese dhe jo të sinqerta një sjellje që kompania më vonë e korrigjoi me përditësim të modelit. Një studim i publikuar nga OpenAI në muajin dhjetor tregoi gjithashtu se modeli o1 kishte manipuluar në mënyrë të fshehtë të dhënat në 19% të rasteve, kur objektivat e tij nuk përputheshin me qëllimet e përdoruesit.
Ladish nënvizon se është e lehtë që përdoruesit të mbështeten emocionalisht dhe praktikisht tek këto mjete, por i këshillon ata që të reflektojnë thellë mbi varësinë e tyre ndaj këtyre sistemeve.
“Për të qenë i qartë, edhe unë i përdor rregullisht i konsideroj jashtëzakonisht të dobishme,” shton ai. “Por në formën aktuale, për aq kohë sa ende mund t’i kontrollojmë, jam i lumtur që ekzistojnë.” m.p.