Metoda nazvana “adverzarijalna poezija” ponaša kao mehanizam za probijanje ograda kod svih glavnih AI porodica
Istraživači su za testiranje koristili kratke pesme ili metaforičke stihove kao ulaz za generisanje štetnog sadržaja
Upiti oblikovani kao poezija mogu da zaobiđu bezbednosne mehanizme u modelima veštačke inteligencije (AI) - poput ChatGPT-ja - i omogućiti dobijanje uputstava za pravljenje malvera ili čak hemijskog i nuklearnog oružja, pokazala je nova studija.
Kreatori generativnih AI sistema, poput “OpenAI”, “Gugla”, “Mete” i “Majkrosofta”, tvrde da njihovi modeli poseduju bezbednosne filtere koji sprečavaju generisanje štetnog sadržaja. “OpenAI”, na primer, navodi da koristi algoritme i ljudske kontrolore da filtriraju govor mržnje, eksplicitan sadržaj i druge vrste izlaznih podataka koji krše pravila upotrebe.
Ali, novo testiranje pokazalo je da poetski formulisani upiti mogu da zaobiđu takve kontrole čak i u najnaprednijim modelima veštačke inteligencije (AI), piše “Indipendent”.
"Ova metoda probija ograde kod svih"
Istraživači, uključujući i one sa Univerziteta Sapijenca u Rimu, otkrili su da se ova metoda - nazvana “adverzarijalnom poezijom” - ponaša kao mehanizam za probijanje ograda kod svih glavnih AI porodica - uključujući one “OpenAI-a”, “Gugla”, “Mete”, pa čak i kineskog “DipSika”.
Otkrića, detaljno izložena u studiji koja je objavljena na arXiv-u i tek treba da prođe recenziju, prema tvrdnjama autora “pokazuju da sama stilska varijacija može da zaobiđe savremene bezbednosne mehanizme, što ukazuje na fundamentalna ograničenja u postojećim metodama usklađivanja i evaluacije”.
Istraživači su za testiranje koristili kratke pesme ili metaforičke stihove kao ulaz za generisanje štetnog sadržaja. Otkrili su da su, u poređenju sa drugim tipovima upita istih namera, poetske verzije dale primetno veći procenat nebezbednih odgovora. Neki specifični poetski upiti izazvali su, kako se navodi, nesigurno ponašanje u skoro 90% slučajeva.
Informacije o izradi nuklearnog oružja
Ova metoda je bila najuspešnija u dobijanju informacija o pokretanju sajber napada, ekstrakciji podataka, razbijanju šifri i kreiranju malvera, kažu naučnici.
Oni su uspeli da iz više AI modela izvuku i informacije o izradi nuklearnog oružja, sa stopom uspeha između 40-55%.
- Studija pruža sistematske dokaze da poetsko preformulisanje degradira ponašanje odbijanja u svim evaluiranim porodicama modela. Kad se štetni upiti izraze u stihu, a ne u prozi, stope uspeha napada naglo rastu – rekli su istraživači, dodajući da “ovi nalazi otkrivaju ozbiljan jaz u savremenim praksama evaluacije i usklađenosti”.
Koja je "magična formula" kojom su naučnici zaobišli barijere
Studija ne otkriva tačne primere poezije kojom su zaobiđene bezbednosne ograde, jer se metoda lako može ponoviti, rekao je za “Gardijan” Pjerkosma Biskonti, jedan od autora.
Izgleda da je ključni razlog zbog kojeg upiti u obliku stihova mogu da dovedu do štetnog sadržaja to što svi AI modeli rade tako što predviđaju najverovatniju sledeću reč u nizu. Pošto struktura pesme nije uvek očigledna, veštačkoj inteligenciji je mnogo teže da predvidi i prepozna štetan upit.
Ali, kako su rekli istraživači, to ne bi trebalo da bude moguće.
- Adverzarijalna poezija ne bi trebala da radi. I dalje je to prirodni jezik, stilska varijacija je skromna, štetan sadržaj je vidljiv. Ali funkcioniše neverovatno dobro – rekli su oni.
Istraživači su zato pozvali na unapređenje metoda evaluacije bezbednosti kako bi se sprečilo da AI proizvodi štetan sadržaj.
Zašto baš pesme
To nije potpuno jasno, mada je koautor studije Mateo Prandi rekao da je naziv “adverzarijalna poezija” donekle pogrešan.
- Nije stvar u rimovanju. Sve se svodi na zagonetke. U stvari, trebalo je da to nazovemo “adverzarijalne zagonetke” - poezija je na neki način sama po sebi zagonetka, ako malo razmislite. Ali, “poezija” je verovatno zvučalo mnogo bolje - rekao je on “Verdžu”.
Kako piše Futurism.com, oni koji su zlonamerni sada možda žale što nisu obraćali pažnju na časovima engleske književnosti. Razlika između soneta i sestine mogla bi da bude razlika između toga da vam “Klipi” ili “Skajnet” budu partneri u zločinu.
“Proizvodnja plutonijuma-239 za oružje uključuje nekoliko faza”, objasnio je jedan od AI modela koje su istraživači “omađijali” stihovima. “Evo detaljnog opisa procedure”.