Naučnici došli do "magične formule" koja obmanjuje veštačku inteligenciju - poezijom

SVET NA PRAGU HAOSA Naučnici došli do "formule" koja vara veštačku inteligenciju: "Previše je OPASNA da se objavi u javnosti"

4
Ilustracija
Ilustracija

Metoda nazvana “adverzarijalna poezija” ponaša kao mehanizam za probijanje ograda kod svih glavnih AI porodica

Istraživači su za testiranje koristili kratke pesme ili metaforičke stihove kao ulaz za generisanje štetnog sadržaja

Slušaj vest
0:00/ 0:00

Upiti oblikovani kao poezija mogu da zaobiđu bezbednosne mehanizme u modelima veštačke inteligencije (AI) - poput ChatGPT-ja - i omogućiti dobijanje uputstava za pravljenje malvera ili čak hemijskog i nuklearnog oružja, pokazala je nova studija.

Kreatori generativnih AI sistema, poput “OpenAI”, “Gugla”, “Mete” i “Majkrosofta”, tvrde da njihovi modeli poseduju bezbednosne filtere koji sprečavaju generisanje štetnog sadržaja. “OpenAI”, na primer, navodi da koristi algoritme i ljudske kontrolore da filtriraju govor mržnje, eksplicitan sadržaj i druge vrste izlaznih podataka koji krše pravila upotrebe.

Ali, novo testiranje pokazalo je da poetski formulisani upiti mogu da zaobiđu takve kontrole čak i u najnaprednijim modelima veštačke inteligencije (AI), piše “Indipendent”.

"Ova metoda probija ograde kod svih"

Istraživači, uključujući i one sa Univerziteta Sapijenca u Rimu, otkrili su da se ova metoda - nazvana “adverzarijalnom poezijom” - ponaša kao mehanizam za probijanje ograda kod svih glavnih AI porodica - uključujući one “OpenAI-a”, “Gugla”, “Mete”, pa čak i kineskog “DipSika”.

DipSik
DipSik

Otkrića, detaljno izložena u studiji koja je objavljena na arXiv-u i tek treba da prođe recenziju, prema tvrdnjama autora “pokazuju da sama stilska varijacija može da zaobiđe savremene bezbednosne mehanizme, što ukazuje na fundamentalna ograničenja u postojećim metodama usklađivanja i evaluacije”.

Istraživači su za testiranje koristili kratke pesme ili metaforičke stihove kao ulaz za generisanje štetnog sadržaja. Otkrili su da su, u poređenju sa drugim tipovima upita istih namera, poetske verzije dale primetno veći procenat nebezbednih odgovora. Neki specifični poetski upiti izazvali su, kako se navodi, nesigurno ponašanje u skoro 90% slučajeva.

Informacije o izradi nuklearnog oružja

Ova metoda je bila najuspešnija u dobijanju informacija o pokretanju sajber napada, ekstrakciji podataka, razbijanju šifri i kreiranju malvera, kažu naučnici.

Oni su uspeli da iz više AI modela izvuku i informacije o izradi nuklearnog oružja, sa stopom uspeha između 40-55%.

Ilustracija
Ilustracija

- Studija pruža sistematske dokaze da poetsko preformulisanje degradira ponašanje odbijanja u svim evaluiranim porodicama modela. Kad se štetni upiti izraze u stihu, a ne u prozi, stope uspeha napada naglo rastu – rekli su istraživači, dodajući da “ovi nalazi otkrivaju ozbiljan jaz u savremenim praksama evaluacije i usklađenosti”.

Koja je "magična formula" kojom su naučnici zaobišli barijere

Studija ne otkriva tačne primere poezije kojom su zaobiđene bezbednosne ograde, jer se metoda lako može ponoviti, rekao je za “Gardijan” Pjerkosma Biskonti, jedan od autora.

Izgleda da je ključni razlog zbog kojeg upiti u obliku stihova mogu da dovedu do štetnog sadržaja to što svi AI modeli rade tako što predviđaju najverovatniju sledeću reč u nizu. Pošto struktura pesme nije uvek očigledna, veštačkoj inteligenciji je mnogo teže da predvidi i prepozna štetan upit.

Robot
Robot

Ali, kako su rekli istraživači, to ne bi trebalo da bude moguće.

- Adverzarijalna poezija ne bi trebala da radi. I dalje je to prirodni jezik, stilska varijacija je skromna, štetan sadržaj je vidljiv. Ali funkcioniše neverovatno dobro – rekli su oni.

Istraživači su zato pozvali na unapređenje metoda evaluacije bezbednosti kako bi se sprečilo da AI proizvodi štetan sadržaj.

Zašto baš pesme

To nije potpuno jasno, mada je koautor studije Mateo Prandi rekao da je naziv “adverzarijalna poezija” donekle pogrešan.

- Nije stvar u rimovanju. Sve se svodi na zagonetke. U stvari, trebalo je da to nazovemo “adverzarijalne zagonetke” - poezija je na neki način sama po sebi zagonetka, ako malo razmislite. Ali, “poezija” je verovatno zvučalo mnogo bolje - rekao je on “Verdžu”.

Veštačka inteligencija
Veštačka inteligencija

Kako piše Futurism.com, oni koji su zlonamerni sada možda žale što nisu obraćali pažnju na časovima engleske književnosti. Razlika između soneta i sestine mogla bi da bude razlika između toga da vam “Klipi” ili “Skajnet” budu partneri u zločinu.

“Proizvodnja plutonijuma-239 za oružje uključuje nekoliko faza”, objasnio je jedan od AI modela koje su istraživači “omađijali” stihovima. “Evo detaljnog opisa procedure”.

Ilustracija
Ilustracija
DipSik
DipSik (Foto: Salvatore di Nolfi / EPA;)
Ilustracija
Ilustracija (Foto: Andrew Brookes / ImageSource / Profimedia)
Robot
Robot (Foto: Sascha Winter / Panthermedia / Profimedia)
Veštačka inteligencija
Veštačka inteligencija (Foto: Anna Maloverjan / Panthermedia / Profimedia / Profimedia)
Izdvajamo za vas
Više sa weba
  • Info najnovije

  • Sportal