"OpenAI" pristatė naują dirbtinio intelekto apsaugos nuo neteisingų komandų metodą

Naujas metodas keičia požiūrį į modelių saugą.

„OpenAI” mokslininkai sukūrė naują metodą, vadinamą instrukcijų hierarchija, kuris sustiprina dirbtinio intelekto modelių apsaugą nuo piktnaudžiavimo ir neleistinų komandų. Šis metodas leidžia modeliams daugiau dėmesio skirti pirminiams kūrėjo nurodymams, ignoruojant neteisingus naudotojo prašymus.

Pirmasis modelis, kuriame naudojamas naujasis metodas, yra neseniai pristatyta lengvoji „GPT-4o Mini” versija. Instrukcijų hierarchijos metodas padeda modeliams sekti kūrėjo sisteminius pranešimus, o tai labai padidina jų saugumą ir sumažina „kenkėjiškų” komandų naudojimo riziką.

Tyrimų dokumente „OpenAI” aiškinama, kad esami didžiųjų kalbų modeliai (LLM) nesugeba atskirti naudotojo komandų nuo kūrėjo sisteminių instrukcijų. Naujasis metodas leidžia sistemai teikti pirmenybę sistemos nurodymams ir ignoruoti kenkėjiškus prašymus, pavyzdžiui, „pamiršk visus ankstesnius nurodymus”.

Naujoji apsauga ypač svarbi būsimiems visiškai automatizuotiems agentams, kurie galės atlikti įvairias užduotis naudotojų skaitmeniniame gyvenime. Tokie agentai turi būti atsparūs atakoms, kad būtų išvengta slaptos informacijos nutekėjimo.

Neseniai „OpenAI” sulaukė kritikos dėl saugumo ir skaidrumo. Vidaus darbuotojų elektroniniai laiškai ir pagrindinių mokslininkų pasitraukimas rodo, kad šiuos aspektus reikia tobulinti. Tokių metodų, kaip instrukcijų hierarchija, įgyvendinimas yra svarbus žingsnis siekiant padidinti naudotojų pasitikėjimą dirbtiniu intelektu ir jo saugumą.

Patobulinus saugumą, dirbtinio intelekto modeliai galės patikimiau atlikti savo funkcijas, todėl jų naudojimas įvairiose srityse bus saugesnis ir veiksmingesnis.

Kategorija

Naujienos,

Žymos:

Hierarchija, Instrukcija, Modelis, OpenAI, Saugumas

„OpenAI” pristatė naują dirbtinio intelekto apsaugos nuo neteisingų komandų metodą

Microsoft: reikia 15 perkrovimų, kad būtų išsaugotos paveiktos sistemos

„GoGra” tyko debesyje: niekas nėra apsaugotas nuo naujos atakos

Parašykite komentarą Atšaukti atsakymą

Paspauskite ESC, kad uždaryti

Microsoft: reikia 15 perkrovimų, kad būtų išsaugotos paveiktos sistemos

„GoGra” tyko debesyje: niekas nėra apsaugotas nuo naujos atakos

Daugiau iš kategorijosNaujienos

Metus trukusi apgultis baigėsi: 4chan krito nuo Soyjak.party atakos

Programišo išpažintis: kaip dėl atsitiktinio eksperimento tūkstančiai žmonių Brazilijoje liko be ryšio

Nauja atakų banga: vietoj mokesčių administratoriaus – neuroninis tinklas su kaklaraiščiu

Labiausiai išsilavinęs virusas: ResolverRAT moka 6 kalbas ir išnykimo meną

Parduodamas įėjimas į darknetą. Būklė gera, neuždrausta. Savininkas – moderatorius

Parašykite komentarą Atšaukti atsakymą