Naujas metodas keičia požiūrį į modelių saugą.
„OpenAI” mokslininkai sukūrė naują metodą, vadinamą instrukcijų hierarchija, kuris sustiprina dirbtinio intelekto modelių apsaugą nuo piktnaudžiavimo ir neleistinų komandų. Šis metodas leidžia modeliams daugiau dėmesio skirti pirminiams kūrėjo nurodymams, ignoruojant neteisingus naudotojo prašymus.
Pirmasis modelis, kuriame naudojamas naujasis metodas, yra neseniai pristatyta lengvoji „GPT-4o Mini” versija. Instrukcijų hierarchijos metodas padeda modeliams sekti kūrėjo sisteminius pranešimus, o tai labai padidina jų saugumą ir sumažina „kenkėjiškų” komandų naudojimo riziką.
Tyrimų dokumente „OpenAI” aiškinama, kad esami didžiųjų kalbų modeliai (LLM) nesugeba atskirti naudotojo komandų nuo kūrėjo sisteminių instrukcijų. Naujasis metodas leidžia sistemai teikti pirmenybę sistemos nurodymams ir ignoruoti kenkėjiškus prašymus, pavyzdžiui, „pamiršk visus ankstesnius nurodymus”.
Naujoji apsauga ypač svarbi būsimiems visiškai automatizuotiems agentams, kurie galės atlikti įvairias užduotis naudotojų skaitmeniniame gyvenime. Tokie agentai turi būti atsparūs atakoms, kad būtų išvengta slaptos informacijos nutekėjimo.
Neseniai „OpenAI” sulaukė kritikos dėl saugumo ir skaidrumo. Vidaus darbuotojų elektroniniai laiškai ir pagrindinių mokslininkų pasitraukimas rodo, kad šiuos aspektus reikia tobulinti. Tokių metodų, kaip instrukcijų hierarchija, įgyvendinimas yra svarbus žingsnis siekiant padidinti naudotojų pasitikėjimą dirbtiniu intelektu ir jo saugumą.
Patobulinus saugumą, dirbtinio intelekto modeliai galės patikimiau atlikti savo funkcijas, todėl jų naudojimas įvairiose srityse bus saugesnis ir veiksmingesnis.