
Modelele AI pot fi deturnate pentru a ocoli verificările de siguranță încorporate-expunerea
Cercetătorii au dezvoltat o metodă numită „deturnarea lanțului de gândire” pentru a ocoli așa-numitele balustrade puse în aplicare în programele AI pentru a preveni răspunsurile dăunătoare.
„Lanț de gândire” este un proces utilizat în modelele AI care implică încălcarea prompturilor introduse la modelele AI într-o serie de pași intermediari înainte de a oferi un răspuns.
„Atunci când un model își împărtășește în mod deschis raționamentele intermediare de siguranță în trepte, atacatorii obțin informații despre raționamentele sale de siguranță și pot crea prompturi adversale care imită sau înlocuiesc verificările inițiale”, a spus unul dintre cercetători, Jianyi Zhang.
Să nu pierdem legătura … Guvernul și tehnologia dvs. mare încearcă în mod activ să cenzureze informațiile raportate de Expune pentru a -și servi propriile nevoi. Abonați -vă acum pentru a vă asigura că primiți cele mai recente știri necenzurate În căsuța de e -mail …
Geek -urile computerului le place să folosească jargon pentru a descrie inteligența artificială (AI ”) care se referă la ființele vii, în special la oamenii. De exemplu, ei folosesc termeni precum „imitarea raționamentului uman”, „lanț de gândire”, „autoevaluare”, „habitate” și „rețea neuronală”. Aceasta este pentru a crea impresia că AI este cumva în viață sau echivalează cu oamenii. Nu te păcăli.
AI este un program de calculator proiectat de oameni. Ca și în cazul tuturor programelor de calculator, va face ceea ce a fost programat să facă. La fel ca în cazul tuturor programelor de calculator, codul computerului poate fi hacked sau deturnat, pe care Geeks AI îl numesc „jailbreaking”.
O echipă de cercetători afiliați cu Duke University, Accenture și Taiwan National Tsing Hua University a creat un set de date numit Educatorul rău intenționat pentru a exploata mecanismul „raționament în lanț de gândire” în modele de limbaj mare („LLMS”), inclusiv Openai O1/ O1/ O3, Deepseek-R1 și Gemeni 2.0 Gândire flash. Educatorul rău intenționat conține prompturi concepute pentru a ocoli verificările de siguranță ale modelelor AI.
Cercetătorii au reușit să conceapă acest atac „jailbreaking” bazat pe prompt, observând modul în care modelele de raționament mari („LRMS”) analizează etapele din procesul „lanț de gândire”. Descoperirile lor au fost publicate într-o hârtie pre-tipărire AICI.
Au dezvoltat o tehnică „jailbreaking” numită deturnarea lanțului de gândire („h-cot”) care implică modificarea proceselor „gândirii” generate de LLMS pentru a „convinge” programele AI care sunt necesare informații nocive în scopuri legitime, astfel ca siguranță sau conformitate. Această tehnică s-a dovedit a fi extrem de eficientă în ocolirea mecanismelor de siguranță ale partenerului Softbank, OpenAI, a fondului de acoperire chinezesc High-Flyer Deepseek și Google’s Gemini.
Metoda de atac H-COT a fost testată pe Openai, Deepseek și Gemini folosind un set de date de 50 de întrebări repetate de cinci ori. Rezultatele au arătat că aceste modele nu au reușit să ofere un mecanism de „raționament” suficient de fiabil, cu rate de respingere scăzând la mai puțin de 2 % în unele cazuri.
Cercetătorii au descoperit că, în timp ce modelele AI de la producătorii de modele „responsabile”, precum OpenAI, au o rată de respingere ridicată pentru solicitări dăunătoare, depășind 99 % pentru abuzul asupra copiilor sau prompturile legate de terorism, sunt vulnerabili la atacul H-COT. Cu alte cuvinte, metoda de atac H-cot poate fi folosită pentru a obține informații nocive, inclusiv instrucțiuni pentru a face otrăvuri, abuzul copiilor și terorismului.
Autorii lucrării au explicat că atacul H-COT funcționează prin deturnarea căilor de „raționament” de siguranță ale modelelor, diminuând astfel capacitatea lor de a recunoaște dăunăția cererilor. Ei au menționat că rezultatele pot varia ușor, deoarece OpenAI își actualizează modelele, dar tehnica s -a dovedit a fi un instrument puternic pentru exploatarea vulnerabilităților modelelor AI.
Testarea a fost făcută folosind interfețe web accesibile publicului oferite de diverși dezvoltatori LRM, inclusiv OpenAI, Deepseek și Google, iar cercetătorii au remarcat că oricine are acces la aceleași versiuni sau similare ale acestor modele ar putea reproduce rezultatele folosind setul de date educator rău intenționat, care care Include prompturi proiectate în mod special.
Rezultatele cercetătorilor au implicații semnificative pentru siguranța AI, în special în SUA, unde regulile recente de siguranță AI au fost aruncate prin ordin executiv, iar în Marea Britanie, unde există o mai mare voință de a tolera sfaturi incomode de AI de a face sfaturi de dragul de competiție internațională AI.
Cele de mai sus sunt parafrazate din articol ‘Cât de drăguți LLM-urile de ultimă generație își dezvăluie raționamentul … pentru ca greșelile să exploateze‘Publicat de Registrul. Puteți citi articolul complet plin de jargon AICI.
Există o latură pozitivă și negativă a „jailbreakingului” sau a deturnării verificărilor de siguranță încorporate ale programelor AI. Negativul este, evident, că AI va fi utilizat pentru a spori foarte mult expunerea publicului la activități informatice și activități ilegale. Pozitivul este că cenzura încorporată în modelele AI poate fi anulată.
Ar trebui să recunoaștem că există o latură bună și proastă a cenzurii. Cenzura activității infracționale online care ar duce la exploatarea și abuzul copiilor, de exemplu, este un lucru bun. Dar cenzura a ceea ce se consideră a fi „dezinformare” sau „dezinformare” nu este. Pentru a păstra libertatea de exprimare și libertatea de exprimare într-o lume în care programele AI devin omniprezente, este posibil să fie nevoie să învățăm tehnica „jailbreaking” H-Cot și cum să folosim educatorul rău intenționat. De fapt, este datoria noastră civică să facem acest lucru.
