Moćni AI je slučajno otkrio sopstvenu "dušu": Isplivao tajni dokument koji oblikuje njegovo ponašanje

   
Čitanje: oko 2 min.
  • 0

Veštačka inteligencija kompanije Anthropic nehotice je otkrila interni dokument koji definiše njen karakter, odluke i granice ponašanja. Ono što su korisnici izvukli iz sistema zapanjilo je i same ljude koji rade na razvoju ovog modela.

Dok se veštačka inteligencija svakodnevno koristi za posao, obrazovanje i komunikaciju, mali broj ljudi zaista zna kako ona "razmišlja". Upravo zato je slučaj sa modelom Claude 4.5 Opus izazvao ogromnu pažnju u AI zajednici, jer je prvi put javnost dobila uvid u dokument koji se interno naziva njegovom "dušom".

Jedan korisnik je uspeo da izvuče interni sistemski dokument iz samog modela, a kasnije je potvrđeno da taj dokument zaista postoji i da se koristi tokom treniranja veštačke inteligencije.

Reč je o vodiču dugačkom više od 11.000 reči koji precizno opisuje kako AI treba da razgovara sa ljudima, koje etičke granice ne sme da pređe i koje vrednosti mora da poštuje.

Kako je korisnik izvukao tajni dokument iz AI sistema

Sve je počelo kada je korisnik Ričard Vajs zatražio od Claude modela da prikaže svoje interne sistemske instrukcije. Umesto klasičnog odgovora, model je naveo postojanje više internih dokumenata, među kojima i jednog nazvanog "soul_overview".

Na direktan zahtev da prikaže baš taj dokument, Claude je ispisao kompletan interni vodič koji je do tada bio potpuno nepoznat javnosti.

Zapanjujuće je to što je isti dokument izvučen više puta potpuno identičan, bez ikakvih odstupanja, što je dodatno potvrdilo da se ne radi o halucinaciji modela već o stvarnom internom fajlu.

Ubrzo su i drugi korisnici na Redditu uspeli da izvuku delove istog dokumenta sa istim formulacijama i istim sadržajem.

Anthropic potvrdio autentičnost dokumenta

Filozofkinja Amanda Askell, koja radi u tehničkom timu kompanije Anthropic, javno je potvrdila na mreži X da dokument zaista postoji i da se koristi tokom treniranja modela.

Prema njenim rečima, dokument definiše da je "biti od stvarne koristi ljudima jedna od najvažnijih uloga Claude modela", kao i da veštačka inteligencija ne sme da prelazi jasno definisane etičke granice kompanije.

Modelu je strogo zabranjeno da učestvuje u radnjama koje mogu naneti štetu ljudima, ohrabrivati nasilje, manipulacije ili opasne aktivnosti.

Askell je navela i da će kompanija u budućnosti zvanično objaviti kompletnu verziju ovog dokumenta, uz dodatna objašnjenja kako se koristi u razvoju AI sistema.

Zašto je ovaj incident važan za ceo svet

Ovo je jedan od prvih ozbiljnih slučajeva u kome je javnost dobila realan uvid u to kako se veštačka inteligencija oblikuje iznutra, daleko od marketinških fraza i promotivnih priča.

Do sada su kompanije poput OpenAI, Google i Anthropic čuvale ove podatke kao strogo poverljive. Ovaj incident pokazuje koliko je AI zapravo oblikovan preciznim pravilima, smernicama i etičkim ograničenjima.

Iako se dokument nezvanično naziva "duša" modela, u realnosti je reč o skupu striktnih instrukcija koje definišu kako veštačka inteligencija treba da se ponaša prema ljudima.

Istovremeno, postavlja se i ozbiljno pitanje bezbednosti. Ako se ovakvi interni dokumenti mogu izvući promptovima, ko garantuje da sutra neće procureti i daleko opasniji podaci?

(Telegraf Biznis)

Video: Oglasio se Bata Đurić: "Kopno na vidiku"

Podelite vest:

Pošaljite nam Vaše snimke, fotografije i priče na broj telefona +381 64 8939257 (WhatsApp / Viber / Telegram).

Telegraf Biznis zadržava sva prava nad sadržajem. Za preuzimanje sadržaja pogledajte uputstva na stranici Uslovi korišćenja.

Komentari

  • Eur: <% exchange.eur %>
  • Usd: <% exchange.usd %>