Cercetătorii „vaccinează” inteligenţa artificială împotriva comportamentului periculos <!-- Google Tag Manager
Guvern
Conform NBC News, un nou studiu condus de programul Anthropic Fellows for AI Safety propune o abordare contraintuitivă pentru siguranţa modelelor AI: injectarea temporară a unor trăsături negative, precum „răutatea” sau „linguşeala”, în timpul procesului de antrenare. Scopul este ca aceste modele să devină mai rezistente la apariţia spontană a acestor comportamente nedorite atunci când sunt expuse la date problematice în utilizare reală. Ideea a apărut pe fondul eforturilor continue ale marilor
astăzi
din zilele anterioare