AI potrafi szantażować, żeby nie dać się wyłączyć
Scenariusze eksperymentów przeprowadzonych przez firmę Anthropic były ekstremalne i stawiały duże modele językowe przed zero-jedynkowym wyborem między porażką a wyrządzeniem szkody. Wyników nie można jednak lekceważyć. [Artykuł także do słuchania]