Jak trenować bezpieczniejsze AI bez utraty inteligencji? Nowa metoda omija paradoks wyrównania
Każdy, kto próbował okiełznać dużego chatbota, zna ten dylemat: im bardziej go 'wyrównujemy', tym częściej zaczyna głupieć. Nowa metoda treningu – On‑Policy Consistency Training – pozwala modelom zachować spójność w niebezpiecznych sytuacjach, a przy tym…
