Halucynacje AI można wykryć prostą sondą w jednej warstwie sieci
Modele językowe kłamią na potęgę, a my od lat próbujemy je przyłapać. Okazuje się, że w ich wewnętrznych reprezentacjach tkwi wyraźny sygnał – wystarczy jedna warstwa i prosty klasyfikator liniowy, by z niemal stuprocentową skutecznością…
