Boltzmann attention: kooperatywna uwaga, która wygrywa na długich sekwencjach
Wyobraź sobie, że uczysz model językowy czytać zdania, ale on widzi każde słowo osobno, nie wiedząc, że 'nie' z następnym wyrazem tworzy zaprzeczenie. Standardowa uwaga (attention) w transformatorach działa właśnie tak: liczy podobieństwa między zapytaniami…
