Transformer-Architektur findet sich heute in allen Large Language Models. Aber wie genau funktioniert sie?