Traducción pendiente. Esta definición aún no está traducida al español. Leer la versión en inglés.

Vision Transformer

A transformer applied to images by splitting each image into fixed-size patches, embedding each patch as a token, and running the standard self-attention stack over the patch sequence. ViTs match or beat convolutional networks on large datasets and now power many production image classifiers and multimodal models.

Definición editorial de DecipherU. Para definiciones técnicas autorizadas, consulta NIST AI RMF, ISO/IEC 42001, o las publicaciones oficiales de los laboratorios de IA.