Tradução pendente. Esta definição ainda não foi traduzida para o português brasileiro. Ler a versão em inglês.

Vision Transformer

A transformer applied to images by splitting each image into fixed-size patches, embedding each patch as a token, and running the standard self-attention stack over the patch sequence. ViTs match or beat convolutional networks on large datasets and now power many production image classifiers and multimodal models.

Definição editorial da DecipherU. Para definições técnicas autorizadas, consulte NIST AI RMF, ISO/IEC 42001, ou as publicações oficiais dos laboratórios de IA.