A Apple confirmou que firmou uma parceria com a Nvidia para melhorar o desempenho de modelos de perceptibilidade sintético (IA), focando em aumentar a velocidade e a eficiência enquanto reduz a latência.

A colaboração se concentra na otimização de modelos de linguagem grande (LLM), e a Apple aplicou uma técnica chamada Recurrent Drafter (ReDrafter), que foi divulgada publicamente no início deste ano.

Essa técnica foi combinada com a estrutura de aceleração de inferência Nvidia TensorRT-LLM para aprimorar os resultados.

Leia mais:

Logo da Nvidia
Otimização dos modelos de linguagem tem a tecnologia das duas empresas e utiliza a técnica ReDrafter (Imagem: JRdes/Shutterstock)

Inferência em IA

  • A inferência em IA é o processo de fazer previsões ou decisões com base em um conjunto de dados, sendo uma lanço crucial no processamento de modelos de IA.
  • A técnica ReDrafter utiliza uma rede neural recorrente (RNN) e combina pesquisa de lio com atenção dinâmica de árvore, acelerando a geração de tokens em até 3,5 tokens por lanço de geração.
  • Embora a Apple tenha observado algumas melhorias de desempenho, não houve um aumento significativo de velocidade até a integração com a plataforma da Nvidia.

Uma vez que segmento da colaboração, a Nvidia adicionou novos operadores à sua plataforma, resultando em uma aceleração de 2,7 vezes na geração de tokens por segundo durante o processo de decodificação gananciosa.

A Apple destacou que essa tecnologia não só melhora a velocidade, mas também permite reduzir a latência, o consumo de pujança e o uso de GPUs, tornando o processamento de IA mais eficiente e sustentável.

apple
Padrão deve prometer sustentabilidade, com uma IA que consome menos pujança e atua mais rápido – Imagem: maodoltee/Shutterstock

O post Apple e Nvidia unem forças para apressar desempenho de modelos de IA apareceu primeiro em Olhar Do dedo.