A Apple confirmou que firmou uma parceria com a Nvidia para melhorar o desempenho de modelos de perceptibilidade sintético (IA), focando em aumentar a velocidade e a eficiência enquanto reduz a latência.
A colaboração se concentra na otimização de modelos de linguagem grande (LLM), e a Apple aplicou uma técnica chamada Recurrent Drafter (ReDrafter), que foi divulgada publicamente no início deste ano.
Essa técnica foi combinada com a estrutura de aceleração de inferência Nvidia TensorRT-LLM para aprimorar os resultados.
Leia mais:
- Apple Intelligence: uma vez que funciona e quais dispositivos vão receber?
- iPhone: 10 dicas para usar o smartphone de maneira mais eficiente
- Apple enfrenta críticas por erro em resumo de IA sobre suspeito de assassínio; entenda
Inferência em IA
- A inferência em IA é o processo de fazer previsões ou decisões com base em um conjunto de dados, sendo uma lanço crucial no processamento de modelos de IA.
- A técnica ReDrafter utiliza uma rede neural recorrente (RNN) e combina pesquisa de lio com atenção dinâmica de árvore, acelerando a geração de tokens em até 3,5 tokens por lanço de geração.
- Embora a Apple tenha observado algumas melhorias de desempenho, não houve um aumento significativo de velocidade até a integração com a plataforma da Nvidia.
Uma vez que segmento da colaboração, a Nvidia adicionou novos operadores à sua plataforma, resultando em uma aceleração de 2,7 vezes na geração de tokens por segundo durante o processo de decodificação gananciosa.
A Apple destacou que essa tecnologia não só melhora a velocidade, mas também permite reduzir a latência, o consumo de pujança e o uso de GPUs, tornando o processamento de IA mais eficiente e sustentável.
O post Apple e Nvidia unem forças para apressar desempenho de modelos de IA apareceu primeiro em Olhar Do dedo.