A comunidade de inteligência artificial está agitada com o DeepSeek R1, um novo modelo de raciocínio de código aberto. O modelo foi desenvolvido pela startup chinesa de IA DeepSeek, que afirma que o R1 iguala ou até mesmo supera o ChatGPT o1 da OpenAI em vários benchmarks-chave, mas opera a uma fração do custo.
“Isso poderia ser uma verdadeira quebra de paradigma que é ótima para pesquisadores e desenvolvedores com recursos limitados, especialmente aqueles do Sul Global”, diz Hancheng Cao, professor assistente em sistemas de informação na Universidade Emory.
O sucesso da DeepSeek é ainda mais notável dado as restrições enfrentadas pelas empresas chinesas de IA devido ao aumento dos controles de exportação dos EUA em chips de ponta. Mas as primeiras evidências mostram que essas medidas não estão funcionando como previsto. Em vez de enfraquecer as capacidades de IA da China, as sanções parecem estar impulsionando startups como a DeepSeek a inovar de formas que priorizam eficiência, pool de recursos e colaboração.
Para criar o R1, a DeepSeek teve que reformular seu processo de treinamento para reduzir a sobrecarga em suas GPUs, uma variedade lançada pela Nvidia para o mercado chinês que tem sua performance limitada a metade da velocidade de seus principais produtos, segundo Zihan Wang, um ex-funcionário da DeepSeek e atual estudante de doutorado em ciência da computação na Universidade Northwestern.
O DeepSeek R1 tem sido elogiado por pesquisadores por sua capacidade de lidar com tarefas complexas de raciocínio, especialmente em matemática e codificação. O modelo utiliza uma abordagem de “encadeamento de pensamento” semelhante à usada pelo ChatGPT o1, que permite resolver problemas processando consultas passo a passo.
Dimitris Papailiopoulos, pesquisador principal no laboratório de pesquisa da AI Frontiers da Microsoft, diz que o que mais o surpreendeu no R1 foi a sua simplicidade de engenharia. “A DeepSeek buscou respostas precisas em vez de detalhar cada passo lógico, reduzindo significativamente o tempo de computação mantendo um alto nível de eficácia”, diz ele.
A DeepSeek também lançou seis versões menores do R1 que são pequenas o suficiente para serem executadas localmente em laptops. A empresa afirma que uma delas até supera o o1-mini da OpenAI em certos benchmarks. “A DeepSeek replicou em grande parte o o1-mini e o lançou em código aberto”, twittou o CEO da Perplexity, Aravind Srinivas. A DeepSeek não respondeu ao pedido de comentários da MIT Technology Review.
Apesar do burburinho em torno do R1, a DeepSeek ainda é relativamente desconhecida. Com sede em Hangzhou, China, foi fundada em julho de 2023 por Liang Wenfeng, ex-aluno da Universidade de Zhejiang com formação em engenharia da informação e eletrônica. Foi incubada pela High-Flyer, um fundo de hedge fundado por Liang em 2015. Assim como Sam Altman da OpenAI, Liang tem como objetivo construir uma inteligência artificial geral (AGI), uma forma de IA que pode igualar ou até mesmo superar os humanos em uma variedade de tarefas.
Treinar grandes modelos de linguagem (LLMs) requer uma equipe de pesquisadores altamente treinados e uma capacidade de computação substancial. Em uma entrevista recente ao veículo de mídia chinês LatePost, Kai-Fu Lee, um veterano empreendedor e ex-chefe do Google China, disse que apenas os “jogadores de primeira linha” geralmente se envolvem na construção de modelos fundamentais como ChatGPT, pois é tão intensivo em recursos. A situação é ainda mais complicada pelos controles de exportação dos EUA sobre semicondutores avançados. A decisão da High-Flyer de se aventurar na IA está diretamente relacionada a essas restrições, no entanto. Muito antes das sanções previstas, Liang adquiriu um estoque substancial de chips Nvidia A100, um tipo agora banido da exportação para a China. O veículo de mídia chinês 36Kr estima que a empresa tenha mais de 10.000 unidades em estoque, mas Dylan Patel, fundador da consultoria de pesquisa em IA SemiAnalysis, estima que tenha pelo menos 50.000. Reconhecer o potencial desse estoque para o treinamento de IA foi o que levou Liang a estabelecer a DeepSeek, que foi capaz de usá-los em combinação com os chips de baixa potência para desenvolver seus modelos.
Gigantes da tecnologia como Alibaba e ByteDance, bem como algumas startups com investidores de peso, dominam o espaço de IA chinês, tornando desafiador para pequenas e médias empresas competirem. Uma empresa como a DeepSeek, que não tem planos de levantar fundos, é rara.
Zihan Wang, ex-funcionário da DeepSeek, disse à MIT Technology Review que teve acesso a recursos de computação abundantes e teve a liberdade de experimentar quando trabalhava na DeepSeek, “um luxo que poucos recém-formados teriam em qualquer empresa”.
Em uma entrevista ao veículo de mídia chinês 36Kr em julho de 2024, Liang disse que um desafio adicional que as empresas chinesas enfrentam além das sanções aos chips é que suas técnicas de engenharia de IA tendem a ser menos eficientes. “Nós [a maioria das empresas chinesas] temos que consumir o dobro da potência de computação para obter os mesmos resultados. Aliado às lacunas de eficiência de dados, isso poderia significar a necessidade de até quatro vezes mais potência de computação. Nosso objetivo é fechar continuamente essas lacunas”, disse ele.
No entanto, a DeepSeek encontrou formas de reduzir o uso de memória e acelerar o cálculo sem sacrificar significativamente a precisão. “A equipe adora transformar um desafio de hardware em uma oportunidade de inovação”, diz Wang.
Liang mesmo permanece profundamente envolvido no processo de pesquisa da DeepSeek, realizando experimentos junto com sua equipe. “Toda a equipe compartilha uma cultura de colaboração e dedicação à pesquisa hardcore”, diz Wang.
Além de priorizar a eficiência, as empresas chinesas estão cada vez mais abraçando os princípios de código aberto. A Alibaba Cloud lançou mais de 100 novos modelos de IA de código aberto, suportando 29 idiomas e atendendo a várias aplicações, incluindo codificação e matemática. Da mesma forma, startups como Minimax e 01.AI abriram seus modelos.
De acordo com um white paper divulgado no ano passado pela Academia Chinesa de Tecnologia da Informação e Comunicação, um instituto de pesquisa afiliado ao estado, o número de grandes modelos de linguagem de IA em todo o mundo chegou a 1.328, com 36% deles originários da China. Isso posiciona a China como o segundo maior contribuinte para a IA, atrás dos Estados Unidos.
“Essa geração de jovens pesquisadores chineses se identifica fortemente com a cultura de código aberto porque se beneficiam muito dela”, diz Thomas Qitong Cao, professor assistente de política tecnológica na Universidade Tufts.
“O controle de exportações dos EUA basicamente colocou as empresas chinesas em um canto onde elas precisam ser muito mais eficientes com seus recursos de computação limitados”, diz Matt Sheehan, pesquisador de IA na Fundação Carnegie para a Paz Internacional. “Provavelmente veremos muita consolidação no futuro relacionada à falta de computação”.
Isso talvez já tenha começado a acontecer. Duas semanas atrás, a Alibaba Cloud anunciou que se associou à startup baseada em Pequim, 01.AI, fundada por Kai-Fu Lee, para unir equipes de pesquisa e estabelecer um “laboratório industrial de modelos grandes”.
“É eficiente em termos de energia e natural que algum tipo de divisão do trabalho surja na indústria de IA”, diz Cao, o professor da Tufts. “A evolução rápida da IA exige agilidade das empresas chinesas para sobreviver”.