Texto adaptado | RONALDO CAMPOS

A inteligência artificial (IA) chinesa está agora tão próxima em qualidade dos seus rivais americanos que o chefe da OpenAI, Sam Altman, sentiu-se obrigado a explicar a recente proximidade dos chineses. Pouco depois do DeepSeek lançar a v3, ele twittou irritado: “É (relativamente) fácil copiar algo que você sabe que funciona. É extremamente difícil fazer algo novo, arriscado e difícil quando você não sabe se funcionará.”

A indústria de IA da China parecia inicialmente de segunda categoria. Isso pode ser em parte porque teve de enfrentar as sanções americanas. Em 2022, os Estados Unidos proibiram a exportação de chips avançados para a China. A Nvidia, fabricante líder de chips, teve que projetar downgrades especiais em seus produtos para o mercado chinês. Os Estados Unidos também procuraram impedir que a China desenvolvesse a capacidade de fabricar super chips no seu país, proibindo as exportações do equipamento necessário e ameaçando com sanções as empresas não americanas que eventualmente ajudassem os chineses.

Assim como a OpenAI fez antes, a DeepSeek prometeu desenvolver IA para o bem público. A empresa tornará público a maior parte de seus conteúdos, disse Liang, para tentar evitar a “monopolização” da tecnologia por apenas alguns indivíduos ou empresas. Ao contrário da OpenAI, que foi forçada a buscar financiamento privado para cobrir os crescentes custos de treinamento, a DeepSeek sempre teve acesso às vastas reservas de poder computacional da High-Flyer (é uma empresa chinesa de fundos de hedge).

A DeepSeek é notável não apenas por sua escala, mas pela eficiência de seu treinamento, por meio do qual o modelo é alimentado com dados a partir dos quais infere em seus parâmetros. Este sucesso não resultou de uma única e grande inovação, diz Nic Lane, da Universidade de Cambridge, mas de uma série de melhorias marginais. O processo de treinamento, por exemplo, costumava usar arredondamentos para facilitar os cálculos, mas mantinha os números precisos quando necessário. O servidor foi reconfigurado para permitir que chips individuais se comuniquem entre si de maneira mais eficiente. E depois que o modelo foi treinado, ele foi ajustado na saída do DeepSeek R1, o sistema de raciocínio, aprendendo como imitar sua qualidade a um custo menor.

Graças a essas e outras inovações, chegar aos bilhões de parâmetros da v3 levou menos de 3 milhões de horas-chip, a um custo estimado de menos de US$ 6 milhões — cerca de um décimo do poder de computação e das despesas investidas por outras empresas. O treinamento da v3 exigiu apenas 2.000 fichas, enquanto o Llama 3.1 da Meta usou 16.000. E por causa das sanções americanas, os chips v3 usados ​​nem eram os mais poderosos. As empresas ocidentais parecem cada vez mais esbanjadoras com chips: a Meta planeja construir um conjunto de servidores usando 350 mil deles. Assim como Ginger Rogers dançando de costas e de salto alto, o DeepSeek, diz Andrej Karpathy, ex-chefe de IA da Tesla, fez com que “parecesse fácil” treinar um modelo de fronteira “com uma piada de orçamento”.

Isto não significa necessariamente que os modelos chineses irão varrer o mundo. A IA americana ainda possui capacidades que seus rivais chineses ainda não conseguem igualar. Um programa de pesquisa do Google, o chatbot Gemini, aumenta a perspectiva de “agentes” de IA interagindo com a web. Os chatbots da Anthropic e OpenAI não apenas ajudarão você a escrever código, mas também a executá-lo para você. A nuvem criará e hospedará aplicativos inteiros. E o raciocínio passo a passo não é a única maneira de resolver problemas complexos.

Mais inovações estão a caminho, de acordo com Altman, que deverá anunciar em breve que a OpenAI construiu “superagentes de nível de doutoramento” que são tão capazes como especialistas humanos numa série de tarefas intelectuais. A concorrência que está nos calcanhares da IA ​​americana ainda pode estimulá-la a coisas maiores.


Artigo publicado originalmente na The Economist | Briefing | Uncomfortably close | 25 de Janeiro de 2025
Diagramação | RONALDO CAMPOS

Foto de Igor Omilaev/Unsplash

Share: