A aposta da Nvidia na Groq mostra que a economia da construção de chips de IA ainda está incerta

A aposta da Nvidia na Groq mostra que a economia da construção de chips de IA ainda está incerta


Nvidia construiu seu império em IA com GPUs. No entanto, sua aposta de $20 bilhões na Groq sugere que a empresa não está totalmente convencida de que apenas as GPUs dominarão a fase crucial da IA: a execução de modelos em escala, conhecida como inferência.

A disputa para vencer na inferência de IA, claro, gira em torno de sua economia. Após o treinamento de um modelo, tudo o que ele realiza de útil—responder a uma consulta, gerar código, recomendar um produto, resumir um documento, alimentar um chatbot ou analisar uma imagem—ocorre durante a inferência. Esse é o momento em que a IA se transforma de um custo já incorrido em um serviço gerador de receita, com toda a pressão que envolve a redução de custos, a diminuição da latência (o tempo de espera para a resposta da IA) e a melhoria da eficiência.

Essa pressão é exatamente o que torna a inferência o próximo campo de batalha da indústria em busca de lucros—e a razão pela qual a Nvidia, em um acordo anunciado pouco antes do feriado de Natal, licenciou tecnologia da Groq, uma startup que desenvolve chips projetados especificamente para inferência de IA rápida e de baixa latência, e contratou a maior parte de sua equipe, incluindo o fundador e CEO Jonathan Ross.

A Inferência como a ‘Revolução Industrial’ da IA

O CEO da Nvidia, Jensen Huang, tem sido claro sobre os desafios da inferência. Embora afirme que a Nvidia é “excelente em todas as fases da IA”, ele disse a analistas durante a teleconferência de lucros do Q3 da empresa em novembro que a inferência é “realmente, realmente difícil”. Muito mais do que uma simples troca de entrada e saída, a inferência moderna deve suportar raciocínio contínuo, milhões de usuários simultâneos, garantia de baixa latência e constantes pressões de custo. E os agentes de IA, que precisam lidar com múltiplas etapas, aumentarão drasticamente a demanda e a complexidade da inferência—e elevarão os riscos de errar.

“As pessoas pensam que a inferência é uma única tentativa, e por isso é fácil. Qualquer um poderia abordar o mercado dessa maneira,” disse Huang. “Mas, na verdade, é a mais difícil de todas, porque pensar, como se vê, é bastante difícil.”

O apoio da Nvidia à Groq ressalta essa crença e sinaliza que até mesmo a empresa que domina o treinamento de IA está se resguardando quanto a como a economia da inferência se desenrolará no futuro.

Huang também foi direto ao mencionar como a inferência se tornará central para o crescimento da IA. Em uma conversa recente no podcast BG2, Huang afirmou que a inferência já representa mais de 40% da receita relacionada à IA—e previu que isso “está prestes a aumentar em um bilhão de vezes.”

“Essa é a parte que a maioria das pessoas ainda não internalizou completamente,” disse Huang. “Esta é a indústria da qual estávamos falando. Esta é a revolução industrial.”

A confiança do CEO ajuda a explicar por que a Nvidia está disposta a se resguardar impactantemente em como a inferência será oferecida, mesmo enquanto a economia subjacente continua incerta.

Nvidia quer dominar o mercado de inferência

Nvidia está diversificando suas apostas para garantir que tenha sua participação em todas as áreas do mercado, disse Karl Freund, fundador e analista principal da Cambrian AI Research. “É um pouco como a aquisição do Instagram pelo Meta,” explicou. “Não é que eles achassem que o Facebook era ruim, apenas sabiam que havia uma alternativa que queriam garantir que não competisse com eles.”

Isso, mesmo considerando que Huang fez declarações contundentes sobre a economia da plataforma de inferência existente da Nvidia. “Suspeito que descobriram que a solução deles não estava ressoando tão bem com os clientes quanto esperavam, ou talvez tenham visto algo na abordagem de chip-memória que a Groq e outra empresa chamada D-Matrix possuem,” disse Freund, referindo-se a outra startup de chip de IA de baixa latência financiada pela Microsoft que recentemente levantou $275 milhões a uma avaliação de $2 bilhões.

Freund observa que a movimentação da Nvidia em relação à Groq pode eleva toda a categoria. “Estou certo de que a D-Matrix está feliz com a situação atual, porque suspeito que sua próxima rodada de captação de recursos acontecerá a uma avaliação muito mais alta graças ao [acordo Nvidia-Groq],” disse ele.

Outros executivos da indústria afirmam que a economia da inferência de IA está mudando à medida que a IA avança para sistemas em tempo real, como robôs, drones e ferramentas de segurança. Esses sistemas não podem se dar ao luxo de atrasos que vêm com o envio de dados para a nuvem, nem o risco de que o poder computacional não esteja sempre disponível. Em vez disso, eles favorecem chips especializados como os da Groq em detrimento de clusters centralizados de GPUs.

Behnam Bastani, fundador e CEO da OpenInfer, que se concentra em executar a inferência de IA próximo ao local onde os dados são gerados—como em dispositivos, sensores ou servidores locais em vez de longínquos centros de dados na nuvem—disse que sua startup está direcionando esses tipos de aplicações para a “borda.”

O mercado de inferência, enfatizou, ainda é incipiente. E a Nvidia está buscando dominar esse setor com seu acordo com a Groq. Com a economia da inferência ainda em desenvolvimento, ele destacou que a Nvidia está tentando se posicionar como a empresa que abrange toda a estrutura de hardware da inferência, ao invés de apostar em uma única arquitetura.

“Isso posiciona a Nvidia como um guarda-chuva maior,” disse ele.

Leave a Comment

O seu endereço de email não será publicado. Campos obrigatórios marcados com *