Maia 200: O acelerador de IA criado para inferência

Imagem em plano fechado de um chip eletrônico posicionado sobre uma estrutura metálica em um ambiente de laboratório ou data center. No centro, o chip retangular tem bordas metálicas prateadas e um núcleo azul-escuro, onde se lê “Microsoft Azure Maia 200”, acompanhado do logotipo da Microsoft. O componente está apoiado sobre uma base preta com parafusos visíveis. Ao fundo, levemente desfocados, aparecem outros equipamentos eletrônicos, placas de circuito e cabos, sugerindo um sistema de computação avançado e de alto desempenho. A iluminação é controlada e técnica, com tons quentes e frios que destacam o chip como elemento principal da cena.

Maia 200: O acelerador de IA criado para inferência

Por Scott Guthrie, vice-presidente executivo de Nuvem + IA

Hoje, temos o orgulho de apresentar o Maia 200, um acelerador de inferência inovador projetado para melhorar drasticamente a economia da geração de tokens de IA. O Maia 200 é uma potência em inferência de IA: um acelerador construído no processo de 3 nm da TSMC com núcleos tensores FP8/FP4 nativos, um sistema de memória redesenhado com 216 GB de HBM3e a 7 TB/s e 272 MB de SRAM integrada, além de mecanismos de movimentação de dados que mantêm os modelos massivos alimentados, rápidos e altamente utilizados. Isso faz do Maia 200 o silício próprio mais performático de qualquer hiperescalador, com três vezes o desempenho FP4 da terceira geração do Amazon Trainium e desempenho FP8 superior à sétima geração do TPU do Google. O Maia 200 também é o sistema de inferência mais eficiente que a Microsoft já implementou, com 30% mais desempenho por dólar do que o hardware de última geração em nossa linha atualmente.

O Maia 200 faz parte da nossa infraestrutura heterogênea de IA e atenderá a múltiplos modelos, incluindo os mais recentes modelos GPT-5.2 da OpenAI, proporcionando uma vantagem de desempenho por dólar investido para o Microsoft Foundry e o Microsoft 365 Copilot. A equipe de Superinteligência da Microsoft usará o Maia 200 para geração de dados sintéticos e aprendizado por reforço, a fim de aprimorar os modelos internos de última geração. Para casos de uso de pipelines de dados sintéticos, o design exclusivo do Maia 200 ajuda a acelerar a geração e a filtragem de dados de alta qualidade e específicos do domínio, alimentando o treinamento subsequente com sinais mais recentes e direcionados.

O Maia 200 está sendo implantado hoje em nossas regiões de datacenters “US Central”; já “US West 3”, próximo a Phoenix, estado do Arizona, virá em seguida; com regiões adicionais já planejadas. O Maia 200 integra-se perfeitamente com o Azure e estamos apresentando uma prévia do SDK do Maia com um conjunto completo de ferramentas para criar e otimizar modelos para o Maia 200. Ele inclui um conjunto completo de recursos, incluindo integração com PyTorch, um compilador Triton e biblioteca de kernel otimizada, além de acesso à linguagem de programação de baixo nível do Maia. Isso oferece aos desenvolvedores controle preciso quando necessário, ao mesmo tempo que permite a fácil portabilidade de modelos entre aceleradores de hardware heterogêneos.

Projetado para inferência de IA

Fabricado com o processo de ponta de 3 nanômetros da TSMC, cada chip contém mais de 100 bilhões de transistores e é adaptado para cargas de IA em grande escala, além de oferecer desempenho eficiente por dólar. Em ambos os aspectos, Maia 200 foi construído para se destacar. Ele foi projetado para taxa de transferência de computação de baixa precisão, com cada chip Maia 200 entregando mais de 10 petaFLOPS em precisão de 4 bits (FP4) e cerca de 5 petaFLOPS de desempenho de 8 bits (FP8). Na prática, um nó Maia 200 pode rodar facilmente os maiores modelos atuais, com bastante margem para modelos ainda maiores no futuro.

Fundamentalmente, FLOPS (FLoating-point Operations Per Second  – unidade de medida que quantifica o poder de processamento de hardware) não são o único ingrediente para uma IA mais rápida. A alimentação de dados é igualmente importante. Maia 200 ataca esse gargalo com um subsistema de memória redesenhado.  O subsistema de memória Maia 200 é centrado em tipos de dados de alta precisão, um motor DMA especializado, SRAM on-die e uma malha NoC especializada para movimentação de dados de alta largura de banda, aumentando a taxa de transferência de tokens.

Sistemas de IA otimizados

Em termos de sistemas, o Maia 200 introduz um novo design de rede escalável em duas camadas, baseado em Ethernet padrão. Uma camada de transporte personalizada e uma NIC integrada de forma precisa proporcionam desempenho, alta confiabilidade e vantagens significativas em termos de custos, sem depender de estruturas proprietárias.

Cada acelerador expõe:

  • 2,8 TB/s de largura de banda bidirecional dedicada para expansão.
  • Operações coletivas previsíveis e de alto desempenho em clusters de até 6.144 aceleradores.

Essa arquitetura oferece desempenho escalável para clusters densos de inferência, reduzindo o consumo de energia e o TCO geral em toda a frota global do Azure.

Dentro de cada bandeja, quatro aceleradores Maia são totalmente conectados por links diretos, sem comutação,  mantendo a comunicação de alta largura de banda local para a melhor eficiência de inferência. Os mesmos protocolos de comunicação são usados para redes intra-rack e inter-rack usando o protocolo de transporte AI-AI Maia, permitindo escalonamento contínuo entre nós, racks e clusters de aceleradores com saltos mínimos na rede. Essa malha unificada simplifica a programação, melhora a flexibilidade da carga de trabalho e reduz a capacidade ociosa, mantendo desempenho consistente e eficiência de custos em escala de nuvem.

Uma abordagem de desenvolvimento nativa da nuvem

Um princípio fundamental dos programas de desenvolvimento de silício da Microsoft é validar o máximo possível do sistema de ponta a ponta antes da disponibilidade final.

Um ambiente pré-silício sofisticado orientou a arquitetura do Maia 200 desde seus estágios iniciais, modelando os padrões de computação e comunicação dos LLMs com alta fidelidade. Esse ambiente inicial de codesenvolvimento nos permitiu otimizar o silício, a rede e o software do sistema como um todo unificado, muito antes do primeiro silício.

Também projetamos o Maia 200 para uma disponibilidade rápida e fluida no datacenter desde o início, desenvolvendo a validação antecipada de alguns dos elementos mais complexos do sistema, incluindo a rede backend e nossa unidade de troca de calor de refrigeração líquida de segunda geração em circuito fechado. A integração nativa com o plano de controle Azure oferece segurança, telemetria, diagnóstico e capacidades de gerenciamento tanto no chip quanto no rack, maximizando confiabilidade e tempo de atividade para cargas de trabalho de IA críticas em produção.

Como resultado desses investimentos, modelos de IA estavam rodando no silício Maia 200 poucos dias após a chegada da primeira peça embalada. O tempo desde o primeiro silício até a implantação do primeiro rack de datacenter foi reduzido para menos da metade do de programas comparáveis de infraestrutura de IA. E essa abordagem de ponta a ponta, do chip ao software e ao datacenter, se traduz diretamente em maior utilização, tempo de produção mais rápido e melhorias sustentadas no desempenho por dólar e por watt em escala de nuvem.

Inscreva-se para a prévia do SDK Maia

A era da IA em grande escala está apenas começando, e a infraestrutura vai definir o que é possível. Nosso programa acelerador de IA Maia foi projetado para ser multigeracional. À medida que finalizamos a implantação do Maia 200 em nossa infraestrutura global, já estamos projetando para as futuras gerações e esperamos que cada geração estabeleça continuamente novos padrões para o que é possível e entregue desempenho e eficiência cada vez melhores para as cargas de trabalho de IA mais importantes.

Hoje, convidamos acadêmicos, desenvolvedores, laboratórios de IA de ponta e colaboradores de projetos de modelos open-source a começarem a explorar a otimização inicial de modelos e cargas de trabalho com o novo kit de desenvolvimento de software (SDK) Maia 200. O SDK inclui um compilador Triton, suporte para PyTorch, programação de baixo nível em NPL e um simulador Maia e calculadora de custos para otimizar eficiências já no início do ciclo de vida do código. Cadastre-se para a prévia aqui.

Veja mais fotos, vídeos e recursos em nosso microsite do Maia 200 e confira mais detalhes.

Imagem do topo: O acelerador de IA de próxima geração da Microsoft dá ao Azure uma vantagem para rodar modelos de IA de forma mais rápida e eficiente em termos de custo.

Scott Guthrie é responsável por soluções e serviços de computação em nuvem hiperescaláveis, incluindo o Azure, a plataforma de computação em nuvem da Microsoft, soluções de IA generativa, plataformas de dados e segurança da informação e cibernética. Essas plataformas e serviços ajudam organizações em todo o mundo a resolver desafios urgentes e impulsionar a transformação a longo prazo.

The post Maia 200: O acelerador de IA criado para inferência appeared first on Source LATAM.

Recentes