Tags:
Inovação em microfluídica esfriará chips de IA com eficiência até três vezes superior
Microsoft testa tecnologia revolucionária de resfriamento para chips de inteligência artificial
Os chips usados em data centers para rodar os avanços mais recentes de inteligência artificial geram muito mais calor do que as gerações anteriores de silício. Quem já teve um celular ou laptop superaquecido sabe que eletrônicos não gostam de calor. Com o aumento da demanda por IA e o surgimento de novos designs de chips, a tecnologia de resfriamento atual pode limitar o progresso em poucos anos.
Para ajudar a enfrentar esse problema, a Microsoft testou com sucesso um novo sistema de resfriamento que remove o calor até três vezes melhor que as placas frias (cold plates), uma tecnologia avançada de resfriamento amplamente utilizada hoje. Trata-se da microfluídica, um método que leva o líquido de refrigeração direto para dentro do silício – onde o calor está. Pequenos canais são gravados diretamente na parte de trás do chip de silício, formando sulcos que permitem que o líquido de resfriamento flua diretamente sobre o chip e remova o calor de forma muito mais eficiente. A equipe também utilizou IA para identificar as áreas de calor específicas do chip e direcionar o líquido de refrigeração com mais precisão.
Pesquisadores dizem que a microfluídica pode aumentar a eficiência e melhorar a sustentabilidade dos chips de IA da próxima geração. Atualmente, a maioria das GPUs usadas em data centers é resfriada com placas frias, que ficam separadas da fonte de calor por várias camadas que limitam a quantidade de calor que conseguem remover.
A cada nova geração de chips de IA, o poder aumenta – e o calor também. Em cerca de cinco anos, “se você ainda depender muito da tecnologia tradicional de placa fria, vai ficar limitado”, diz Sashi Majety, gerente sênior de programas técnicos de Operações de Nuvem e Inovação da Microsoft.
A Microsoft anunciou que desenvolveu com sucesso um sistema de resfriamento microfluídico interno ao chip, capaz de resfriar um servidor executando serviços centrais durante uma simulação de uma reunião no Teams.

“A microfluídica permitiria projetos com maior densidade de potência, com mais recursos desejados pelos clientes e melhor desempenho em um espaço menor”, explica Judy Priest, vice-presidente corporativa e diretora técnica de Operações de Nuvem e Inovação da Microsoft. “Mas precisávamos provar que a tecnologia e o design funcionavam, e aí o próximo passo era testar a confiabilidade.”
Os testes em laboratório da empresa mostraram que a microfluídica remove até três vezes mais calor que as placas frias, dependendo da carga de trabalho e da configuração adotada. A tecnologia também reduziu em até 65% o aumento máximo de temperatura do silício dentro de uma GPU, embora isso varie de acordo com o tipo de chip. A equipe espera que o resfriamento avançado também melhore o índice de eficiência energética – um indicador-chave de eficiência energética de data centers – e reduza custos operacionais.
Usando IA para imitar a natureza
A microfluídica não é um conceito novo, mas fazê-la funcionar é um desafio para toda a indústria. “O pensamento sistêmico é crucial quando se desenvolve uma tecnologia como a microfluídica. É preciso entender as interações do sistema entre silício, líquido de refrigeração, servidor e data center para extrair o máximo benefício”, afirma Husam Alissa, diretor de tecnologia de sistemas na área de Operações de Nuvem e Inovação da Microsoft.
Somente a execução correta dos sulcos já é um desafio. As dimensões dos microcanais são semelhantes à espessura de um fio de cabelo humano, o que não permite margem de erro. Como parte do protótipo, a Microsoft colaborou com a startup suíça Corintis para usar IA na otimização de um design bioinspirado, capaz de resfriar pontos quentes do chip de forma mais eficiente do que canais retos, também testados. O design bioinspirado lembra os sulcos de uma folha ou de uma asa de borboleta – a natureza é especialista em encontrar os caminhos mais eficientes para distribuir o que é necessário.
A microfluídica exige mais que um design inovador de canais. Trata-se de um desafio complexo de engenharia.
Foi preciso garantir que os canais fossem fundos o suficiente para circular o líquido de refrigeração sem entupir, mas não tão fundos a ponto de enfraquecer o silício e aumentar o risco de quebra. Só no último ano, a equipe produziu quatro iterações de design.



Também foi necessário desenvolver uma embalagem à prova de vazamentos para o chip, encontrar a melhor fórmula do líquido refrigerador, testar diferentes métodos de gravação e criar um passo a passo para adicionar a gravação ao processo de fabricação dos chips.
Essa inovação é apenas um exemplo de como a Microsoft está investindo e inovando em infraestrutura para atender à demanda por serviços e capacidades de IA. Por exemplo, a empresa pretende investir mais de US$ 30 bilhões em despesas de capital neste trimestre.
Esses investimentos incluem o desenvolvimento da própria família de chips Cobalt e Maia, projetados especificamente para rodar workloads da Microsoft e de clientes de forma mais eficiente. Desde o lançamento do chip Cobalt 100, Microsoft e clientes têm se beneficiado de seu poder de computação eficiente, escalabilidade e desempenho.
Apesar disso, os chips são apenas uma parte do quebra-cabeça. O silício funciona dentro de um sistema complexo de placas, racks e servidores em um data center. A abordagem sistêmica da Microsoft significa ajustar cada parte desse conjunto para funcionar em harmonia e maximizar desempenho e eficiência. Uma etapa importante é desenvolver técnicas de resfriamento de última geração, como a microfluídica.
O próximo passo é investigar como o resfriamento microfluídico pode ser incorporado nas futuras gerações de chips próprios da Microsoft. A empresa também seguirá trabalhando com parceiros de fabricação e silício para levar a microfluídica à produção em seus data centers.
“O hardware é a base dos nossos serviços”, diz Jim Kleewein, technical fellow da equipe de Core Management do Microsoft 365. “Todos temos interesse nessa base – em sua confiabilidade, custo-benefício, velocidade, comportamento consistente e sustentabilidade, só para citar alguns. A microfluídica melhora cada um desses pontos: custo, confiabilidade, velocidade, consistência de comportamento e sustentabilidade.”
Vantagens da microfluídica
Uma simples chamada do Microsoft Teams, por exemplo, ilustra as vantagens que o resfriamento microfluídico pode oferecer. O Teams não é um serviço único, mas um conjunto de cerca de 300 serviços diferentes que funcionam de forma integrada. Um conecta o usuário à reunião, outro hospeda o encontro, outro armazena o chat, outro mescla fluxos de áudio para garantir que todos sejam ouvidos, outro grava, outro transcreve.
“Cada serviço tem características diferentes e sobrecarrega diferentes partes do servidor”, explica Kleewein. “Quanto mais utilizado o servidor, mais calor ele gera, o que faz sentido.”

Por exemplo, a maioria das chamadas do Teams começa na hora cheia ou na meia hora. O controlador da chamada fica muito ocupado de cinco minutos antes até três minutos depois desses horários, e fica mais ocioso no restante do tempo. Existem duas formas de lidar com picos de demanda: instalar muita capacidade extra cara, que fica ociosa na maior parte do tempo, ou trabalhar os servidores no limite, o chamado overclocking. Como o overclocking deixa os chips ainda mais quentes, não se pode exagerar, sob risco de danificar os componentes.
“Sempre que temos cargas de trabalho com picos, queremos poder fazer overclock. A microfluídica permitiria isso sem medo de derreter o chip, pois é um sistema de resfriamento muito mais eficiente”, afirma Kleewein. “Há vantagens em custo e confiabilidade. E também em velocidade, pois podemos usar overclocking.”
Como o resfriamento se encaixa no cenário maior
A microfluídica faz parte de uma iniciativa maior da Microsoft para avançar em técnicas de resfriamento de última geração e otimizar cada etapa da nuvem. Tradicionalmente, data centers são resfriados com ar soprados por grandes ventiladores, mas líquidos conduzem calor muito melhor do que o ar.
Uma das formas de resfriamento líquido que a Microsoft já utiliza em seus data centers são as placas frias. Essas placas ficam sobre os chips, com líquido frio circulando em canais internos para absorver o calor dos chips e, depois, saindo aquecido para ser resfriado novamente.
Os chips são embalados com camadas de materiais para ajudar a dissipar o calor dos pontos quentes e protegê-los. Mas essas camadas também agem como cobertores, limitando o desempenho das placas frias ao reter calor e impedir que o frio chegue ao chip. As próximas gerações de chips para IA devem ser ainda mais potentes – e quentes demais para serem resfriadas apenas com placas frias.
Resfriar os chips diretamente através de canais microfluídicos é muito mais eficiente – não só para remover o calor, mas também para o funcionamento do sistema como um todo. Com menos camadas de isolamento e o líquido de refrigeração tocando diretamente o silício quente, não é preciso que o líquido seja tão gelado para ser eficiente. Isso economiza energia, já que não será necessário gastar tanto para resfriar o líquido, e ainda faz o trabalho melhor que as placas frias atuais. A microfluídica também possibilita melhor aproveitamento do calor residual.
A Microsoft também busca otimizar as operações dos data centers por meio de software e outras abordagens. “Se o resfriamento microfluídico usar menos energia nos data centers, haverá menos pressão sobre as redes de energia das comunidades próximas”, diz Ricardo Bianchini, technical fellow e vice-presidente corporativo da Azure, especialista em eficiência de computação.
O calor também impõe limites ao design dos data centers. Um dos benefícios do data center é que os servidores ficam fisicamente próximos. Distância aumenta a latência, ou seja, o tempo de comunicação entre servidores. Mas, hoje, os servidores só podem ser agrupados até certo ponto antes que o calor se torne um problema. A microfluídica permitiria aumentar a densidade de servidores, o que significa que os data centers poderiam aumentar sua capacidade de computação sem a necessidade de novos prédios.
O futuro da inovação em chips
A microfluídica também tem potencial para abrir caminho para novas arquiteturas de chips, como os chips 3D. Assim como agrupar servidores reduz a latência, empilhar chips reduz ainda mais. Esse tipo de arquitetura é um desafio porque gera muito calor.
No entanto, a microfluídica leva o líquido de refrigeração extremamente perto de onde a energia é consumida, então “podemos fazer o líquido circular dentro do chip”, como seria o caso em designs 3D, explica Bianchini. Isso exigiria um design microfluídico diferente, com pinos cilíndricos entre os chips empilhados, parecido com pilares em um estacionamento de vários andares, com o líquido fluindo ao redor deles.
“Sempre que conseguimos fazer as coisas de maneira mais eficiente e simples abrimos a oportunidade para novas inovações e arquiteturas de chips”, destaca Priest.
Eliminar o limite imposto pelo calor pode permitir mais chips por rack no data center ou mais núcleos em um chip, aumentando a velocidade e possibilitando data centers menores e mais potentes.
Ao demonstrar como novas técnicas de resfriamento como a microfluídica podem funcionar, a Microsoft espera abrir caminho para chips de próxima geração mais eficientes e sustentáveis em toda a indústria.
“Queremos que a microfluídica se torne algo comum, não só algo que fazemos”, diz Kleewein. “Quanto mais gente adotar, melhor e mais rápido a tecnologia vai evoluir – e isso é bom para nós, para nossos clientes, para todo mundo.”
The post Inovação em microfluídica esfriará chips de IA com eficiência até três vezes superior appeared first on Source LATAM.