GigaTIME: ampliando a modelagem de microambientes tumorais usando população virtual gerada por IA multimodal

Ilustração em estilo artístico mostrando uma figura humana ajoelhada no canto esquerdo, olhando através de um grande telescópio apontado para o céu. O telescópio tem um desenho interno que lembra circuitos eletrônicos. No céu escuro, aparecem dezenas de pequenos círculos coloridos — em tons de azul, verde, amarelo, rosa, laranja e roxo — cada um contendo um símbolo abstrato semelhante a uma tríade conectada. O chão, em tons de rosa e lilás, é texturizado com padrões circulares repetidos, criando a impressão de um ambiente imaginário ou cósmico. A cena transmite a ideia de observação, exploração científica e diversidade de elementos no universo.

GigaTIME: ampliando a modelagem de microambientes tumorais usando população virtual gerada por IA multimodal

Por Hoifung Poon, Gerente Geral, Real-World Evidence; Jeya Maria Jose Valanarasu, Pesquisador Sênior; Naoto Usuyama, Pesquisador Principal; Sheng Wang, Professor Assistente

A convergência da transformação digital e da revolução da IA Generativa cria uma oportunidade sem precedentes para acelerar o progresso em saúde de precisão. A imunoterapia de precisão é o exemplo clássico dessa transformação. Tecnologias emergentes como a imunofluorescência multiplex (mIF) podem avaliar estados internos de células individuais juntamente com suas localizações espaciais, o que é fundamental para decifrar como os tumores interagem com o sistema imunológico. Os insights resultantes, frequentemente chamados de “gramática” do microambiente tumoral, podem ajudar a prever se um tumor responderá à imunoterapia. Se for improvável que responda, esses insights também podem orientar estratégias para reprogramar o tumor de “frio” para “quente”, aumentando sua suscetibilidade ao tratamento.

Isso é empolgante, mas o progresso é dificultado pelo alto custo e pela escalabilidade limitada da tecnologia atual. Por exemplo, obter dados de mIF de algumas dezenas de canais proteicos para uma amostra de tecido pode custar milhares de dólares, e mesmo os laboratórios mais avançados mal conseguem escalar isso para uma fração minúscula das amostras de tecido disponíveis.

Em nosso artigo publicado na revista científica Cell em 9 de dezembro, “IA multimodal gera população virtual para modelagem de microambientes tumorais (em inglês),” apresentamos o GigaTIME, um modelo multimodal de IA para traduzir lâminas de patologia de hematoxilina e eosina (H&E) disponíveis rotineiramente para imagens virtuais de mFI. Desenvolvido em colaboração com o Providence e a Universidade de Washington, o GigaTIME foi treinado com um conjunto de dados do Providence de 40 milhões de células com imagens pareadas de H&E e mIF em 21 canais proteicos. Aplicamos o GigaTIME a 14.256 pacientes com câncer de 51 hospitais e mais de mil clínicas dentro do sistema Providence. Esse esforço gerou uma população virtual de cerca de 300 mil imagens de mFI, abrangendo 24 tipos de câncer e 306 subtipos de câncer. Essa população virtual descobriu 1.234 associações estatisticamente significativas que ligam ativações da proteína mIF a atributos clínicos chave, como biomarcadores, estadiamento e sobrevivência do paciente. A validação externa independente em 10.200 pacientes do Atlas do Genoma do Câncer (TCGA) corroborou ainda mais nossas descobertas.

Até onde sabemos, este é o primeiro estudo em escala populacional do microambiente imune tumoral (TIME, em inglês) baseado em proteômica espacial. Tais estudos eram anteriormente inviáveis devido à escassez de dados de MFI. Ao traduzir lâminas de patologia H&E facilmente disponíveis em dados virtuais de alta resolução de mFI, o GigaTIME oferece uma nova estrutura de pesquisa para explorar a imuno-oncologia de precisão por meio da análise e descoberta de TIME em escala populacional. Disponibilizamos nosso modelo GigaTIME publicamente no Microsoft Foundry Labs e no Hugging Face para ajudar a acelerar a pesquisa clínica em oncologia de precisão.

“O GigaTIME tem o objetivo de desbloquear insights que antes estavam fora de alcance”, explicou Carlo Bifulco, MD, diretor médico do Providence Genomics e diretor médico de genômica do câncer e oncologia de precisão no Providence Cancer Institute. “Ao analisar o microambiente tumoral de milhares de pacientes, o GigaTIME tem o potencial de acelerar descobertas que moldarão o futuro da oncologia de precisão e melhorarão os resultados para os pacientes.”

O GigaTIME gera uma população virtual para modelagem de microambientes tumorais

A patologia digital transforma uma lâmina de microscopia de tecido tumoral tingido em uma imagem digital de alta resolução, revelando detalhes da morfologia celular, como núcleo e citoplasma. Esse slide custa apenas de US$5 a US$10 por imagem e se tornou rotineiramente disponível no cuidado oncológico. É bem conhecido que a morfologia celular baseada em H&E contém informações sobre os estados celulares. No ano passado, lançamos o GigaPath, o primeiro modelo de fundação digital de patologia para escalar arquiteturas de transformadores para slides H&E gigapixel. Depois, pesquisadores do Hospital Mount Sinai e do Memorial Sloan Kettering Cancer Center mostraram, em um estudo prospectivo global, que é possível prever de forma confiável um biomarcador-chave a partir de lâminas de H&E para triagem oncológica de precisão. No entanto, esses trabalhos anteriores geralmente se limitam ao status médio de biomarcador em todo o tecido. O GigaTIME representa, portanto, um grande avanço ao aprender a prever estados unicelulares espacialmente resolvidos, essenciais para a modelagem do microambiente tumoral. Isso, por sua vez, nos permite gerar uma população virtual de imagens de mIF para análise TIME em grande escala (Figura 1).

Figura 1 O GigaTIME possibilita a análise do microambiente imunológico tumoral TIME em escala populacional A o GigaTIME insere uma imagem de lâmina inteira de hematoxilina e eosina HE e produz imunofluorescência multiplex mIF através de 21 canais proteicos Ao aplicar o GigaTIME a 14256 pacientes geramos uma população virtual com informações de mIF levando à descoberta em escala populacional sobre biomarcadores clínicos e estratificação de pacientes com validação independente no TCGA B Gráfico circular visualizando um espectro TIME que abrange as pontuações de ativação virtual de mIF traduzidas por GigaTIME em diferentes canais proteicos na escala populacional onde cada canal é representado como um segmento individual de gráfico de barras circular O círculo interno codifica o OncoTree que classifica 14256 pacientes em 306 subtipos distribuídos por 24 tipos de câncer O círculo externo agrupa essas ativações por tipos de câncer permitindo a comparação visual entre as principais categorias C Gráfico de dispersão comparando as ativações virtuais de mIF traduzidas por GigaTIME em nível de subtipo entre populações virtuais TCGA e Providence Cada ponto indica a pontuação média de ativação de um canal proteico entre todos os tumores de um subtipo de câncer

A GigaTIME aprende um modelo multimodal de IA para traduzir lâminas de patologia em imagens de proteômica espacial, fazendo a ponte entre morfologia e estados celulares

Figura 2 O GigaTIME permite a tradução de imagens de hematoxilina e eosina HE para imagens de imunofluorescência multiplex mIF A B gráfico de barras comparando GigaTIME e CycleGAN no desempenho de tradução em termos de pontuação de dados A e correlação de Pearson B C Gráficos de dispersão comparando a densidade de ativação do mIF traduzido com a mIF de verdade de base em quatro canais D Resultados qualitativos para uma imagem amostra de diapositivo inteiro de HE do nosso conjunto de teste estendido com visualizações ampliadas dos mIF medidos e mIF traduzidos por GigaTIME para canais DAPI PD L1 e CD68

A GigaTIME aprendeu um tradutor de IA intermodal da patologia digital para a proteômica multiplex espacial treinando em 40 milhões de células com lâminas H&E pareadas e imagens mIF da Providence. Até onde sabemos, este é o primeiro estudo em grande escala explorando IA multimodal para escalar a geração virtual de mIF. Os dados pareados de alta qualidade permitiram uma tradução cruzada muito mais precisa em comparação com métodos anteriores de ponta (Figura 2).

População virtual permite a descoberta em escala populacional de associações entre estados celulares e biomarcadores-chave

Figura 3 O GigaTIME identifica novas associações entre proteína TIME e biomarcadores em níveis pan câncer tipo de câncer e subtipo de câncer A o GigaTIME gera uma população virtual de 14256 com mIF virtual ao traduzir imagens HE disponíveis para imagens mIF possibilitando níveis de descoberta biomédica em níveis pan cancerígenas tipo câncer e subtipos de câncer B G Análise de correlação entre canais proteicos em biomarcadores mIF virtuais e do paciente revelam associações TIME proteína biomarcador no nível pan câncer B nível do tipo câncer C E e nível subtipo de câncer FG O tamanho do círculo indica força significativa Cor de círculo indica a direcionalidade em que a correlação ocorre Cor do canal indica confiança alta média e baixa com base nas correlações de Pearson avaliadas usando o conjunto de teste H Um estudo de caso que mostra os mapas de ativação entre diferentes canais virtuais de mIF para um slide HE em nossa população virtual e mIF virtual de patches de amostra deste slide

Ao aplicar o GigaTIME a dados do mundo real do Providence, geramos uma população virtual de 14.256 pacientes com mIF virtual e atributos clínicos chave. Após corrigir para múltiplos testes de hipóteses, identificamos 1.234 associações estatisticamente significativas entre estados das células imunes tumorais (CD138, CD20, CD4) e biomarcadores clínicos (carga de mutações tumorais, KRAS, KMT2D), desde subtipos pan-cancerígenos até subtipos de câncer (Figura 3). Muitas dessas descobertas são apoiadas pela literatura existente. Por exemplo, o alto MSI e o alto TMB associados ao aumento das ativações de canais relacionados ao TIME, como CD138. Além disso, a população virtual também descobriu associações até então desconhecidas, como associações pan-cancerígenas entre ativações imunes e biomarcadores tumorais chave, como o supressor tumoral KMT2D e o oncogene KRAS.

População virtual possibilita a descoberta em escala populacional de assinaturas imunes tumorais para estratificação de pacientes

Figura 4 O GigaTIME possibilita uma estratificação eficaz de pacientes entre estágios patológicos e grupos de sobrevivência A C análise de correlação entre mIF virtual e estágios patológicos no nível pan câncer A nível tipo de câncer B e nível subtipo de câncer C O tamanho do círculo indica força significativa A cor do círculo denota a direcionalidade na qual a correlação acontece Cor do canal indica confiança alta média e baixa com base nas correlações de Pearson avaliadas usando o conjunto de teste D F análise de sobrevivência no câncer de pulmão usando CD3 virtual CD8 virtual e assinatura virtual GigaTIME todos os 21 canais de proteínas GigaTIME para estratificar pacientes em nível pan câncer D e nível tipo câncer pulmão E cérebro F G Bar plot comparando o desempenho da estratificação de pacientes pan cancerígenos em termos de valores p do índice de sobrevivência entre GigaTIME signature virtual e canais individuais de proteínas virtuais

A população virtual também descobriu assinaturas GigaTIME para estratificação eficaz dos pacientes entre perfis de estadiamento e sobrevivência (Figura 4), desde subtipos pan-cancerígenos até câncer. Estudos anteriores exploraram a estratificação de pacientes com base em proteínas imunes individuais, como CD3 e CD8. Descobrimos que CD3 e CD8 simulados pelo GigaTIME são igualmente eficazes. Além disso, a assinatura combinada do GigaTIME em todos os 21 canais proteicos alcançou uma estratificação de pacientes ainda melhor em comparação com canais individuais.

População virtual revela interações espaciais e combinatórias interessantes

Figura 5 O GigaTIME revela padrões espaciais e combinatórios virtuais de mIF interessantes Gráficos de barras ABC comparando a densidade virtual de ativação de mIF com métricas espaciais na identificação de correlações TIME entre proteína e biomarcadores Investigamos três métricas espaciais baseadas em entropia A relação sinal ruído SNR B e nitidez C Diagramas D e E barra comparando canal único e canal combinatório usando a operação lógica OR em associações de biomarcadores para dois pares virtuais de proteínas GigaTIME CD138CD68 D e PD L1Caspase 3 E demonstrando associações substancialmente melhoradas para a combinação F Estudos de caso visualizando os mapas virtuais de ativação de mIF de canais individuais CD138 CD68 PD L1 Caspase 3 e suas combinações

A população virtual revelou interações interessantes e não lineares entre os canais virtuais de proteínas GigaTIME, revelando associações com características espaciais como nitidez e entropia, bem como com biomarcadores clínicos chave como APC e KMT2D (Figura 6). Tais estudos combinatórios estavam anteriormente fora de alcance, dada a escassez de dados de MFI.

Validação externa independente no TCGA

Figura 6 Validação independente em uma população virtual do TCGA A gráficos de grade mostrando pares de proteína GigaTIME pan câncer significativamente correlacionados em Providence esquerda TCGA meio e ambos direita B gráficos de grade mostrando pares de proteína biomarcador GigaTIME significativamente correlacionados para câncer de pulmão em Providence e TCGA C gráfico de grade mostrando pares proteina biomarcador GigaTIME significativamente correlacionados para LUAD em Providence Cor do canal indica confiança alta média e baixa com base nas correlações de Pearson avaliadas usando o conjunto de teste D estudos de caso com visualizações de slides HE e as correspondentes ativações virtuais de mIF para o par de um canal de proteína GigaTIME e um biomarcador mutadonão mutado onde o paciente com a mutação apresenta escores de ativação muito mais altos para esse canal proteico GigaTIME

Realizamos uma validação externa independente aplicando o GigaTIME a 10.200 pacientes no conjunto de dados The Cancer Genome Atlas (TCGA) e estudamos associações entre o mIF virtual simulado pelo GigaTIME e biomarcadores clínicos disponíveis no TCGA. Observamos concordância significativa entre as populações virtuais de Providence e TCGA, com uma correlação de Spearman de 0,88 para ativações virtuais de proteínas entre subtipos de câncer. As duas populações também descobriram uma sobreposição significativa de associações entre ativações proteicas simuladas por GigaTIME e biomarcadores clínicos (teste exato de Fisher p < 2 × 10−9). Por outro lado, a população virtual de Providence gerou 33% mais associações significativas do que a TCGA, destacando o valor de dados reais grandes e diversos para a descoberta clínica.

O GigaTIME é um passo promissor rumo ao sucesso do “paciente virtual”

Ao aprender a traduzir entre modalidades, o GigaTIME é um passo promissor para “aprender a linguagem dos pacientes” com o objetivo final de desenvolver um “paciente virtual”: um gêmeo digital de alta fidelidade que um dia possa prever com precisão a progressão da doença e a resposta ao tratamento contrafactual. Ao converter dados de morfologia celular rotineiramente disponíveis em sinais de estados celulares de alta resolução e que seriam escassos, o GigaTIME demonstrou o potencial de aproveitar a IA multimodal para ampliar a geração de evidências do mundo real (RWE).

Daqui para frente, as oportunidades de crescimento são abundantes. O GigaTIME pode ser estendido para lidar com mais modalidades espaciais e canais de estado celular. Ele pode ser integrado a frameworks multimodais avançados, como LLaVA-Med para facilitar a análise de imagens conversacionais por meio de “conversar com os dados.” Para facilitar pesquisas em modelagem de microambientes tumorais, nós tornamos o GigaTIME open-source ()em Foundry Labs e Hugging Face. O GigaTIME é um trabalho conjunto entre o Providence e a Paul G. Allen School of Computer Science & Engineering da Universidade de Washington. Isso reflete o compromisso maior da Microsoft com  IA generativa multimodal para saúde de precisão, com outros progressos empolgantes como GigaPath, BiomedCLIP, LLaVA-Rad , BiomedJourney, BiomedParse, TrialScope, Curiosi.

Coautores do artigo: Jeya Maria Jose Valanarasu, Hanwen Xu, Naoto Usuyama, Chanwoo Kim, Cliff Wong, Peniel Argaw, Racheli Ben Shimol, Angela Crabtree, Kevin Matlock, Alexandra Q. Bartlett, Jaspreet Bagga, Yu Gu, Sheng Zhang, Tristan Naumann Bernard A. Fox, Bill Wright, Ari Robicsek, Brian Piening, Carlo Bifulco, Sheng Wang,e Hoifung Poon.

The post GigaTIME: ampliando a modelagem de microambientes tumorais usando população virtual gerada por IA multimodal appeared first on Source LATAM.

Recentes