Cristiane Paião | Agência FAPESP – Um novo modelo de machine learning, adaptado à realidade brasileira, é capaz de prever com até três meses de antecedência surtos de doenças como dengue, zika e chikungunya em bairros específicos de uma cidade, como, por exemplo, a capital do Rio de Janeiro. O artigo “Predicting Dengue Outbreaks with Explainable Machine Learning” recebeu o prêmio de melhor artigo no Workshop Internacional AI4Health, realizado em maio deste ano, na Itália.
Os pesquisadores utilizaram dados abertos, de diferentes bases, da metrópole fluminense. Para calcular as probabilidades de uma possível epidemia, o algoritmo utiliza indicadores como o número de casos de dengue em um bairro e em bairros vizinhos, informações do Levantamento Rápido de Índices para Aedes aegypti (LIRAa), além de dados ambientais – temperatura e precipitação –, demográficos e espaciais. Futuramente, a ideia é que esse modelo de aprendizado de máquina para predição dos surtos de dengue seja adaptado para outros municípios do país.
Apesar de parcialmente ofuscadas pela pandemia da COVID-19, as doenças infecciosas sazonais seguem sendo um desafio no Brasil. Até meados de junho de 2022, as mortes por dengue mais que dobraram em relação a todo o ano de 2021 no país. Por isso, o objetivo do estudo é fornecer um modelo que agilize a análise dos dados e ajude as autoridades de saúde a entender as razões para as previsões dos surtos, permitindo que planejem melhor as suas ações para terem tempo de agir, com a ajuda da inteligência artificial.
A pesquisa foi realizada por Robson Aleixo em seu mestrado em ciência da computação pela Universidade de São Paulo (USP), sob a orientação do professor Raphael Yokoingawa de Camargo, da Universidade Federal do ABC (UFABC), no âmbito dos Projetos Temáticos “Internet do futuro aplicada a cidades inteligentes” e do INCT 2014: da Internet do Futuro , coordenados pelo professor Fábio Kon, da USP, apoiados pela FAPESP. Também participaram deste trabalho Marcela Santos Camargo e Rudi Rocha, do Instituto de Estudos de Políticas de Saúde (IEPS) da Escola de Administração de Empresas de São Paulo (FGV).
Aleixo enumerou as perguntas que orientaram o estudo: “Por que o modelo apontou aquela previsão e não outra? Qual é a probabilidade de um surto de maior ou menor escala? Por que e como cada variável participou neste cálculo até chegar a este resultado?”. Segundo ele, entender como a variável contribuiu para a previsão “traz maior confiança, permitindo que o gestor saiba quais são as situações críticas que aumentam as chances dos surtos”.
Para os pesquisadores, este pode ser um instrumento valioso para um gestor repensar suas estratégias e redirecionar os recursos necessários para as áreas mais afetadas.
“O grande diferencial da inteligência artificial é, justamente, identificar comportamentos e padrões dos dados históricos, para dar visibilidade ao que é relevante para a análise e a elaboração de ações preventivas. Por exemplo: preocupar-se com ações que lidam com focos de dengue pode trazer mais benefícios do que construir um novo estabelecimento de saúde naquela região”, complementa Aleixo.
Diferenciais do projeto
“Um dos principais diferenciais do nosso projeto é que aumentamos o número de variáveis e fomos além do LIRAa e das informações climáticas. Incluímos os índices para outras doenças, como zika e chikungunya, além de informações espaciais como o número de casos em cada bairro”, destaca Camargo.
Do início de 2015 a outubro de 2020, foram analisados dados de 160 bairros da cidade do Rio de Janeiro, disponíveis em várias bases de dados sobre a capital fluminense: do Sistema Nacional de Informação de Agravos de Notificação (Sinan), do Cadastro Nacional de Estabelecimentos de Saúde (CNES), do Instituto Brasileiro de Geografia e Estatística (IBGE) e do Instituto Nacional de Meteorologia (Inmet), entre outras.
Os pesquisadores explicam que já existiam vários trabalhos tanto aqui no Brasil quanto em outros países tropicais, principalmente na Ásia, como Indonésia, Tailândia e Malásia, que usavam dados do clima (precipitação, temperatura e umidade do ar) para prever os casos de dengue. Mas, segundo o pesquisador, eles só conseguiam entregar resultados mais precisos para um ou dois meses, não faziam avaliações detalhadas por bairros ou mês a mês e, principalmente, não forneciam explicações para as predições.
“Essas pesquisas, em geral, apresentavam pouca variedade de dados, poucas análises para a validação dos resultados e os modelos, em sua maioria, utilizavam a regressão linear, com baixa quantidade de métricas utilizadas. Também não havia muitas análises sobre a interpretabilidade desses modelos. Por isso, o objetivo deste trabalho foi lidar com as correlações não lineares e com um modelo que pudesse ser aplicado em diferentes cenários, avaliado em diferentes perspectivas, considerando quatro métricas de desempenho e explicando suas previsões”, reforça Aleixo.
Camargo conta que, na verdade, é como se o modelo ajudasse a fazer o que um funcionário da prefeitura faria manualmente, analisando dados de múltiplas origens, mas em uma velocidade muito maior e com um olhar muito mais atento e sistêmico, encontrando padrões que seriam difíceis de serem percebidos por um humano, analisando planilhas. Agora, junto com as predições, o modelo fornece uma explicação para cada uma delas.
“São técnicas que vêm da inteligência artificial. O modelo gera um conjunto de árvores de decisão, cada uma com uma sequência de possibilidades a partir destes dados públicos. A partir dessas centenas de árvores de combinações, criamos uma floresta que permite tomar uma decisão complexa. A explicação gerada é baseada em uma técnica matemática derivada da teoria dos jogos, onde um conjunto de atores compete para gerar uma predição. Essa técnica indica a contribuição de cada um desses atores [temperatura, chuva etc.]”, explica o orientador do estudo.
O modelo mostrou que o fator mais importante para determinar se um bairro tem mais ou menos chances de ter um surto em determinado período é o número de casos registrados no último mês. O segundo fator seria o histórico de casos de dengue daquele bairro em comparação com o restante da cidade. E, em terceiro lugar, a avaliação dos índices de precipitação: se choveu muito ou não na região, como ficou a temperatura, porque isso influencia no desenvolvimento das larvas do Aedes aegypti. “Por fim, também vimos que avaliar as condições dos bairros vizinhos é importante, inclusive se existem bairros muito próximos em que houve muitos casos. Tudo isso será usado para gerar um conjunto de predições para cada bairro”, destaca Camargo.
Próximos passos
Para ser utilizado pela prefeitura do Rio de Janeiro ou de qualquer outro município, o modelo precisa ser melhorado para se tornar uma ferramenta dentro de um sistema, além de ganhar uma interface que permita ao usuário que não domine as linguagens de programação encontrar facilmente suas informações.
Além disso, também precisa ser realimentado com novos dados, mais recentes, que deem continuidade às bases públicas de interesse para as equipes de saúde. Entretanto, para que essa nova tecnologia se desenvolva e ultrapasse os muros da universidade, são necessárias novas parcerias.
“Precisaríamos aprimorar o modelo com melhores características como, por exemplo, pensar como os sorotipos da dengue e outros indicadores da doença poderiam interferir, além de incorporar técnicas avançadas de séries temporais em conjunto com o modelo de árvores de decisão e incluir dados de novas regiões”, ressalta Camargo.
Os dados e os códigos estão disponíveis: https://gitlab.com/interscity/health/dengue-prediction.