Luciana Constantino | Agência FAPESP – Pesquisadores da Universidade de São Paulo (USP) estão usando inteligência artificial e uma das maiores plataformas do mundo, o Twitter, para tentar criar modelos de predição de ansiedade e depressão que, no futuro, podem dar sinais desses transtornos antes do diagnóstico clínico.
A construção da base de dados, chamada SetembroBR, foi um primeiro passo e está descrita em artigo publicado na revista científica Language Resources and Evaluation. O nome é uma homenagem ao movimento Setembro Amarelo – uma campanha de prevenção ao suicídio realizada anualmente – e também pelo fato de a coleta de dados ter começado em um mês de setembro.
Na segunda etapa do trabalho, ainda em desenvolvimento, os cientistas conseguiram alguns resultados preliminares. Entre eles, o que aponta ser possível detectar se uma pessoa apresenta maior risco de vir a desenvolver depressão apenas com base na rede social de amigos e seguidores, ou seja, sem levar em conta as postagens feitas pelo próprio indivíduo.
A base criada pelo grupo engloba informações relacionadas a texto (em português) e à rede de conexões de 3,9 mil usuários do Twitter que, posteriormente ao levantamento, relataram diagnóstico ou tratamento de transtorno mental. O corpus (ou a coletânea de informações sobre determinado tema) inclui todos os tweets públicos escritos por esses usuários individualmente – sem retuítes –, totalizando cerca de 47 milhões desses pequenos textos.
“Inicialmente fizemos uma coleta nas timelines em um trabalho artesanal, analisando textos de cerca de 19 mil usuários do Twitter, o que corresponde quase à população de uma pequena cidade. E depois usamos dois conjuntos – uma parte de usuários realmente diagnosticados com transtornos mentais e outra aleatória, que serviu de controle. Queríamos diferenciar pessoas com depressão e a população em geral”, explica Ivandre Paraboni, professor da Escola de Artes, Ciências e Humanidades (EACH-USP) e autor correspondente do artigo.
Além dos usuários, a pesquisa coletou textos da rede de amigos e de seguidores. Isso porque é comum uma pessoa que tenha algum tipo de transtorno mental seguir determinadas contas, como fóruns de discussão ou alguma celebridade que publicamente assumiu estar com depressão. “Essas pessoas se atraem porque têm interesses comuns”, completa Paraboni, que é pesquisador associado do Centro de Inteligência Artificial (C4AI), um Centro de Pesquisa em Engenharia (CPE) constituído por FAPESP e IBM Brasil na USP.
A Fundação também apoia o estudo por meio do projeto “Análise da linguagem em redes sociais para detecção precoce de transtornos de saúde mental”, liderado por Paraboni.
Distúrbios de saúde mental, entre eles depressão e ansiedade, têm sido apontados pela Organização Mundial da Saúde (OMS) como uma preocupação crescente no mundo. Estimativas do órgão calculam que cerca de 3,8% da população – ou 280 milhões de pessoas – é afetada pela depressão, de acordo com dados de 2021.
Com a pandemia de COVID-19, período em que os textos do Twitter foram coletados pelos pesquisadores, houve um aumento de 25% na prevalência global de ansiedade e depressão.
No Brasil, estudo recente do Ministério da Saúde envolvendo 784 mil participantes revelou que 11,3% dos brasileiros já foram diagnosticados com depressão, sendo a maior parte mulheres.
Pesquisas anteriores mostraram que transtornos mentais muitas vezes se refletem na linguagem usada por indivíduos que sofrem dessas condições, o que levou à realização de número considerável de trabalhos envolvendo Processamento de Linguagem Natural (NLP, na sigla em inglês), com foco em depressão, ansiedade e transtorno bipolar, entre outros. Porém, a maior parte foi realizada para a língua inglesa, nem sempre refletindo o perfil brasileiro.
Modelos
Para realizar o estudo, o grupo da USP submeteu o corpus textual a procedimentos de pré-processamento e limpeza de dados para remover hashtags, URLs, emoticons e caracteres fora do padrão, mas mantendo a escrita original.
Foram utilizados métodos de aprendizado profundo (do inglês deep learning) para criar quatro classificadores de texto e embeddings de palavras individualizadas ou dependentes de contexto usando modelos baseados em transformers do tipo BERT (um algoritmo de aprendizado profundo). Esses modelos correspondem a uma rede neural que aprende o contexto e o significado com o monitoramento de relações em dados sequenciais, como palavras em uma frase.
Como entrada, foi utilizada uma amostra de 200 tweets selecionados aleatoriamente de cada usuário. Os parâmetros são definidos executando cinco vezes a validação cruzada dos dados de treinamento e calculando os resultados médios.
A pesquisa detectou que os modelos de transformers do tipo BERT foram os que tiveram melhor desempenho nas tarefas de previsão de depressão e transtorno de ansiedade. A diferença entre ele e a segunda melhor alternativa, a LogReg, foi estatisticamente significativa.
Como os modelos analisam sequências de palavras ou frases inteiras, observou-se que indivíduos com depressão, por exemplo, tendem a falar de assuntos relacionados a eles mesmos, usando expressões e verbos na primeira pessoa, e temas como morte, crise e psicólogo.
“Os indicativos de depressão que aparecem no consultório não são necessariamente os mesmos que estão na rede social. Por exemplo: percebemos, de maneira bem forte, o uso na rede de pronomes na primeira pessoa, como “eu” e “mim”, o que na psicologia é um indicativo clássico de depressão. Mas também constatamos uma incidência alta entre os usuários depressivos da utilização do símbolo de coraçãozinho, o emoji da afetividade, que talvez ainda não esteja caracterizado na psicologia”, afirma Paraboni.
O professor destaca que os textos foram coletados totalmente anonimizados. “Não divulgamos nenhum tweet nem o nome de usuários. Tomamos o cuidado de nem os próprios alunos envolvidos no projeto terem acesso a dados de usuários para proteger a identidade das pessoas”, diz.
Agora, além de ampliar a base de dados, os pesquisadores trabalham para refinar a técnica computacional empregada e aprimorar os modelos iniciais visando, no futuro, uma ferramenta que talvez possa vir a ser aplicada na prática. Poderia auxiliar tanto em uma eventual triagem inicial de pessoas com indicativos de transtornos como ajudar pais, familiares e amigos de jovens com risco de depressão e ansiedade.
O Brasil é o terceiro país que mais consome redes sociais no mundo, segundo levantamento divulgado no início de março pela Comscore, atrás de Índia e Indonésia e à frente de Estados Unidos, México e Argentina.
São 131,5 milhões de usuários conectados no país durante 46 horas por mês, em média, o que representa quase dois dias inteiros. As redes mais acessadas pelos brasileiros são YouTube, Facebook, Instagram, TikTok, Kwai e Twitter, que recentemente mudou suas regras, além de passar a cobrar por alguns tipos de serviços.
O artigo SetembroBR: a social media corpus for depression and anxiety disorder prediction pode ser lido em: https://link.springer.com/article/10.1007/s10579-022-09633-0#Ack1.