A realização de diagnósticos assertivos na Dermatologia pode ser desafiadora para médicos generalistas. Nesse contexto, o apoio de ferramentas de Inteligência artificial pode ser benéfico no cenário da atenção primária brasileira.
ObjetivosDesenvolver algoritmo interpretável de machine learning capaz de auxiliar no diagnóstico de doenças dermatológicas eritemato‐descamativas por meio de dados clínicos, sem apoio histopatológico.
MétodosO algoritmo random‐forest foi treinado com o banco de dados público Dermatology, de 366 pacientes diagnosticados com dermatite crônica, líquen plano, pitiríase rósea, pitiríase rubra pilar, psoríase ou dermatite seborreica. O modelo foi avaliado por métricas de desempenho e técnicas de interpretabilidade.
ResultadosO modelo apresentou boa performance preditiva, com ROC‐AUC variando entre 0,89 e 1,00, e acurácia geral 0,86. Os melhores resultados foram para o diagnóstico de pitiríase rubra pilar (f1‐score: 1,00) e os piores para dermatite crônica e seborreica (f1‐score: 0,77 e 0,76, respectivamente). As características clínicas que mais influenciaram na decisão do modelo foram, em ordem decrescente: acometimento de joelhos e cotovelos, acometimento de couro cabeludo, fenômeno de Koebner, pápulas poligonais, acometimento de mucosa oral.
Limitações do estudoO modelo não foi validado com dados brasileiros.
ConclusãoA tecnologia desenvolvida obteve boa performance preditiva e coerência clínica. Há necessidade de adaptação para implementação, utilizando dados nacionais. Os resultados apontam para o potencial de modelos similares serem aprimorados e adaptados à prática clínica para benefício do Sistema Único de Saúde.
Os diferentes diagnósticos possíveis da Dermatologia muitas vezes são complexos e demandam dos médicos uma longa curva de aprendizado para a realização de diagnósticos assertivos. Um estudo comparando o desempenho de médicos generalistas e dermatologistas em casos clínicos gerais de Dermatologia demonstrou concordância de apenas 45% dos diagnósticos em casos sem apoio de dados histopatológicos.1 Outro estudo, uma revisão sistemática com metanálise sobre a eficácia médica no diagnóstico de melanoma, demonstrou sensibilidade de 81% para dermatologistas, enquanto generalistas da atenção primária apresentaram sensibilidade de apenas 42%.2 Em lógica semelhante, doenças dermatológicas eritemato‐descamativas, como dermatites, psoríases e líquen plano, podem ser difíceis de serem diferenciadas e diagnosticadas por terem características muito semelhantes, especialmente para médicos não especialistas.
Modelos de machine learning podem ser ferramenta útil no auxílio diagnóstico para médicos, principalmente generalistas na atenção primária do Sistema Único de Saúde (SUS), onde haveria maior concentração de erros de diagnóstico dermatológico em virtude de seu caráter generalista, com consultas rápidas e, por diversas vezes, sem o apoio de exames complementares. Já foram desenvolvidos alguns modelos ao redor do mundo para diagnóstico de doenças dermatológicas eritemato‐descamativas que apresentaram excelente desempenho, utilizando dados clínicos e histopatológicos para a predição dos diagnósticos.3 No entanto, em cenários em que o diagnóstico histopatológico não é possível ou é demorado, ferramentas que melhoram a acurácia diagnóstica sem o apoio de exames complementares podem otimizar a prática clínica, possibilitando tratamentos mais assertivos.
Este estudo teve como objetivo desenvolver um algoritmo interpretável de machinelearning capaz de diferenciar e diagnosticar seis doenças dermatológicas eritemato‐descamativas, baseando‐se em dados clínicos, sem o apoio histopatológico.
MetodologiaBanco de dados e pré‐processamentoFoi utilizado o banco de dados de doenças dermatológicas eritemato‐descamativas “Dermatology”, que contém dados individuados sem identificação dos pacientes. Os dados foram disponibilizados originalmente por meio de parceria entre o Departamento de Dermatologia da Escola de Medicina da Gazi University e o Departamento de Engenharia de Computação e Ciência da Computação da Bilkent University, disponibilizados livremente no Repositório de Dados Machine Learning UC Irvine.4 Desse modo, o presente estudo dispensa aprovação por Comitê de Ética em Pesquisa.
O banco apresenta dados clínicos e histopatológicos de 366 pacientes diagnosticados com uma das seis doenças em estudo: dermatite crônica (n=52), líquen plano (n=72), pitiríase rósea (n=49), pitiríase rubra pilar (n=20), psoríase (n=112) e dermatite seborreica (n=61). As variáveis com atributos clínicos são: eritema, descamação, bordas definidas, prurido, fenômeno de Koebner, pápulas poligonais, pápulas foliculares, acometimento da mucosa oral, acometimento de joelhos e cotovelos, histórico familiar e idade. As variáveis histopatológicas são: incontinência pigmentar, infiltrado eosinofílico, infiltrado de neutrófilos, fibrose da derme papilar, exocitose, acantose, hiperceratose, paraceratose, alargamento das cristas epidérmicas, alongamento das cristas epidérmicas, adelgaçamento da epiderme suprapapilar, pústula esponjosa, microabscesso de Munro, hipergranulose focal, desaparecimento da camada granular, vacuolização e dano da camada basal, espongiose, cristas epidérmicas em “dentes de serra”, plugue córneo folicular, paraceratose perifolicular, infiltrado inflamatório mononuclear e infiltrado em faixa.
Uma vez que a análise histopatológica, somada à história clínica, pode ser considerada “padrão ouro” no diagnóstico de condições dermatológicas eritemato‐descamativas, escolheu‐se treinar o modelo sem o apoio dessas variáveis para a predição. A escolha foi feita objetivando‐se desenvolver um modelo que pudesse auxiliar a prática clínica, por vezes sem acesso à histopatologia.
O pré‐processamento de dados se resumiu à eliminação das colunas de dados histopatológicos e de pacientes com dados clínicos incompletos. O conjunto final ficou composto por 359 pacientes, 98% dos originais 366 pacientes avaliados.
Modelo e métricas de desempenhoFoi desenvolvido um modelo de machinelearning para classificação multiclasse utilizando o algoritmo Random Forest e empregada a estratégia “One‐vs.‐Rest”, em Python pela plataforma Google Colab™. Foi utilizado o Método Holdout, em que o modelo foi treinado dividindo‐se os dados entre os subconjuntos treino e teste, em que 70% desses foram usados para o aprendizado do algoritmo e 30% para teste e avaliação da performance preditiva do modelo em dados novos.
No modelo de Random Forest utilizado, foram geradas 100 árvores, com profundidade média de 13,21, variando entre profundidade máxima de 17 e mínima de 11. Para cada nó, foi selecionado um número máximo de características com base na raiz quadrada do número total de características disponíveis (“sqrt”). O critério de impureza utilizado foi o índice de Gini; o número mínimo de amostras por folha foi definido como 1, enquanto o número mínimo de amostras necessário para dividir um nó foi 2.
Para a avaliação de desempenho preditivo, foi gerada uma matriz de confusão e calculada a área abaixo da Receiver Operating Characteristic Curve (ROC‐AUC), sensibilidade, especificidade, valor preditivo positivo (VPP), valor preditivo negativo (VPN), F1‐score e acurácia do modelo.
InterpretabilidadeA técnica de interpretação do modelo escolhida foi o método SHAP (SHapley Additive exPlanations), que é baseada na técnica dos Valores Shapley.5 Nesse caso, o objetivo é explicar as predições do modelo de machine learning baseando‐se na contribuição de cada variável para a predição do resultado final.6 Neste estudo, as variáveis são as características clínicas de cada paciente e o resultado final, ou predição, é o diagnóstico de uma das doenças eritemato‐descamativas do estudo.
Assim, cada característica clínica recebe um valor SHAP, indicando o impacto dessa variável na predição do diagnóstico. Se o valor SHAP de uma variável for nulo, significa que a presença ou ausência da característica clínica em questão não influencia na decisão do diagnóstico pelo modelo. Já se o valor SHAP for positivo, a presença da característica tem influência a favor do diagnóstico. Por outro lado, se o valor SHAP for negativo, interpreta‐se que a presença da característica tem influência contrária ao diagnóstico. Por fim, valores SHAP (em módulo) altos indicam que a influência da variável na predição é alta, enquanto valores SHAP (em módulo) baixos indicam que a variável influencia pouco na predição da doença.6
ResultadosPerformance do algoritmoO modelo desenvolvido apresentou bom desempenho preditivo, mesmo sem o apoio das variáveis histopatológicas (acurácia geral do modelo: 86%), como demonstrado na tabela 1. Os diagnósticos mais assertivos se deram nas predições das doenças pitiríase rubra pilar e pitiríase rósea (sensibilidade: 100% e 93%, respectivamente), enquanto dermatite crônica e dermatite seborreica obtiveram as menores métricas (sensibilidade: 67% e 78%, respectivamente). Ainda assim, o modelo obteve sucesso em predizer resultados negativos dessas doenças, alcançando valores altos de especificidade e VPN (dermatite crônica: 99% e 94%; dermatite seborreica: 94% e 96%). A figura 1 apresenta as curvas ROC resultantes da análise preditiva nos dados de teste.
Medidas individuais e gerais de performance do modelo diagnóstico
Doença | ROC‐AUC | Sensibilidade | Especificidade | VPP | VPN | F1‐score | Acurácia geral do modelo |
---|---|---|---|---|---|---|---|
Dermatite crônica | 0,89 | 0,67 | 0,99 | 0,91 | 0,94 | 0,77 | 0,86 |
Líquen plano | 1,00 | 0,90 | 1,00 | 1,00 | 0,98 | 0,95 | |
Pitiríase rósea | 0,96 | 0,93 | 0,94 | 0,68 | 0,99 | 0,79 | |
Pitiríase rubra pilar | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 | 1,00 | |
Psoríase | 0,98 | 0,91 | 0,96 | 0,91 | 0,96 | 0,91 | |
Dermatite seborreica | 0,94 | 0,78 | 0,94 | 0,78 | 0,96 | 0,76 |
ROC‐AUC, Receiver Operating Characteristic – Area Under Curve; VPP, valor preditivo positivo; VPN, valor preditivo negativo.
Os resultados de performance algorítmica ficam claros ao analisá‐los junto à matriz de confusão dos resultados preditos versus reais, demonstrada na figura 2.
Interpretabilidade do modelo: a importância das variáveis clínicasPara análise geral, as características foram classificadas por ordem decrescente de influência nas decisões do modelo, usando para isso os valores absolutos médios de impacto (SHAP médio).
As características clínicas que mais influenciaram na diferenciação entre as doenças cutâneas analisadas – ou seja, com maiores SHAP médios – foram: acometimento de joelhos e cotovelos, acometimento de couro cabeludo, fenômeno de Koebner, pápulas poligonais, acometimento de mucosa oral e bordas definidas, como observado na figura 3. Já as características “histórico familiar”, “eritema” e “idade” pouco influenciaram no diagnóstico geral.
Também é possível observar quanto cada característica contribui, de maneira absoluta, para cada diagnóstico – por exemplo: as variáveis “acometimento de joelhos e cotovelos” e “acometimento de couro cabeludo” influenciam muito significantemente no diagnóstico de psoríase (barras em azul), enquanto as variáveis “pápulas poligonais” e “acometimento de mucosa oral” tiveram maior influência no diagnóstico de líquen plano (barras em verde). Assim, as doenças associadas às melhores performances preditivas do modelo são as que apresentam distribuições únicas de valores médios SHAP. Do mesmo modo, doenças com distribuições parecidas de valores médio SHAP entre as variáveis, como quando comparadas as dermatites crônica e seborreica (barras em vermelho e roxo, respectivamente), apresentam as piores performances preditivas, já que o modelo pode ter dificuldade em diferenciá‐las.
As influências das características clínicas na definição de cada diagnóstico diferencial também podem ser observadas de maneira mais detalhada e individualizada nos gráficos tipo Beeswarm, nas figuras 4 a 6. Nesse caso é possível identificar como as variáveis influenciaram no processo de decisão do modelo, em que os valores das variáveis (tons rosa são valores maiores, indicando maior presença da característica, e tons azul são valores menores, indicando menor presença da característica) se correlacionam com o impacto no resultado diagnóstico (SHAP‐values positivos são favoráveis ao diagnóstico em questão, enquanto SHAP‐values negativos são desfavoráveis ao diagnóstico).
Com base na interpretação do modelo proposto e nas características clínicas disponibilizadas para esta análise, verifica‐se que dermatite crônica (ROC‐AUC=89%) se correlacionou positivamente, principalmente com prurido e valores menores de descamação, enquanto a presença do fenômeno de Koebner teve efeito desfavorável ao diagnóstico. Já líquen plano (ROC‐AUC=100%) se correlacionou positiva e significantemente com presença de pápulas poligonais e acometimento da mucosa oral. Pitiríase rósea (ROC‐AUC=96%) se correlacionou positiva e significantemente com o fenômeno de Koebner, enquanto a presença de valores mais altos de prurido, acometimento de joelhos, cotovelos, couro cabeludo ou de pápulas poligonais teve efeito desfavorável ao diagnóstico. A pitiríase rubra pilar (ROC‐AUC=100%) se correlacionou positiva e significantemente com a presença de pápulas foliculares, valores médios de acometimento de joelhos e cotovelos e com idade jovem (duas primeiras décadas de vida). A predição de psoríase (ROC‐AUC=98%) foi influenciada positiva e significantemente principalmente pelo acometimento de joelhos, cotovelos e/ou couro cabeludo. Por fim, a dermatite seborreica (ROC‐AUC=94%) teve sua predição influenciada positivamente por descamação, prurido e eritema. Por outro lado, a presença do fenômeno de Koebner, acometimento de joelhos e cotovelos e bordas definidas teve efeito desfavorável ao seu diagnóstico.
DiscussãoDe maneira geral, o modelo apresentou bom desempenho preditivo, mostrando acurácia geral de 86%. Foram encontrados estudos publicados ao redor do mundo, predominantemente em revistas eletrônicas de engenharia e tecnologia, que utilizaram o mesmo banco de dados para o desenvolvimento de diferentes algoritmos preditivos de doenças eritemato‐descamativas, todos usando variáveis clínicas e histopatológicas para a predição do diagnóstico. Um desses estudos utilizou Classification and Regression Tree (CART), obteve acurácia geral 93,69% e resultados similares ao presente estudo, mostrando especificidade de 100% para “líquen plano” e “pitiríase rubra pilar”, e apresentou melhor sensibilidade para “dermatite seborreica” (100%) quando comparado a este estudo (78%).7 Outro estudo também utilizou o Random Forest e apresentou valores de cross‐validation de 51,13%. Valores superiores foram obtidos por outros algoritmos, como 96,65% com Redes Neurais Profundas e 95,80% com XGBoost.8
Os resultados encontrados pelo estudo demonstram o potencial de aplicação de algoritmos de machine learning no diagnóstico dermatológico. Quando comparados aos resultados deste estudo, sem dados histopatológicos, percebe‐se que o algoritmo não teve perda significante de desempenho, tornando‐o viável para a prática clínica. A importância de ferramentas como esta está na possibilidade de otimizar a prática clínica de modo a proporcionar tratamentos assertivos sem o apoio de exames complementares.
Quando verificada a interpretabilidade dos resultados, ou seja, como as variáveis contribuíram na predição de cada diagnóstico (fig. 2), pode‐se observar importante convergência com a clínica. Quando observadas as características da pitiríase rubra pilar na literatura médica, uma das principais características comuns aos subtipos da doença é a presença de pápulas foliculares hiperceratóticas. Além disso, a pitiríase rubra pilar é diagnosticada conforme seus subtipos, que se baseiam na idade de início, distribuição da lesão e prognóstico9 − essas características estão em linha com os principais achados deste estudo. Na psoríase, o acometimento de joelhos e cotovelos também é característica do diagnóstico clínico, e o fenômeno de Koebner demonstrou relevância como se esperaria.10 Dessa maneira, o exercício de comparação dos resultados deste estudo com a literatura médica pode ser feito para cada doença analisada.
Uma limitação do modelo reside em sua dependência da qualidade do banco de dados. Neste estudo, os dados colhidos em população não brasileira podem não ser representativos das características da população local. Essas limitações também foram verificadas e mitigadas no estudo de Wichmann et al., que desenvolveu modelos para predição de morte por COVID‐19 com dados de 18 hospitais brasileiros e comparou estratégias para otimização, encontrando que o melhor desempenho se dava quando o treinamento do modelo era feito localmente, ou seja, quando um modelo era treinado com dados de um hospital para predizer os dados do mesmo.11 Além disso, a qualidade dos dados para treinamento tem dependência do operador de coleta, enquanto a qualidade dos resultados tem dependência do usuário final durante o uso clínico do modelo proposto, uma vez que um sinal clínico identificado incorretamente poderia levar a diagnóstico incorreto. Algumas das características de lesões usadas para o treinamento do modelo em estudo podem exigir maior conhecimento do operador e usuário, como a definição do fenômeno de Koebner e diferenciação entre pápulas.
Portanto, a tecnologia desenvolvida requer adaptações para sua implementação local, já que a capacidade preditiva com dados de outros hospitais, especialmente de outros continentes, pode apresentar variações que impactem sua eficácia. Além do treinamento em um banco de dados local, o modelo precisaria ser incorporado a um software com interface intuitiva e instrutiva, de modo a apoiar os médicos generalistas na caracterização das lesões conforme as escalas recomendadas. Além disso, a inclusão de uma funcionalidade para leitura e interpretação de fotos de lesões cutâneas tornaria a tecnologia ainda mais útil na prática clínica não especializada.
Considerações finaisO presente estudo permitiu identificar possibilidades tecnológicas aplicáveis no SUS, propondo a construção de um algoritmo de machinelearning para classificação multiclasse de doenças dermatológicas eritemato‐descamativas com o potencial de auxiliar a realidade da prática clínica na atenção primária pública brasileira. Para trabalhos futuros, será importante o desenvolvimento dessa tecnologia de modo a incluir a construção de um banco de dados brasileiro atualizado e multicêntrico, e o aprimoramento da técnica de predição utilizando modelos capazes de interpretar fotos de lesões de pele, incorporada a um software com interface adequada ao uso do médico não especialista.
Disponibilidade de dados de pesquisaTodo o conjunto de dados que dá suporte aos resultados deste estudo foi publicado no próprio artigo.
EditorLuciana P. Fernandes Abbade.
Suporte financeiroNenhum.
Contribuição dos autoresRaiza Brito Cipriano: Concepção e o desenho do estudo; análise e interpretação dos dados; implementação do código de computador e algoritmos de suporte; redação do artigo ou revisão crítica do conteúdo intelectual importante.
Wilson Falco Neto: Redação do artigo ou revisão crítica do conteúdo intelectual importante.
Fabiano N. Barcellos Filho: Implementação do código de computador e algoritmos de suporte; redação do artigo ou revisão crítica do conteúdo intelectual importante; participação efetiva na orientação da pesquisa.
Alexandre Dias Porto Chiavegatto Filho: Redação do artigo ou revisão crítica do conteúdo intelectual importante; participação efetiva na orientação da pesquisa; revisão crítica da literatura; aprovação final da versão final do manuscrito.
Conflito de interessesNenhum.
Como citar este artigo: Cipriano RB, Falco Neto W, Barcellos Filho FN, Chiavegatto Filho ADP. Artificial intelligence for the diagnosis of erythematous‐squamous dermatological diseases: technological contributions to primary care. An Bras Dermatol. 2025;100:501169.
Trabalho realizado na Faculdade de Saúde Pública, Universidade de São Paulo; Faculdade de Medicina de Catanduva; Faculdade de Medicina, Escola Superior de Ciências, Santa Casa de Misericórdia de Vitória.