Em machine learning, a ideia básica é utilizar um grande volume de dados — de preferência de qualidade para a finalidade a que se destinam — para que se possa “ensinar” modelos computacionais a tirar conclusões a partir de novos dados.
Este “aprendizado” realizado pela máquina — que, na verdade, exige um árduo trabalho humano, altamente capacitado e específico –, pode ser dividido em 2 tipos: Aprendizado Supervisionado vs. Aprendizado Não-Supervisionado.
Aprendizado Supervisionado
No Aprendizado Supervisionado, os dados de treino utilizados para construir os algoritmos já estão devidamente categorizados com o desfecho de interesse ou com o valor que se quer predizer. Em outras palavras, para cada sujeito, já temos a informação (que se supõe ser verdadeira) ideal, o “output“.
Por exemplo, suponha que nossa intenção seja obter um modelo preditivo de risco de infarto em 1 ano, a partir de dados clínicos pré-definidos. Para tal, devemos alimentar nosso algoritmo com dados de um grande volume populacional, já tendo a correta classificação dos indíviduos quanto à ocorrência de infarto ou não. Outro exemplo de Aprendizado Supervisionado seria um modelo preditivo de peso corporal, a partir de informações como hábitos de vida. Novamente, os dados de treino já devem conter a informação do peso dos indivíduos, para que o algoritmo “aprenda” a chegar neste output ideal.
De modo geral, podemos dizer que no Aprendizado Supervisionado, informamos o “input” (dados de entrada) e o “output” (desfecho), e a missão do algoritmo é chegar a uma função com a máxima acurácia preditiva possível, para que se possa compreender as relações complexas entre as variáveis de “input” (também chamadas de “features“), de modo a chegar ao “output“.
As aplicações do Aprendizado Supervisionado geralmente se concentram em 2 tipos: problemas de classificação e problemas de regressão.
Na classificação, objetiva-se taguear adequadamente os sujeitos de teste em determinada categoria de interesse (grupos “alto risco de infarto” e “baixo risco de infarto”, no exemplo anterior), e na regressão, objetiva-se chegar a um valor numérico contínuo como resultado (valor do peso corporal, no exemplo anterior).
Aprendizado Não-Supervisionado
No Aprendizado Não-Supervisionado, os dados de treino não contêm nenhuma informação de desfecho ou valor numérico como “output“. Apenas são fornecidos os dados de “input” e o objetivo do algoritmo é justamente identificar os padrões de agrupamento entre os indivíduos.
Assim, temos que o objetivo dos modelos baseados em Aprendizado Não-Supervisionado quase sempre é a “clusterização” (agrupamento) dos indivíduos. Mesmo em estudos envolvendo Aprendizado Supervisionado, frequentemente se utilizam técnicas de Aprendizado Não-Supervisionado numa etapa de análise exploratória de dados, para que se compreenda a estrutura básica dos dados de trabalho.
Outra aplicação do Aprendizado Não-Supervisionado é a redução de dimensionalidade, que consiste em reduzir a quantidade de “features” utilizadas na modelagem subsequente dos algoritmos, de modo a poupar tempo e recursos computacionais — tipicamente intensivos e diretamente relacionados ao volume de dados de treino.
Resumo
Na Lean Saúde, trabalhamos tanto com Aprendizado Supervisionado como com Aprendizado Não-Supervisionado, ao longo da construção e refino dos modelos preditivos aplicados à gestão de saúde.