Liberando nossa IA de previsão de ataque cardíaco com ferramentas “sem código”

Prolongar / Ahhh, o botão fácil!

Aurich Lawson | imagens falsas

Este é o segundo episódio de nossa exploração do aprendizado de máquina “sem código”. Em nosso primeiro artigoApresentamos nosso conjunto de problemas e discutimos os dados que usaríamos para testar se uma ferramenta de ML altamente automatizada projetada para analistas de negócios poderia fornecer resultados lucrativos de qualidade próxima. métodos mais intensivos em código envolvendo um pouco mais de ciência de dados orientada por humanos.

Se você não leu esse artigo, você deve voltar e pelo menos folheie. Se você estiver pronto, vamos revisar o que faríamos com nossos dados de ataque cardíaco em condições de aprendizado de máquina “normais” (ou seja, com mais código) e, em seguida, jogue tudo isso fora e aperte o botão “fácil”.

Como discutimos anteriormente, estamos trabalhando com um conjunto de dados de saúde do coração derivado de um estudo no Cleveland Clinical Institute e no Instituto Húngaro de Cardiologia em Budapeste (assim como em outros lugares cujos dados descartamos por motivos de qualidade). Todos esses dados estão disponíveis em um repositório que criamos no GitHub, mas sua forma original faz parte do um repositório de dados mantido para projetos de aprendizado de máquina pela Universidade da Califórnia-Irvine. Estamos usando duas versões do conjunto de dados: um menor, mais abrangente, que consiste em 303 registros de pacientes da Cleveland Clinic e um banco de dados maior (597 pacientes) incorporando dados do Instituto Húngaro, mas faltando dois tipos de dados do menor conjunto.

Os dois campos ausentes nos dados húngaros parecem potencialmente importantes, mas os dados da Cleveland Clinic em si podem ser um conjunto muito pequeno para alguns aplicativos de aprendizado de máquina, então tentaremos cobrir nossas bases com ambos.

O plano

Com vários conjuntos de dados disponíveis para treinamento e teste, era hora de começar a trabalhar. Se fizéssemos isso da maneira que os cientistas de dados normalmente fazem (e da maneira que tentamos no ano passado), estaríamos fazendo o seguinte:

  1. Divida os dados em um conjunto de treinamento e um conjunto de teste
  2. Use os dados de treinamento com um tipo de algoritmo existente para criar o modelo
  3. Valide o modelo com o conjunto de teste para verificar sua precisão

Poderíamos fazer tudo isso codificando-o em um notebook Jupyter e modificando o modelo para uma precisão aceitável (como fizemos no ano passado, em um loop perpétuo). Mas, em vez disso, primeiro tentaremos duas abordagens diferentes:

  • Uma abordagem “sem código” usando o AWS Sagemaker Canvas: o Canvas pega os dados como um todo, os divide automaticamente em treinamento e teste e gera um algoritmo preditivo
  • Outra abordagem de “pouco código/sem código” usando o Sagemaker Studio Jumpstart e AutoML: AutoML é uma grande parte do que está por trás do Canvas; avalia os dados e testa vários tipos diferentes de algoritmos para determinar qual é o melhor

Feito isso, vamos dar uma volta usando uma das muitas abordagens de ML testadas em batalha que os cientistas de dados já testaram neste conjunto de dados, algumas das quais alegaram ter mais de 90% de precisão.

O produto final dessas abordagens deve ser um algoritmo que possamos usar para executar uma consulta preditiva com base nos pontos de dados. Mas o resultado real será uma análise das vantagens e desvantagens de cada abordagem em termos de tempo de conclusão, precisão e custo do tempo de computação. (Em nosso último teste, o próprio AutoML quase excedeu todo o nosso orçamento de crédito de computação da AWS.)

You May Also Like

About the Author: Gabriela Cerqueira

"Solucionador de problemas do mal. Amante da música. Especialista certificado em cultura pop. Organizador. Guru do álcool. Fanático por café."

Deixe um comentário

O seu endereço de e-mail não será publicado.