Limpeza de dados no Azure Machine Learning

Limpeza de dados no Azure Machine Learning

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Introdução

Depois de discutir os recursos básicos do Azure Machine Learning no artigo anterior, Introdução ao Azure Machine Learning usando o Azure ML Studio, veremos as técnicas de limpeza de dados no Azure Machine Learning. Limpeza de dados ou limpeza de dados é um aspecto importante quando se trata de prever, pois os dados de qualidade melhoram a qualidade da previsão de dados.

Existem várias opções para a Limpeza de Dados no Azure Machine Learning, como remover dados duplicados, substituir valores ausentes e normalizar dados. Antes de executar qualquer limpeza de dados, é importante resumir os dados. A sumarização de dados pode ser obtida via Resumir dados ao controle.

Resumir dados

Não há parâmetros a serem configurados no controle de resumo de dados. Vamos configurar Resumir Dados com dados de amostra, conforme mostrado na captura de tela abaixo.

Resuma o controle de dados no Azure Machine Learning.

Após o resumo, você verá muitos dados estatísticos, como Contagem, Contagem de valores exclusivos, Contagem de valores ausentes, Mín, Máx, Média, Média, Desvio, 1º quartil, Mediana, 3º quartil, Modo, Faixa, Variação da amostra, Amostra Desvio padrão, assimetria da amostra e curtose da amostra.

A tela a seguir mostra algumas colunas para os dados resumidos.

Resuma valores de dados para decidir a Limpeza de Dados no Azure Machine Learning.

As medidas de assimetria e curtose indicam distribuição de dados, para que você possa decidir quais colunas precisam ser normalizadas.

Selecionando as Colunas Necessárias

No aprendizado de máquina, talvez você não precise de todos os atributos para prever. Portanto, você tem a opção de selecionar apenas as colunas necessárias. Por exemplo, talvez você não precise endereçar colunas para prever padrões de compradores de bicicletas. Portanto, você pode excluir essas colunas usando Selecionar colunas no conjunto de dados controle no Azure Machine Learning.

Usando Selecionar Colunas no controle Conjunto de Dados no Azure Machine Learning.

Vamos usar o conjunto de dados do Adventure Works. Para esse fim, o conjunto de dados do vTargetMail no AdventureWorksDW é exportado para um arquivo CSV e importado para o Azure Machine Learning.

Vamos arrastar e soltar o Selecionar colunas no conjunto de dados para o novo experimento, e existem algumas opções de configuração nesse controle. Você pode selecionar as colunas entre seus nomes ou regras.

Leia Também  Painéis de servidor e banco de dados no Azure Data Studio

Selecionando colunas por nome.

Conforme mostrado na captura de tela acima, você pode escolher as colunas necessárias. Nas COLUNAS DISPONÍVEIS marcadas, você pode filtrar colunas por tipos de dados ou digitando o nome da coluna.

Se você deseja remover apenas algumas colunas, pode usar a opção WITH RULES. Nesta configuração, você pode escolher as colunas que deseja excluir, conforme mostrado na captura de tela abaixo.

Selecionando colunas por regras.

Dependendo do número de colunas que você deseja eliminar, você pode escolher a opção necessária. A seguir, será a experiência final, uma vez configurada.

Configuração para Selecionar colunas no conjunto de dados.

Depois de executar a experiência criada, você verá que as colunas eliminadas não existem mais no fluxo de dados.

Por favor note que Selecionar colunas no conjunto de dados A coluna foi renomeada a partir das versões anteriores, denominada Colunas do projeto. Se você estiver assistindo a vídeos mais antigos ou lendo artigos mais antigos, poderá encontrá-los como controle de coluna do projeto.

Vejamos outro controle para limpeza de dados no Azure Machine Learning que é Limpar dados ausentes.

Limpar dados ausentes

Semelhante a Selecionar colunas no conjunto de dados, Limpar dados ausentes também é aprimorado de Purificador de valores ausentes. A manipulação de valores ausentes como limpeza de dados no Azure Machine Learning é uma técnica importante.

Como o vTargerMail é um conjunto de dados bem limpo, vamos usar um conjunto de dados diferente. No exemplo a seguir, o conjunto de dados do Wine de Weka é usado. Vamos criar um conjunto de dados e visualizar o conjunto de dados.

Localizando valores ausentes no conjunto de dados.

No conjunto de dados acima, você verá que existem 2 valores ausentes para o Rosa coluna. Vamos arrastar e soltar o Limpar dados ausentes no painel de controle e conecte-se ao conjunto de dados, conforme mostrado abaixo.

Limpe o controle de dados ausentes.

A seguir, é exibida a tela que você verá após a Limpar dados ausentes O módulo está conectado ao conjunto de dados.

Limpe o controle de dados ausentes.

Agora vamos configurar o Limpar dados ausentes como Limpeza de dados no Azure Machine Learning.

Configurando o controle Clean Missing Data.

Primeiro, você precisa selecionar quais são as colunas que precisa configurar para os dados ausentes no seletor de colunas Iniciar. Isso é semelhante à configuração que fizemos para Selecionar colunas no conjunto de dados.

Leia Também  Dicas de ajuste de consulta do SQL Server para iniciantes com exemplos práticos

Selecione colunas para valores de dados ausentes.

Com a configuração acima, agora você está pronto para configurar os valores ausentes para o Rose como uma técnica em Limpeza de Dados no Azure Machine Learning.

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Em seguida, é configurar os métodos de substituição de valores ausentes e existem várias opções de limpeza, como Substituir MICE, valor de substituição personalizada, Substituir por média, Substituir por mediana, Substituir por modo, Remover linha inteira, Remover linha inteira, Remover coluna inteira e Substituir usando PCA probabilístico . Nessas opções, Substituir por média, Substituir por mediana, Substituir por modo substituirá os valores ausentes pela operação estatística mencionada na própria técnica de substituição. Por exemplo, Substituir por mediana substituirá os valores ausentes pelo valor mediano do conjunto de dados.

Agora vamos ver Remover linha inteira e Remover coluna inteira opções As opções Remover a linha inteira e Remover a coluna inteira são opções viáveis ​​para limpeza de dados no Azure Machine Learning. Ambas as configurações podem ser feitas, conforme mostrado na captura de tela abaixo.

Removendo a linha inteira e as opções Remover coluna inteira.

Se você analisar as duas saídas, verá que Remover a coluna removeu as colunas Rosa, enquanto a opção Remover linhas exibirá a redução de duas linhas.

Outra opção é substituí-lo por um valor personalizado configurado, conforme mostrado na captura de tela a seguir.

Configurando dados ausentes ausentes com valor de substituição personalizado.

Na configuração acima, o valor ausente é substituído pelo valor 129, conforme mostrado na captura de tela acima. Outra configuração é a Gere o indicador de valor ausente. Isso gerará uma coluna para indicar que os dados foram substituídos pelo controle de dados ausentes, conforme mostrado na tela a seguir.

Inclusão do indicador de valor ausente.

MICE significa Imputação Multivariada usando Equações em Cadeia e PCA significa Análise de Componentes Principais, que são operações mais estatísticas que podem ser usadas para substituir valores ausentes.

Remova linhas duplicadas

Dados duplicados são outra dor de cabeça para os cientistas de dados. Portanto, Remover linhas duplicadas controle é um controle importante na Limpeza de Dados no Azure Machine Learning. Vamos arrastar e soltar o Remover linhas duplicadas controle, como mostrado abaixo.

Suponhamos que queremos remover linhas duplicadas com os mesmos valores Branco-doce e Rosa, o que pode ser feito selecionando as seguintes colunas no Remover linhas duplicadas ao controle.

Leia Também  Problemas de tabela de fila com grupos de disponibilidade no SQL Server

Seleção de coluna nas opções Removendo a linha inteira e Remover coluna inteira

Como a configuração Reter a primeira linha duplicada é definida, duas linhas duplicadas foram removidas do fluxo de dados.

Editar metadados

A conversão de tipo de dados é outra tarefa de limpeza de dados no Azure Machine Learning. No caso do conjunto de dados vTagertMail, nomes de colunas como TotalChildren, NumberChildrenAtHome, HouseOwnerFlag, NumberCarsOwned, Age, BikeBuyer são definidos para o campo numérico. Como essas são variáveis ​​categóricas, precisamos convertê-las usando Editar metadados ao controle. Depois de escolher as colunas necessárias, como fizemos anteriormente, a seguir é converter o tipo de dados da string em tipo de dados categóricos, conforme mostrado na captura de tela abaixo.

Edite a configuração de metadados.

Valores do clipe

Recortar valores é outro controle para Limpeza de Dados no Azure Machine Learning. Você pode recortar os valores maiores que algum valor. Digamos que você queira recortar o valor Rose para 150, que é maior que 150. Isso pode ser alcançado pelo controle Clip Values ​​com as seguintes configurações.

Configuração de valores de clipe no Data Cleaning para Azure Machine Learning.

Com essa configuração, agora você verá que o valor da rosa, que tem mais de 150, é substituído por 150 e por um indicador.

Saída dos valores do clipper.

Normalizar dados

Quando há assimetria nos dados, você pode usar o controle Normalizar Dados. Nesse controle, você tem as opções de vários métodos de transformação, como ZScore, MinMax, Logistic, LogNormal e Tanh.

Conclusão

A limpeza de dados no Azure Machine Learning é um processo importante que deve ser realizado para melhorar a qualidade dos dados. Para conseguir isso, existem controles como Selecionar colunas em conjuntos de dados, Limpar dados ausentes, Remover linhas duplicadas, Valores de clipe e Normalizar dados.

Dinesh asanka
Últimas mensagens de Dinesh Asanka (ver todos)