Componentes gratuitos do Melissa Data Quality para SSIS

Componentes gratuitos do Melissa Data Quality para SSIS

Parsed address columns


Neste artigo, falaremos brevemente sobre a qualidade dos dados no SQL Server. Em seguida, forneceremos uma breve visão geral do Melissa Data Quality para SSIS (SQL Server Integration Services) e demonstraremos os componentes disponíveis na edição da comunidade.

Introdução

Em geral, a qualidade dos dados é o nível de quantidade de dados que se ajusta ao seu contexto de veiculação. O aprimoramento da qualidade dos dados é muito crítico, pois a má qualidade leva a relatórios imprecisos e resulta em decisões erradas e inevitavelmente danos econômicos. Por esse motivo, cada sistema de gerenciamento de dados forneceu várias ferramentas usadas para melhorar o nível de qualidade dos dados.

Para o SQL Server, muitas tecnologias podem ser usadas para aprimorar a qualidade dos dados:

Serviços de qualidade de dados do SQL Server (DQS)

O Data Quality Services é um recurso de qualidade de dados baseado em conhecimento desenvolvido pela Microsoft e lançado no SQL Server 2012. Ele pode ser instalado a partir da instalação do SQL Server e fornece serviços diferentes, como criar uma base de conhecimento, deduplicação de dados, padronização .

Para saber mais sobre esse recurso, consulte os seguintes artigos:

Usando os conhecidos Componentes SSIS da Microsoft

O SQL Server Integration Services fornece vários componentes que podem ser usados ​​para avaliar e aprimorar a qualidade dos dados. Essas operações podem ser executadas no nível de fluxo de controle, como criação de perfil e validação de dados, ou no nível de fluxo de dados usando pesquisas difusas, divisões condicionais, colunas derivadas, componente de script e outros.

Escrevendo instruções SQL

Uma das abordagens mais populares de limpeza de dados é implementar sua própria lógica usando instruções SQL, conhecidas como manipulação de dados. O SQL Server forneceu várias funções do sistema que podem ser usadas para melhorar a qualidade dos dados.

Usando componentes de terceiros

Uma das coisas mais bonitas do IDE do Visual Studio é que é permitido desenvolver componentes de terceiros e integrá-los aos produtos da Microsoft, como o SSIS. Muitas empresas desenvolveram componentes SSIS de terceiros, como CDATA, Kingwaysoft e COZYROC.

Com relação à qualidade dos dados, um dos produtos mais populares no mercado são os componentes de qualidade de dados Melissa para SQL Server.

Melissa Data Quality para SQL Server

As ferramentas de qualidade de dados Melissa são um conjunto de componentes do SSIS usados ​​para limpar e enriquecer dados durante o processo de transferência ou integração de dados. Duas edições estão disponíveis:

  1. Edição Enterprise: Comercial, contém uma ampla variedade de componentes de qualidade de dados e serviços online
  2. Edição da comunidade: Grátis, mas apenas alguns componentes estão disponíveis (verifique o link acima)

Neste artigo, falaremos sobre a edição da comunidade e ilustraremos brevemente seus componentes.

Faça o download da edição da comunidade de qualidade de dados Melissa

Para baixar a edição da comunidade de qualidade de dados Melissa, você deve navegar para a página de edições do SQL Server. Em seguida, solicite uma demonstração preenchendo o formulário localizado no lado esquerdo da página. E certifique-se de selecionar a edição da comunidade.

Leia Também  Erros ilógicos podem ser um fator do plano - SQLBlog

Solicitando a edição da comunidade de qualidade de dados Melissa

Figura 1 – página de edições do SQL Server

Depois de solicitar a demonstração, você receberá um email que contém um link para o instalador da web com uma chave de licença da comunidade.

E-mail recebido de Melissa

Figura 2 – E-mail recebido

Agora, você deve baixar o instalador da web a partir do link que recebeu. Quando terminar, você deve inserir a chave de licença Melissa durante a instalação.

Formulário de informações da licença de qualidade de dados Melissa na instalação

Figura 3 – Solicitação de informações de licença durante a instalação

Quando a instalação é concluída, os componentes de qualidade de dados Melissa devem aparecer na caixa de ferramentas do SSIS (nível de fluxo de dados).

Componentes de qualidade de dados Melissa na caixa de ferramentas SSIS

Figura 4 – Componentes de qualidade de dados Melissa na caixa de ferramentas SSIS

Se você adicionar qualquer um desses componentes ao fluxo de dados, verá a seguinte notificação sempre que tentar abrir seu editor.

Notificação da edição da comunidade

Figura 5 – Notificação da edição comunitária

Conforme mencionado na página de edições do Melissa SQL Server, poucos recursos estão disponíveis na edição da comunidade:

  1. Componente Verificar contato: Somente operações de análise de endereço, análise de nome, correção de e-mail e formatação de telefone podem ser executadas
  2. analisador: Limite máximo de 50000 registros
  3. MatchUp: Limite máximo de 50000 registros

Nota: para executar exemplos, exportamos um arquivo simples do banco de dados AdventureWorks2017, usando a seguinte instrução SQL:

  • Nota: Concatenamos o nome, o nome do meio e o sobrenome para testar o analisador de nomes. Além disso, adicionamos um “.” no final do endereço de email para testar o recurso de correção de email.

Componente de verificação de contato

Como mencionado anteriormente, existem apenas quatro recursos do componente de verificação de contato disponíveis na edição da comunidade:

  1. Análise de nome: Esse recurso é usado para dividir um nome completo arquivado em campos de nome, meio e sobrenome. Além disso, extrai informações adicionais como título, prefixo e sufixo. Na edição da comunidade, podemos extrair apenas o sobrenome
  2. Análise de endereço: Esse recurso é usado para extrair informações adicionais do campo de endereço, como nome da rua, sufixo, nome da caixa de correio e outros
  3. Formatação do telefone: Este recurso é usado para alterar a formatação do número de telefone
  4. Correção de e-mail: Esse recurso é usado para remover caracteres sem sentido de um endereço de email

Para testar esse componente, criamos um novo projeto SSIS e adicionamos os seguintes componentes:

  • Gerenciador de Conexão de Arquivo Simples: usado para estabelecer uma conexão com o arquivo simples que geramos a partir do banco de dados AdventureWorks2017
  • Gerenciador de conexões OLE DB: usado para estabelecer uma conexão com o Tempdb (vamos usá-lo como destino)
  • Tarefa de fluxo de dados: onde adicionaremos os seguintes componentes:
    • Origem do arquivo simples: leia a partir do gerenciador de conexões de arquivos simples
    • Verifique o contato do MD: Melissa contato verificar componente
    • Destino OLE DB: onde os dados serão carregados

Para configurar o componente Verificação de contato, primeiro precisamos especificar o diretório de dados Melissa. No editor de verificação de contato, vá para “Arquivo> Configuração avançada”.

Abrindo configuração avançada

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br

Figura 6 – Abrindo a configuração avançada

Verifique se o caminho do arquivo de dados está definido como “C: Arquivos de Programas Melissa DATA SQT Data”, que é o caminho padrão do arquivo de dados.

Formulário de configuração avançada

Figura 7 – Formulário de configuração avançada

Agora, primeiro vamos configurar o recurso de análise de nome. No editor de verificação de contatos, selecionamos a aba “Nome”. Em seguida, devemos especificar a coluna Nome da entrada e a coluna Sobrenome da saída, conforme mostrado na imagem abaixo.

Página da guia Análise de nome

Figura 8 – Análise de nome

Observe que mesmo a coluna de saída de nome e nome do meio são especificados por padrão, eles não geram dados na edição da comunidade. Além disso, as colunas “Nome 2” geram dados se existirem dois nomes no campo de nome.

Em seguida, devemos selecionar a aba “Endereço” para configurar a análise de endereço. Em seguida, devemos especificar todas as colunas de entrada disponíveis, conforme mostrado na imagem abaixo.

Colunas de entrada de análise de endereço

Figura 9 – Colunas de entrada de análise de endereço

Agora, devemos pressionar o botão “Colunas de saída adicionais” para especificar as colunas de saída geradas.

Colunas de endereço analisadas

Figura 10 – Colunas de endereço analisado

Você observará que todas as propriedades relacionadas à edição corporativa estão desabilitadas.

Em seguida, devemos selecionar a guia “Telefone / E-mail” para configurar a formatação do telefone e o recurso de correção de e-mail. Como mostrado abaixo, devemos especificar as colunas de telefone e email de entrada, as colunas de saída e o formato de telefone desejado.

Configuração de telefone / email

Figura 11 – Configuração de telefone / email

Em seguida, devemos selecionar a página da guia “Colunas de passagem”, para especificar quais são as colunas no buffer de entrada que precisamos adicionar ao buffer de saída.

Colunas de passagem

Figura 12 – Colunas de passagem

O componente Verificação de contato permite adicionar filtros condicionais à saída gerada, o que não é suportado na edição da comunidade. Você pode verificar isso na ficha de registro “Filtro de saída”, onde você pode alterar apenas o nome da saída.

Filtro de saída

Figura 13 – Filtro de saída

Depois de configurar o componente MD Contact Verify, criamos uma nova tabela de destino a partir do componente de destino OLE DB usando o botão “Novo”.

Criando uma nova tabela de destino

Figura 14 – Criando uma nova tabela de destino

No final, a tarefa de fluxo de dados deve se parecer com o seguinte:

Captura de tela da tarefa de fluxo de dados

Figura 15 – Tarefa de fluxo de dados

Após a execução do pacote, podemos ver o impacto do componente na tabela de resultados, conforme mostrado nas seguintes capturas de tela:

Resultado da análise de nome

Figura 16 – Resultado da análise de nome

Resultado da análise de endereço

Figura 17 – Resultado da análise de endereço

Resultado da formatação do telefone e correção de e-mail

Figura 18 – Resultado da formatação do telefone e correção do email

Componente Profiler

O segundo componente de qualidade de dados Melissa é o MD Profiler. É um componente de criação de perfil de dados semelhante à tarefa de criação de perfil de dados do SSIS. Este componente é simples; você deve selecionar as colunas de entrada, passagem e resultado. E cada dado de perfil é gerado em uma saída separada, conforme mostrado nas capturas de tela abaixo. Além disso, você pode realizar algumas análises sobre como o processamento de dados está completo e salvar o perfil em um arquivo externo.

Selecionar colunas de entrada

Figura 19 – Selecionar colunas de entrada

Selecione a análise necessária

Figura 20 – Selecione a análise necessária

Configurar saída do perfil

Figura 21 – Configurar saída do perfil

O perfil de dados gerado gera

Figura 22 – O perfil de dados gerado gera

Vinculando a saída do perfil a um destino

Figura 23 – Vinculando a saída do perfil a um destino

Mesmo que esse componente seja mencionado nos recursos disponíveis da edição da comunidade. Ele ainda não está funcionando corretamente, pois pode não aceitar uma chave de licença da comunidade.

Componente de correspondência

O terceiro componente gratuito de qualidade de dados Melissa é o componente Matchup. Esse componente é semelhante à transformação de pesquisa do SSIS, mas com um recurso de deduplicação. A deduplicação é realizada com base no conjunto de regras dos códigos de correspondência. Na edição da comunidade, apenas códigos de nove correspondências estão disponíveis.

Código de correspondência disponível

Figura 24 – Código de correspondência disponível

Para executar pesquisas, você deve adicionar uma fonte de dados e vinculá-la à entrada do componente Pesquisa, como mostrado abaixo.

Selecionando o tipo de entrada do componente Matchup

Figura 25 – Selecionando o tipo de entrada do componente Matchup

Conclusão

Neste artigo, falamos brevemente sobre a qualidade dos dados e como aprimorá-los no SQL Server Integration Services (SSIS). Ilustramos a edição comunitária da qualidade dos dados Melissa e demonstramos os componentes disponíveis; O Contact Verify foi totalmente explicado enquanto não fornecemos muitas informações sobre Profiler e Matchup, pois eles precisam de um artigo separado. Com base na demonstração, a edição comunitária é usada apenas para demonstração, embora devamos comprar a edição corporativa, pois ela contém ferramentas muito mais poderosas que podemos precisar no nível corporativo.

Hadi Fadlallah
Últimas mensagens de Hadi Fadlallah (ver todos)

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br