Um guia para iniciantes sobre os Databricks do Azure

Um guia para iniciantes sobre os Databricks do Azure

Um guia para iniciantes sobre os Databricks do Azure 1
cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br


Este artigo serve como um guia completo para os Databricks do Azure para iniciantes. Aqui, você mostrará os conceitos básicos dos Databricks no Azure, como criá-lo no portal do Azure e vários componentes e componentes internos relacionados a ele.

Os sistemas estão trabalhando com grandes quantidades de dados em petabytes ou mais e ainda estão crescendo a uma taxa exponencial. O big data está presente em todos os lugares e vem de diferentes fontes, como sites de mídia social, vendas, dados de clientes, dados transacionais etc. E acredito firmemente que esses dados só têm seu valor se pudermos processá-los de maneira interativa e rápida.

O Apache Spark é um sistema de computação de cluster rápido e de código aberto e uma estrutura altamente popular para análise de big data. Essa estrutura processa os dados em paralelo, o que ajuda a aumentar o desempenho. Está escrito em Scala, uma linguagem de alto nível, e também suporta APIs para Python, SQL, Java e R.

Agora a pergunta é:

O que é o Azure Databricks e como ele está relacionado ao Spark?

Simplificando, o Databricks é a implementação do Apache Spark no Azure. Com clusters Spark totalmente gerenciados, é usado para processar grandes cargas de trabalho de dados e também ajuda na engenharia de dados, na exploração de dados e também na visualização de dados usando o Machine Learning.

Enquanto eu trabalhava em databricks, acho essa plataforma analítica extremamente amigável para o desenvolvedor e flexível, com facilidade para usar APIs como Python, R etc. Para explicar um pouco mais, digamos que você criou um quadro de dados em Python, com Databricks do Azure, você pode carregar esses dados em um modo de exibição temporário e pode usar Scala, R ou SQL com um ponteiro referente a esse modo de exibição temporário. Isso permite que você codifique em vários idiomas no mesmo notebook. Este foi apenas um dos recursos interessantes.

Por que os Databricks do Azure?

Evidentemente, a adoção do Databricks está ganhando importância e relevância em um mundo de big data por duas razões. Além do suporte a vários idiomas, esse serviço nos permite integrar facilmente com muitos serviços do Azure, como Blob Storage, Data Lake Store, banco de dados SQL e ferramentas de BI como Power BI, Tableau, etc. É uma ótima plataforma colaborativa que permite que os profissionais de dados compartilhem clusters e espaços de trabalho, o que leva a maior produtividade.

Esboço

Antes de começarmos a cavar Databricks no Azure, gostaria de dedicar um minuto aqui para descrever como esta série de artigos será estruturada. Pretendo abordar os seguintes aspectos dos Databricks no Azure nesta série. Observe – este esboço pode variar aqui e ali quando eu realmente começar a escrever sobre eles.

Leia Também  SQL Server no Linux - como ele realmente funciona? |

  1. Como acessar o Armazenamento de Blob do Azure nos Databricks do Azure

  2. Processando e explorando dados nos Azure Databricks

  3. Conectando bancos de dados SQL do Azure com os Databricks do Azure

  4. Carregar dados no SQL Data Warehouse do Azure usando os Databricks do Azure

  5. Integrando os Databricks do Azure ao Power BI

  6. Execute um Bloco de Dados do Azure Databricks no Azure Data Factory e muito mais…

Neste artigo, falaremos sobre os componentes dos Databricks no Azure e criaremos um serviço Databricks no portal do Azure. Avançando, criaremos um cluster Spark neste serviço, seguido pela criação de um notebook no cluster Spark.

A captura de tela abaixo é o diagrama apresentado pela Microsoft para explicar os componentes do Databricks no Azure:

Integração do Azure Databricks com outros serviços.

Existem alguns recursos que vale a pena mencionar aqui:

  • Área de Trabalho Databricks – Oferece um espaço de trabalho interativo que permite que cientistas, engenheiros e empresas de dados colaborem e trabalhem em conjunto em notebooks e painéis
  • Databricks Runtime – Incluindo o Apache Spark, eles são um conjunto adicional de componentes e atualizações que garantem melhorias em termos de desempenho e segurança de cargas de trabalho e análises de big data. Essas versões são lançadas regularmente
  • Como mencionado anteriormente, ele se integra profundamente a outros serviços, como os serviços do Azure, Apache Kafka e Hadoop Storage, e você pode publicar ainda mais os dados no aprendizado de máquina, análise de fluxo, Power BI, etc.

  • Por ser um serviço totalmente gerenciado, vários recursos como armazenamento, rede virtual etc. são implantados em um grupo de recursos bloqueados. Você também pode implantar esse serviço em sua própria rede virtual. Veremos isso mais adiante neste artigo

  • Sistema de arquivos Databricks (DBFS) – Esta é uma camada de abstração sobre o armazenamento de objetos. Isso permite montar objetos de armazenamento, como o Armazenamento de Blob do Azure, que permite acessar dados como se estivessem no sistema de arquivos local. Vou demonstrar isso em detalhes no próximo artigo desta série

Agora que temos um entendimento teórico dos Databricks e seus recursos, vamos ao portal do Azure e o vemos em ação.

Criar um serviço de Databricks do Azure

Como para qualquer outro recurso no Azure, você precisaria de uma assinatura do Azure para criar Databricks. Caso não tenha, você pode ir aqui para criar um gratuitamente.

Entre no portal do Azure e clique em Crie um recurso e tipo databricks na caixa de pesquisa:

Crie Databricks no portal do Azure. 1/3

Clique no Crio como mostrado abaixo:

Crie Databricks no portal do Azure. 2/3

Você será levado para a tela a seguir. Providencie a seguinte informação:

  • Assinatura – selecione sua assinatura

  • Grupo de recursos – estou usando o que já criei (azsqlshackrg), você pode criar um novo também para esse

  • Nome da área de trabalho – é o nome (azdatabricks) que você deseja fornecer para o serviço databricks

  • Localização – selecione a região onde deseja implantar o serviço de dados, Leste dos EUA

  • Nível de preço – Estou selecionando Premium – 14 dias grátis de DBUs para esta demonstração. Para saber mais detalhes sobre as camadas Standard e Premium, clique aqui

Depois, bata no Revisar + Criar para revisar os valores enviados e, finalmente, clique no Crio para criar este serviço:

Crie Databricks no portal do Azure. 3/3

Depois de criado, clique na opção “Ir para o recurso” na guia de notificação para abrir o serviço que você acabou de criar:

Serviço de banco de dados implantado com êxito no Azure.

Você pode ver várias informações específicas, como URL, detalhes de preços, etc. sobre o serviço de dados no portal.

Clique em Iniciar espaço de trabalho abrir o portal do Azure Databricks; é aqui que criaremos um cluster:

Iniciar espaço de trabalho databricks no Azure

Você será solicitado a entrar novamente para iniciar o Databricks Workspace.

A captura de tela a seguir mostra a página inicial do Databricks no portal do Databricks. No Área de trabalho Na guia, você pode criar cadernos e gerenciar seus documentos. o Dados A guia abaixo permite criar tabelas e bancos de dados. Você também pode trabalhar com várias fontes de dados como Cassandra, Kafka, Azure Blob Storage, etc. Clique em Clusters na lista vertical de opções:

Portal de Databricks do Azure.

Criar um cluster Spark nos Databricks do AzureClusters em databricks no Azure são criados em um ambiente Apache spark totalmente gerenciado; você pode aumentar ou diminuir a escala automaticamente com base nas necessidades da empresa. Clique em Criar cluster abaixo no Clusters página:

Criar um cluster de spark nos databricks no Azure

A captura de tela a seguir mostra várias opções de configuração para criar um novo cluster de bancos de dados. Estou criando um cluster com o tempo de execução 5.5 (um mecanismo de processamento de dados), versão Python 2 e a série Standard_F4s configurada (o que é bom para baixas cargas de trabalho). Como é uma demonstração, não estou habilitando o auto-scaling e também a opção para encerrar este cluster se ele estiver ocioso por 120 minutos.

Por fim, gire-o com um clique no Criar cluster botão no Novo cluster página:

Criar um cluster Spark nos databricks no Azure

Basicamente, você pode configurar seu cluster como desejar. Várias configurações de cluster, incluindo Opções avançadas, são descritas em detalhes aqui nesta página de documentação da Microsoft.

Você pode ver o status do cluster como Pendente na captura de tela abaixo. Isso levará algum tempo para criar um cluster:

Cluster Spark no estado pendente nos bancos de dados no Azure

Agora nosso cluster está ativo e em execução:

Cluser de faísca no estado em execução nos bancos de dados no Azure

Por padrão, o Databricks é um serviço totalmente gerenciado, o que significa que os recursos associados ao cluster são implantados em um grupo de recursos bloqueados, databricks-rg-azdatabricks-3… como mostrado abaixo. Para o serviço Databricks, azdatabricks, VM, disco e outros serviços relacionados à rede são criados:

Recursos criados com databricks no Azure 1/2

Você também pode observar que uma conta de armazenamento dedicada também é implantada no grupo de recursos fornecido:

Recursos criados com databricks no Azure 2/2

Crie um bloco de anotações no cluster Spark

Um notebook no cluster spark é uma interface baseada na Web que permite executar código e visualizações usando diferentes idiomas.

Depois que o cluster estiver em funcionamento, você poderá criar blocos de anotações nele e também executar tarefas do Spark. Na guia Área de trabalho, na barra de menus vertical esquerda, clique em Crio e selecione Caderno:

Bloco de anotações em bancos de dados no Azure.

No Crio Caderno caixa de diálogo, forneça o nome do Notebook, selecione o idioma (Python, Scala, SQL, R), o nome do cluster e pressione o Crio botão. Isso criará um bloco de anotações no cluster Spark criado acima:

Crie um bloco de notas nos databricks.

Como exploraremos diferentes facetas dos Databricks Notebooks em meus próximos artigos, vou colocar um ponto final neste post aqui.

Conclusão

Tentei explicar o básico dos Azure Databricks da maneira mais compreensível aqui. Também abordamos como você pode criar Databricks usando o Portal do Azure, seguido pela criação de um cluster e um bloco de anotações nele. A intenção deste artigo é ajudar os iniciantes a entender os fundamentos dos Databricks no Azure. Fique atento aos artigos do Azure para descobrir mais sobre essa ferramenta poderosa.

Gauri Mahajan
Últimas mensagens de Gauri Mahajan (ver todos)

cupom com desconto - o melhor site de cupom de desconto cupomcomdesconto.com.br