Formação Spark com Pyspark : o Curso Completo

Domine a mais importante ferramenta para Cientistas de Dados e Engenheiros de Dados para processamento de dados massivos

Formação Spark com Pyspark : o Curso Completo
Formação Spark com Pyspark : o Curso Completo

Formação Spark com Pyspark : o Curso Completo free download

Domine a mais importante ferramenta para Cientistas de Dados e Engenheiros de Dados para processamento de dados massivos

Bem vindo ao melhor e mais atualizado curso de Spark!

Na era "Big Data" o Spark se tornou a principal ferramenta de processamento de dados no mundo devido a sua capacidade de processar volumes massivos de dados com alta performance, se tornando uma ferramenta essencial para Cientistas e Engenheiros de Dados. Sua arquitetura distribuída permite processar dados utilizando paralelismo e memória, persistindo dados quando necessário. Além disso o Spark é capaz de importar dados de praticamente qualquer fonte, bem como também exportar dados processados para os principais formatos e bancos de dados utilizados.

Do ponto de vista profissional, conhecer Spark é uma das habilidades mais importantes ao lado de Machine Learning e Python. E o melhor disso é o que Spark já traz tudo isso. Você pode utilizar Spark com Python, através do Pyspark, e você pode criar modelos de Machine Learning utilizando as próprias bibliotecas do Spark.

Neste curso prático, você vai começar do zero e aprender todas as principais características desta ferramenta. Entre outras coisas você vai:

  • Aprender a instalar e configurar o Spark

  • Conhecer o principal objeto de dados: DataFrames do Spark

  • Processar DataFrames através de transformações e ações

  • Consultar Dados no Spark com Sintaxe SQL

  • Criar Views e fazer Joins

  • Persistir dados em disco, criando tabelas em formatos como Parquet e ORC

  • Importar dados de fontes como Mongodb, PostgreSQL e arquivos como Json e Parquet

  • Criar aplicações que você pode rodar na linha de comendo

  • Machine Learning com Spark: crie modelos e faça previsões

  • Construa Pipelines de Marchine Learning

  • Processe dados em tempo real com Spark Structured Streaming

  • Otimize o Spark com Cache, Persistência, Particionamento e Bucketing

  • Use Spark com Jupyter Notebooks

  • Use Spark com Pandas e outras bibliotecas do Python

  • Construa um Cluster!

Você ainda vai encontrar material do curso para baixar: scripts, slides e dados de exemplo.