Successfully reported this slideshow.
Your SlideShare is downloading. ×

Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Upcoming SlideShare
Whitepaper-Custos
Whitepaper-Custos
Loading in …3
×

Check these out next

1 of 11 Ad

Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

Download to read offline

Bibliotecas e ferramentas como numpy, Scikit, Pandas e Jupyter fizerem de Python um dos melhores eco sistemas para Data Science. Mas mesmo tendo caído nas graças dos Data Scientists, Python ainda não é efetivamente utilizada para processamento de dados em larga escala (Big Data). A maioria das ferramentas de processamento de dados, em especial as ferramentas para "Stream Processing", são escritas em Java. Nos casos onde existe algum suporte, Python é cidadão de segunda classe, sempre atrás em features ou performance.

Podemos fazer com que Python se torne uma excelente opção não apenas para os Data Scientists mas também para os Data Engineerings, que precisam prototipar e modelar pipelines complexos para Big Data. Nessa palestra entenderemos porquê Python ainda não preencheu essa lacuna, quais são os desafios técnicos e possíveis soluções para que Python seja uma linguagem de primeira classe para processamento de dados em larga escala e consequentemente para sistemas distribuídos.

Vamos investigar os seguintes tópicos e tecnologias: Stream Processing, Performance, Comunicação Distribuída e Actor Model, IO Assíncrono, Containers e Orquestração, Erlang e Elixir, Java/Scala, Netty e Akka.

Bibliotecas e ferramentas como numpy, Scikit, Pandas e Jupyter fizerem de Python um dos melhores eco sistemas para Data Science. Mas mesmo tendo caído nas graças dos Data Scientists, Python ainda não é efetivamente utilizada para processamento de dados em larga escala (Big Data). A maioria das ferramentas de processamento de dados, em especial as ferramentas para "Stream Processing", são escritas em Java. Nos casos onde existe algum suporte, Python é cidadão de segunda classe, sempre atrás em features ou performance.

Podemos fazer com que Python se torne uma excelente opção não apenas para os Data Scientists mas também para os Data Engineerings, que precisam prototipar e modelar pipelines complexos para Big Data. Nessa palestra entenderemos porquê Python ainda não preencheu essa lacuna, quais são os desafios técnicos e possíveis soluções para que Python seja uma linguagem de primeira classe para processamento de dados em larga escala e consequentemente para sistemas distribuídos.

Vamos investigar os seguintes tópicos e tecnologias: Stream Processing, Performance, Comunicação Distribuída e Actor Model, IO Assíncrono, Containers e Orquestração, Erlang e Elixir, Java/Scala, Netty e Akka.

Advertisement
Advertisement

More Related Content

Similar to Big data e python como cidadão de primeira classe para sistemas distribuídos [final] (20)

Recently uploaded (20)

Advertisement

Big data e python como cidadão de primeira classe para sistemas distribuídos [final]

  1. 1. Big Data e Python como cidadão de primeira classe para Sistemas Distribuídos Victor Poluceno github.com/victorpoluceno
  2. 2. Entrega. Acelera. Protege. jobs.azion.com
  3. 3. Python é excelente para o cientista de dados Baixa curva de aprendizado com excelente ecossistema
  4. 4. Para o engenheiro de dados Python não é uma boa opção Depende da JVM, performance é ruim e o custo operacional é alto
  5. 5. Importa porque podemos ter um ecossistema melhor Tornar Python uma boa opção para engenharia de dados e sistema distribuídos
  6. 6. Python como linguagem tem melhorado muito Diferentes interpretadores, IO assíncrono e type checking
  7. 7. Mas podemos melhorar muito Especialmente, precisamos de melhor suporte para construção de sistemas distribuídos. ● Visibilidade de processos em execução ala JMX. ● Adoção por empresas que trabalham com Python. ● Bibliotecas de alto nível em Python puro (ala Akka, Netty, Erlang, etc)
  8. 8. Uma abstração sólida e simples Modelo de concorrência orientada a atores e a filosofia do Erlang
  9. 9. Xwing Biblioteca para concorrência baseada em atores e asyncio, inspirada em Erlang
  10. 10. Xwing Concorrência, paralelismo, comunicação assíncrona e tolerância a falhas ● Baseado em process leves (coroutines); ● Cada processo é unicamente identificado; ● Sem estado compartilhado, processos interagem trocando mensagens; ● Envio de mensagens é assíncrono; ● Processos são isolados *; ● Um processo pode detectar falhas em outros processos *.
  11. 11. Obrigado! Perguntas? github.com/victorpoluceno/xwing

×