Slide 1: Apache Drill

Cárlisson Galdino < bardo@carlissongaldinoSEMSPAM.com.br>

Slide 2: Conteúdo

Apache Drill é um framework de código aberto que suporta aplicações distribuídas de dados intensivos para análise interativa de grandes conjuntos de dados.

RPC (+ camada de API em C++)
SQL Parser utiliza Optiq
Otimização baseada em regras, custo, localidade, dentre outras
- A saída da otimização são (sub)consultas distribuídas
Lidando com Hadoop, Drill provê storage plugins para arquivos e HBase/M7
Cache utiliza a ferramenta Hazelcast
- fragmentos de plano de consulta
- estado intermediário da execução da consulta
- estatísticas

Sem esquema - Drill começa a processar os dados em unidades chamadas “record batches” e descobre os esquemas enquanto processa a busca.
Dados aninhados - Drill trata dados complexos e semiestruturados como nativos em todas as camadas do produto.
Metadados - Drill NÃO está preso a um único repositório Hive. Não exige definição de metadados, mas permite sua criação, se necessário, em SQL DDL.
Extensibilidade - para todas as camadas, incluindo plugin de armazenamento, camada de consulta, camada de otimização/execução, e APIs.

Execução Colunar - otimiza armazenamento colunar e execução com modelo de dados na memória, tanto hierárquico quanto colunar.
- Em formato colunar, Drill evita acesso a colunas não envolvidas na consulta.
- Expande o modelo colunar, com uma camada de execução que processa SQL diretamente sem materialização de tuplas e sem desaninhar dados.
Vetorização - Record Batches são vetores de valores de muitos registros diferentes.
- Técnica: modern chip technology com deep-pipelined CPU designs
Execução de consulta otimista e em “pipeline” - Drill assume que falhas não são frequentes
- Se a consulta falha em um nó, é executada novamente
- Diferente do MapReduce, Drill não persiste no disco
- Usa prioritariamente a memória, só usando o disco se a memória acabar

*0: jdbc:drill:zk=local>* SELECT * FROM cp.`employee.json`;

1,155 rows selected (0.762 seconds) *0: jdbc:drill:zk=local>*

Projetos
- Apache Drill
- Apache ZooKeeper
- Optiq
- Hazelcast
Outros
- Apache Drill - Interactive AdHoc Analysis at Scale - Artigo
- Apache Drill - Slides

* A criatura do primeiro slide é um Beedrill, personagem da GameFreak/Nintendo.

Arquitetura Flexível e Extensível - APIs e interfaces bem documentadas permitem rápidas adições de novas fontes de dados e formatos de arquivo. Novos operadores e linguagens de consulta também são fáceis de adicionar ao Drill.
Consulta Interativa em Escala - Apache Drill fornece consultas de baixa latência de várias fontes de dados diferentes, incluindo dados aninhados. Inspirado pelo Dremel da Google, Drill se destina a escala de 10.000 servidores e consultar petabytes de dados em segundos.
Velocidade é a Chave - Utilizando um formato eficiente de armazenamento colunar, um mecanismo de execução otimista e um layout de memória cache-consciente, Apache Drill é rápido pra caramba. Coordenação, planejamento de consulta, otimização, agendamento e execução são todos distribuídos ao longo de nós em um sistema para maximizar a paralelização.bro
Libera Dados Aninhados - Realiza análise interativa em todos os seus dados, incluindo aninhados e schema-less. Drill suporta consulta por muitas fontes de dados schema-less diferentes incluindo HBase, Cassandra e MongoDB. Naturalmente, registros planos estão incluídos como um caso especial de dados aninhados.
Flexibilidade - Níveis e APIs fortemente definidos para integração direta com um vasto leque de tecnologias.

– CarlissonGaldino - 30 Jun 2014

slides/apache_drill.txt · Última modificação: 28/11/2014 05:48 por Carlisson Galdino