Utilizar o data lake a favor da sua estratégia tem tudo a ver com os desafios atuais.
Na era do big data, há um vasto universo de dados e suas incontáveis fontes.
Todos eles precisam ser coletados e, posteriormente, armazenados pelas empresas para serem tratados e, só então, utilizados como informação útil.
Nesse processo, o data lake é um elemento fundamental, porque será a partir dele que o tratamento de dados começa.
Avance na leitura, descubra o que isso significa e como aplicar em suas rotinas e projetos.
Data lake é o repositório de dados usado pelas empresas para operacionalizar um outro recurso: o big data.
O conceito foi mencionado com destaque pela primeira vez pelo Chief Technical Officer (CTO) do Pentaho, James Dixon.
Desde então, a definição aceita de data lake é a de uma fonte de dados.
É dele que negócios de todos os segmentos tiram informações que serão, posteriormente, tratadas e estruturadas para orientar a tomada de decisões.
Paralelamente ao conceito de data lake, caminha o de data warehouse, ou armazém de dados, traduzido para o português.
Nesse caso, a diferença entre data lake e data warehouse está na maneira como as informações estão dispostas em cada um desses repositórios.
Neste conceito, os dados ficam “estocados” em estado bruto, sem qualquer tratamento.
Já nos data warehouses, eles recebem uma certa filtragem, sendo armazenados apenas depois de serem catalogados ou hierarquizados de alguma forma.
Dados sempre fizeram parte dos processos decisórios das empresas, pelo menos naquelas em que a gestão é mais profissional.
A diferença, hoje, é que operamos com volumes realmente colossais de informação.
Portanto, sem essa solução, o trabalho de prospecção e modelagem desses dados seria uma tarefa humanamente impossível.
É por isso que é tão necessário: com ele, a sua empresa passa a ter um recurso que fará toda a diferença em suas decisões.
Veja algumas das suas vantagens a seguir.
Você talvez conheça o caso da UPS, que passou a economizar milhões de litros de combustível pelo realinhamento das rotas dos seus caminhões por meio do big data.
Para ter resultados como esse, a empresa precisou de fontes de dados confiáveis e, acima de tudo, constantemente disponíveis.
É onde um data lake se mostra um ponto de apoio fundamental, já que é dele que se extrai a informação necessária.
Nem sempre um processo de análise de dados começa de forma clara e com a informação a ser tratada pronta para o uso.
Nesse caso, um data lake é útil no sentido de permitir uma garimpagem de dados de diversos tipos e que poderão ser tomados como ponto de partida de futuros diagnósticos.
Como você viu, a diferença da análise de dados de hoje para a do passado é que, agora, trabalha-se com volumes na casa dos terabytes para cima.
Sendo assim, esse recurso é a maneira mais prática de assegurar que a gestão da empresa terá à disposição a quantidade de informação certa para gerar insights de valor.
Um data warehouse pode ser a melhor solução quando se tem um orçamento mais folgado ou a empresa já está mais amadurecida digitalmente.
Por outro lado, nos negócios que ainda não são propriamente data driven, um repositório de dados se mostra um recurso mais adequado, já que abre um leque de possibilidades maior.
Data warehouses trazem um certo nível de sofisticação que, para quem não está habituado, pode tornar os dados armazenados de pouca utilidade.
Por isso, o data lake, além de ser mais simples de assimilar, demanda custos menores, já que dispensa toda uma arquitetura para estruturar a informação.
Um data lake é, em essência, um espaço virtual onde vale mais a quantidade do que a qualidade dos dados.
Não por acaso, há quem o chame de data swamp, ou pântano de dados, já que existe sempre o risco de que ele venha a se tornar um grande aglomerado de informação sem utilidade.
Por isso, o maior desafio ao implementar um data lake é torná-lo efetivo para a empresa, ou seja, uma verdadeira fonte de dados relevantes e que possam ser estruturados para os fins propostos.
Por falar em arquitetura de data lake, ainda que seja mais fácil de implementar, é preciso considerar também as etapas a serem seguidas nesse processo.
Vamos conhecer quais são?
O estágio inicial consiste em construir um data lake destacado dos principais sistemas de TI da empresa.
A ideia aqui é bem simples: criar um ambiente virtual de captura de dados, o que justifica o seu baixo custo e escalabilidade.
Nessa fase, ele não passa de um local onde as informações serão armazenadas em estado bruto, ou seja, sem qualquer tipo de tratamento ou classificação.
No segundo estágio de implementação do data lake, os profissionais passam a acessá-lo em regime experimental.
Assim, será possível retirar dados para posterior criação de protótipos, por exemplo.
Tudo aqui não passa de experimento. Na verdade, a ideia é já ir testando o repositório de dados e conferir se ele atende às demandas para as quais foi projetado.
Por essa razão, neste momento, é possível implantar ferramentas de código aberto, que, por sua vez, são úteis para a criação de outros ambientes de teste.
Avançando pela implementação desse recurso, agora, as informações passam a se integrar aos enterprise data warehouses (EDW) da empresa.
Nesse estágio, os dados “frios”, isto é, aqueles que não se espera utilizar, pelo menos não em curto prazo, já ocupam um espaço significativo no data lake.
Na última etapa, o data lake já substituiu os data marts, os tradicionais repositórios de pequena escala que fazem parte de um data warehouse.
Com isso, as empresas podem optar por criar sistemas de varredura de dados externos, permitindo extrair a informação como se fosse um motor de busca interno.
Casos de sucesso não faltam para ilustrar o quanto a aplicação de data lake gera retorno para as empresas que o fazem.
Veja a seguir três exemplos extraídos de situações reais de companhias que tiveram bons resultados ao implementá-lo.
O primeiro caso é o de uma empresa farmacêutica com aproximadamente 7.000 funcionários e receita de cerca de US$ 10 bilhões.
Com 450TB de dados espalhados por três locais, a organização estava ficando sobrecarregada e, por isso, recorreu a uma parceria para formatar seu data lake.
Primeiramente, o objetivo era mover o máximo possível dos processos em Business Intelligence para a nuvem.
No entanto, essa mudança trazia desafios: alto custo e longo tempo para ser concluída.
A solução encontrada foi criar um data lake virtual, uma alternativa que se revelou mais barata e que pôde ser implementada em menos tempo.
Vale destacar que, no processo, a empresa identificou 30% dos seus dados como redundantes, desatualizados ou triviais, o que permitiu um expressivo corte de dados.
Há também o caso de uma famosa seguradora com 30.000 funcionários e US$ 25 bilhões em receita que tinha quase 3 bilhões de e-mails (280TB de dados) presos em um arquivo de e-mail legado.
Para processar tamanha quantidade de dados, ela precisou recorrer a soluções analíticas que permitissem reunir informações estatísticas sobre eles.
Inicialmente, a empresa deixou os dados onde estavam e em sua forma original.
Só em uma segunda fase ela extrairia todos os endereços de e-mail para construir o repositório físico do futuro data lake.
Muitos dados sem utilidade foram, em seguida, armazenados em uma nova estrutura, passando a ser tratados com uma solução em enterprise content management (ECM).
Com isso, ela manteve sua base de endereços de e-mail e pôde dar continuidade às suas estratégias de vendas utilizando ferramentas como o e-mail marketing.
O terceiro caso é o de uma empresa internacional de dispositivos médicos que acumulou mais de 90TB em discos rígidos externos e servidores, além de farto material com origem em processos judiciais.
O desafio era ousado: desenvolver uma única interface para encontrar uma “agulha em um palheiro” a qualquer momento.
Depois de implementar um aplicativo específico, hoje, o data lake dessa empresa continua a ser preenchido, já tendo ultrapassado os 100TB de dados e caminhando para mais.
Seja qual for a “agulha” nesse palheiro, hoje, ela poderá ser encontrada com muito menos esforço.
Na maioria das empresas orientadas por dados, o data lake é um recurso essencial.
Afinal, como trabalhar com big data sem uma referência ou, pelo menos, um ponto de apoio para dar os primeiros passos na análise de dados?
Esse é o propósito principal quando se adota o conceito: permitir que os gestores encontrem informações úteis e a um baixo custo, de forma a usá-las na formulação de estratégias.
No entanto, o trabalho não para por aí.
Para implementar um data lake conforme as melhores práticas, sua opção é a consultoria da FiveActs.