Um data lake é um tipo de repositório utilizado para armazenar grandes volumes de dados de maneira bruta , em seu formato nativo. Isso tem grande utilidade para muitas empresas, principalmente aquelas que utilizam diferentes fontes de dados e fazem diversas análises.
A partir dos dados brutos é possível criar uma governança de dados que faça sentido para a regra de negócio da empresa e de acordo com os diferentes tipos de análise que precisam ser feitas.
No caso do data lake, os dados são processados apenas posteriormente, na hora da análise , o que permite que cada colaborador e analista os capte de forma bruta e os manipule da maneira que achar melhor, sem mexer diretamente no repositório.
Porém, para organizar todos esses processos de um data lake é preciso ter uma boa estrutura e governança de dados.
A governança de dados é um conjunto de práticas e processos que garantem a gestão adequada e o uso eficaz dos dados em uma organização.
É a partir disso que uma empresa consegue definir as políticas, gestão, qualidade, segurança e privacidade dos dados, por exemplo.
Como vimos, o Data Lake é um formato de armazenamento de dados brutos, ou seja, não-organizados. Por isso, as abordagens de processamento são feitas depois que os dados já estão armazenados (diferente de um datawarehouse) e, para isso, a governança se torna fundamental.
Ao mesmo tempo em que os data lakes permitem uma maior flexibilidade no uso dos dados, também é preciso ter esses processos bem definidos para que os dados consigam ser utilizados da maneira correta.
E a governança de dados atua exatamente nessa questão: estabelecer um ambiente em que os dados sejam utilizados e manipulados com responsabilidade, organização, segurança, qualidade e privacidade respeitadas.
A flexibilidade proporcionada pelo data lake é muito positiva para empresas que utilizam uma grande quantidade de dados advindas de diversas fontes. Porém, esse mesmo ponto positivo também acaba gerando grandes desafios de governança.
Os principais obstáculos de governança de dados, quando se fala em data lake, são a grande quantidade e variedade de dados não-estruturados, a segurança e a privacidade dos dados sensíveis e a complexidade da expansão e manutenção.
Uma grande quantidade e variedade de dados não-estruturados pode dificultar a definição de seus usos, assim como sua utilização. Afinal, os dados não estão manipulados de forma uniforme e cada tipo terá que ser processado de uma maneira diferente.
A governança de dados consegue entender os dados e catalogar as possibilidades de uso para manter a qualidade desses dados a curto e longo prazo.
2. SEGURANÇA E PRIVACIDADE DOS DADOS SENSÍVEIS
A determinação da LGPD (Lei Geral de Proteção de Dados Pessoais) no Brasil trouxe à tona a preocupação com o armazenamento e manipulação de dados sensíveis. E a governança de dados se aplica diretamente a isso.
A partir de uma boa arquitetura é possível definir a fonte e manutenção dos dados com qualidade, sem colocar em risco a segurança dos clientes e da empresa.
3. COMPLEXIDADE DA EXPANSÃO E MANUTENÇÃO DO DATA LAKE
O data lake é um repositório indicado para grande quantidade de dados, mas como os dados não são tratados antes de serem armazenados, existe uma dificuldade em entender o espaço necessário para todos eles.
Além disso, sem a manutenção correta, um data lake pode se tornar um “pântano” (um data swamp), com dados inutilizados, inúteis e muito desatualizados. Nesse sentido, é preciso ter um engenheiro ou cientistas de dados que aplique a governança de dados para manter o data lake útil.
A governança de dados precisa ser aplicada para lidar com praticamente qualquer tipo de banco ou repositórios atualmente. Mas como se aplica ao data lake?
São várias estratégias que precisam ser consideradas por um profissional especializado, como engenheiros e cientistas de dados, além de consultores. Veja a seguir algumas dessas aplicações de governança no data lake.
Por terem dados brutos, muita gente imagina que o data lake seja um grande repositório com a mínima organização possível. Porém, é possível gerenciar camadas de acesso para garantir a integridade dos dados nativos e facilitar o uso pelos analistas.
Criar um tipo de gerenciamento de acessos garante:
Para isso, é possível criar camadas, sendo uma com os dados brutos, outra com acesso de engenheiros e outra apenas para os analistas, por exemplo.
2. MONITORAMENTO E CONTROLE DE QUALIDADE DOS DADOS
Dados que não são mais úteis à empresa apenas ocupam espaço e podem gerar análises errôneas. Por essa razão, é sempre importante ter um controle sobre a qualidade de dados.
Para isso, é preciso definir métricas de qualidade: qual a validade desse dado? O quanto ele é significante para a empresa?
Defina e monitore métricas de qualidade e implemente regras de validação, limpeza e padronização dos dados.
Processos de monitoramento contínuo são imprescindíveis nesse ponto para garantir a conformidade com as políticas e diretrizes estabelecidas, inclusive legais, considerando a LGPD.
3. IMPORTÂNCIA DOS METADADOS NA GOVERNANÇA DE DADOS
Estabeleça políticas para a gestão dos metadados, ou seja, aqueles que contém informações sobre os outros dados. No caso do uso de data lake isso é muito importante, pois é a partir dessas informações que os analistas conseguem manipular os dados corretamente.
Garanta que os metadados sejam precisos, atualizados e estejam alinhados com as práticas de governança de dados da organização. Além disso, é comum o uso de uma boa catalogação desses metadados, para melhorar o uso deles.
A integração da governança de dados em iniciativas de Data Lake é o que promove a confiabilidade, a qualidade e o uso adequado dos dados armazenados. É essa organização que consegue resolver os desafios que esse tipo de aplicação traz para o negócio.
Por isso a importância de ter uma boa governança, com definições e organizações claras, antes mesmo de fazer uma aplicação de data lake para os dados da empresa.
Como vimos, o data lake é uma ótima escolha de repositório de dados para empresas que precisam armazenar grande quantidade de dados e os utilizarem de maneiras diferentes dentro de seus processos.
E a aplicação da governança de dados nesse contexto é essencial para que as análises sejam feitas da maneira correta e com segurança.
The post Governança de dados em um Data Lake: desafios e melhores práticas appeared first on FiveActs.