Introdução ao conceito de Big Data
Fala pessoal blz? No post de hoje vamos trocar uma ideia sobre uma assunto que está super no hype e que demanda diversos profissionais novos no mercado de trabalho. E aí, bora aprender algo novo?
O que é Big Data?
Big Data é o termo utilizado para representar a ideia de uma quantidade gigantesca de dados dos quais você deseja armazenar, transformar e recuperar para algum tipo de finalidade. Nesse contexto falamos de dados que podem ser públicos ou privados e que também podem ser estruturados (i.e., que estão disponíveis em um formato rígido e.g., Bancos de Dados Relacionais tais como MySQL, Oracle, MSSQL entre outros), semi-estruturados (e.g., arquivos de xml, json e yml) ou não-estruturados (i.e., não seguem regra e são apresentados como aparecem, exemplo: vídeos, imagens, e-mails ,posts em redes sociais, bancos de dados NoSQL (Não SQL) e NewSQL).
De acordo com o Instituto Gartner, até 2020 é possível que haja um total de 40 trilhões de gigabytes de dados no mundo. Isso significa que 2,2 milhões de terabytes de novos dados são gerados todos os dias.
É importante ressaltar que para se trabalhar com Big Data as tecnologias tradicionais utilizadas para dados não são mais suficientes e por isso novas tecnologias foram desenvolvidas e com isso também surgiram novos profissionais para poder lidar com esse ambiente complexo e bastante desafiador.
Os 7 V’s do Big Data
Para entender o universo do Big Data, é importante conhecer os V’s que fazem parte deste conceito, sendo eles:
Volume
O Big Data é a representação de uma grande quantidade de dados que são gerados a cada segundo no mundo. As tecnologias de Big Data foram desenvolvidas exatamente para lidar com esses volumes de dados que alias são gigantescos como já mencionei anteriormente, guardando-os em diferentes localidades e juntando-os por meio de algum software seja ele pago ou open source.
E quais dados são esses? Podem ser de valor desconhecido, podem ser e-mails, dados de posts gerados pelas redes sociais, imagens e vídeos que circulam na rede pública ou privada, fluxos de cliques em páginas de sites e sistemas web, dados de aplicativos móveis, entre outras possibilidades de fontes de dados.
Velocidade
Este ponto se refere à velocidade com que os tais dados são criados, armazenados, processados e recuperados. Uma mensagem nas redes sociais pode viralizar em segundos, uma transação de cartão de crédito pode ser verificada num piscar de olhos, informações de compra e venda de ações são modificadas a cada instante e por ai vai.
Nesse ponto nós pensamos na performance que nossa solução de Big Data precisa ter e por isso as tecnologias tradicionais que trabalham com dados não conseguem atender esse novo problema e precisamos explorar tecnologias feitas para atender essa demanda que surge no mundo de quem trabalha com dados.
Variedade
Quais são os tipos de dados disponíveis? Antes da chegada do conceito de Big Data a maior parte dos dados eram estruturados e podiam ser colocados em tabelas. Hoje em dia os formatos são outros. Mais da metade dos dados presentes na rede não se comportam desta forma padronizada e rígida.
Com a vinda do Big Data, os dados também são semi-estruturados (json, xml e yml) e não-estruturados (mensagens, fotos, vídeos, áudios), podem ser administrados juntamente com dados tradicionais (estruturados).
Saber organizar esses dados de modo que isso traga velocidade é bastante importante quando pensamos em Big Data.
Veracidade
Qual a veracidade dos seus dados? Você pode confiar neles de olhos fechados?
Com esse novo mundo do Big Data não é possível controlar totalmente uma informação falsa armazenada da internet. Entretanto, por meio de análises e com base nas estatísticas de grandes volumes de dados é possível ponderar as informações que estão incorretas e filtrar somente informações de fontes definidas como confiáveis com o apoio de profissionais voltados para a ciência, engenharia, qualidade, arquitetura e governança dos dados.
Escolher as suas fontes de dados é extremamente importante e faz toda diferença quando você utiliza esses dados em algum produto ou até mesmo pelos cientistas de dados focados na busca por insights que possam ser gerados por meio desses dados.
Valor
É importante levar em consideração o valor que os dados e a análise dos dados traz para o negócio. Não faz sentido investir em Big Data se não se tem questionamentos que ajudem o negócio e que também possam gerar novos insights.
Ao ter acesso a uma grande quantidade de informação a cada segundo é necessário saber como essa informação vai ajudar no seu negócio. Não basta simplesmente armazenar grandes quantidades de dados. É essencial tentar agregar valor ao que se está fazendo com esses dados.
Conhecer esses dados é o que traz valor para a informação extraída a partir deles para o negócio. Por isso, não basta ter acesso a milhões de dados se não se sabe o que fazer com eles. E agora com a Lei Geral de Proteção de Dados (LGPD) você precisa saber bem como armazenar, transformar e usar esses dados da melhor forma possível.
Volatilidade
Os fluxos de dados possuem tamanhos que podem ser diferentes a cada momento, que variam de acordo com as tendências do seu ambiente e negócio. Alguns deles podem ser muito difíceis (mas não impossíveis) de serem gerenciados.
Em tempos em que tudo é dado, a velocidade com que eles mudam também pode ser um grande problema. Por isso, ter profissionais especializados em estudá-los e ferramentas para os gerenciar se torna tão essencial.
Visualização
É importante que os seus dados sejam apresentados de forma acessível e legível para serem utilizados da melhor forma possível e que desse modo possam ser gerados insights e também melhor controle do que se deseja obter através deles. Você pode querer por exemplo, estudar KPI’s da sua empresa visando melhorar a relação com seus clientes.
Em outro post eu pretendo explanar mais sobre os ambientes de Big Data (e.g., Hadoop que é o mais conhecido mundialmente) e falar sobre as tecnologias utilizadas nesse novo mundo (i.e., ambiente) para trabalhar com os dados (e.g., ferramentas como Spark, Hive, HBase) além de novos conceitos como Data Lakes.