Corb News

Big Data ou Small Data? Você pode gerar insights sobre saúde animal e produção sem um grande volume de dados

16 de março de 2022

Luís Gustavo Corbellini, Médico Veterinário, Doutor em Epidemiologia

Atualmente é improvável, em meio a disrupção digital da era dos dados, que você não tenha ouvido falar em big data, inteligência artificial ou ciência de dados, na qual escreverei em outro artigo. Aqui o objetivo é abordar o conceito de small data e de como eles podem ser úteis na rotina de quem trabalha com saúde animal e produção. Exatamente isso, small data!

Ao contrário da sua antítese, o big data, provavelmente você não tenha ouvido falar sobre small data, tema que vem sendo debatido no campo da ciência de dados, inclusive no sentido de democratização e nova revolução da era dos dados, como pode ser observado no título desse post: “Small data: a new data revolution?” (você pode ver aqui). 

Small data são os dados acessíveis no dia a dia e podem gerar insights valiosos para o seu negócio. São dados adquiridos em volume, variedade e velocidade menores quando comparados ao big data. Uma planilha Excel (ou csv) com dados de um experimento, de produção animal ou de monitoria sanitária é um small data. Ela pode ser originada da extração de partes de banco de dados da empresa ou instituição ou, ainda, de um conjunto de dados coletados e organizados para uma análise epidemiológica, por exemplo. Você pode ver aqui um artigo na qual falamos sobre análise de dados para investigação de surtos de doenças.  

Big data, por sua vez, se refere a uma combinação de dados estruturados (dados tabulares) e não estruturados (textos, vídeos, imagens) que podem ser mensurados em termos de petabytes (equivale a 1024 terabytes) ou exabytes (equivale a 1 bilhão de gigabytes). Para se ter uma ideia, o tamanho do arquivo Excel com 900 mil pontos de dados de um estudo sobre cisticercose em carcaças de bovinos que realizamos tinha o tamanho de aproximadamente 6 MB (ou 0.000006 terabytes!). A base tinha aproximadamente 90 mil linhas e 10 colunas e você pode se perguntar: small data? Sim, veja como às vezes o conceito pode ser subjetivo!

Para realizar o estudo sobre cisticercose mencionado anteriormente, os dados foram extraídos de diversas fontes, organizados e preparados para as diversas análises na qual precisávamos de respostas específicas. Em outras palavras, é necessário coletar e organizar os dados para torná-los acessíveis. Isso exige um conhecimento básico sobre tipos de dados e variáveis, manipulação de banco de dados e estatística, ou seja, alfabetização de dados. No entanto, nada que não esteja ao alcance de qualquer pessoa, independentemente do nível de conhecimento em epidemiologia, experimentação animal ou das subáreas da ciência de dados (analytics, estatística ou machine learning/inteligência artificial). 

Não, você não precisa de um MBA em ciência de dados, doutorado em epidemiologia ou uma graduação em estatística para extrair insights úteis para o seu trabalho. Basta identificar o valor que esse conhecimento pode agregar ao seu trabalho, ser motivado e buscar aprendizado constante. 

Na medicina veterinária de animais de produção, onde se trabalha com populações e relações complexas entre saúde, doença e produção, ter uma capacidade analítica (ou alfabetização de dados) é um diferencial importante. Isso se dá porque muitas vezes precisamos tomar decisões, identificar padrões de ocorrência de doenças ou avaliar se o produto A ou B é mais vantajoso, por exemplo.

Criar uma rotina de coleta e organização dos  dados para responder a perguntas específicas, ou simplesmente explorar o que os dados dizem, é uma realidade factível. Muitos problemas podem ser resolvidos com small data e o processo pode ser escalonável por meio da criação e integração de pequenos pacotes de dados. A automação de relatórios e visualização de dados em Excel, por exemplo, pode ser desenvolvida com códigos simples em Python ou R

Com o desenvolvimento de processos simples e escalonáveis é possível ir acumulando dados e, por sua vez, aumentando o poder analítico. Além do mais, existem muitas ferramentas acessíveis para análise e visualização de dados, como o Tableau, Qlik Sense ou Power BI. Se o usuário for mais avançado, existem softwares gratuitos, como o Python e R mencionados anteriormente. Eles permitem análises mais sofisticadas, como mineração de dados e visualização (exploração de dados), análises estatísticas complexas e criar algoritmos de machine learning.

O próprio Excel é uma ferramenta que pode ser muito útil e muitos usuários já estão familiarizados com ele. Veja um exemplo na animação abaixo. Trata-se de uma planilha contendo algumas variáveis de produção e de sanidade de lotes de suínos. A animação seguinte ilustra a análise desses mesmos dados no software R.

Ilustração de análise de dados de lotes de suínos na terminação utilizando o Excel
Ilustração de análise de dados de lotes de suínos na terminação utilizando o software livre R

O fundamento principal sobre a utilidade do small data, em contraste ao big data, é que o usuário ou empresas podem obter informações úteis para tomada de decisão, entendimento do problema ou conhecimento da situação sem precisar investir em infraestrutura necessária para o processamento de grandes volumes de dados. No entanto, é preciso esclarecer que somente as necessidades vão direcionar o que é mais vantajoso para o negócio.

Caso um problema específico que aumente a eficiência da empresa tenha sido mapeado, onde predições, classificações ou tomadas de decisão precisam ser realizadas diariamente a partir da coleta contínua de muitos dados, daí estamos falando em investimento em sistemas para processar, organizar e analisar um grande volume de dados. É uma situação que necessita de volume, variedade e velocidade e, nesse caso, small data não é eficiente. 

Finalizo com um trecho extraído de uma publicação da Harvard Business Review sobre a Netflix, empresa que utiliza big data nos seus negócios (em tradução livre): “A tecnologia é mais importante quando está a serviço de uma estratégia convincente.” Em outras palavras, a tecnologia é um meio, não um fim!

Referências

1. Rishabh Sinha. Small data: A new data revolution? [Internet]. ESDS. 2021 [cited 2022 Feb 27]. Available from: https://www.esds.co.in/blog/small-data-a-new-datarevolution/

 2. Bill Taylor. To See the Future of Competition, Look at Netflix [Internet]. Harvard Business Review. 2018 [cited 2022 Feb 27]. Available from: https://hbr.org/2018/07/to-see-the-future-of-competition-look-at-netflix

Leia também:

Análise de dados e interpretação dos resultados em investigação de surtos de doenças em animais