A longa história da Ciência de Dados

Recentemente, por recomendação de outro professor, li o artigo 50 Years of Data Science (50 anos de Ciência de Dados) de David Donoho, cuja primeira versão é de 2015, mas que foi publicado no Journal of Computational and Graphical Statistics em 2017. A impressão deste artigo foi muito positiva e por isso gostaria de apresentar algumas das minhas observações sobre o texto de Donoho.

Apesar deste blog ser sobre ciência das redes, gostaria de falar um pouco sobre o artigo em pauta por dois motivos. O primeiro deles é que a ciência das redes e a ciência de dados são relacionadas. Analisar redes complexas é analisar dados sob a perspectiva de suas relações, logo todo o ferramental da ciência das redes pode ser usado por analistas de dados. Além disso, de forma mais profunda, há um paralelo forte entre as duas, já que ambas são recentes (se comparadas a outras ciências) e ambas se apoiam na experiência como o padrão final de validade (aspecto fundamental para uma ciência).

O segundo motivo é recomendar a leitura do artigo de Donoho (e dos outros que ele cita). Assim, fica a sugestão: se você trabalha como cientista ou analista de dados em alguma empresa; ou se está estudando para alcançar uma posição nesta área; ou ainda se você faz pesquisa nesta área, você deve ler o artigo de Donoho. Ele não fala de técnicas, métodos e nada disso, mas ele resumiu em 23 páginas longos anos de uma discussão muito valiosa sobre o que é ciência de dados em si.

Retornando às minhas impressões. O primeiro impacto que o artigo me causou foi a estranheza do título: como assim 50 anos de ciência de dados? A verdade é que o termos ciência de dados passou a ser mais comum, tanto na academia quanto na indústria, há apenas uns 5 ou 10 anos. Daí, minha estranheza. Contudo, já no resumo do artigo a estranheza se desfez quando compreendi o ponto principal do autor: existe uma ciência de dados, mas que antecede a onda atual e é mais profunda do que ela!

O segundo impacto que o artigo me causou está em sua Seção 2, onde Donoho discute o que NÃO é ciência de dados, afirmando que muito daquilo que se credita como ciência de dados não é realmente ciência de dados! Explico. Na opinião de Donoho, as características distintivas do hype em ciência de dados, tais como big data, computação distribuída, bancos de dados, plataformas específicas de software (Spark, Hadoop...) não são características distintivas da ciência de dados. Não é que estes conceitos, termos e ferramentas não sejam importantes, mas é que se a ciência de dados for fundamentada nisso, então ela não é uma ciência, mas uma arte.

Um breve adendo. Aqui uso arte no seu sentido clássico, como a reta razão no fazer, e não no sentido das belas artes. Neste sentido, engenharia é arte, por exemplo. O autor não emprega este termo, mas acho que este traduz bem o pensamento dele. Se quiser entender melhor este sentido da palavra arte sugiro o livro O Trivium de Miriam Joseph.

Estas duas observações, assim logo de início, foram mais que suficientes para aguçar minha curiosidade, que passou a querer apenas uma resposta: então, o que é ciência de dados? E é isso que Donoho vai responder ao longo do artigo, não somente definindo, mas indicando caminhos para o desenvolvimento desta ciência.

Donoho estabelece como ponto de partida da ciência de dados o artigo The Future of Data Analysis de John Tukey, publicado no The Annals of Mathematical Statistics em 1962. Tukey discute neste artigo sua visão da pesquisa na área de estatística (essa parte filosófica corresponde a apenas 20% do artigo) e aponta para a existência de uma ciência, chamada por ele de análise de dados, diferente da estatística, não reconhecida na época (e hoje em dia ainda, dirá Donoho) e cujo principal objeto de pesquisa é o aprendizado a partir de dados. Tukey apresentou estes argumentos em contraposição ao foco limitado da estatística puramente matemática e chamou os estatísticos a ampliar horizontes.

A priori, a discussão de Tukey pode parecer uma questão de importância apenas para estatísticos, mas note que na busca por alargar os horizontes da estatística, ele observa uma nova ciência cujo foco é o estudo de como extrair conhecimento a partir de dados, o que envolve preparar dados (planejamento, coleta, organização e validação), analisar dados e apresentá-los (textual e graficamente).

O trabalho de Tukey estabelece a antiguidade da ciência de dados, mas Donoho também demonstra a continuidade do desenvolvimento desta ciência. Diversos outros autores (Huber, Cleveland, Breinman... os artigos todos estão citados no texto de Donoho) agregaram, ao longo do tempo, mais substância à discussão acerca da ciência de dados como ciência, definindo escopo, provendo currículos para formação de cientistas de dados etc. O próprio artigo de Donoho é mais um capítulo na história da formação desta ciência, já que ele sumariza um currículo, linhas de pesquisa e desafios para o futuro.

A ciência de dados que Donoho defende usa métodos da estatística e da computação para inquirir os dados e levantar conhecimento sobre eles. Em outras palavras, ela não se confunde com estes campos de estudo. E muito menos se confunde com as ferramentas de tecnologia da informação. Donoho inclusive aponta que as ferramentas relacionadas à tecnologia da informação (banco de dados, linguagens de programação, plataformas de processamento distribuído...) estão para um cientista de dados como os instrumentos em um laboratório estão para um químico, por exemplo. E tal como instrumentos de laboratório, Donoho acredita que muitas das limitações destas ferramentas serão superadas por novas que simplificarão tarefas que hoje dependem de conhecimento especializado.

Claro que o artigo vai muito além disso e traz outras contribuições para o avanço da ciência de dados. No fim da leitura, concordei com os principais pontos do autor, que me ajudou a ver além do hype. Acredito ainda que as linhas gerais que ele traça para um currículo em ciência de dados pode ser muito útil como inspiração para a construção de cursos no futuro. Mas isso é assunto para outro dia.

Comentários