Blog

Tendências e novidades sobre tecnologia e negócios

09/07/2020 | 2 min de leitura

AMcom

Conectamos pessoas à tecnologia para transformar vidas.

Vamos falar sobre Data Science?

Você já deve ter ouvido falar de Data Science (ou Ciência de Dados). O tema está em alta, e muita gente já deve ter uma ideia do que seja. Mas definir exatamente o que é Data Science é outra história…

No geral, consideramos que a Ciência de Dados é a junção de 3 áreas de conhecimento: Ciências da Computação, Estatística e Negócios. Substitua “Negócios” por qualquer área de atuação possível: saúde, bancos, governos, educação, marketing. A IBM tem uma boa definição para o que seria Data Science:

“A ciência de dados é o processo de utilização de algoritmos, métodos e sistemas para extrair conhecimento e insights de dados estruturados e não estruturados”.

Apesar de resumir bem o que é, essa definição faz com que a Ciência de Dados não pareça ser de fato uma Ciência. E por isso, queria discutir com vocês hoje:

Será que a Ciência de Dados é mesmo uma ciência?

A resposta curta para essa pergunta é: SIM!

Ciência de Dados é uma ciência, mais ou menos como Ciência da Computação é uma ciência, ou Ciências Econômicas são ciência. Agora, o que se chama de Cientista de Dados por ai geralmente é uma pessoa que trabalha para uma empresa, em um escritório. Esses profissionais estão mais para engenheiros de dados, do que cientistas.

Mas é possível fazer Ciência de Dados dentro do laboratório, ou em um instituto de pesquisa. Um exemplo disso é o Cappra Institute, do Ricardo Cappra. Eles formam uma equipe de pesquisa mesmo, trabalhando com método científico, investigação, estudo de hipóteses. O que torna o Cientista de Dados, realmente um cientista.

Vamos aprofundar um pouco mais a discussão então?

Críticas sobre a Ciência de Dados enquanto Ciência

Existe muita crítica em cima dessa questão, alegando que Data Science então, não seria uma ciência de verdade. Falando nisso, tem um artigo excelente nesse assunto no site Towards Data Science.

O artigo menciona 4 críticas comuns a ciência de dados, e vou citar aqui uma delas, a que eu acho fundamental para essa análise:

“Data Science pode encontrar qualquer coisa em um conjunto muito grande de dados. Formando subgrupos e criando novas variáveis, qualquer coisa pode ser ‘provada’.”

Essa frase pode ser interpretada tanto para o bem quanto para o mau.

De maneira positiva, significa que a verdade está nos dados, mas é preciso procurar fundo para encontrar boas respostas.

E de maneira negativa, qualquer coisa pode ser provada, mesmo que seja mentira, fazendo análises tendenciosas, ou forçando a barra para encontrar a resposta que se procura, seja ela verdadeira ou não.

Sendo assim, gostaria de deixar aqui outra definição para Ciência de Dados, mas incentivo vocês à buscarem outras mais, antes de definir o que é Data Science para você.

Eu tenho uma definição pessoal do que é Data Science, que fui construindo e evoluindo conforme avançava nos estudos do tema. A definição está a seguir, e fiquem à vontade para usar e compartilhar:

Data Science é uma abordagem multidisciplinar para a obtenção e análise de dados, geração de insights e suporte para tomada de melhores decisões. Sejam elas tomadas por pessoas ou máquinas.

Vamos para um exemplo prático então? Queria compartilhar com vocês um case da Netflix:

A Netflix tem um dos Sistemas de Recomendação mais avançados do mundo (possivelmente o mais avançado).

Para fazer as recomendações de filmes e séries, a Netflix divide os usuários em clusters (grupos), usando Machine Learning. Ou seja, baseado no que os usuários assistem, eles são organizados em grupos de preferência: quem gosta de séries dramáticas, filme de comédia, documentários e por vai. E as recomendações que aparecem na tela de cada usuário variam de acordo com as preferências individuais e do grupo de preferências que a pessoa faz parte.

Isso tudo é decidido por algoritmos e por aproximação. Nem todo mundo dentro do cluster de fãs de filmes de comédia, por exemplo, assistiram os mesmos filmes. E eles não assistiram só comédia. Mas os algoritmos da Netflix estão processando esses dados de uso a todo momento e identificando novos padrões entre os usuários.

A empresa faz isso porque sabe que as pessoas têm dificuldade de escolher o que vão assistir, e gostam de receber boas recomendações. E usuários que assistem mais, cancelam menos. Por isso esse esforço monumental no Sistema de Recomendação.

E o que podemos então, concluir disso tudo?

A área de Data Science é muito recente. Apesar de já possuir muitas aplicações práticas, ela precisa de tempo para atingir a sua maturidade.

Sobre a carreira de Cientista de Dados, ela foi considerada pela Harvard Business Review a mais “sexy” do século 21. É uma descrição curiosa, para dizer o mínimo. Mas é uma carreira muito interessante, extremamente útil para as empresas e os salários são bem altos.

Espero que tenham gostado deste conteúdo inicial sobre Data Science!

Quer saber mais sobre? Assista essa Guilda [gravação] que o Allan preparou sobre Data Science!

data science
Deixe seu feedback para gente se você quiser saber mais sobre o tema.

Até a próxima,
allan bravos


AMcom

Conectamos pessoas à tecnologia para transformar vidas.

Tecnologia

Deixe o seu comentário

O seu e-mail não será publicado. Os campos marcados com * são obrigatórios.

Blumenau - SC

Rua República Argentina, 2001 Ponta Aguda - CEP 89.050-173

47 3328-9400

São Paulo - SP

Av. Rebouças, 3970, 17º andar Pinheiros - CEP 05.425-070

11 3434-6553