Humanidades

Qual é o estado da ciência de dados hoje?
Jeannette Wing e Chris Wiggins são coautores de um livro sobre as promessas e perigos do campo florescente.
Por Christopher D. Shea - 20/12/2022


Jeannette Wing e Chris Wiggins estão entre os quatro especialistas e autores de um novo livro sobre ciência de dados.

Nos últimos anos, o campo da ciência de dados explodiu no mainstream e em nossas vidas diárias. A ciência de dados agora afeta quase todos os aspectos da sociedade e afeta a forma como os governos, o setor privado, a profissão de saúde e muitos outros setores vitais operam.

É por esse motivo que quatro especialistas em ciência de dados - incluindo Jeannette Wing, vice-presidente executiva de pesquisa e professora de ciência da computação da Columbia e professor associado de matemática aplicada e biologia de sistemas Chris Wiggins - decidiram escrever Data Science in Context: Foundations, Challenges, Oportunidades , um novo livro sobre o estado do campo publicado neste outono. Eles trabalharam com os coautores Peter Norvig, pesquisador do Instituto de Inteligência Artificial Centrada no Homem de Stanford, que anteriormente atuou como diretor de pesquisa e qualidade de pesquisa no Google, e Alfred Spector, pesquisador visitante do MIT que trabalhou como vice-presidente de pesquisa e especial iniciativas no Google. Columbia Newsconversou com Wing e Wiggins para discutir como o livro saiu do papel e o que ele pretende dizer sobre ciência de dados hoje e no futuro.

De onde surgiu a ideia para este livro? Algum dos quatro autores teve a ideia original e se conectou com os outros?

Jeannette Wing: Alfred Spector, que conheço desde nossos dias juntos na Carnegie Mellon , me procurou para ser coautor de um livro sobre ciência de dados. Depois que hesitei, devido ao tempo necessário para fazer um bom trabalho, ele sugeriu trazer Peter Norvig e Chris para o projeto, sabendo que coletivamente temos perspectivas e pontos fortes que tornariam possível lançar este livro em tempo hábil. 
 
Chris Wiggins: Jeannette e eu nos conhecíamos desde sua chegada à Columbia, e Alfred eu conheci graças a um evento do Data Science Institute . Eu o pressionei em uma palestra que ele deu sobre ciência de dados na qual ele apontou problemas, mas não sugeriu soluções. Então, mais tarde, eu o visitei no Two Sigma, um fundo de hedge onde ele trabalhava na época, para perguntar como ele pensava sobre a ética dos algoritmos baseados em dados. Nem todo mundo gosta de perguntas difíceis, mas Alfred, para seu crédito, sugeriu que examinássemos essas questões (soluções, incluindo ética) juntos, que se tornaram parte da estrutura do livro.
 
Como vocês descreveriam a perspectiva com a qual cada um de vocês gostaria de contribuir para o livro, o que vocês acham que ele não teria incluído sem vocês?

Wing: Minha perspectiva acadêmica complementava a perspectiva industrial de Alfred e Peter. Ao administrar o Data Science Institute de Columbia, eu sabia que as questões com as quais a comunidade acadêmica se preocupa são diferentes daquelas com as quais a indústria se preocupa.
 
Eu já havia escrito artigos de periódicos e dado muitas palestras sobre ciência de dados. Eu estava promovendo “ Data for Good ”, uma campanha para o Data Science Institute de Columbia, e trabalhar neste livro me deu a chance de explicar e elaborar seu duplo significado: fazer o bem com os dados e usá-los de maneira responsável.
 
Senti fortemente que a ética deveria fazer parte da ciência de dados e fiquei feliz por Chris ser um coautor, já que ele e o professor de história da Columbia, Matt Jones, estavam pensando em um curso de continuação de ética de dados para “Data: Past, Present, and Future ”, uma aula que eles ministram juntos desde 2017. Curiosamente, decidimos que, em vez de separar a ética, digamos como um capítulo, tentaríamos incluí-la em todo o livro.
 
Wiggins: Em 2015, falei em um jantar para alunos de graduação da Columbia oferecido por Matt Jones. Eu já havia ministrado uma aula com ele sobre ciência de dados para estudantes de jornalismo, trabalhando com Mark Hansen e Cathy O'Neil, mas depois daquele jantar começamos a pensar em uma aula de história da ciência de dados. Quando finalmente começamos a ensinar, com a ajuda de Columbia's Collaboratory , ficou claro que os alunos não estavam apenas interessados ??na história, mas também na ética dos dados, juntamente com a forma como a história se relaciona com nossos desafios atuais. Então, fiquei empolgado em contribuir com tópicos sobre ética, bem como alguns pontos sobre como os dados se relacionam com notícias e jornalismo. Há vários anos, ajudo o The New York Times a formar uma equipe de ciência de dados, que também ajudou a compreender a lacuna entre o que os acadêmicos e as pessoas da indústria querem dizer quando dizem “ciência de dados”, que o livro forneceu uma oportunidade de explorar mais detalhadamente.
 
Capa do livro "Data Science in Context"

O livro aponta que o termo “data science” só passou a ser amplamente utilizado em 2010. Que uso atual de data science você não poderia imaginar em 2010?

Wing: A resposta mais óbvia são as redes neurais profundas, uma abordagem de inteligência artificial para construir um computador inspirada na modelagem das conexões neurais no cérebro. As redes neurais profundas têm uma infinidade de aplicações e estão tendo um impacto disruptivo e transformador em quase todos os setores. Somente em 2012, com o advento de big data e big computing, a comunidade de pesquisa e depois o setor privado viram como essas redes poderiam “resolver” tarefas de IA, como reconhecimento de fala e classificação de imagens, que vinham sendo estudadas desde a década de 1960. A descoberta surgiu por causa de enormes quantidades de dados digitais, dados usados ??para treinar redes neurais profundas.

Wiggins: A isso, acrescentarei a real difusão da ciência de dados em diferentes setores. A descrição do trabalho “cientista de dados” tornou-se proeminente no LinkedIn e no Facebook na primeira década do novo milênio; William Cleveland, da AT&T, usou o termo anteriormente em um artigo em 2001 para propor um novo campo. Mas em 2010 era uma aspiração que dar sentido aos dados de uma forma que transformasse o seu negócio poderia ser possível não apenas para empresas de “grande tecnologia” como AT&T, Facebook ou LinkedIn, mas para uma ampla variedade de empresas. Certamente foi transformador no The New York Times. Da mesma forma, uma ampla variedade de campos acadêmicos agora são transformados pelo aprendizado de máquina. Em 2010, ficou claro que o aprendizado de máquina estava tendo um grande impacto em alguns ramos da ciência natural, como a biologia computacional, mas agora quase todos os campos acadêmicos têm um locus de atividade de pesquisa sobre como o aprendizado de máquina está abrindo novas perguntas e respostas!

Seu livro descreve algumas das principais promessas e perigos da ciência de dados. Se você tivesse que citar uma única grande promessa da ciência de dados – algo que ainda não está acontecendo, que o deixa mais animado – qual seria?

Wing: A maior promessa da ciência de dados é enfrentar desafios sociais como saúde e mudanças climáticas. Podemos usar imagens médicas, registros de saúde e dados genéticos para prever melhor se alguém terá uma doença ou até mesmo como alguém pode responder a um tratamento específico. Podemos usar aprendizado de máquina e simulações baseadas em física para construir melhores modelos climáticos. Embora estejamos vendo incursões iniciais no uso de IA e ciência de dados para esses desafios, muito mais pode ser feito.

O maior desafio é abordar a questão da equidade. Por exemplo, um juiz individual pode decidir de forma diferente dependendo da hora do dia e diferentes juízes podem decidir de forma diferente dependendo de seus próprios preconceitos. Usando ferramentas automatizadas, espera-se suavizar essas diferenças de julgamento. No entanto, as técnicas atuais de IA, como redes neurais profundas, dependem de grandes quantidades de dados para construir um sistema de decisão automatizado. Se os dados históricos forem usados ??para produzir esse sistema, ele capturará e refletirá os mesmos julgamentos humanos tendenciosos do passado. O que descobrimos é que é difícil técnica e filosoficamente construir sistemas “justos”.

Atualmente, estou defendendo uma agenda de pesquisa chamada “ IA confiável ”, que é um apelo às três comunidades de ciência da computação – a comunidade de IA, a comunidade de segurança cibernética e a comunidade de métodos formais – para trabalharem juntas para abordar as promessas e os perigos da IA. . 

O que cada um de vocês está ensinando este ano na Columbia?

Wing: Na primavera de 2019, ministrei um curso de pós-graduação sobre tecnologias de preservação da privacidade. Com base em meu trabalho na Microsoft, eu queria que nossos alunos soubessem que existem soluções pontuais de força do setor para apontar problemas em privacidade. Essas soluções computacionais escalonáveis ??baseiam-se em hardware, criptografia, estatística e matemática. Essas ideias foram incluídas no capítulo 10 do nosso livro.

Wiggins: No outono, leciono o curso fundamental para graduados em matemática aplicada, trabalhando com grupos de alunos para fazer pesquisas originais sobre tópicos de seu próprio interesse e apresentá-las a seus colegas. Ao longo das décadas em que ministrei esta aula, mais e mais projetos giraram em torno de dados, aprendizado de máquina e o impacto dos dados. Neste semestre tivemos apresentações sobre gerrymandering e modelagem matemática de migração, por exemplo. Os alunos são capazes de fazer análises que não poderiam ter feito anos atrás, com ótimos métodos de aprendizado de máquina de código aberto; além do mais, os alunos estão muito mais conscientes das consequências éticas desses métodos. É continuamente uma aula em que os alunos me ensinam o futuro.

Na primavera, o professor Matt Jones e eu ministraremos nosso curso “ Dados: Passado, Presente e Futuro ” novamente. Desenvolver esta classe realmente abriu meus olhos para uma apreciação histórica dos dados e como nosso mundo passou a ser moldado por dados e algoritmos capacitados por dados. Uma lição aqui é que o futuro está em nossas mãos, sem destino além do que fazemos. Em sala de aula, discutimos isso como um jogo instável de três jogadores entre corporações, governos e os indivíduos que fornecem dados e talentos para essas corporações. Estou otimista sobre como nossos alunos, tanto tecnólogos quanto humanistas, estão tão envolvidos com a compreensão dos dados e nosso papel na formação do futuro dos dados.

 

.
.

Leia mais a seguir