Humanidades

As 10 principais ideias em estata­sticas que impulsionaram a revolução da IA
O Andrew Gelman , professor de estata­stica na Columbia, e Aki Vehtari , professor de ciência da computaa§a£o na Universidade Aalto da Finla¢ndia, publicaram uma lista das ideias estata­sticas mais importantes dos últimos 50 anos.
Por Kim Martineau - 10/07/2021


Reprodução

Se vocêjá pediu ajuda ao Siri ou Alexa, ou gerou um autorretrato no estilo de um pintor da Renascena§a, vocêinteragiu com o aprendizado profundo, uma forma de inteligaªncia artificial que extrai padraµes de montanhas de dados para fazer previsaµes. Embora aprendizado profundo e IA tenham se tornado termos familiares, os avanços nas estata­sticas que alimentaram essa revolução são menos conhecidos. Em um artigo recente,  Andrew Gelman , professor de estata­stica na Columbia, e  Aki Vehtari , professor de ciência da computação na Universidade Aalto da Finla¢ndia,  publicaram uma lista  das ideias estata­sticas mais importantes dos últimos 50 anos.

Abaixo, Gelman e Vehtari decompõem a lista para aqueles que podem ter cochilado por meio da Estata­stica 101. Cada ideia pode ser vista como um substituto para um subcampo inteiro, dizem eles, com algumas ressalvas: a ciência éincremental; ao destacar essas obras, eles não significam diminuir a importa¢ncia de trabalhos semelhantes e relacionados. Eles também optaram por se concentrar em manãtodos em estata­stica e aprendizado de ma¡quina, em vez de avanços igualmente importantes em computação estata­stica e ciência da computação e engenharia, que forneceram as ferramentas e o poder de computação para análise e visualização de dados para se tornarem ferramentas prática s do dia a dia. Finalmente, eles se concentraram em manãtodos, embora reconhecendo que os desenvolvimentos na teoria e nos manãtodos são frequentemente motivados por aplicações especa­ficas. 

Vaª algo importante que estãofaltando? Tweet-o em @columbiascience e Gelman e Vehtari considerara£o adiciona¡-lo a  lista.

Os 10 artigos e livros abaixo todos foram publicados nos últimos 50 anos e estãolistados em ordem cronola³gica.

1. Hirotugu Akaike (1973). Teoria da Informação e uma Extensão do Princa­pio da Ma¡xima Verossimilhana§a . Anais do Segundo Simpa³sio Internacional de Teoria da Informação.

Este éo artigo que introduziu o termo AIC (originalmente chamado de Critanãrio de Informação, mas agora conhecido como Critanãrio de Informação de Akaike), para avaliar o ajuste de um modelo com base em sua precisão preditiva estimada. AIC foi imediatamente reconhecida como uma ferramenta útil, e este artigo foi um dos vários publicados em meados da década de 1970, colocando a inferaªncia estata­stica dentro de uma estrutura preditiva. Agora reconhecemos a validação preditiva como um princa­pio fundamental em estata­stica e aprendizado de ma¡quina. Akaike foi um estata­stico aplicado que, na década de 1960, tentou medir a rugosidade das pistas de aeroportos, da mesma forma que os primeiros artigos de Benoit Mandelbrot sobre taxonomia e distribuições de Pareto levaram a seu trabalho posterior na matemática dos fractais.

2. John Tukey (1977). Ana¡lise Explorata³ria de Dados .

Este livro foi extremamente influente e éuma leitura divertida que pode ser digerida de uma são vez. Tradicionalmente, a visualização e a exploração de dados eram consideradas aspectos de baixo grau da estata­stica prática ; o fasca­nio estava em ajustar modelos, provar teoremas e desenvolver as propriedades tea³ricas de procedimentos estata­sticos sob várias suposições ou restrições matemáticas. Tukey virou essa ideia de cabea§a para baixo. Ele escreveu sobre ferramentas estata­sticas não para confirmar o que já saba­amos (ou pensa¡vamos que saba­amos), e não para rejeitar hipa³teses em que nunca, ou nunca devera­amos, acreditar, mas para descobrir novos e inesperados insights a partir dos dados. Seu trabalho motivou avanços em análise de rede, software e perspectivas tea³ricas que integram confirmação, cra­tica e descoberta. 

3. Grace Wahba (1978). Priors impra³prios, suavização de spline e o problema de proteção contra erros de modelo na regressão . Journal of the Royal Statistical Society.

A suavização de spline éuma abordagem para ajustar curvas não paramanãtricas. Outro artigo de Wahba desse período échamado de "Uma curva francesa automa¡tica", referindo-se a uma classe de algoritmos que podem ajustar curvas suaves arbitra¡rias por meio de dados sem overfitting para rua­do ou outliers. A ideia pode parecer a³bvia agora, mas foi um grande passo a  frente em uma era em que os pontos de partida para o ajuste da curva eram polina´mios, exponenciais e outras formas fixas. Além da aplicabilidade direta de splines, este artigo foi importante teoricamente. Serviu como base para trabalhos posteriores em inferaªncia bayesiana não paramanãtrica ao unificar ideias de regularização de modelos de alta dimensão.

4. Bradley Efron (1979). Manãtodos de bootstrap: outra olhada no Jackknife . Annals of Statistics.

Bootstrapping éum manãtodo para realizar inferaªncia estata­stica sem suposições. Os dados puxam-se por seus bootstraps, por assim dizer. Mas vocênão pode fazer inferaªncias sem suposições; o que tornou o bootstrap tão útil e influente éque as suposições vieram implicitamente com o procedimento computacional: a ideia audaciosamente simples de reamostrar os dados. Cada vez que vocêrepete o procedimento estata­stico executado nos dados originais. Assim como muitos manãtodos estata­sticos dos últimos 50 anos, este se tornou amplamente útil por causa de uma explosão no poder da computação que permitiu que as simulações substitua­ssem a análise matemática.

5. Alan Gelfand e Adrian Smith (1990). Abordagens baseadas em amostragem para calcular densidades marginais . Journal of the American Statistical Association.

Outra maneira pela qual a computação rápida revolucionou as estata­sticas e o aprendizado de ma¡quina épor meio de modelos bayesianos abertos. Os modelos estata­sticos tradicionais são esta¡ticos: ajuste a distribuição A aos dados do tipo B. Mas a modelagem estata­stica moderna tem uma qualidade mais Tinkertoy que permite resolver problemas com flexibilidade a  medida que surgem, recorrendo a bibliotecas de distribuições e transformações. Precisamos apenas de ferramentas computacionais para ajustar esses modelos ajustados. Em seu influente artigo, Gelfand e Smith não desenvolveram nenhuma ferramenta nova; eles demonstraram como a amostragem de Gibbs pode ser usada para ajustar uma grande classe de modelos estata­sticos. Nas últimas décadas, o amostrador de Gibbs foi substitua­do pelo Hamiltoniano Monte Carlo, filtragem departículas, Bayes variacional e algoritmos mais elaborados, mas o princa­pio geral de construção de modelo modular permaneceu.

6. Guido Imbens e Joshua Angrist (1994). Identificação e estimativa dos efeitos manãdios locais do tratamento. Econometrica.

A inferaªncia causal écentral para qualquer problema em que a pergunta não seja apenas uma descrição (como foram as coisas?) Ou previsão (o que acontecera¡ a seguir?), Mas um contrafactual (se fizermos X, o que acontecera¡ com Y?) . Os manãtodos causais evolua­ram com o resto da estata­stica e do aprendizado de ma¡quina por meio da exploração, modelagem e computação. Mas o racioca­nio causal tem o desafio adicional de perguntar sobre dados que são impossa­veis de medir (vocênão pode fazer X e não-X para a mesma pessoa). Como resultado, uma ideia chave neste campo éidentificar quais perguntas podem ser respondidas de forma confia¡vel a partir de um determinado experimento. Imbens e Angrist são economistas que escreveram um artigo influente sobre o que pode ser estimado quando os efeitos causais variam, e suas ideias formam a base para muitos dos trabalhos posteriores sobre este ta³pico.

7. Robert Tibshirani (1996). Redução da regressão e seleção por meio do laa§o . Journal of the Royal Statistical Society.

Na regressão, ou na previsão de uma varia¡vel de resultado a partir de um conjunto de entradas ou recursos, o desafio estãoem incluir muitas entradas junto com suas interações; o problema de estimativa resultante torna-se estatisticamente insta¡vel devido a s muitas maneiras diferentes de combinar essas entradas para obter previsaµes razoa¡veis. Ma­nimos quadrados cla¡ssicos ou estimativas de máxima verossimilhana§a sera£o ruidosas e podem não funcionar bem em dados futuros e, portanto, vários manãtodos foram desenvolvidos para restringir ou “regularizar” o ajuste para obter estabilidade. Neste artigo, Tibshirani introduziu o lasso, uma abordagem computacionalmente eficiente e agora amplamente usada para regularização, que se tornou um modelo para regularização baseada em dados em modelos mais complicados.

8. Leland Wilkinson (1999). A grama¡tica dos gra¡ficos .

Neste livro, Wilkinson, um estata­stico que trabalhou em vários projetos de software comercial influentes, incluindo SPSS e Tableau, apresenta uma estrutura para gra¡ficos estata­sticos que vai além do foco usual em gra¡ficos de pizza versus histogramas, como desenhar um gra¡fico de dispersão e dados de tinta e chartjunk, para explorar abstratamente como os dados e as visualizações se relacionam. Este trabalho influenciou a estata­stica por meio de muitos caminhos, principalmente por meio do ggplot2 e da familia de pacotes tidyverse na linguagem de computação R. a‰ um passo importante para integrar dados explorata³rios e análise de modelo no fluxo de trabalho da ciência de dados.

9. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville e Yoshua Bengio (2014). Redes Adversariais Generativas . Proceedings of the International Conference on Neural Information Processing Systems.

Uma das conquistas impressionantes do aprendizado de ma¡quina nos últimos anos éa tomada de decisaµes em tempo real por meio de previsaµes e feedbacks de inferaªncia. Exemplos famosos incluem carros auta´nomos e AlphaGo da DeepMind, que se treinou para se tornar o melhor jogador de Go do planeta. Redes adversa¡rias gerativas, ou GANs, são um avanço conceitual que permite que problemas de aprendizagem por reforço sejam resolvidos automaticamente. Eles marcam um passo em direção ao objetivo de longa data da inteligaªncia artificial geral, ao mesmo tempo que aproveitam o poder do processamento paralelo para que um programa possa se treinar jogando milhões de jogos contra si mesmo. Em umnívelconceitual, os GANs vinculam a predição aos modelos generativos.

10. Yoshua Bengio, Yann LeCun e Geoffrey Hinton (2015). Aprendizado profundo . Nature .

Aprendizado profundo éuma classe de modelos de redes neurais artificiais que podem ser usados ​​para fazer previsaµes não lineares flexa­veis usando um grande número de recursos. Seus blocos de construção - regressão loga­stica, estrutura de vários na­veis e inferaªncia bayesiana - dificilmente são novos. O que torna essa linha de pesquisa tão influente éo reconhecimento de que esses modelos podem ser ajustados para resolver uma variedade de problemas de previsão, desde o comportamento do consumidor atéa análise de imagens. Como acontece com outros desenvolvimentos em estata­stica e aprendizado de ma¡quina, o processo de ajuste são foi possí­vel com o advento da computação paralela rápida e algoritmos estata­sticos para aproveitar esse poder para ajustar modelos grandes em tempo real. Conceitualmente, ainda estamos alcana§ando o poder desses manãtodos, e épor isso que hátanto interesse em aprendizado de ma¡quina interpreta¡vel.

 

.
.

Leia mais a seguir