MaisConhecer - As 10 principais ideias em estatasticas que impulsionaram a revolução da IA

As 10 principais ideias em estatasticas que impulsionaram a revolução da IA

O Andrew Gelman , professor de estatastica na Columbia, e Aki Vehtari , professor de ciência da computaa§a£o na Universidade Aalto da Finla¢ndia, publicaram uma lista das ideias estatasticas mais importantes dos últimos 50 anos.

Reprodução

Se vocêjá pediu ajuda ao Siri ou Alexa, ou gerou um autorretrato no estilo de um pintor da Renascena§a, vocêinteragiu com o aprendizado profundo, uma forma de inteligaªncia artificial que extrai padraµes de montanhas de dados para fazer previsaµes. Embora aprendizado profundo e IA tenham se tornado termos familiares, os avanços nas estatasticas que alimentaram essa revolução são menos conhecidos. Em um artigo recente,Â Andrew Gelman , professor de estatastica na Columbia, eÂ Aki Vehtari , professor de ciência da computação na Universidade Aalto da Finla¢ndia,Â publicaram uma listaÂ das ideias estatasticas mais importantes dos últimos 50 anos.

Abaixo, Gelman e Vehtari decompõem a lista para aqueles que podem ter cochilado por meio da Estatastica 101. Cada ideia pode ser vista como um substituto para um subcampo inteiro, dizem eles, com algumas ressalvas: a ciência éincremental; ao destacar essas obras, eles não significam diminuir a importa¢ncia de trabalhos semelhantes e relacionados. Eles também optaram por se concentrar em manãtodos em estatastica e aprendizado de ma¡quina, em vez de avanços igualmente importantes em computação estatastica e ciência da computação e engenharia, que forneceram as ferramentas e o poder de computação para análise e visualização de dados para se tornarem ferramentas prática s do dia a dia. Finalmente, eles se concentraram em manãtodos, embora reconhecendo que os desenvolvimentos na teoria e nos manãtodos são frequentemente motivados por aplicações especaficas.Â

Vaª algo importante que estãofaltando? Tweet-o em @columbiascience e Gelman e Vehtari considerara£o adiciona¡-lo a lista.

Os 10 artigos e livros abaixo todos foram publicados nos últimos 50 anos e estãolistados em ordem cronola³gica.

1. Hirotugu Akaike (1973). Teoria da Informação e uma Extensão do Princapio da Ma¡xima Verossimilhana§a . Anais do Segundo Simpa³sio Internacional de Teoria da Informação.

Este éo artigo que introduziu o termo AIC (originalmente chamado de Critanãrio de Informação, mas agora conhecido como Critanãrio de Informação de Akaike), para avaliar o ajuste de um modelo com base em sua precisão preditiva estimada. AIC foi imediatamente reconhecida como uma ferramenta útil, e este artigo foi um dos vários publicados em meados da década de 1970, colocando a inferaªncia estatastica dentro de uma estrutura preditiva. Agora reconhecemos a validação preditiva como um princapio fundamental em estatastica e aprendizado de ma¡quina. Akaike foi um estatastico aplicado que, na década de 1960, tentou medir a rugosidade das pistas de aeroportos, da mesma forma que os primeiros artigos de Benoit Mandelbrot sobre taxonomia e distribuições de Pareto levaram a seu trabalho posterior na matemática dos fractais.

2. John Tukey (1977). Ana¡lise Explorata³ria de Dados .

Este livro foi extremamente influente e éuma leitura divertida que pode ser digerida de uma são vez. Tradicionalmente, a visualização e a exploração de dados eram consideradas aspectos de baixo grau da estatastica prática ; o fascanio estava em ajustar modelos, provar teoremas e desenvolver as propriedades tea³ricas de procedimentos estatasticos sob várias suposições ou restrições matemáticas. Tukey virou essa ideia de cabea§a para baixo. Ele escreveu sobre ferramentas estatasticas não para confirmar o que já sabaamos (ou pensa¡vamos que sabaamos), e não para rejeitar hipa³teses em que nunca, ou nunca deveraamos, acreditar, mas para descobrir novos e inesperados insights a partir dos dados. Seu trabalho motivou avanços em análise de rede, software e perspectivas tea³ricas que integram confirmação, cratica e descoberta.Â

3. Grace Wahba (1978). Priors impra³prios, suavização de spline e o problema de proteção contra erros de modelo na regressão . Journal of the Royal Statistical Society.

A suavização de spline éuma abordagem para ajustar curvas não paramanãtricas. Outro artigo de Wahba desse período échamado de "Uma curva francesa automa¡tica", referindo-se a uma classe de algoritmos que podem ajustar curvas suaves arbitra¡rias por meio de dados sem overfitting para ruado ou outliers. A ideia pode parecer a³bvia agora, mas foi um grande passo a frente em uma era em que os pontos de partida para o ajuste da curva eram polina´mios, exponenciais e outras formas fixas. Além da aplicabilidade direta de splines, este artigo foi importante teoricamente. Serviu como base para trabalhos posteriores em inferaªncia bayesiana não paramanãtrica ao unificar ideias de regularização de modelos de alta dimensão.

4. Bradley Efron (1979). Manãtodos de bootstrap: outra olhada no Jackknife . Annals of Statistics.

Bootstrapping éum manãtodo para realizar inferaªncia estatastica sem suposições. Os dados puxam-se por seus bootstraps, por assim dizer. Mas vocênão pode fazer inferaªncias sem suposições; o que tornou o bootstrap tão útil e influente éque as suposições vieram implicitamente com o procedimento computacional: a ideia audaciosamente simples de reamostrar os dados. Cada vez que vocêrepete o procedimento estatastico executado nos dados originais. Assim como muitos manãtodos estatasticos dos últimos 50 anos, este se tornou amplamente útil por causa de uma explosão no poder da computação que permitiu que as simulações substituassem a análise matemática.

5. Alan Gelfand e Adrian Smith (1990). Abordagens baseadas em amostragem para calcular densidades marginais . Journal of the American Statistical Association.

Outra maneira pela qual a computação rápida revolucionou as estatasticas e o aprendizado de ma¡quina épor meio de modelos bayesianos abertos. Os modelos estatasticos tradicionais são esta¡ticos: ajuste a distribuição A aos dados do tipo B. Mas a modelagem estatastica moderna tem uma qualidade mais Tinkertoy que permite resolver problemas com flexibilidade a medida que surgem, recorrendo a bibliotecas de distribuições e transformações. Precisamos apenas de ferramentas computacionais para ajustar esses modelos ajustados. Em seu influente artigo, Gelfand e Smith não desenvolveram nenhuma ferramenta nova; eles demonstraram como a amostragem de Gibbs pode ser usada para ajustar uma grande classe de modelos estatasticos. Nas últimas décadas, o amostrador de Gibbs foi substituado pelo Hamiltoniano Monte Carlo, filtragem departículas, Bayes variacional e algoritmos mais elaborados, mas o princapio geral de construção de modelo modular permaneceu.

6. Guido Imbens e Joshua Angrist (1994). Identificação e estimativa dos efeitos manãdios locais do tratamento. Econometrica.

A inferaªncia causal écentral para qualquer problema em que a pergunta não seja apenas uma descrição (como foram as coisas?) Ou previsão (o que acontecera¡ a seguir?), Mas um contrafactual (se fizermos X, o que acontecera¡ com Y?) . Os manãtodos causais evoluaram com o resto da estatastica e do aprendizado de ma¡quina por meio da exploração, modelagem e computação. Mas o raciocanio causal tem o desafio adicional de perguntar sobre dados que são impossaveis de medir (vocênão pode fazer X e não-X para a mesma pessoa). Como resultado, uma ideia chave neste campo éidentificar quais perguntas podem ser respondidas de forma confia¡vel a partir de um determinado experimento. Imbens e Angrist são economistas que escreveram um artigo influente sobre o que pode ser estimado quando os efeitos causais variam, e suas ideias formam a base para muitos dos trabalhos posteriores sobre este ta³pico.

7. Robert Tibshirani (1996). Redução da regressão e seleção por meio do laa§o . Journal of the Royal Statistical Society.

Na regressão, ou na previsão de uma varia¡vel de resultado a partir de um conjunto de entradas ou recursos, o desafio estãoem incluir muitas entradas junto com suas interações; o problema de estimativa resultante torna-se estatisticamente insta¡vel devido a s muitas maneiras diferentes de combinar essas entradas para obter previsaµes razoa¡veis. Manimos quadrados cla¡ssicos ou estimativas de máxima verossimilhana§a sera£o ruidosas e podem não funcionar bem em dados futuros e, portanto, vários manãtodos foram desenvolvidos para restringir ou â€œregularizarâ€ o ajuste para obter estabilidade. Neste artigo, Tibshirani introduziu o lasso, uma abordagem computacionalmente eficiente e agora amplamente usada para regularização, que se tornou um modelo para regularização baseada em dados em modelos mais complicados.

8. Leland Wilkinson (1999). A grama¡tica dos gra¡ficos .

Neste livro, Wilkinson, um estatastico que trabalhou em vários projetos de software comercial influentes, incluindo SPSS e Tableau, apresenta uma estrutura para gra¡ficos estatasticos que vai além do foco usual em gra¡ficos de pizza versus histogramas, como desenhar um gra¡fico de dispersão e dados de tinta e chartjunk, para explorar abstratamente como os dados e as visualizações se relacionam. Este trabalho influenciou a estatastica por meio de muitos caminhos, principalmente por meio do ggplot2 e da familia de pacotes tidyverse na linguagem de computação R. a‰ um passo importante para integrar dados explorata³rios e análise de modelo no fluxo de trabalho da ciência de dados.

9. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville e Yoshua Bengio (2014). Redes Adversariais Generativas . Proceedings of the International Conference on Neural Information Processing Systems.

Uma das conquistas impressionantes do aprendizado de ma¡quina nos últimos anos éa tomada de decisaµes em tempo real por meio de previsaµes e feedbacks de inferaªncia. Exemplos famosos incluem carros auta´nomos e AlphaGo da DeepMind, que se treinou para se tornar o melhor jogador de Go do planeta. Redes adversa¡rias gerativas, ou GANs, são um avanço conceitual que permite que problemas de aprendizagem por reforço sejam resolvidos automaticamente. Eles marcam um passo em direção ao objetivo de longa data da inteligaªncia artificial geral, ao mesmo tempo que aproveitam o poder do processamento paralelo para que um programa possa se treinar jogando milhões de jogos contra si mesmo. Em umnívelconceitual, os GANs vinculam a predição aos modelos generativos.

10. Yoshua Bengio, Yann LeCun e Geoffrey Hinton (2015). Aprendizado profundo . Nature .

Aprendizado profundo éuma classe de modelos de redes neurais artificiais que podem ser usados â€‹â€‹para fazer previsaµes não lineares flexaveis usando um grande número de recursos. Seus blocos de construção - regressão logastica, estrutura de vários naveis e inferaªncia bayesiana - dificilmente são novos. O que torna essa linha de pesquisa tão influente éo reconhecimento de que esses modelos podem ser ajustados para resolver uma variedade de problemas de previsão, desde o comportamento do consumidor atéa análise de imagens. Como acontece com outros desenvolvimentos em estatastica e aprendizado de ma¡quina, o processo de ajuste são foi possível com o advento da computação paralela rápida e algoritmos estatasticos para aproveitar esse poder para ajustar modelos grandes em tempo real. Conceitualmente, ainda estamos alcana§ando o poder desses manãtodos, e épor isso que hátanto interesse em aprendizado de ma¡quina interpreta¡vel.

Humanidades

1. Hirotugu Akaike (1973). Teoria da Informação e uma Extensão do Princa­pio da Ma¡xima Verossimilhana§a . Anais do Segundo Simpa³sio Internacional de Teoria da Informação.