Bem-vindo! Hoje vamos conversar sobre o que chamamos de Max Ent, ou Princípio da Máxima Entropia, ou, ocasionalmente, Métodos de Máxima Entropia. Enfim, Max Ent pode ser dividido em 2 partes e essas duas partes irão compor a primeira e segunda metade desta unidade. Entropia Máxima foi inventada por um alemão chamado E. T. Jaynes. Ou, pelo menos, ele foi o primeiro a colocar tudo isso em um só artigo no Physical Review. E Jaynes estava atrás de questões profundamente filosóficas, quase epistemológicas, sobre a natureza da Realidade, e por que Leis da Natureza assumem a forma que elas assumem. Mas, recentemente, o que descobrimos é que Max Ent (o Princípio de Máxima Entropia) encontrou relevante uso em Aprendizado de Máquina, na modelagem de processos do mundo real, oposto a, digamos, a explicação e compreensão de tais processos. Ou seja, há pessoas muito interessadas em previsões, por exemplo. Elas gostariam de aprender como o mercado de ações se comporta e prever como se comportará amanhã. Querem aprender a natureza, digamos, do câncer de algum certo paciente. Gostariam de modelá-lo com um modelo bom o suficiente para prever o que acontecerá amanhã. Então é um objetivo enorme intelectualmente, e incrivelmente ambicioso, que pessoas do ramo de IA e de Aprendizado de Máquina têm. Certo? E Max Ent é muito pertinente nessa parte do mundo intelectual. E o que faremos é começar aí. E na segunda parte da palestra, vou tentar criar conexões entre o que vocês aprenderam, na parte de previsões e Aprendizado de Máquina, vou tentar aplicá-los a certos problemas bem interessantes encontrados no estudo de sistemas biológicos e no estudo de sistemas sociais. E, em particular, vou tentar adentrar um pouco nas questões filosóficas mais profundas que Entropia Máxima traz à tona. Em particular, o porquê de ela funcionar tão bem. Então o que faremos é, começaremos com um problema de previsão. E, em particular, começaremos com o tipo de problema em que Max Ent realmente destaca-se, que é na previsão de dados de alta dimensionalidade. No nosso caso, dados de alta dimensionalidade, vamos explicá-lo como... como uma definição útil, diremos algo como o seguinte. Um sistema tem dimensão alta se o número de configurações, que chamaremos de N, é bem, bem maior que a quantidade de dados que temos, que chamaremos de K. Então isso é quantidade de dados (K) e isso é o número de configurações possíveis (N). Ou seja, o número de formas que o sistema poderia assumir é muito, muito, muito maior do que o número de formas em que ele foi observado no mundo real, a quantidade de vezes que ele foi observado no mundo real. Então, frequentemente, podemos falar das dimensões de alguma base de dados. Tomemos, por exemplo, uma imagem, tomemos uma imagem em preto e branco. E digamos que essa imagem tem 10.000 pixels. Então, cada pixel na imagem cada pixel na imagem pode assumir, digamos, o valor +1 ou -1. Preto, digamos, é +1; branco, digamos, é -1. Então cada imagem aqui pode tomar qualquer combinação arbitrária qualquer combinação arbitrária de valores de pixels. Se temos 10.000 pixels, e cada pixel pode assumir +1 ou -1, então o número total de imagens é 2 à potência de 10.000 (2^10000). Cada pixel tem uma dimensão discreta (+1 ou -1), e temos 10.000 deles. Então se você estiver tentando construir um modelo de, digamos, palavras escritas à mão. Então gostaria-se de modelar, por exemplo, todas as formas possíveis que posso escrever a letra "e". Não há quase forma alguma que você conseguirá adquirir-- na verdade, acho que provavelmente é possível provar que que o Universo morrerá numa tenebrosa morte térmica antes de você conseguir acumular amostras suficientes da minha escrita tal que a quantidade de dados, K, seja minimamente comparável a 2^10000. Só para dar uma noção: 2^10000 é como (1000)^1000, ou 10^3000. É como um googol (10^100) à potência de 30. Então, nesses casos, o que gostaríamos de fazer, o que gostaríamos de poder falar sobre, é, pelo menos, dar probabilidades a imagens particulares tiradas de um conjunto cujo número total de imagens é bem menor do que o número total de imagens possíveis Isso é onde algo como Max Ent realmente se sobressai.