Agora vou revisar todos os passos que tomamos, pois foi uma longa jornada e aprendemos muitas coisas no processo de resolver o que era, no final das contas, esse problema bem simples. O problema que queríamos resolver era uma descrição parcimoniosa de quanto tempo leva para pegar um táxi em Nova York. E queríamos deduzir essa descrição parcimoniosa a partir dos dados. Então descrições não-parcimoniosas dizem que a probabilidade de esperar n minutos é a quantidade de vezes que você teve que esperar por n minutos por um táxi. Desses tipos de descrição, decidimos que elas são muito... elas estavam "overfitting" os dados. Então invés disso, o que faremos é tentar reproduzir um número limitado de propriedades. Não tentaremos modelar, por exemplo, o número exato de vezes que esperamos 6 minutos, ou a fração exata de vezes que esperamos 6 minutos. Invés disso, o que faremos é reproduzir algumas das características mais prevalentes dos dados. Em particular, o que eu disse era "Quer saber? A única coisa que quero preservar é o tempo médio que levou para pegar um táxi. Só isso. Esquece o resto." O problema é que há muitas distribuições que preservam isso. Então o que decidimos fazer foi pegar a distribuição que tinha máxima entropia sujeito a essa restrição, certo? E o argumento que fizemos era que a distribuição com máxima entropia nos deixa maximamente incertos sobre o tempo de espera. Sem teorias ocultas adicionais. Não tem como ela assumir implicitamente mais nada sobre os dados que reduza a incerteza sobre o que ocorrerá. Então esse foi nosso argumento... nossa justificação intuitiva sobre esse passo aqui, de maximizar a entropia. Quando acreditamos que isso faz sentido, então podemos partir para as contas. Para isso, tive que fazer foi mostrar como funciona o método de Lagrange. Ele é uma ótima ferramenta matemática, útil não só pro caso de MaxEnt, mas a vemos usada em todo lugar, particularmente numa área como Economia, onde seu objetivo -- aliás, lá estes multiplicadores se chamam "preços sombra". Mas em um monte de sistemas, o que tenta-se fazer é maximizar uma quantidade, enquanto restritos a outro conjunto de forças. Então mostrei aqui como fazer o truque de Lagrange. Dei o caso de uma restrição, num problema bidimensional, e disse que o caso de N restrições segue de forma similar. E então mostrei como resolver o problema de maximizar restrições -- de maximizar a entropia sujeito às restrições, e encontramos uma forma funcional particular mas era somente uma forma funcional. Era somente uma forma funcional porque 𝜆 e Z eram os multiplicadores de Lagrange ocultos. Eram termos que tive que colocar à mão. Então sei a forma funcional de cara. Mas agora vou ter o trabalho de achar os valores de 𝜆 e Z. Então fizemos umas somas infinitas, uns jogos matemáticos (espero que tenham gostado) e, ao final, o que encontramos foi que, ao encontrar estes multiplicadores, acabamos com uma equação transcendental de 𝜆₁. Sem vocês verem, eu coloquei a equação no Mathematica e encontrei 𝜆₁ numericamente, que é aproximadamente 0.22. Então, ao final disso tudo -- se isso for 0 minutos, 1, 2, 3, 4, 5, 6, 7... seu tempo de espera em minutos, e a probabilidade de esperar esse tempo. Então, nos dados, tínhamos que às vezes esperamos 6 minutos, às vezes esperamos, vejamos, 3 minutos, às vezes esperamos 4 minutos, algumas vezes esperamos 2. Então, essa era a distribuição dos dados que tínhamos medido, certo? Isso seria o que tínhamos decidido que seria um modelo "overfitting". E então encontramos que, na verdade, a distribuição se parece com algo assim. É uma distribuição exponencial em x. Então esse aqui é, em certo sentido, o melhor modelo para estes dados, se restringirmos... se ele for restrito somente ao fixar o valor médio destes tempos de espera. Essa é a única coisa que restringimos. E aqui, para essa escolha particular de multiplicador de Lagrange, retorna a média correta, e mais nada. É maximamente incerto. O modelo tem outras propriedades, claro. Essa distribuição possui, por exemplo, uma variância. Mas todas elas são dependentes, são escolhidas tais que essa distribuição tenha a máxima entropia sujeita à restrição somente sobre a média. Então, pensemos um pouco sobre o modelo, que, aliás, é mecanisticamente agnóstico. Ele não possui teoria alguma sobre táxis, em lugar algum. Invés de modelar tempos de espera de táxis, poderíamos modelar tempos de espera para... seu próximo voo pela United. Poderíamos ter modelado o número de terremotos no Japão ao longo de um ano, de certa magnitude. Poderíamos ter modelado quantas notas C+ você deu para seus alunos em dado ano. Esse modelo é totalmente agnóstico sobre a física real subjacente ou ciência cognitiva ou sociologia do problema, ok? Mas vamos tentar ver se há algum modelo mecanístico implícito que a máxima entropia implicitamente nos deu. Em particular, vamos ver se conseguimos construir (conseguimos fazê-lo bem facilmente) um modelo subjacente mecanístico sobre pegar um táxi em Nova York que produz a mesma distribuição de probabilidade. Então o que vou fazer é: vou dizer que as chances de você pegar um táxi em Nova York são constantes e independentes do tempo. Em particular, as chances de pegar um táxi num intervalo de minuto são p. Para algum número p. Então isso significa que as chances de pegar um táxi entre 0 e 1 minutos é p. As chances de pegar um táxi entre 1 minuto e 2 minutos... primeiro, (1-p), porque não pegou um táxi no primeiro minuto, deu azar. E as chances de não ter pego o táxi no primeiro minuto, mas ter pego no segundo minuto, é p. Ops -- P(0) = p. A probabilidade de pegar um táxi entre 0 e menos de 1 minuto é p. P(1) = (1-p) p. E, claro, P(2) = (1-p)² p. Não pegou no primeiro nem segundo minutos, finalmente pegou no terceiro. Então esse é um modelo mecanístico. Ele possui alguma teoria sobre táxis em Nova York, assume que eles são como gotas de chuva, que meio que caem do céu -- independentes entre si. E, claro, podemos mapear esse modelo, que, em geral, fica: P(x) = (1-p)^x p, e se definir Z como 1/p, e definir 𝜆₁ como -log(1-p), então tenho uma correspondência exata entre estes dois modelos. Então o que mostramos é que o modelo de máxima entropia, onde o tempo de espera é restrito, em média, a algum valor particular, mas o sistema é, ademais, completamente incerto, é equivalente a um tipo de modelo de tempo de chegada de "táxis-gotas-de-chuva". O que faremos aqui e ali ao longo da palestra é falar um pouco sobre como esse mecanismo agnóstico pode ser traduzido em certos pressupostos sobre os princípios subjacentes, princípios científicos basilares em vigor, e, em particular aqui, é um pouco demais chamar isso de princípio científico, mas a história é basicamente que serviços privados de transporte em Nova York chegam de maneira descorrelacionada entre si, constantemente ao longo do tempo. E podemos ver, claro, que, se esperar tempo demais, o tempo do dia podem mudar, algumas características do sistema mudam, então esse p pode mudar, em cujo caso o modelo não teria mais a forma funcional do modelo Max Ent. E podemos ver como fenômenos mecanísticos adicionais podem afastar o sistema para longe do modelo simples de Max Ent.