Nas últimas três partes, abordamos: primeiro: um retrato matemático de como modelar o tempo de chegada de táxis em Nova York, e então tentamos generalizá-lo para dar uma ideia de como métodos MaxEnt são usados no mundo real — em particular, como são/podem ser usados para descrever o ecossistema de software open source. Fiz isso por analogia a um conjunto de trabalhos pioneiros feitos no estudo de ecossistemas. E mostrei como, por exemplo, o modelo de máxima entropia pode estar em conflito com um modelo mecanístico mais simples. Atualmente, não temos como discernir entre as duas formas funcionais. MaxEnt prevê uma forma funcional, aquele modelo mecanístico de acúmulo probabilístico, um modelo de acúmulo multiplicativo de adeptos de uma linguagem, tem forma funcional um pouco distinta. E elas parecem muito similares para decidirmos entre elas por ora. Nessa próxima parte da palestra, (próxima parte dessa unidade) tentarei demonstrar a vocês um outro tipo de argumento que é feito sobre sistemas sociais e biológicos — nesse caso, claro, um sistema social — e vou mostrar como esses argumentos são feitos numa forma de MaxEnt e o tipo de insights que podem ser obtidos. Pois bem, essa é uma história que concentra-se numa parte muito interessante da história americana: o catálogo Sears Roebuck. A companhia Sears Roebuck inventou (ao menos nos EUA) essa ideia de vender grandes quantidades de bens de consumo, não diretamente por uma loja, mas por um catálogo impresso que era distribuído ao redor do país. Então, se você era um fazendeiro no outono de 1909, você não conseguiria necessariamente ir a Chicago para comprar coisas do dia a dia de que precisava: agulhas e linha, alfinetes e chicotes de charretes e barbeadores Remington, etc. Então o que se fazia era consultar o catálogo da Sears Roebuck & Co., e daí pedia, por correio, todas as coisas de que precisava. E isso revolucionou, claro, o mercado consumidor, algo como um Amazon Prime ou Amazon.com do começo do século XX. De fato, o catálogo Sears Roebuck existe há muito tempo, desde lá no final dos 1800's até o final do século XX. Ele pode até mesmo existir em alguma forma, hoje, embora, claro, compras por correio tenham caído em popularidade, já que, hoje, usamos a Internet. Vou falar em particular sobre um artigo escrito em 1981, por Elliott Montroll, chamado "On the entropy function of sociotechnical systems". E é interessante, em parte, porque é uma das primeiras vezes que alguém tentou elaborar uma hipótese sobre sistemas sociais, sobre sistemas vivos, por via de argumentos de Máxima Entropia. Então isso é o que Montroll fez: Montroll olhou para os preços de produtos no catálogo Sears Roebuck (de fato, ele tomou os dados de outra fonte), e o que está plotado aqui é ano a ano. Então isso é 1916, isso é 1924, isso é 1974. E o que ele fez foi, ele plotou a distribuição de preços, a probabilidade de que algum produto, no catálogo Sears, tenha um custo c. Ele plota isso numa escala log. Então isso é o log do preço (e, de fato, ele usa log na base 2), e isso vai de -6 (isso é 1/64), até +6, 64 dólares, no caso de 1916. E ele plota a distribuição de produtos. Então aqui, por exemplo, há 60% de chances de escolher um produto no catálogo Sears em 1916, ao acaso, que custe próximo de log₂ dólares igual a 0, ou seja, que custassem próximo de 1 dólar. Então 60% dos produtos no catálogo custavam um dólar, e podemos ver que a distribuição decai nos extremos: há muito poucos produtos que custam mais que 60 dólares e muito poucos que custam na ordem de centavos. Então a primeira coisa que ele notou é que a distribuição parece Gaussiana... (ou normal). E se prestar atenção à aula anterior, você vai perceber que isso aqui é o log do preço, então, de fato, a distribuição de preços no catálogo Sears é log-normal. Em outras palavras, se tomar o logaritmo do preço, para verificar a distribuição, ela será Gaussiana. Então vamos fuçar um pouco na distribuição log-normal. Ela parece com P(x) proporcional a exp(-(x-𝜇)²/2𝜎²) Chamei 𝜇 de "x barra" ali, mas 𝜇 é a média da distribuição (o chamamos de média). E 𝜎 é o que chamamos de variância. Vamos expandir isso um pouco: Vou escrever isso como e elevado a (-x²/2𝜎² ... ... + 2x𝜇/2𝜎² ... (que vem do termo cruzado) ... -𝜇²/2𝜎²) Tudo que fiz foi expandir (x-𝜇)²/2𝜎². Então vou reescrever isso e elevado a (-𝜆₁ x² ... ... + 𝜆₂ x + 𝜆₃) [ exp(-𝜆₁ x² + 𝜆₂ x + 𝜆₃) ]. Escrevendo assim, vemos que a log-normal é simplesmente a distribuição de máxima entropia se restringirmos duas coisas: 1) restringimos x², e 2) restringimos x. E, claro, restringindo ambos é equivalente a restringir a variância — que é o valor esperado de (x - <x>)² — e a média [<x>]. Restringir os últimos é equivalente a restringir os primeiros, pois você pode, claro, expandir isso aqui: então fixando <(x - <x>)²> e a certos valores é o mesmo que fixar [<x> e <x²>] a certos valores. Então a distribuição log-normal é, secretamente, e secretamente sempre foi o tempo inteiro, mais uma distribuição MaxEnt. Escrevendo ela assim, e percebendo que essas constantes — aqui e aqui — essas constantes são multiplicadores de Lagrange cujos valores corretos foram descobertos. Conclui-se que a distribuição log-normal restringe estas duas quantidades.