Resumimos nossa prescrição de MaxEnt em dois passos. Primeiro: queremos uma distribuição de probabilidade que satisfaça a restrição sobre o valor médio de tempo de espera. E segundo: queremos que essa distribuição particular de probabilidade tenha a máxima entropia: que maximize a função [-] P log P (e sempre esqueço o sinal negativo). Então, estamos maximizando a função soma negativa, sobre todos os estados, [de] P logP. Lembrando que "estados do sistema" são o tempo de espera por algum táxi. Isto é, quanto tempo a mais de espera em alguma vez que começou a esperar. Isso acaba sendo um problema difícil, ou pelo menos um problema não-trivial. Se você tiver um pouco de Cálculo, você é ótimo em maximizar funções, então comecemos por aí. Imaginemos, em particular, e vou usar um exemplo bem simples de maximizar uma função num espaço bidimensional. Chamemos os eixos de eixo x1 e eixo x2. Então tenho uma função. Vou desenhar só os contornos dela. E o que vou fazer é desenhá-la tal que haja somente um ponto de máximo neste espaço. E algo de que falaremos nos apêndices, se tivermos tempo, é como podemos provar que a função entropia tem um único máximo mesmo quando sujeita a estas restrições. Por ora, tome como pressuposto que, de fato, o problema tem solução única. Então temos uma função aqui. Dei um máximo único a ela, e chamemos essa função de f. Então, usando suas incríveis habilidades de Cálculo, você sabe que o máximo dessa função é definido como o ponto onde a derivada de f com relação a x é 0. Lembre que isso é um vetor, então o que temos é df/dx1 = 0 e df/dx2 = 0. Agora, isso poderia acidentalmente cair num mínimo, então averigue se é, de fato, um mínimo. Isso é o que você faria. Agora, o problema é que não podemos buscar sobre este espaço inteiro. Estamos restritos a algum subespaço. Estamos restritos, em particular, a algumas restrições aqui. Então, como achamos o máximo da função, não o global, mas o máximo que também satisfaz um conjunto de restrições? Vou desenhar estas restrições como uma linha... uma linha neste espaço. Um ponto aqui é um argumento válido para a função f, mas não satisfaz esta restrição aqui, e o que vou fazer é definir a restrição da seguinte forma. Direi que a função é tal que g(x) = c, onde c é algum número. E só para ser claro, para nós, g(x)... Na verdade, é melhor escrever g(p). Definimos [g(p)] igual a 4 minutos. Isso só para lembrá-los que nossa restrição particular é que a função g seja igual a 4. Este é o caso geral. Ótimo. Agora o que queremos fazer é achar não o ponto máximo, o topo da montanha. Queremos achar o ponto máximo ao longo desta linha, esta linha definida por g(x) = c. Então, para dar uma intuição de como fazer isso. Imagine que vocês estão em um trem percorrendo por essa paisagem montanhosa, e, conforme vão passando, verão que estão cruzando pelos contornos da função f. Nesse caso aqui, vocês estão subindo o morro, a função está aumentando, então vocês sabem que um ponto ali, por exemplo, não é um ponto de máximo nessa linha, pois, se esperar um pouquinho, chegarão aqui e já terão cruzado a linha do contorno. Então aqui: você está subindo. Note que, aqui, você está descendo pelo outro lado da montanha - cruzando linhas de contorno no outro lado. Então você sabe que o máximo não pode estar aqui, porque já estava mais alto anteriormente, aqui. Então, em algum lugar, entre aqui e aqui, está o máximo. Você está subindo, e depois está descendo. f é contínua, então, em algum lugar no meio, você alcança o pico. Em particular, e dependendo um pouco de sua imaginação visual, você alcança o pico quando os contornos de f estão paralelos aos trilhos do trem, onde há um ponto tangente entre o contorno e a direção do movimento desse trem fictício, que está viajando ao longo da restrição. Sabemos como conseguir as direções dos contornos da função f: estas são, de fato, só o gradiente da função (que é um vetor, lembrem-se). E diremos que estes [vetores] são iguais às perpendiculares aos trilhos. Então, se a perpendicular ao contorno é paralela à perpendicular do trilho, quer dizer que a direção do contorno é paralela à direção dos trilhos. Se as perpendiculares são paralelas, então os dois vetores originais também serão paralelos. Então a próxima pergunta é: como achar a perpendicular dos trilhos? Quero que você imagine o seguinte: este é o trilho para g(x) = c, e este é o trilho para g(x) = c', e por aí vai. Aqui temos um outro conjunto de contornos definidos pela função g, e queremos que estes dois -- queremos que as perpendiculares a estes contornos sejam paralelos [às perpendiculares] dos contornos de f. Isso quer dizer que este gradiente aqui - estas setas aqui, e em particular estas estas daqui - são iguais a algum valor real 𝜆 vezes o gradiente da restrição. Quando esta equação é satisfeita, quer dizer que estes contornos aqui são exatamente paralelos a estes outros. Então, para maximizar f, sob certas restrições, não resolva isso aqui [df/dx = 0]. Não resolva este problema, resolva este aqui. Agora você notará que temos um valor misterioso 𝜆. Este é o chamado multiplicador de Lagrange. Então, o que vamos fazer é tentar achar uma solução onde os gradientes são paralelos entre si. Ou seja, um pode ser transformado no outro através de alguma mudança de escala por algum fator constante. Esta é a motivação intuitiva de como resolver o problema de maximização sujeito a restrições quando temos somente uma restrição. O que fazemos é achar o ponto onde os gradientes alinhem-se. Mas tem algo a mais. E é o seguinte. Parece que temos somente uma restrição, parece somente uma restrição, que é esta função ser igual a 4. Mas na verdade temos duas restrições. A segunda restrição é a normalização geral, e ela diz que queremos que a função P... que ela normalize a 1. Se somarmos as probabilidades de todos os tempos de chegada, a soma tem que dar 1. Agora, claro, P é uma probabilidade, então sabemos que isso é verdade. Não falamos explicitamente, mas quando vagamos pelo espaço de funções -- quando estes x's aqui viram p's, e ficamos mexendo nas probabilidades --, o que queremos fazer é relaxar a restrição que somem a 1 quando considerarmos maximizar a função f. Queremos poder abranger o espaço inteiro, incluindo, por exemplo, pontos onde todas as probabilidades - todos os P's - sejam 0. E então, depois, o que faremos é impor normalização. Então temos duas restrições, não somente uma.