Tip:
Highlight text to annotate it
X
.
Neste vídeo eu quero falar sobre sobre uma das coisas que é facilmente
um dos conceitos mais fundamentais e profundos em estatística e
talvez em toda a matemática.
E isso é o Teorema do Limite Central.
.
E o que ele nos dis é que nós podemos começar com qualquer
distribuição que tiver uma média e variância bem definidas.
E que se ele tiver uma variância bem definida, ele terá um desvio padrão
bem definido.
E essa pode ser uma distribuição contínua ou discreta.
Eu irei desenhar uma discreta apenas porquê é mais fácil de
imaginar, pelo menos para o propósito deste vídeo.
Então vamos dizer que eu tenha uma função de distribuição
de probabilidades discreta.
E eu quero ser bem cauteloso para não fazer isso se parecer nem um pouco
com uma distribuição normal porquê eu quero lhe mostrar
o poder do Teorema do Limite Central.
Então digamos que eu tenha uma distribuição.
Digamos que ela possa ter valores de 1 a 6:
1, 2, 3, 4, 5 e 6.
Isso é como tipo um dado maluco.
Nele é muito provável se obter o 1, e digamos que seja impossível... deixe-me
fazer isso em uma linha reta... você tem uma grande probabilidade
de obter um 1, digamos que seja impossível obter um 2, vamos dizer...
existe alguma probabilidade de obter um 3 ou um 4.
Vamos dizer que seja impossível obter um 5.
E digamos que é muito provável obter um 6 como este.
Então esta é minha função de distribuição de probabilidades.
E se eu tiver que desenhar uma média, isso é simétrico, então talvez a média
possa ser algo como isso.
A média ficará no meio do caminho.
Então isso poderia ser minha média, bem aqui.
O desvio padrão talvez se pareça... que ele estará
a esta distância acima e a esta distância abaixo da média.
Mas essa é minha função de distribuição de
probabilidades discreta.
Agora o que eu irei fazer aqui, ao invés de apenas pegar amostras
desta variável aleatória que está descrita por esta função
de distribuição de probabilidades, eu irei fazer amostragens.
Mas eu irei tomar a média das amostras e então olhar para estas
amostras e ver a frequência dos valores mais comuns que eu obtive.
E equando eu digo valores mais comuns eu quero dizer a média.
Então digamos... e deixe-me definir algo... digamos que
o tamanho da minha amostra, e eu poderia colocar qualquer número aqui, mas digamos que
primeiramente nós tentamos uma amostra de tamanho n = 4.
E o que isso significa é que eu irei pegar 4
amostras disso.
Então digamos que da primeira vez eu peguei 4 amostras.
Então meu tamanho amostral é 4.
Digamos que eu tive um 1... digamos que eu tive outro 1... digamos
que eu tive um 3 e então eu tive um 6.
Então isso bem aqui é minha primeira amostra de tamanho amostral 4.
Eu sei que esta terminologia pode confundí-lo porquê isso é
uma amostragem que foi produzida com 4 amostras.
Mas quando nós falamos de média amostral e a distribuição
de médias amostras que nós iremos falar mais
e mais nos próximos vídeos... normalmente a amostra
se refere ao conjunto de amostras de uma distribuição.
E o tamanho da amostra nos diz quantas amostras você de fato pegou
da sua distribuição.
Mas a terminologia pode ser bem confusa porquê você pode
facilmente ver uma delas como uma amostra.
Mas você está pegando 4 amostras bem aqui.
Nós temos um tamanho amostral de 4.
E o que nós iremos fazer aqui é tirar a média delas.
Então digamos que a média... eu irei ser bem cuidadoso quando
eu disser "média"... a média desta primeira amostragemd e tamanho 4 é o quê?
1 mais 1 são 2.
2 mais 3 são 5.
5 mais 6 são 11.
11 dividido por 4 são 2,75.
Esta é minha primeira média amostral para minha primeira amostragem de tamanho 4.
Vamos fazer mais uma.
Minha segunda amostragem de tamanho 4.
Digamos que eu peguei um 3... um 4... digamos que eu peguei outro 3...
e digamos que eu peguei um 1.
E não ocorreu de eu pegar um 6 dessa vez.
E eu percebi que eu não posso pegar um 2 ou um 5.
Isso é impossível para esta distribuição.
A chance de pegar um 2 ou um 5 é zero.
Então eu não poderia ter 2s ou 5s bem aqui.
Então para essa segunda amostragem de tamanho amostral de 4... minha média amostral...
então minha segunda média amostral irá ser 3 mais 4, que são 7.
7 mais 3 são 10 mais 1, que são 11.
11 dividido por 4 mais uma vez são 2,75.
Deixe-me fazer mais uma porquê eu quero deixar realmente claro
o que está ocorrendo aqui.
Então eu faço uma a mais... e agora nós iremos fazer um gazilhão de outras
mais, mas deixe-me fazer apenas uma a mais em detalhe...
Então digamos que em minha terceira amostragem de tamanho amostral 4 eu pegue... e neles eu irei
pegar literalmente 4 amostragens...
Então minha amostragem é composta de 4 amostragens desssa distribuição
originalmente doida.
E digamos que eu pegue um 1... um 1... um 6 e um 6.
Então a minha terceira média amostral será 1 mais 1 que são 2...
2 mais 6 são 8...
8 mais 6 são 14...
14 dividido por 4 são 3,5...
.
E à medida que eu fui calculando a média de cada uma dessas amostragens... então para cada uma
das minhas amostragens de tamanho amostral 4 eu calculei a média... e conforme
eu as fui encontrando, eu as poderia marcar em uma distribuição de frequências.
E tudo isso o irá impressionar em mais alguns segundos...
Então eu marquei todas elas em uma distribuição de frequências.
Então eu disse... "Ok, em minha primeira amostragem, a minha média
amostral foi 2,75.
Então eu estou marcando as frequências de cada média amostral...
que eu tive para cada amostragem.
Então, 2,75... eu obtive isso uma vez.
Então eu colocarei um pequeno ponto aqui.
Então isso veio desta bem aqui...
E a próxima vez eu também obtive um 2,75.
Então é um 2,75 aqui.
Então eu obtive isso duas vezes.
Então eu irei marcar a frequência bem aqui.
E então eu tive um 3,5.
Então para todos os valores possívels... eu poderia ter um 3... eu poderia ter
um 3,55... eu poderia ter um 3,5...
E então eu tive um 3,5... então eu irei marcá-lo bem aqui.
E o que eu irei fazer, eu irei continuar
pegando estas amostras.
Talvez eu já pegar 10.000 delas.
Então eu irei continuarei pegando estas amostras.
Então eu pegarei por toda a vida até 10.000...
Eu apenas tenho um bocado delas...
E o que isso irá se parecer com o passar do tempo é que para cada uma...
Eu irei desenhar um ponto porque eu irei afastar isso...
Então se eu olhar para isso, com o passar do tempo, isso continua a gerar
os valores que eu poderia pegar aqui.
Você sabe, 2,75 poderia ser aqui.
Então este primeiro ponto seria este bem aqui... ele estaria...
bem aqui... e esse segundo iria estar bem
aqui... e então este em 3,5 iria aparecer bem ali.
Mas eu iria fazer isso por 10.000 vezes, então eu
iria fazer 10.000.
E digamos que eu tenha feito isso, eu continuaria
apenas a marcá-los.
Eu iria apenas continuar a marcar suas frequências.
E apenas continuaria a marcá-los mais e
mais por todo o sempre.
E o que você iria ver é que se eu pegar muitas, muitas
amostras de tamanho 4.
Eu iria ter alguma coisa que começaria a se aproximar
a tipo uma distribuição normak.
Então cada um desses pontos representa uma incidência de uma média amostral.
Então conforme eu continuasse a somar essa coluna bem aqui, essa média...
Eu continuaria a ter a média amostral de 2,75...
Então com o passar do tempo eu começaria a ter algo que começaria a
se aproximar da distribuição normal.
E isso é algo fantástico, relacionado ao Teorema do Limite Central.
Então o Limite Central... e esse foi o caso para... e em
laranja, isso foi o caso para n igual a 4.
Isso foi para o tamanho amostral de 4.
Agora se eu fizer a mesma coisa com um tamanho amostral de... talvez 20...
Então neste caso, ao invés de apenas pegar 4 amostras da minha
distribuição originalmente doida. eu pegarei para cada amostragem
20 instâncias da minha variável aleatória e eu irei tirar a média dessas 20 e então
eu irei marcar a média amostral bem aqui.
Então neste caso, eu irei ter uma distribuição
que se parece com isso.
E nós iremos discutir isso em outros vídeos.
Mas isso vai se tornando que eu tiver que marcar 10.000 dessas médias amostrais
aqui... eu irei ter algo como... duas coisas:
isso irá se aproximar cada vez mais a uma distribuição
normal.
E nós iremos ver em vídeos futuros que isso irá realmente
se tornar menor... bem, deixe-me ser claro... isso irá se tornar
a média amostral.
Então esta é a média.
Isso irá se tornar a média amostral.
Isso irá se ter um desvio padrão menor...
Então eu poderia marcar esses a partir de baixo porquê
você poderia querer empilhá-las.
Em uma você tem 1 e entrão em outra instância... depois outra instância...
MAis isso irá se aproximar mais e mais à
distribuição normal.
Então, a realidade é... e isso é o que é super quente em
Teorema do Limite Central... à medida que o tamanho das suas amostras se torna grande,
ou como você pode ver, conforme tendem ao infinito... mas você
não precisa realmente chegar tão perto do infinito para obter
algo próximo à distribuição normal.
Mesmo se você tiver um tamanho amostral de 10 ou de 30, você está chegando
mesmo bem próximo à distribuição normal.
De fato, uma aproximação muito próxima da que nós vemos
no nosso dia a dia.
Mas o que é quente é que nós podemos começar com uma distribuição
bem maluca, correto?
Isso não tinha nada a ver com uma distribuição normal!
Mas se nós tivermos um tamanho amostral... isso tinha n = 4... mas se nós
tivermos um tamanho amostral de n = 10 ou n = 100, e nós formos
pegar 100 delas ao invés das 4 daqui e tirarmos a média delas e
então marcarmos essa média, a frequência disso...
Então nós pegamos 100 novamente, tiramos a média delas, pegamos a
média, marcamos isso novamente.
E se nós formos fazer isso por muitas vezes, de fato, se nós
formos fazer isso por um período de tempo infinito, nós poderíamos encontrar...
especialmente se nós tivéssemos um tamanho amostral infinito... nós
iríamos encontrar uma distribuição normal perfeita!
Essa é uma coisa doida!
E isso não se aplica apenas a pegar a média amostral.
Aqui nós pegamos a média amostral a todo momento mas você também
poderia der pego a soma amostral.
O Teorema do Limite Central também seria aplicável.
Mas isso é o que o torna tão útil...
Porquê na vida existe toda a espécie de processos como
proteinas esbarrando umas nas outras, pessas fazendo coisas doidas,
humanos interagindo de maneiras bizarras.
E você não sabe a função de distribuição da
probabilidade para nenhuma dessas coisas.
Mas o que o Teorema do Limite Central então nos dis é que se nós
somarmos um bocado dessas ações em conjunto, assumindo de que
todas elas tenham a mesma distribuição, ou se nós tivermos que pegar a média
de todas essas ações conjuntas e se nós formos marcar
a frequência dessas médias, nós iremos resultar em uma distribuição
normal.
E francamente, isso é a razão da distribuição normal nos mostrar
tanto em estatística e francamente, a razão disso ser uma aproximação
muito boa para a soma das médias de um bocado
de processos.
Distribuição normal.
O que eu irei lhe mostrar nos próximos vídeos é realmente
lhe mostrar de que isso é a realidade.
Que se você aumentar o tamanho amostral, à medida que você
aumenta seu n, e você pega um monte de médias amostrais, você irá
ter um gráfico de frequências que se parece muito, muito próximo
à distribuição normal.
.