Lista 04

Publicando estimativas pontuais e intervalares em apresentações de slide para colaboração via Github

Thiago Cortez Costa

2022-09-07

Lista 04 - Orientações

Exercícios para entregar no dia 06 de setembro de 2022, até 23:59.

  • Produzir e disponibilizar via GitHub Pages uma apresentação em html (slides) contendo:

  • Um gráfico com estimativas intervalares de alguma variável de interesse em seu trabalho;

  • A formulação de uma hipótese testável (apenas a hipótese, não é necessário testar agora)

  • Enviar o link correspondente - ou seja, colar o link na resposta.

1 Preparando pacotes que poderão ser necessários…

[[1]]
[1] TRUE

[[2]]
[1] TRUE

[[3]]
[1] TRUE

[[4]]
[1] TRUE

[[5]]
[1] TRUE

[[6]]
[1] TRUE

[[7]]
[1] TRUE

[[8]]
[1] TRUE

[[9]]
[1] TRUE

[[10]]
[1] FALSE

[[11]]
[1] TRUE

[[12]]
[1] TRUE

[[13]]
[1] TRUE

[[14]]
[1] TRUE

[[15]]
[1] TRUE

[[16]]
[1] TRUE

[[17]]
[1] TRUE

[[18]]
[1] TRUE

[[19]]
[1] TRUE

[[20]]
[1] TRUE

[[21]]
[1] TRUE

[[22]]
[1] TRUE

[[23]]
[1] TRUE

[[24]]
[1] TRUE

[[25]]
[1] TRUE

[[26]]
[1] TRUE

[[27]]
[1] TRUE

[[28]]
[1] TRUE

[[29]]
[1] TRUE

[[30]]
[1] TRUE

[[31]]
[1] TRUE

[[32]]
[1] TRUE

[[33]]
[1] TRUE

[[34]]
[1] TRUE

[[35]]
[1] TRUE

[[36]]
[1] TRUE

2 .Criando apresentações

.Um novo método: Quarto, no RStudio

  • Quarto é um novo sistema de publicação técnico-científica, construído em Pandoc e com integração a vários sistemas, dentre eles RStudio e Github.

  • Permite que a partir de um mesmo arquivo de texto, sejam criados outros arquivos em formatos diversos - desde um texto .docx, passando por apresentações de slides até sites dinâmicos e responsivos.

  • Iremos, portanto, explorar as funcionalidades do novo sistema.

.Algumas Vantagens

  • O Quarto está sendo desenvolvido pela equipe do RStudio e tem muito potencial para crescer.

  • Apesar do contato incipiente, já podemos listar algumas vantagens:

  • o modo de edição visual

  • diferentes linguagens de programação e de arquivos finais

  • agrega texto e análise de dados num só aplicativo

  • permite escolher quais conteúdos do arquivo original vão para quais tipos de arquivo

  • flexibilidade de configuração e muitas funcionalidades novas, como incorporar vídeo, quadro-negro, notas de palestrante e menu de navegação.

.Projetos para colaboração e versionamento

  • Para solucionar os exercícios desta lista, criei uma conta no Github e um repositório público dentro dela.

  • O repositório pode ser visualizado no endereço https://github.com/thcortez/lista4

  • Para gerir o repositório a partir do RStudio foi necessário:

  • Configurar nome de usuário e e-mail de cadastro do Github no R/Rstudio:

use_git_config(user.name = "thcortez", user.email = "...@a...o.unb.br")

OBS: O e-mail foi ocultado para evitar que fique exposto no Github.

.Autenticar acesso via PAT/token

  • Criar uma chave PAT, também chamada de token, por um desses meios:

    • Github > Settings > Developer settings > personal access tokens > gerar novo token

      • clicar em generate token e copiar o código gerado (atenção pois cada código só é exibido uma vez!)
      • usando o pacote gitcreds, colar o código token para armazená-lo no Git credential store:
  • Criar um novo projeto no RStudio via Menu: File > New Project > Controle de Versão > Git > inserir url do repositório e chave SSH

  • Clonar localmente o conteúdo do repositório Git chamado lista4 (a partir do url)

3 .Criar gráfico com estimativas intervalares

.Estimadores de proporção

  • Para este exercício, iremos aplicar um dos métodos para estimadores de proporção recomendados por Nascimento (Nascimento2021?).

  • Não sabemos ainda avaliar se o estimador escolhido é adequado à estrutura complexa dos dados amostrais (que passa ao menos por 2 estágios de estratificação).

Mas o cálculo servirá ao menos como uma primeira abordagem.

4 .Dados para análise

.Pesquisa de Opinião Pública

  • A base de dados é de uma pesquisa de opinião pública de abrangência nacional realizada pelo Instituto DataSenado no ano de 2014.

  • Um dos objetivo da pesquisa era investigar atitudes da população em questões de gênero e política.

  • Também se pretendia verificar a influência de certas variáveis sobre o interesse e a ambição política - isto é, a propensão a se candidatar.

.Aspectos gerais da amostragem

  • A população pesquisada efetivamente é composta de pessoas com 16 anos ou mais, residentes no Brasil e com acesso à telefonia fixa.

  • Na época, o universo pesquisado correspondia a cerca de 35% da população residente no Brasil e tinha sobrerepresentação de estratos socioeconômicos mais altos.

  • Compõem a amostra 1093 entrevistas, realizadas via CATI (Computer Assisted Telephone Interviewing), com ligações para números de telefone fixo.

  • Houve estratificação por UF e porte de município, para garantir maior eficiência das estimativas.

.Cadastro e formato da base

  • A listagem telefônica que originou as chamadas foi sorteada aleatoriamente em procedimento do tipo RDD (random digit dialing) a partir de cadastro oficial de números disponibilizados às concessionárias públicas de telefonia.

  • Na base resultante da pesquisa, cada coluna indica a resposta a uma pergunta diferente. E cada linha representa uma pessoa entrevistada diferente.

.Preparando os dados

  • Criando um objeto a partir da importação (read) de arquivo .csv, apenas com variáveis selecionadas (cols_only) e indicando de qual tipo elas são (f=factor).
polBR2014 = read_delim ("polBR2014-sem_caracteres.csv",
                         delim = ";",
                         col_names = TRUE, 
                         col_types = (cols_only (                             "regiao" = "f",
                           "p04"= "f",
                           "p05"= "f",
                           "p29"= "f",
                           "pesos"="d",
                           "idcluster3"="c",
                           "idcluster2"="c")),
                         locale = locale (     decimal_mark = ",",                                         grouping_mark = ".")) 

.Conferindo os Dados

  • A primeira linha da base contém o nome das variáveis (col_names) e as colunas são delimitadas por ;.
glimpse(polBR2014)
Rows: 1,091
Columns: 7
$ regiao     <fct> norte, norte, norte, norte, nordeste, nordeste, nordeste, n…
$ p04        <fct> baixo, medio, nenhum, baixo, alto, baixo, medio, medio, bai…
$ p05        <fct> nao, nao, nao, nao, nao, nao, nao, nao, nao, nao, nao, nao,…
$ p29        <fct> feminino, feminino, feminino, feminino, feminino, feminino,…
$ pesos      <dbl> 0.001746460, 0.001746460, 0.001746460, 0.001746460, 0.00803…
$ idcluster3 <chr> "AcreNorteFeminino", "AcreNorteFeminino", "AcreNorteFeminin…
$ idcluster2 <chr> "AcreNorte", "AcreNorte", "AcreNorte", "AcreNorte", "Alagoa…
summary(polBR2014)
          regiao        p04                                      p05     
 norte       : 95   baixo :201   nao                               :909  
 nordeste    :307   medio :565   sim                               :126  
 centro-oeste: 81   nenhum:113   ns/nr                             : 19  
 sudeste     :452   alto  :208   voce nunca votou em uma elei\xe7ao: 37  
 sul         :156   ns/nr :  4                                           
                                                                         
        p29          pesos           idcluster3         idcluster2       
 feminino :667   Min.   :0.001099   Length:1091        Length:1091       
 masculino:424   1st Qu.:0.016453   Class :character   Class :character  
                 Median :0.028827   Mode  :character   Mode  :character  
                 Mean   :0.044435                                        
                 3rd Qu.:0.053452                                        
                 Max.   :0.117397                                        

.Descrição das Variáveis

regiao

  • Região brasileira do estado em que o entrevistado reside.

  • É variável categórica nominal que assume os valores:

unique(polBR2014$regiao)
[1] norte        nordeste     centro-oeste sudeste      sul         
Levels: norte nordeste centro-oeste sudeste sul

.Variáveis (continuação)

p04

  • Nível de interesse por política auto-declarado pelo entrevistado

  • É variável categórica ordinal que pode assumir os seguintes valores:

unique(polBR2014$p04)
[1] baixo  medio  nenhum alto   ns/nr 
Levels: baixo medio nenhum alto ns/nr

.Variáveis (continuação)

p05

  • Indica a percepção individual do entrevistado sobre sua decisão de voto ser ou não ser influenciada pelo gênero de candidatos

  • É variável categórica binomial (sim/não), com ocorrência de itens de não resposta.

unique(polBR2014$p05)
[1] nao                                sim                               
[3] ns/nr                              voce nunca votou em uma elei\xe7ao
Levels: nao sim ns/nr voce nunca votou em uma elei\xe7ao

.Variáveis (continuação)

p29

  • Variável sexo (masculino/feminino) declarada pelo entrevistado, binomial.
unique(polBR2014$p29)
[1] feminino  masculino
Levels: feminino masculino

.Variáveis (continuação)

pesos

  • Coluna dos pesos amostrais calculados para cada unidade observada (entrevistada) na pesquisa.

  • Indica o peso que cada indivíduo terá no cálculo das estimativas populacionais.É calculado em função da probabilidade de seleção daquele indivíduo para compor a amostra - e por isso, em amostras complexas, há variação de indivíduo para indivíduo.

  • O inverso do peso amostral é também chamado de fator de expansão.

polBR2014 = na.delete(polBR2014)
ggplot(polBR2014) + aes(x=regiao, y = pesos) +  geom_boxplot(fill=c("light pink", "light blue", "light green", "light yellow", "violet"), colour=c("pink", "blue", "green", "yellow", "purple"))

.Variáveis (continuação)

ggplot(polBR2014) + aes(x = pesos, y = regiao) + geom_point(shape = 5, colour = "light blue", size = 2, stroke = 2, position="identity", na.rm=TRUE) 

5 .Estimadores de proporção

Para estimar o parâmetro da proporção populacional a partir do valor observado na amostra, (nascimento2021?) recomenda o uso da função svyciprop do pacote survey (lumley2020?).

A função é específica para estimar intervalos de confiança para proporções e o pacote a que pertence ainda permite utilizar fator de correção para populações finitas, em amostra sem reposição (nascimento2021?, chap 5).

.Código

des.amost = svydesign(ids=~idcluster2, data=polBR2014, weights=~pesos, fpc = NULL)

intervals_fem = svyciprop(~I(p29=="feminino"), des.amost, method="logit")

intervals_fem
                            2.5% 97.5%
I(p29 == "feminino") 0.642 0.618  0.67

.Código

intervals_masc = svyciprop(~I(p29=="masculino"), des.amost, method="logit")

intervals_masc
                             2.5% 97.5%
I(p29 == "masculino") 0.358 0.335  0.38

6 .IC em formato tibble (wide)

.Código

intervals_prop = tibble("sexo"= c("masculino","feminino"), "mínimo"=c(0.335, 0.618), "estimada"=c(0.358, 0.642),"máximo"=c(0.38, 0.67))

intervals_prop
# A tibble: 2 × 4
  sexo      mínimo estimada máximo
  <chr>      <dbl>    <dbl>  <dbl>
1 masculino  0.335    0.358   0.38
2 feminino   0.618    0.642   0.67

7 .IC em formato Tibble (Long)

.Código

pivot_intervals = pivot_longer(intervals_prop, !sexo)

pivot_intervals
# A tibble: 6 × 3
  sexo      name     value
  <chr>     <chr>    <dbl>
1 masculino mínimo   0.335
2 masculino estimada 0.358
3 masculino máximo   0.38 
4 feminino  mínimo   0.618
5 feminino  estimada 0.642
6 feminino  máximo   0.67 

8 .Saída gráfica em ggplot

O resumo dos dados, para a apresentação, se dará mediante proporção estimada, com intervalos de confiança a 95.

.Código

p <- ggplot(data=intervals_prop) + aes(x=sexo, y=(estimada*100), color=sexo) + geom_col(position="stack", show.legend = TRUE, color = c("#75c0e0", "#fecf6a"), fill=c("#B2EBF2", "#FFFF8D"), width = 0.60)

p <- p + geom_errorbar(aes(ymin = (mínimo*100), ymax =(máximo*100)), color = c("#0277BD", "#E65100"), width = 0.5)

p + xlab(NULL) +ylab("Proporção estimada (%)")

p + ggtitle("Proporção da população estimada (DataSenado, 2014)")

.Contexto para formulação de hipótese

  • Os diferenciais de comportamento de homens e mulheres são de particular interesse para estudos de representação política feminina.

  • Existe a expectativa teórica de a persistência de certos aspectos culturais ainda afasta a mulher da atividade política.

  • Fatores como a segregação de papéis sociais por gênero e o predomínio de relações de poder machistas

9 .Hipótese testável

  • Devido à sua socialização diferenciada, as mulheres têm menos interesse em política que os homens.

  • Variável de interesse: nível de interesse declarado em política

H0: Não há diferença de interesse em política entre homens e mulheres

10 .Por último, mas não menos importante…

Você pode…

renderizar a apresentação Quarto com o atalho a seguir:

  • CTRL + SHIFT + K

E o código a seguir para fazer o push dos arquivos para o Github

system("git push")
[1] 1

11 .Até a próxima!

THIAGO CORTEZ COSTA Cientista político Ipol-UNB