Instituto de Estudos Sociais e Políticos (IESP) Universidade do Estado do Rio de Janeiro (UERJ) Este arquivo contém as etapas para a produção das bases e análises do artigo "The Gender Division of Labor in Brazilian Political Science Publications". Autoria do artigo: Marcia Rangel Cândido, Luiz Augusto Campos, João Feres Júnior ETAPAS GERAIS: 1) Raspagem de dados de Scielo.br --> "base_Scielo_CP_2005-2018.xlsx" Os dados e abstracts das revistas abaixo foram raspados da plataforma de artigos acadêmicos SciELO.br de acordo com os seguintes critérios - Corpus: Revistas disponíveis no Scielo e consideradas pela CAPES como majoritariamente de CP -- Brazilian Political Science Review -- Contexto Internacional -- Dados -- Novos Estudos CEBRAP -- Opinião Pública -- Revista Brasileira de Ciência Política -- Revista Brasileira de Política Internacional -- Revista de Sociologia e Política - Recorte temporal: 2005-2018 - Exclusões: -- Entradas sem abstract em inglês (notas editoriais, traduções etc.) -- Resumos diminutos, com no mínimo 300 caracteres 2) Imputação de gênero à variável "autores_givennames" do arquivo "base_Scielo_CP_2005-2018.xlsx" tomando como base o script do IBGE Os casos não classificados pelo script do IBGE (na maioria, nomes estrangeiros), foram classificados a mão a partir da lista "sem_genero-edit m.xlsx" 3) Isolamento dos Resumos em um CSV --> "base_Scielo_CP_2005-2018_Resumos.csv" Para rodar a modelagem de tópicos, isolamos em uma base específica os abstracts 4) Aplicação do modelo de "script_CamposModelagemTopicos" à "base_Scielo_CP_2005-2018_Resumos.csv". Orientações detalhadas em https://servicodados.ibge.gov.br/api/docs/censos/nomes?versao=2 5) Junção dos outputs no arquivo "base_Scielo_CP_2005-2018_Topicos.xlsx" Tomando como variável de identificação a ordem das colunas no Excel, colamos os tópicos imputados e contidos no arquivo "output_DocsToTopics.csv" na base original "base_Scielo_CP_2005-2018.xlsx", originando o arquivo "base_Scielo_CP_2005-2018_Topicos.xlsx" (variáveis adicionadas: "topico_pred_num" e "topico_pred_prob" 6) Geração dos gráficos no arquivo "base_Scielo_CP_2005-2018_Topicos.xlsx" no arquivo "base_Scielo_CP_2005-2018_Topicos_Grafico.xlsx". 7) Explicação de como cada tabela e gráfico foi gerado no arquivo "base_Scielo_CP_2005-2018_Topicos_Grafico.xlsx" por aba: - Database: base completa com os dados utilizados na geração das tabelas e arquivos. - Variables: descrição sucinta de cada uma das variáveis contidas na planilha "Database". - Table 1 artcles_year_journal: tabela com a "Distribution of articles in the corpus by year and journal (2005-2018)". -- Cruzamento das variáveis "revista" (Coluna M) e "ano" (Coluna N) tomando a variável "pid" (Coluna A) como unidade de análise. - Table 2 term_topics: quadro com "Identified topics, recurring terms, and assigned label". -- Essa saída foi gerada no arquivo "output_20termsToTopicos.csv" descrito acima. - Graph 1 journal_topics: gráfico de barras horizontais com a "Percentage of texts in the corpus according to the assigned predominant topic" -- Percentual de artigos contados pela variável "pid" (Coluna A) de acordo com o "topico_pred_nome" (Coluna V). - Graph 2 female_authors: gráfico de linha com "Percentage distribution of articles with female authors by year of publication" -- Percentual de artigos por gênero feminino - categoria "F" da variável "genero" (Coluna L) por "ano" (Coluna N). Unidade "pid" (Coluna A). - Graph 3 topic_journal: gráfico de barras verticais com a "Percentage distribution of articles according to the assigned topic and journal" -- Cruzamento das variáveis "revista" (Coluna M) e "topico_pred_nome" (Coluna V) tomando a variável "pid" (Coluna A) como unidade de análise. - Graph 4 gender_topic: gráfico de barras horizontais contendo a "Distribution of women and men as first authors by topic" -- Cruzamos "gênero" (Coluna L) e "topico_pred_nome" (Coluna V) tomando a variável "pid" (Coluna A) como unidade de análise. - Graph 5 gender_journal: gráfico de barras horizontais contendo a "Distribution of women and men as first authors by journal" -- Cruzamos "gênero" (Coluna L) e "revista" (Coluna M) tomando a variável "pid" (Coluna A) como unidade de análise. - Graph 6 female_topics_journal: gráfico de dispersão cruzando a "Percentage of articles authored by women by the percentage of published articles on the five subfields with greater female representation in journals" -- No eixo vertical "% of female authors" encontra-se o dado já gerado na planilha "Graph 5 gender_journal". -- No eixo vertical "% of articles from the subfields with more women", filtrados na variável "topico_pred_nome" (Coluna V) apenas os seguintes tópicos:: law and justice, gender and feminism, collective action and social movements, public policies, and political participation. DESCRIÇÃO DOS ARQUIVOS: base_Scielo_CP_2005-2018.xlsx: base de dados original da raspagem do SciELO.br com informações sobre os artigos do recorte base_Scielo_CP_2005-2018_Resumos.csv: resumos da base isolados base_Scielo_CP_2005-2018_Topicos.xlsx: base de dados da raspagem do SciELO.br com informações sobre os artigos do recorte mais os tópicos imputados pela modelagem base_Scielo_CP_2005-2018_Topicos_Grafico.xlsx base de dados da raspagem do SciELO.br com os tópicos imputados pela modelagem e os gráficos utilizados no artigo sem_genero-edit m.xlsx: lista dos nomes sem imputação de gênero via script do IBGE script_CamposModelagemTopicos.R: script para a modelagem de tópicos output_20termsToTopicos.csv: saída do script para a modelagem de tópicos com os 20 termos mais recorrentes de cada tópico output_DocsToTopics.csv: saída do script para a modelagem de tópicos com os tópicos imputados a cada documento output_TopicProbs.csv: saída do script para a modelagem de tópicos com as probabilidades de cada documento ser de cada tópico output_RplotKdeTopicos.pdf: gráfico de saída do script para a modelagem de tópicos com a estimação do número (k) de tópicos mais ajustado ao corpus