Text Mining with specific dictionary

I'm very new to text-mining and i want to ask help about a thing that I would like to do.
I have an excel document with 2 columns: id_text; text. Each row in this dataset rappresent a specific text. I would like to look up, for every single row, the presence of specific keywords: so I have a dictionary with 17 words that i should seek in my dataset. When a specific word included in my dictionary there is in the text of specific Id_Text, i would like print 1, else print 0.
I have some problem to try a packages or write a coding that could do this action. Someone can help me?

Hi!

To help us help you, could you please prepare a reproducible example (reprex) illustrating your issue? Please have a look at this guide, to see how to create one:

Ok! I try to do that.

Id_text = c("1", "2", "3", "4")

Text = c("Obiettivo del progetto è migliorare i servizi di base dei Paesi in via di sviluppo. I destinatari dell'iniziativa sono la popolazione povera e vulnerabile", "L'iniziativa mira a favorire l'inclusione finanziaria dei soggetti che versano in estrema povertà","Le assimmetrie nella distribuzione della ricchezza sono notevoli in Uganimi, le classi sociali povere hanno difficoltà basilari", "la situazione sociale non è più sostenibile, la gente ha bisogno di protezione sociale e interventi medici urgenti")

data <- data.frame(Id_text, Text)

dictionary <- c("Ambiente", "Uguaglianza", "PovertĂ  estrema", "inclusione finanziaria", "Reddito", "uguaglianza dei redditi", "Microfinanza","Non discriminazione", "Poveri e vulnerabili", "PovertĂ ", "eliminazione della povertĂ ", "Soglia di povertĂ ", "QualitĂ  della vita", "risorse", "protezione sociale", "sostenibile", "distribuzione della ricchezza")
dictionary

Thanks, it is still not entirely clear to me but, is this close to what you are trying to accomplish?

library(tidyverse)

data <- data.frame(stringsAsFactors = FALSE,
     Id_text = c("1", "2", "3", "4"),
        Text = c("Obiettivo del progetto è migliorare i servizi di base dei Paesi in via di sviluppo. I destinatari dell'iniziativa sono la popolazione povera e vulnerabile",
                           "L'iniziativa mira a favorire l'inclusione finanziaria dei soggetti che versano in estrema povertĂ ",
                           "Le assimmetrie nella distribuzione della ricchezza sono notevoli in Uganimi,
                           le classi sociali povere hanno difficoltĂ  basilari",
                           "la situazione sociale non è più sostenibile,
                           la gente ha bisogno di protezione sociale e interventi medici urgenti")
)


dictionary <- c("Ambiente", "Uguaglianza", "PovertĂ  estrema", "inclusione finanziaria",
                "Reddito", "uguaglianza dei redditi", "Microfinanza","Non discriminazione",
                "Poveri e vulnerabili", "PovertĂ ", "eliminazione della povertĂ ",
                "Soglia di povertĂ ", "QualitĂ  della vita", "risorse", "protezione sociale",
                "sostenibile", "distribuzione della ricchezza")

data %>%
    bind_cols(dictionary %>% 
                  set_names() %>% 
                  map_dfc(~str_detect(data$Text, .x)) %>% 
                  mutate_all(as.numeric)) %>% 
    as_tibble() # This is just for friendly console printing
#> # A tibble: 4 x 19
#>   Id_text Text  Ambiente Uguaglianza `Povertà estrem… `inclusione fin… Reddito
#>   <chr>   <chr>    <dbl>       <dbl>            <dbl>            <dbl>   <dbl>
#> 1 1       Obie…        0           0                0                0       0
#> 2 2       L'in…        0           0                0                1       0
#> 3 3       "Le …        0           0                0                0       0
#> 4 4       "la …        0           0                0                0       0
#> # … with 12 more variables: `uguaglianza dei redditi` <dbl>,
#> #   Microfinanza <dbl>, `Non discriminazione` <dbl>, `Poveri e
#> #   vulnerabili` <dbl>, PovertĂ  <dbl>, `eliminazione della povertĂ ` <dbl>,
#> #   `Soglia di povertĂ ` <dbl>, `QualitĂ  della vita` <dbl>, risorse <dbl>,
#> #   `protezione sociale` <dbl>, sostenibile <dbl>, `distribuzione della
#> #   ricchezza` <dbl>

Created on 2019-11-23 by the reprex package (v0.3.0.9000)

1 Like

This topic was automatically closed 21 days after the last reply. New replies are no longer allowed.