R Studio

Es un entorno de desarrollo integrado para el lenguaje de programación R, dedicado a la computación estadística y gráficos

Ejercicios con la librería dplyr

Conociendo R...

En este primer acercamiento a R vemos elementos de programación como los "data.frames" que permiten crear base de datos o matrices que contengan diferentes objetos no necesariamente de la misma categoría (como numéricos, lógicos, caracteres)...

Hemos utilizado la librería <dplyr>, además de otros paquetes para poder realizar un ejercicio sobre la tasa de crímenes en USA, y la cantidad de votantes (Republicanos o Demócratas)

Algunos de los comandos de programación que usamos fueron mutate, arrange, filter, select, summarize, etc.

Con el siguiente comando de ggplot, realizamos la gráfica siguiente:

> USArrests_plus %>% group_by(Vote) %>%
+ summarize(
+ mean_murder=mean(Murder),
+ mean_assault=mean(Assault),
+ mean_urbanpop=mean(UrbanPop),
+ mean_rape=mean(Rape)
+ ) %>%
+ gather (key = "means", value = "stats", 2:5)%>%
+ ggplot(aes(means, stats, fill= Vote))+
+ geom_col(position = "dodge")+
+ scale_fill_manual(values=c("blue", "red"))

Documento completo

Librería dplyr (click en ícono)

Obtención de la licencia de desarrollador

Se solicita directamente en la API de Twitter respondiendo a una serie de preguntas y de razones por las cuáles se quiere obtener una licencia. Este proceso puede tardar de un día a 4 días, pues se revisa cada solicitud hecha.

Una vez obtenida la licencia, se carga la librería <rtweet> y se autentica con el comando:

auth_setup_default()

Descarga de datos

Comandos para la descarga de datos en R con un "Hashtag <#>" específico, para este ejercicio fueron los tweets que contenían el # "28S", en relación al día conmemorativo de Acción Global a favor de la despenalización del aborto.

AbrPop <- search_tweets("28S",
n=200,
type = "popular")

Descarga de datos de Redes Sociales: Twitter

Documento completo

Descarga datos

redes sociales (click en ícono)

Con R, se pueden filtrar los resultados para localizar de manera más rápida algún elemento, texto o información deseada; esto es mucha ayuda cuando se trabaja con corpus con abundante información. Para este ejercicio sólo se trabajó con un corpus de 200 tuits.
La información importante obtenida a partir de este ejercicio fue observar cuáles son los argumentos (en un espacio de 140 caracteres) de usuarias y usuarios que están a favor o en contra de la despenalización del aborto, los caracteres y emojis más usados; además de las interacciones que hay entre todos los tuits.
Para generar gráficos (ya sea de barra o de puntos, como otros), es necesario seleccionar a través de filter y mutate los elementos a destacar en la base de datos, éstos pueden ser, por ejemplo el número de tuits y el idioma o la fecha exacta en la que se publicó. Los comandos para generar los gráficos de este ejercicio fueron los siguientes:

grafico <- AbrPop %>%
select(full_text, retweet_count) %>%
mutate("popular")
AbrPop %>% ggplot(aes(favorite_count,retweet_count))+
geom_point()
AbrPop %>%
gather(tipo,n,retweet_count:favorite_count) %>%
ggplot(aes(lang,n,color=tipo))+
geom_point(size=6, alpha=0.5)+
ggtitle("Tweets 28S")