Occurrence count of a dataframe giving error

Question

Occurrence count of a dataframe giving error

Asked 6 years, 5 months ago

Viewed 92 times

2

I’m a beginner, and I know my code is still a little awkward, but let’s take it one step at a time. I have a dataframe with 2 columns (SO source and DT doc type), where I need to separate the OS by DT, count the frequencies (OS) and generate a ranking with 15+ for each DT. I made a code looking at the examples given on this site, count the frequencies and then separate by type of document, however when I check the initial frequencies with the after the separation the last one gives a number always lower. I’ll put a little sample here.

SO                                              DT 
ACM SIGMIS DATABASE                             ARTICLE
ACM SIGPLAN NOTICES                             ARTICLE
MODERN CASTING                                  BOOK
MODERN DEVELOPMENTS IN POWDER METALLURGY        BOOK
ELECTRICAL COMMUNICATION                        CONFERENCE PAPER
ELECTRONIC DESIGN                               CONFERENCE PAPER
ELECTRONIC ENGINEERING (LONDON)                 CONFERENCE PAPER
ELECTRONIC PACKAGING AND PRODUCTION             CONFERENCE PAPER

Initially my data was on a date

q1
q1_so <- data.frame(q1$SO, q1$DT) # pega a coluna SO  e DT e transforma em df
names(q1_so)[1:2] <- c("SO", "DT") # renomeando nome coluna p facilitar
# cria a coluna Freq e conta a frequencia de SO
q1_soma_dt <- data.frame(with(q1_so,table(DT)))

q1_freq <- with(q1_so,table(SO,DT)) 
q1_freq <- data.frame(q1_freq) # quantidade de SO por classe DT

article cut

q1_art <- subset(q1_freq,DT =='ARTICLE' & Freq >0) 
library(plyr)
q1_art <-arrange(q1_art,desc(Freq)) # ordena em ordem decrescente
sum(q1_art$Freq)

rank 20+

q1_art <- q1_art[1:20, ]

Thanks for your help

I decided with the result Thanks Rui

– user108753

2019/02/02 at 21:33

1 answer

Browser other questions tagged r

You are not signed in. Login or sign up in order to post.

by Rui Barradas • **15,422** points · Answer 1 · 2019-02-01T22:49:19+00:00

This solution uses the package dplyr.

library(dplyr)

dados %>%
  group_by(DT, SO) %>%
  summarise(count = n()) %>%
  arrange(desc(count)) %>%
  slice(1:15)
## A tibble: 8 x 3
## Groups:   DT [3]
#  DT               SO                                       count
#  <chr>            <chr>                                    <int>
#1 ARTICLE          ACM SIGMIS DATABASE                          1
#2 ARTICLE          ACM SIGPLAN NOTICES                          1
#3 BOOK             MODERN CASTING                               1
#4 BOOK             MODERN DEVELOPMENTS IN POWDER METALLURGY     1
#5 CONFERENCE PAPER ELECTRICAL COMMUNICATION                     1
#6 CONFERENCE PAPER ELECTRONIC DESIGN                            1
#7 CONFERENCE PAPER ELECTRONIC ENGINEERING (LONDON)              1
#8 CONFERENCE PAPER ELECTRONIC PACKAGING AND PRODUCTION          1

Data in format dput.

dados <-
structure(list(SO = c("ACM SIGMIS DATABASE", 
"ACM SIGPLAN NOTICES", "MODERN CASTING", 
"MODERN DEVELOPMENTS IN POWDER METALLURGY", 
"ELECTRICAL COMMUNICATION", "ELECTRONIC DESIGN", 
"ELECTRONIC ENGINEERING (LONDON)", 
"ELECTRONIC PACKAGING AND PRODUCTION"), 
DT = c("ARTICLE", "ARTICLE", "BOOK", "BOOK", 
"CONFERENCE PAPER", "CONFERENCE PAPER", 
"CONFERENCE PAPER", "CONFERENCE PAPER")), 
row.names = c(NA, -8L), class = "data.frame")