I’ll give you an incomplete answer because I’m running out of time, but I think it might help.
Someone can then edit by adding the last step.
You can use the package extractr
. Read the installation instruction here:
https://github.com/sckott/extractr.
This package uses a number of API’s available on the internet to convert a PDF to text.
For your pdf, I did so:
1) I saved on my desktop and called the function:
library(extractr)
xpdf <- extract("Desktop/doc.pdf", "xpdf")
2) I have separated the part of the text in which are the data you need using substrings.
> lito <- str_locate(xpdf$data, "Litológicos") #procura o fim de litologicos
> hidro <- str_locate(xpdf$data, "Hidrogeológicos") # procura o início de hidrogeologicos
> dados <- str_sub(xpdf$data, start = lito[2] + 4, end = hidro[1]- 5)
> dados
[1] "De (m):, , Até (m):, , Litologia:, , Descrição Litológica:, , 0, , 3, , Arenito fino, , SOLO E ARENITO FINO A MUITO FINO, QUARTZOSO, ESBRANQUICADO, MUITO POUCO ARGILOSO, , 3, , 13, , Arenito fino, , ARENITO FINO A MUITO FINO, AVERMELHADO, MODERADAMENTE ARGILOSO, , 13, , 21, , Arenito argiloso, , ARENITO FINO A MUITO FINO, ESBRANQUICADO, MUITO POUCO ARGILOSO, CONCENTRACOES LOCALIZADAS, , 21, , 42, , Arenito fino, , ARENITO FINO A MUITO FINO, ESBRANQUICADO A ROSADO, MODERADAMENTE ARGILOSO, , 42, , 55, , Arenito fino, , ARENITO FINO A MUITO FINO, ESBRANQUICADO A ROSADO, POUCO ARGILOSO, , 55, , 60, , Arenito fino, , ARENITO FINO A MUITO FINO, COM TONS AVERMELHADOS, FORTEMENTE ARGILOSO, , 60, , 63, , Arenito fino, , ARENITO FINO A MUITO FINO, TONALIDADE ROSEA, MODERADAMENTE ARGILOSO, , 63, , 70, , Arenito fino, , ARENITO FINO A MUITO FINO, TONALIDADE ROSEA, MODERADAMENTE ARGILOSO, , 70, , 76, , Arenito fino, , ARENITO FINO A MUITO FINO, TONALIDADE ROSEA, POUCO ARGILOSO, , 76, , 87, , Arenito fino, , ARENITO FINO A MUITO FINO, TONALIDADE ROSEA, MODERADAMENTE ARGILOSO, , 87, , 102, , Arenito fino, , ARENITO FINO A MUITO FINO, TONALIDADE ROSEA, POUCO ARGILOSO"
Now, what you need to try is to convert this string into a data.frame.
Anyway, that’s one way... But as Molx said pdfs are always complicated, I think the best way would be to try to extract from the same web page.
PDF files are complicated. If you use pdftotext, for example, the information gets messy. Why not read the files directly from the web, without exporting? It seems easier to extract from the "Geological" tab than from the PDF, at: http://siagasweb.cprm.gov.br/layout/detailedphp?ponto=4300000556#tabs-3
– Molx