0
I need to extract relevant information from a XML which has this structure:
<ARTIGO-PUBLICADO SEQUENCIA-PRODUCAO="2">
<DADOS-BASICOS-DO-ARTIGO IDIOMA="Inglês" DOI="" FLAG-RELEVANCIA="NAO" HOME-PAGE-DO-TRABALHO="" MEIO-DE-DIVULGACAO="IMPRESSO" NATUREZA="COMPLETO" TITULO-DO-ARTIGO-INGLES="" PAIS-DE-PUBLICACAO="Suiça" ANO-DO-ARTIGO="1987" TITULO-DO-ARTIGO="How to get the best out of automated information systems."/>
<DETALHAMENTO-DO-ARTIGO PAGINA-FINAL="434" PAGINA-INICIAL="432" SERIE="" FASCICULO="4" VOLUME="8" LOCAL-DE-PUBLICACAO="Organização Mundial da Saúde" ISSN="" TITULO-DO-PERIODICO-OU-REVISTA="World Health Forum"/>
<AUTORES ORDEM-DE-AUTORIA="1" NOME-PARA-CITACAO="SABBATINI, R. M. E." NOME-COMPLETO-DO-AUTOR="Renato Marcos Endrizzi Sabbatini"/>
<PALAVRAS-CHAVE PALAVRA-CHAVE-6="" PALAVRA-CHAVE-5="" PALAVRA-CHAVE-4="" PALAVRA-CHAVE-3="Avaliação de tecnologias" PALAVRA-CHAVE-2="Sistemas de informação em saúde" PALAVRA-CHAVE-1="Informática Médica"/>
<AREAS-DO-CONHECIMENTO>
<AREA-DO-CONHECIMENTO-1 NOME-DA-ESPECIALIDADE="" NOME-DA-SUB-AREA-DO-CONHECIMENTO="Sistemas de Computação" NOME-DA-AREA-DO-CONHECIMENTO="Ciência da Computação" NOME-GRANDE-AREA-DO-CONHECIMENTO="CIENCIAS_EXATAS_E_DA_TERRA"/>
<AREA-DO-CONHECIMENTO-2 NOME-DA-ESPECIALIDADE="" NOME-DA-SUB-AREA-DO-CONHECIMENTO="" NOME-DA-AREA-DO-CONHECIMENTO="Medicina" NOME-GRANDE-AREA-DO-CONHECIMENTO="CIENCIAS_DA_SAUDE"/>
</AREAS-DO-CONHECIMENTO>
<SETORES-DE-ATIVIDADE SETOR-DE-ATIVIDADE-3="" SETOR-DE-ATIVIDADE-2="Informática" SETOR-DE-ATIVIDADE-1="Atividades de Banco de Dados"/>
<INFORMACOES-ADICIONAIS DESCRICAO-INFORMACOES-ADICIONAIS-INGLES="" DESCRICAO-INFORMACOES-ADICIONAIS=""/>
</ARTIGO-PUBLICADO>
After the extraction, I need to send some of this data (NOME-DO-AUTOR
, among others) to a file .csv
. My main idea was to transform the XML in text to give search on file and treat it.
Is there a library that facilitates this work?
In this question related in Soen two names appear, Expat and libxml
– Isac