2
I have a file csv
with more than 500k of lines and need to remove line breaks from just one column efficiently in addition to deleting all the links it contains, a snippet of the file:
"created_at","text","location","name","screen_name","followers_count","friends_count"
"2016-09-17T21:48:10.000Z","MAIS UM CLIENTE REVIVALL #Eleições #Vereador #BH
VÍDEO MARKETING - Solicite uma Proposta Revivall Marketing:... https://t.co/d7qDOguDoA","Belo Horizonte","Objetivo Comunicação","ObjeCom",15,0
"2016-09-17T23:05:01.000Z","Não ia votar no Kalil não. Mas diante de tanta sacanagem nas propagandas políticas meu voto agora é dele. Fazer raiva nas MARIAS.","Belo Horizonte","LEONARDO BARBOSA","LEO_BEAGALO",113,282
"2016-09-17T23:26:10.000Z","RT @brnou3: nossa candidato que legal várias pessoas na rua balançando uma bandeira com seu nome isso conquistou meu voto
disse nenhuma pe…","Belo Horizonte","Júlia","julinhasr",589,306
It has to stay that way:
"created_at","text","location","name","screen_name","followers_count","friends_count"
"2016-09-17T21:48:10.000Z","MAIS UM CLIENTE REVIVALL #Eleições #Vereador #BH VÍDEO MARKETING - Solicite uma Proposta Revivall Marketing:... ","Belo Horizonte","Objetivo Comunicação","ObjeCom",15,0
"2016-09-17T23:05:01.000Z","Não ia votar no Kalil não. Mas diante de tanta sacanagem nas propagandas políticas meu voto agora é dele. Fazer raiva nas MARIAS.","Belo Horizonte","LEONARDO BARBOSA","LEO_BEAGALO",113,282
"2016-09-17T23:26:10.000Z","RT @brnou3: nossa candidato que legal várias pessoas na rua balançando uma bandeira com seu nome isso conquistou meu voto disse nenhuma pe…","Belo Horizonte","Júlia","julinhasr",589,306
Any specific language? When you say Linux, do you think about using shell scripting or something like that?
– Leonardo Pessoa
Use Vim/Vi to resolve this. Search Google for the exact command to remove line breaks from Windows and enter new line breaks. It is a very common problem... you will find even scripts ready q do it...
– TTKDroid
I think of first removing all lines with blanks:
grep -v ^$ arquivo_csv
and then paste the lines that don’t start with the " character with the previous line. Surely you can do this with theawk
but I haven’t been able to.– Zumo de Vidrio