
Pour permettre de changer la direction, on va rajouter les options pour la commande curl.
codeHttp=$(curl -sLo ./PAGES-ASPIREES/"$compteur_tableau-$compteur".html $ligne -w %{http_code}) ;
Pour les urls avec l’encodage non UTF-8, on va convertir en UTF avec iconv.

# via la commande lynx : ici on choisit de dumper la page aspirée...
lynx -dump -nolist -assume_charset="UTF-8" -display_charset="UTF-8" ./PAGES-ASPIREES/"$compteur_tableau-$compteur".html > ./DUMPTEXT/utf8_"$compteur_tableau-$compteur".txt;
iconv -f $codageURL -t UTF-8 ./DUMP-TEXT/"$compteur_tableau-$compteur"-dump.txt > ./DUMP-TEXT/"$compteur_tableau-$compteur"-dump-utf8.txt;
Après l’exécution de ce script, il faut que tous les codages non-UTF-8 doit être converti en UTF-8 mais il me reste encore quelques pages qui codent en ISO latin 1.