Linux	CentOS 4.8
	wget(1)

WGET

NOM

wget − Manuel de GNU Wget

SYNOPSIS

wget [option]... [ URL ]...

DESCRIPTION

GNU Wget est un programme non-interactif de tÃ©lÃ©chargement de fichiers depuis le Web. C’est un logiciel libre. Il supporte les protocoles HTTP , HTTPS et FTP ainsi que le tÃ©lÃ©chargement au travers des proxies HTTP .

Wget est non interactif c’est-Ã -dire qu’il peut travailler en arriÃ¨re-plan, sans intervention de l’utilisateur. Ceci vous permet de lancer un tÃ©lÃ©chargement et de vous dÃ©connecter du systÃ¨me, laissant Wget finir le travail. En revanche, la plupart des navigateurs Web requiÃ¨rent la prÃ©sence constante de l’utilisateur, ce qui est particuliÃ¨rement pÃ©nible lorsqu’on transfÃ¨re beaucoup de donnÃ©es. Wget peut suivre les liens des pages HTML et crÃ©er une copie locale de sites web distants, en rÃ©crÃ©ant complÃ¨tement la structure du site original. Ceci est parfois dÃ©signÃ© sous le nom de Â« tÃ©lÃ©chargement rÃ©cursif Â». En faisant cela, Wget respecte le standard d’exclusion de robots (/robots.txt). Wget peut aussi convertir les liens dans les fichiers HTML tÃ©lÃ©chargÃ©s pour la consultation locale.

Wget a Ã©tÃ© conÃ§u pour Ãªtre robuste en dÃ©pit des connexions rÃ©seaux lentes ou instables : si un tÃ©lÃ©chargement Ã©choue suite Ã un problÃ¨me rÃ©seau, il rÃ©essayera jusqu’Ã ce que l’intÃ©gralitÃ© du fichier soit tÃ©lÃ©chargÃ©e. Si le serveur supporte la reprise, il lui demandera de reprendre lÃ oÃ¹ le tÃ©lÃ©chargement s’est interrompu.

OPTIONS

Options de base pour le dÃ©marrage

−V

--version

Affiche la version de Wget.

−h

--help

Affiche un message d’aide dÃ©crivant toutes les options de ligne de commande de Wget.

−b

--background

Passe Ã l’arriÃ¨re-plan immÃ©diatement aprÃ¨s le dÃ©marrage. Si aucun fichier de sortie n’est spÃ©cifiÃ© via −o, la sortie est redirigÃ©e vers wget-log.

−e commande

−-execute commande

ExÃ©cute commande comme si elle faisait partie de .wgetrc. La commande sera exÃ©cutÃ©e aprÃ¨s celles de .wgetrc, et donc prendra le pas sur celles-ci.

Options de suivi et de fichiers d’entrÃ©es

−o logfile

--output-file=logfile

Enregistre tous les messages dans logfile. Normalement les messages sont affichÃ©s sur la sortie d’erreur standard.

−a logfile

--append-output=logfile

Ajouter Ã logfile. C’est la mÃªme chose que l’option −o, sauf que les messages sont ajoutÃ©s Ã la fin du fichier logfile au lieu d’Ã©craser l’ancien fichier. Si logfile n’existe pas, il sera crÃ©Ã©.

−d

--debug

Active la sortie de debug, c’est-Ã -dire des informations importantes pour les dÃ©veloppeurs de Wget si quelque chose ne fonctionne pas correctement. Votre administrateur systÃ¨me peut avoir choisi de compiler Wget sans l’option de debug, dans ce cas −d ne fonctionnera pas. Remarquez que la compilation avec l’option de debug est toujours sÃ»re : Wget compilÃ© avec l’option debug n’affichera aucune information de debug Ã moins qu’on ne le lui demande avec −d.

−q

--quiet

DÃ©sactive la sortie de Wget.

−v

--verbose

Active la sortie bavarde, avec toutes les donnÃ©es disponibles. La sortie par dÃ©faut est bavarde.

−nv

--non-verbose

Sortie non bavarde : dÃ©sactive le mode bavard, sans toutefois Ãªtre complÃ¨tement muet (utilisez −q pour Ã§a), et donc seuls les messages d’erreurs et les informations de bases seront imprimÃ©es.

−i fichier

--input-file=fichier

Lit les URL depuis fichier, dans ce cas aucune URL n’est requise sur la ligne de commande. S’il y a des URL sur la ligne de commande et dans un fichier d’entrÃ©e, celles de la ligne de commande sont tÃ©lÃ©chargÃ©es en premier. fichier n’est pas nÃ©cessairement un document HTML , une simple liste d’URL convient Ã©galement.

Cependant, si vous spÃ©cifiez --force-html, le document sera considÃ©rÃ© comme Ã©tant du html. Dans ce cas vous pouvez avoir des problÃ¨mes avec les liens relatifs, problÃ¨me qui se rÃ©sout en ajoutant <base href="url"> aux documents ou en spÃ©cifiant --base=url sur la ligne de commande.

−F

--force-html

Lorsque l’entrÃ©e est lue depuis un fichier, force Wget Ã le considÃ©rer comme un fichier HTML . Cela vous permet de rapatrier les liens relatifs depuis un fichier HTML de votre disque local, en ajoutant <base href="url"> au HTML , ou en utilisant l’option de ligne de commande --base.

−B URL

--base= URL

UtilisÃ© en conjonction avec −F, prÃ©fixe les liens relatifs avec URL dans le fichier spÃ©cifiÃ© par −i.

Options de tÃ©lÃ©chargement

--bind-address= ADDRESS

Lors de la crÃ©ation de la connexion TCP/IP cliente, utilise ADRESSE sur la machine locale. ADRESSE peut Ãªtre un nom d’hÃ´te ou une adresse IP . Cette option peut Ãªtre utile si votre machine possÃ¨de plusieurs adresses IP.

−t n

--tries=n

DÃ©finit le nombre de tentatives Ã n. SpÃ©cifiez 0 ou inf pour un nombre illimitÃ© de tentatives.

−O fichier

--output-document=fichier

Les documents ne seront pas Ã©crits dans les fichiers appropriÃ©s, mais tous concatÃ©nÃ©s les uns aux autres et Ã©crits dans fichier. Si fichier existe dÃ©jÃ , il sera remplacÃ©. Si fichier vaut -, les documents seront affichÃ©s sur la sortie standard. Cette option positionne automatiquement le nombre de tentatives Ã 1.

−nc

--no-clobber

Si un fichier est tÃ©lÃ©chargÃ© plus d’une fois dans un mÃªme rÃ©pertoire, le comportement de Wget dÃ©pend de plusieurs options parmi lesquelles −nc. Dans certains cas, le fichier local sera remplacÃ© au fur et Ã mesure des tÃ©lÃ©chargements. Dans les autres cas, il sera prÃ©servÃ©.

Quand Wget est lancÃ© sans −N, −nc, ni −r, le tÃ©lÃ©chargement d’un mÃªme fichier dans un mÃªme rÃ©pertoire prÃ©servera le fichier original file, les copies suivantes seront renommÃ©es file.1, file.2 et ainsi de suite. Si l’option −nc est spÃ©cifiÃ©e, ce comportement est supprimÃ©, Wget ne tÃ©lÃ©chargera pas les nouvelles copies de file. C’est pourquoi no−clobber n’est pas un nom totalement adaptÃ© pour ce mode : ce n’est pas contre l’expulsion du fichier qu’elle protÃ¨ge (les suffixes numÃ©riques empÃªchent dÃ©jÃ le clobbering), mais elle empÃªche la sauvegarde des version multiples.

Quand Wget est lancÃ© avec −r, mais sans −N ni −nc, le retÃ©lÃ©chargement d’un fichier Ã©crasera l’ancienne version de celui-ci. L’option −nc empÃªche ce comportement : la version originale est prÃ©servÃ©e et les nouvelles copies du serveur sont ignorÃ©es.

Quand Wget est lancÃ© avec −N, indÃ©pendamment de −r, la dÃ©cision de tÃ©lÃ©charger la nouvelle version du fichier dÃ©pend des dates du fichier local et distant et de la taille du fichier. −nc ne devrait pas Ãªtre spÃ©cifiÃ© en mÃªme temps que −N.

Remarquer que si l’option −nc est spÃ©cifiÃ©e, les fichiers avec l’extension .html ou (beurk) .htm seront chargÃ©s depuis le disque local et analysÃ©s comme s’ils avaient Ã©tÃ© rapatriÃ©s depuis le Web.

−c

--continue

Reprend le tÃ©lÃ©chargement d’un fichier incomplet. C’est utile pour achever le tÃ©lÃ©chargement commencÃ© par une instance prÃ©cÃ©dente de Wget, ou par un autre programme. Par exemple :

        wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.Z

S’il y a un fichier nommÃ© ls-lR.Z dans le rÃ©pertoire courant, Wget supposera que c’est la premiÃ¨re partie du fichier distant, et demandera au serveur de continuer le tÃ©lÃ©chargement Ã l’offset Ã©gal Ã la longueur du fichier local.

Remarquez que vous n’avez pas besoin de spÃ©cifier cette option si vous voulez que l’invocation courante de Wget rÃ©essaye de retÃ©lÃ©charger un fichier parce que la connexion a Ã©tÃ© perdue. C’est le comportement par dÃ©faut. −c n’affecte que la reprise des tÃ©lÃ©chargements dÃ©marrÃ©s antÃ©rieurement Ã cette invocation de Wget, et dont les fichiers locaux sont encore prÃ©sents.

Sans l’option −c, l’exemple prÃ©cÃ©dent aurait juste tÃ©lÃ©chargÃ© le fichier distant dans ls-lR.Z.1, laissant intact le fichier tronquÃ© ls-lR.Z.

Depuis Wget 1.7, si vous utilisez −c sur un fichier non vide, et que le serveur ne supporte pas la reprise du tÃ©lÃ©chargement, Wget refusera de tÃ©lÃ©charger le fichier depuis 0, ce qui dÃ©truirait le contenu existant. Si vous voulez vraiment recommencer le tÃ©lÃ©chargement depuis 0, effacez le fichier.

Depuis Wget 1.7, si vous utilisez −c sur un fichier de taille supÃ©rieure ou Ã©gale Ã celle du serveur, Wget refusera de tÃ©lÃ©charger le fichier est affichera un message d’explication car dans ce cas la reprise du tÃ©lÃ©chargement n’a aucun sens.

En revanche, l’utilisation de −c, sur tout fichier qui est plus grand sur le serveur que localement sera considÃ©rÃ© comme un tÃ©lÃ©chargement incomplet ; Les octets manquants seront tÃ©lÃ©chargÃ©s et ajoutÃ© la fin du fichier C’est vraiment pratique dans certains cas : par exemple vous pouvez utiliser, wget −c pour ne tÃ©lÃ©charger que la nouvelle portion de donnÃ©es qui ont Ã©tÃ© ajoutÃ©s Ã un fichier de log.

Toutefois, si le fichier est plus grand du cÃ´tÃ© du serveur parce qu’il a Ã©tÃ© modifiÃ©, par opposition Ã un simple ajout, vous vous retrouvez avec un fichier corrompu. Wget n’a aucun moyen de vÃ©rifier que le fichier local est rÃ©ellement un prÃ©fixe valide du fichier distant. Vous devez faire attention quand vous utilisez simultanÃ©ment −c et −r, puisque chaque fichier sera considÃ©rÃ© comme un candidat Ã la reprise d’un tÃ©lÃ©chargement interrompu.

Autre exemple vous rÃ©cupÃ©rez un fichier corrompu si vous utilisez −c avec un proxy HTTP boiteux qui insÃ¨re une chaÃ®ne Â« transfer interrupted Â» dans le fichier local. Dans le futur une option retour en arriÃ¨re pourrait Ãªtre ajoutÃ©e pour s’occuper de ce cas.

Remarquez que −c ne fonctionne qu’avec les serveurs FTP et HTTP qui supportent l’en-tÃªte Range.

--progress=type=type

Positionne le type d’indicateur de progression. Les indicateurs valides sont dot (le point) et bar (une barre)

Par dÃ©faut des points sont imprimÃ©s Ã l’Ã©cran pour matÃ©rialiser le tÃ©lÃ©chargement rÃ©ussi d’une quantitÃ© dÃ©terminÃ©e de donnÃ©es.

Quand vous utilisez les points, vous pouvez aussi positionner le style en spÃ©cifiant dot:style. Les diffÃ©rents styles permettent de choisir la signification du point.

Dans le style par dÃ©faut (default) chaque point reprÃ©sente 1K, il y a 10 points par blocs et 50 points par lignes. Le style binary est orientÃ© ordinateur : 8 K par point, 16 points par blocs et 48 points par lignes (ce qui fait 384 K par ligne). Le style mega est plus adaptÃ© pour le tÃ©lÃ©chargement de trÃ¨s gros fichiers : chaque point reprÃ©sente 64 K il y a 8 points par blocs et 48 points sur chaque ligne (ce qui fait 3 M par ligne).

SpÃ©cifiez --progress=bar pour afficher une belle barre de progression ASCII pour matÃ©rialiser le tÃ©lÃ©chargement. Si la sortie n’est pas un terminal, cette option sera ignorÃ©e, et Wget retournera Ã l’indicateur avec les points. Si vous voulez forcer l’indicateur barre, utilisez --progress=bar:force.

−N

--timestamping

Active l’estampille temporelle.

−S

--server-response

Affiche les en-tÃªtes envoyÃ©s par les serveurs HTTP et les rÃ©ponses envoyÃ©es par les serveurs FTP .

--spider

Lorsqu’il est invoquÃ© avec cette option, Wget se comportera comme une araignÃ©e, sur la toile, il ne tÃ©lÃ©chargera pas les pages, il vÃ©rifiera simplement leur prÃ©sence. Vous pouvez l’utiliser pour vÃ©rifier vos signets par exemple

        wget --spider --force-html -i bookmarks.html

Cette caractÃ©ristique nÃ©cessite encore quelques efforts pour se rapprocher des fonctionnalitÃ©s de vÃ©ritable araignÃ©es WWW .

−T seconds

--timeout=seconds

Positionne le dÃ©compte de lecture Ã seconds secondes. En cas d’Ã©mission d’une lecture rÃ©seau, le descripteur de fichier est vÃ©rifiÃ© pour un dÃ©compte, sinon une connexion pendante (lecture non interrompue) pourrait subsister. Le dÃ©compte par dÃ©faut est 900 secondes (quinze minutes). Positionnez le dÃ©compte Ã 0 pour dÃ©sactiver la vÃ©rification des dÃ©comptes.

Veuillez ne pas diminuer la valeur par dÃ©faut du dÃ©compte sans savoir exactement ce que vous Ãªtes en train de faire.

−w seconds

--wait=seconds

Attendre la durÃ©e spÃ©cifiÃ©e en secondes entre les tÃ©lÃ©chargements. L’utilisation de cette option, est recommandÃ©e, puisqu’elle allÃ¨ge la charge du serveur en rÃ©duisant la frÃ©quence des requÃªtes. Ã la place des secondes, la durÃ©e peut Ãªtre spÃ©cifiÃ©e en minutes en utilisant le suffixe m, en heures avec le suffixe h, ou en jours avec le suffixe d.

La spÃ©cification d’une durÃ©e importante est utile si le rÃ©seau ou l’hÃ´te cible est tombÃ©, aussi Wget peut attendre suffisamment longtemps que le rÃ©seau soit rÃ©parÃ© avant de rÃ©essayer.

--waitretry=seconds

Si vous ne voulez pas que Wget attende entre chaque tÃ©lÃ©chargement, mais uniquement entre les essais ou tÃ©lÃ©chargement infructueux, vous pouvez utiliser cette option. Wget attend n secondes au n-iÃ¨me Ã©chec sur un fichier, jusqu’au maximum spÃ©cifiÃ©. C’est pourquoi une valeur de 10 fera patienter jusqu’Ã (1 + 2 + 3 +... + 10) = 55 secondes par fichier.

Remarquez que cette option est activÃ©e par dÃ©faut dans le fichier global wgetrc.

--random-wait

Certains sites web peuvent analyser les logs pour identifier les programmes de tÃ©lÃ©chargement comme Wget en recherchant les similaritÃ©s statistiques temporelles entre les requÃªtes. Cette option fait varier la durÃ©e inter-requÃªtes entre 0 et 2 * wait secondes, oÃ¹ wait a Ã©tÃ© spÃ©cifiÃ© par l’option −w (ou −-wait), dans le but de dissimuler la prÃ©sence de Wget dans de telles analyses.

Un article rÃ©cent dans une publication consacrÃ©e au dÃ©veloppement sur une plate-forme cliente populaire fournissait le code pour rÃ©aliser cette analyse au vol. Son auteur suggÃ©rait de bloquer les adresses de classe C pour s’assurer que les programmes de tÃ©lÃ©chargement seront bloquÃ©s en dÃ©pit des changements d’adresses dues au DHCP.

L’option --random-wait a Ã©tÃ© inspirÃ©e par ce conseil mal avisÃ© de bloquer l’accÃ¨s Ã un site web Ã de nombreux utilisateurs innocents en raison des actions d’un seul.

−Y on/off

--proxy=on/off

Active/DÃ©sactive le support proxy. Le proxy est activÃ© par dÃ©faut si la variable d’environnement appropriÃ©e est dÃ©finie.

−Q quota

--quota=quota

SpÃ©cifie le quota de donnÃ©es pour les tÃ©lÃ©chargements automatiques La valeur peut Ãªtre spÃ©cifiÃ©e en octets (dÃ©faut), kilo-octets (suffixe k), ou mÃ©ga-octets (avec le suffixe m).

Remarquez que le quota n’affectera jamais le tÃ©lÃ©chargement d’un unique fichier. Aussi, si vous spÃ©cifiez wget −Q10k ftp://wuarchive.wustl.edu/ls-lR.gz, l’intÃ©gralitÃ© du fichier ls-lR.gz sera tÃ©lÃ©chargÃ©e. La mÃªme chose se produira si vous spÃ©cifiez plusieurs URL sur la ligne de commande. Wget ne tient compte du quota que pour les tÃ©lÃ©chargements rÃ©cursifs ou depuis un fichier d’entrÃ©e. Aussi vous pouvez tapez sans crainte wget −Q2m −i sites : le tÃ©lÃ©chargement s’arrÃªtera lorsque le quota sera atteint.

Positionner le quota Ã 0 ou inf signifie aucun quota.

Options de rÃ©pertoires

−nd

--no-directories

Ne pas crÃ©er la hiÃ©rarchie de rÃ©pertoires lors du tÃ©lÃ©chargement rÃ©cursif. Si cette option est activÃ©e, tous les fichiers seront sauvegardÃ©s dans le rÃ©pertoire courant, sans Ã©crasement (si un nom apparaÃ®t plus d’une fois, les noms de fichiers auront un suffixe numÃ©rotÃ© .n).

−x

--force-directories

C’est l’opposÃ© de −nd : crÃ©er une hiÃ©rarchie de rÃ©pertoire, mÃªme si aucune n’aurait Ã©tÃ© crÃ©Ã©e autrement. Par exemple, wget −x http://fly.srk.fer.hr/robots.txt sauvegardera le fichier tÃ©lÃ©chargÃ© dans le fly.srk.fer.hr/robots.txt.

−nH

--no-host-directories

DÃ©sactive la gÃ©nÃ©ration de la racine des rÃ©pertoires avec le nom de l’hÃ´te. Par dÃ©faut, l’invocation de Wget avec −r http://fly.srk.fer.hr/ crÃ©era une hiÃ©rarchie de rÃ©pertoires avec fly.srk.fer.hr/ comme racine. Cette option dÃ©sactive ce comportement.

--cut-dirs=n

Ignore les n composantes du rÃ©pertoire. C’est utile pour contrÃ´ler finement le rÃ©pertoire lors du tÃ©lÃ©chargement rÃ©cursif.

Par exemple, avec le rÃ©pertoire ftp://ftp.xemacs.org/pub/xemacs/. Si vous le tÃ©lÃ©chargez avec l’option −r, il sera sauvegardÃ© localement sous ftp.xemacs.org/pub/xemacs/. Alors que l’option −nH peut supprimer la partie ftp.xemacs.org/, vous Ãªtes encore ennuyÃ© avec pub/xemacs. C’est lÃ que l’option --cut-dirs est intÃ©ressante ; elle permet de cacher Ã Wget n composantes du rÃ©pertoire distant. Voici plusieurs exemples pour illustrer la fonctionnement de l’option --cut-dirs option.

        pas d’option      -> ftp.xemacs.org/pub/xemacs/
        -nH               -> pub/xemacs/
        -nH --cut-dirs=1  -> xemacs/
        -nH --cut-dirs=2  -> .

        --cut-dirs=1      -> ftp.xemacs.org/xemacs/
        ...

Si vous voulez juste vous dÃ©barrasser de la structure des rÃ©pertoires, cette option est similaire Ã la combinaison −nd et −P. Cependant, contrairement Ã −nd, --cut-dirs ne se perd pas dans les sous-rÃ©pertoires. Par exemple, avec −nH −−cut-dirs=1, le sous-rÃ©pertoire beta/ se retrouvera placÃ© dans xemacs/beta, comme on s’y attend.

−P prefixe

--directory-prefix=prefixe

Positionne le prÃ©fixe pour les rÃ©pertoires Ã prefixe. Le rÃ©pertoire prefix est le rÃ©pertoire oÃ¹ tous les autres fichiers seront sauvegardÃ©s, i.e. le sommet de l’arbre de tÃ©lÃ©chargement. Par dÃ©faut c’est . (le rÃ©pertoire courant).

Options HTTP

−E

--html-extension

Si un fichier de type texte/html est tÃ©lÃ©chargÃ© et que l’ URL ne se termine par l’expression rÃ©guliÃ¨re \.[Hh][Tt][Mm][Ll]?, cette option provoque l’ajout du suffixe .html au nom de fichier local. C’est pratique, si vous Ãªtes en train de rÃ©pliquer un site distant qui utilise des pages .asp, mais vous voulez que les pages rÃ©pliques soient visibles sur votre serveur Apache. Cette option est aussi trÃ¨s utile lorsque vous tÃ©lÃ©chargez la sortie de CGI. Une URL comme http://site.com/article.cgi?25 sera sauvegardÃ© sous article.cgi?25.html.

Remarquez que les noms de fichiers ainsi modifiÃ©s seront retÃ©lÃ©chargÃ©s chaque fois que vous ferez une rÃ©plique du site, car Wget ne pas savoir que le fichier local X.html correspond Ã l’ URL X distante (puisqu’il ne sait pas encore que l’ URL produira une sortie de type texte/html. Pour prÃ©venir ce retÃ©lÃ©chargement, vous devez utiliser −k et −K aussi la version originale de fichier sera sauvegardÃ©e sous le nom X.orig.

--http-user=user

--http-passwd=password

SpÃ©cifie le nom d’utilisateur user et le mot de passe password pour un serveur HTTP . En fonction du type de dÃ©fi, Wget le cryptera en utilisant le mÃ©canisme d’authentification basic (non-sÃ©curisÃ©) ou digest.

Une autre maniÃ¨re de spÃ©cifier le nom d’utilisateur et le password c’est d’utiliser l’ URL elle-mÃªme.

−C on/off

--cache=on/off

Lorsque positionnÃ© Ã off, dÃ©sactive le cache cotÃ© serveur. Dans ce cas, Wget enverra au serveur distant la directive appropriÃ©e (Pragma:no-cache) pour rÃ©cupÃ©rer le fichier depuis le service distant, plutÃ´t que la version cachÃ©e. C’est particuliÃ¨rement utile pour tÃ©lÃ©charger et purger des documents obsolÃ¨tes sur des serveurs proxies.

Le cache est autorisÃ© par dÃ©faut.

--cookies=on/off

Lorsque positionnÃ© Ã off, dÃ©sactive l’utilisation des cookies. Le cookie est un mÃ©canisme pour prÃ©server l’Ã©tat du serveur. Le serveur envoie au client un cookie en envoyant l’en-tÃªte Set−Cookie, et le client rÃ©pondra avec le mÃªme cookie au requÃªtes ultÃ©rieures. Comme les cookies permettent aux propriÃ©taires du serveur de suivre Ã la trace les visiteurs et pour les sites d’Ã©changer cette information, on peut les considÃ©rer comme une brÃ¨che dans la sphÃ¨re privÃ©e. Par dÃ©faut, les cookies sont utilisÃ©s ; cependant le stockage des cookies n’est pas activÃ© par dÃ©faut.

--load-cookies fichier

Charge les cookies depuis fichier avant le premier tÃ©lÃ©chargement HTTP . fichier est un fichier texte dans le format originellement utilisÃ© par Netscape pour le fichier cookies.txt

Vous utiliserez cette option lorsque vous rÃ©pliquerez des sites qui requiÃ¨rent d’Ãªtre authentifiÃ© pour accÃ©der Ã leur contenu. Le processus d’authentification repose typiquement sur l’envoie d’un cookie HTTP pour recevoir et vÃ©rifier votre accrÃ©ditation. Le cookie est alors renvoyÃ© par le navigateur lorsque vous accÃ©dez Ã certaines parties du site pour prouver votre identitÃ©.

Faire une copie d’un tel site requiert que Wget envoie les mÃªmes cookies que votre navigateur lorsqu’il communique avec le site. Ceci est fait en indiquant l’emplacement du fichier cookies.txt avec --load-cookies. Wget enverra les mÃªme cookies que votre navigateur dans la mÃªme situation. Les navigateurs stockent leurs cookies dans des endroits diffÃ©rents :

Netscape 4.x.

Les cookies sont dans ~/.netscape/cookies.txt.

Mozilla and Netscape 6.x.

Les cookies de Mozilla s’appellent aussi cookies.txt, et sont situÃ©s quelque part dans le rÃ©pertoire ~/.mozilla. Le chemin complet ressemble souvent Ã ~/.mozilla/default/une-chaine-bizarre/cookies.txt.

Internet Explorer.

Vous pouvez fabriquer un fichier de cookies pour Wget en utilisant dans le menu Fichier, Importer et Exporter, Exporter les cookies. Ceci a Ã©tÃ© testÃ© avec Internet Explorer 5 ; ce n’est pas garanti que Ã§a marche avec les versions antÃ©rieures.

Autres navigateurs.

Si vous utilisez un autre navigateur pour crÃ©er vos cookies --load-cookies ne fonctionnera que si vous pouvez indiquer l’emplacement ou produire un fichier cookie dans le format Netscape comme s’y attend Wget.

Si vous ne pouvez pas utiliser --load-cookies, il reste encore une alternative. Si votre navigateur supporte le gestionnaire de cookies, vous pouvez l’utiliser pour voir les cookies utilisÃ©s pour l’accÃ¨s au site que vous copiez. Recopier le nom et la valeur du cookie et dites manuellement Ã Wget d’envoyer ces cookies, en court-circuitant le support officiel des cookies :

        wget --cookies=off --header "Cookie: I<name>=I<value>"

--save-cookies fichier

Sauvegarde les cookies dans fichier Ã la fin de la session. Les cookies sans date d’expiration, ou qui sont dÃ©jÃ pÃ©rimÃ©s, ne sont pas sauvegardÃ©s.

--ignore-length

Malheureusement, certains serveurs HTTP (des programmes CGI , pour Ãªtre plus prÃ©cis) envoient des en-tÃªtes avec un bogue dans Â« Content−Length Â», ce qui fait que Wget se comporte bizarrement et ne pense pas que tout le document a Ã©tÃ© tÃ©lÃ©chargÃ©. Vous pouvez dÃ©tecter ce syndrome si Wget essaye de rÃ©cupÃ©rer plusieurs fois le mÃªme document encore et encore, disant Ã chaque fois que la connexion a Ã©tÃ© fermÃ©e au mÃªme endroit dans le document.

Avec cette option, Wget ignorera l’en-tÃªte Â« Content−Length Â», s’il est prÃ©sent.

--header=additional-header

DÃ©finit un en-tÃªte additionnel Ã passer aux serveurs HTTP . L’en-tÃªte doit contenir un Â« : Â» prÃ©cÃ©dÃ© par un ou plusieurs caractÃ¨res non blancs, et ne doit pas contenir de retour Ã la ligne.

Vous pouvez dÃ©finir plus d’un en-tÃªte additionnel en utilisant plusieurs fois l’option --header.

        wget --header=’Accept-Charset: iso-8859-2’ \
             --header=’Accept-Language: hr’        \
               http://fly.srk.fer.hr/

La spÃ©cification d’une chaÃ®ne de caractÃ¨res vide comme valeur d’en-tÃªte effacera tous les en-tÃªtes prÃ©dÃ©finis par l’utilisateur.

--proxy-user=user

--proxy-passwd=password

SpÃ©cifie le nom d’utilisateur user et le mot de passe password pour l’authentification sur un serveur proxy. Wget les encodera en utilisant le mÃ©canisme d’authentification de base.

--referer=url

Inclut Â« Referer: url Â» dans la requÃªte HTTP . C’est utile pour rÃ©cuperer des documents quand le traitement du cotÃ© serveur suppose qu’ils sont toujours rÃ©cupÃ©rÃ©s par des navigateurs web interactifs et s’ils ne sont envoyÃ©s correctement que lorsque Referer est positionnÃ© Ã l’une des pages qui pointent vers eux.

−s

--save-headers

Enregistre les en-tÃªtes envoyÃ©s par le serveur HTTP vers le fichier, avant le contenu rÃ©el, avec une ligne vide comme sÃ©parateur.

−U agent-string

--user-agent=agent-string

S’identifier sous le nom agent-string pour le serveur HTTP .

Le protocole HTTP autorise les clients Ã s’identifier eux-mÃªme en utilisant le champ Â« User−Agent Â» dans l’en-tÃªte Ceci permet de distinguer les logiciels WWW , le plus souvent pour des buts statistiques ou pour tracer des violations de protocole. Wget s’identifie normalement sous le nom Wget/version, version Ã©tant la numÃ©ro de la version courante de Wget.

Cependant, certains sites sont connus pour imposer une politique de filtrage sur des clients en fonction de Â« User−Agent Â». Si conceptuellement ce n’est pas une trop mauvaise idÃ©e, Ã§a se traduit souvent par le refus de servir les clients autres que Mozilla ou Microsoft Internet Explorer. Cette option vous permet de falsifier la valeur de Â« User−Agent Â» envoyÃ©e par Wget. L’utilisation de cette option n’est pas recommandÃ©e, Ã moins que vous ne sachiez vraiment ce que vous Ãªtes en train de faire.

Options FTP

−nr

--dont-remove-listing

Ne pas supprimer les fichiers temporaires .listing gÃ©nÃ©rÃ©s par les requÃªtes FTP . Normalement, ces fichiers contiennent la liste brute des rÃ©pertoires reÃ§us depuis les serveurs FTP . Ne pas les supprimer peut Ãªtre utile pour le dÃ©verminage ou pour vÃ©rifier facilement le contenu des rÃ©pertoires distants (par exemple pour vÃ©rifier que le miroir que vous Ãªtes en train de consulter est complet).

Remarquez que mÃªme si Wget Ã©crit dans un nom de fichier connu, ce n’est pas un trou de sÃ©curitÃ© dans le scÃ©nario oÃ¹ un utilisateur crÃ©e un lien symbolique .listing vers /etc/passwd ou quelque chose d’autre et demande Ã root de lancer Wget dans son rÃ©pertoire. En fonction de l’option utilisÃ©e, Wget refusera d’Ã©crire dans .listing, faisant Ã©chouer l’opÃ©ration d’Ã©crasement, ou il supprimera le lien symbolique et le remplacera par le fichier .listing, ou le listing sera Ã©crit dans un fichier .listing.number.

MÃªme si cette situation n’est pas un problÃ¨me, root ne devrait jamais lancer Wget dans le rÃ©pertoire d’un utilisateur en qui il n’a pas confiance. Un utilisateur peut faire quelque chose d’aussi simple qu’un lien index.html vers /etc/passwd et demander Ã root de lancer Wget avec −N ou −r aussi le fichier sera remplacÃ©.

−g on/off

--glob=on/off

Active/dÃ©sactive l’englobement FTP . L’englobement signifie que vous pouvez utiliser les caractÃ¨res gÃ©nÃ©riques comme *, ?, [ et ] pour rÃ©cupÃ©rer plusieurs fichiers d’un mÃªme rÃ©pertoire en une fois. Par exemple :

        wget ftp://gnjilux.srk.fer.hr/*.msg

Par dÃ©faut, l’englobement est activÃ© si l’ URL contient un caractÃ¨re gÃ©nÃ©rique. Cette option permet d’activer ou de dÃ©sactiver l’englobement de maniÃ¨re permanente.

Vous pouvez avoir Ã protÃ©ger l’ URL avec des guillemets pour empÃªcher le shell d’interprÃ©ter les caractÃ¨res gÃ©nÃ©riques. L’englobement oblige Wget Ã regarder un listing de rÃ©pertoires, qui est dÃ©pendant du systÃ¨me. C’est pourquoi, pour le moment Ã§a ne marche qu’avec les serveurs FTP Unix (et ceux qui Ã©mulent la sortie du Â« ls Â» Unix).

--passive-ftp

Utilise le mÃ©canisme de tÃ©lÃ©chargement FTP passif, dans lequel le client initialise la connexion de donnÃ©es. C’est parfois requis pour accÃ©der Ã des FTP qui sont derriÃ¨re des pare-feux.

--retr-symlinks

Habituellement, lors du tÃ©lÃ©chargement rÃ©cursif de rÃ©pertoire FTP, si on rencontre un lien symbolique, le fichier liÃ© n’est pas tÃ©lÃ©chargÃ©. Ã la place on crÃ©e un lien symbolique identique sur le systÃ¨me de fichiers local. Le fichier pointÃ© ne sera pas tÃ©lÃ©chargÃ©, Ã moins bien sÃ»r que le tÃ©lÃ©chargement rÃ©cursif ne le rencontre plus tard.

Cependant, quand --retr-symlinks est spÃ©cifiÃ©, les liens symboliques sont suivis et les fichiers dÃ©signÃ©s sont rÃ©cupÃ©rÃ©s. Pour le moment, cette option ne permet pas Ã Wget de suivre les liens symboliques sur les rÃ©pertoire pour y poursuivre sa rÃ©cursion, mais ceci devrait Ãªtre amÃ©liorÃ© dans le futur.

Remarquez que cette option n’a aucun effet pour le tÃ©lÃ©chargement d’un fichier (et non un rÃ©pertoire) si celui-ci a Ã©tÃ© spÃ©cifiÃ© sur la ligne de commande plutÃ´t que rencontrÃ© lors de la rÃ©cursion. Dans ce cas les liens symboliques sont toujours suivis.

Options de tÃ©lÃ©chargement rÃ©cursif

−r

--recursive

Active le tÃ©lÃ©chargement rÃ©cursif.

−l depth

--level=depth

SpÃ©cifie la profondeur maximale depth pour la rÃ©cursion. Par dÃ©faut la profondeur maximale est 5.

--delete-after

Cette option indique Ã Wget de dÃ©truire tous les fichiers qu’il tÃ©lÃ©charge, aprÃ¨s l’avoir fait. C’est utile pour prÃ©charger les pages les plus populaires dans un proxy, par exemple :

        wget -r -nd --delete-after http://whatever.com/~popular/page/

L’option −r tÃ©lÃ©charge rÃ©cursivement et −nd ne crÃ©e pas les rÃ©pertoires.

Remarquez que --delete-after efface les fichiers sur la machine locale. Ãa n’a rien Ã voir avec la commande DELE des serveurs FTP . Remarquez aussi que si --delete-after est spÃ©cifiÃ©, --convert-links est ignorÃ©, et donc les fichiers .orig ne sont pas crÃ©es.

−k

--convert-links

Une fois que le tÃ©lÃ©chargement est terminÃ©, convertit les liens du document pour qu’il soit consultable en local. Ceci affecte non seulement les liens hypertextes, mais aussi toute partie du document qui lie un contenu extÃ©rieur, comme les images, les liens vers les feuilles de style, les hyperliens vers du contenu non-HTML, etc.

Chaque lien sera modifiÃ© de l’une des deux faÃ§ons suivantes :

Les liens vers les fichiers qui ont Ã©tÃ© tÃ©lÃ©chargÃ©s par wget seront transformÃ©s en liens relatifs.

Exemple : si le fichier tÃ©lÃ©chargÃ© /toto/doc.html a un lien vers /titi/image.gif, aussi tÃ©lÃ©chargÃ©, alors le lien dans doc.html sera modifiÃ© pour pointer vers ../titi/image.gif. Ce type de transformation fonctionne trÃ¨s bien quelle que soit la combinaison de rÃ©pertoires.

Les liens vers les fichiers qui n’ont pas Ã©tÃ© tÃ©lÃ©chargÃ©s par Wget seront modifiÃ©s pour inclure le nom d’hÃ´te et le chemin absolu vers la destination.

Exemple : si le fichier tÃ©lÃ©chargÃ© /toto/doc.html a un lien vers /titi/image.gif (ou vers ../titi/image.gif), alors le lien dans doc.html sera modifiÃ© pour pointÃ© vers http://hostname/titi/image.gif.

Ã cause de ceci, la navigation locale fonctionne bien : si un fichier liÃ© a Ã©tÃ© tÃ©lÃ©chargÃ©, le lien dÃ©signe son nom local ; sinon, le lien dÃ©signe son nom Internet complet plutÃ´t qu’un lien brisÃ©. Le fait que les anciens liens soient convertis en liens relatifs vous permet de dÃ©placer ailleurs les hiÃ©rarchies tÃ©lÃ©chargÃ©es.

Remarquez que Wget ne peut pas savoir avant la fin du tÃ©lÃ©chargement quels seront les liens tÃ©lÃ©chargÃ©s. C’est pourquoi le travail accompli par −k n’a lieu qu’aprÃ¨s la fin de tous les tÃ©lÃ©chargements.

−K

--backup-converted

Lors de la conversion d’un fichier, sauvegarde le fichier original avec le suffixe .orig. Ceci affecte le comportement de −N.

−m

--mirror

Active toutes les options convenables pour faire un miroir. Cette option active la rÃ©cursion, l’estampille temporelle, positionne la profondeur de rÃ©cursion maximale Ã +infini et conserve le listing des rÃ©pertoires FTP . Actuellement c’est Ã©quivalent Ã −r −N −l inf −nr.

−p

--page-requisites

Cette option oblige Wget Ã tÃ©lÃ©charger tous les fichiers nÃ©cessaires Ã l’affichage convenable d’une page HTML donnÃ©e. Notamment les images, sons et feuilles de styles rÃ©fÃ©rencÃ©es.

Ordinairement, lors du tÃ©lÃ©chargement d’une unique page HTML , les documents requis pour l’afficher proprement ne sont pas tÃ©lÃ©chargÃ©s. L’utilisation de −r et −l peut aider, mais puisque Wget ne fait pas d’ordinaire la distinction entre les documents externes et internes, on se retrouve parfois avec des Â« documents feuilles Â» qui n’ont pas leurs prÃ©requis.

Par exemple, si le document 1.html contient une balise <IMG> rÃ©fÃ©renÃ§ant 1.gif et une balise <A> pointant vers un document externe 2.html. Et si 2.html est similaire mais que son image est 2.gif et qu’il a un lien vers 3.html. On peut aller loin comme Ã§a.

Si on exÃ©cute la commande

        wget -r -l 2 http://<site>/1.html

alors 1.html, 1.gif, 2.html, 2.gif et 3.html seront tÃ©lÃ©chargÃ©s. Comme vous pouvez le constater, 3.html n’aura pas sa dÃ©pendance 3.gif parce Wget compte simplement le nombre de sauts (ici jusqu’Ã 2) depuis 1.html dans le but de dÃ©terminer oÃ¹ il doit arrÃªter la rÃ©cursion. Cependant, avec cette commande :

        wget -r -l 2 -p http://<site>/1.html

tous les fichiers ci-dessus et la dÃ©pendance 3.gif de 3.htmlseront tÃ©lÃ©charchÃ©s. Similairement,

        wget -r -l 1 -p http://<site>/1.html

provoquera le tÃ©lÃ©chargement de 1.html, 1.gif, 2.html, et de 2.gif. On pourrait croire que :

        wget -r -l 0 -p http://<site>/1.html

ne tÃ©lÃ©chargera que 1.html et 1.gif, mais malheureusement ce n’est pas le cas car −l 0 est Ã©quivalent Ã −l inf, la rÃ©cursion infinie. Pour tÃ©lÃ©charger une unique page HTML (ou une poignÃ©e d’entre elles, toutes spÃ©cifiÃ©es sur la ligne de commande, ou dans un fichier d’entrÃ©e −i URL ) et leurs dÃ©pendances, laissez simplement de cotÃ© −r et −l :

        wget -p http://<site>/1.html

Remarquez que Wget se comportera comme si −r avait Ã©tÃ© spÃ©cifiÃ©, mais une seule page sera tÃ©lÃ©chargÃ©e, avec ses dÃ©pendances. Les liens de cette page vers des documents externes ne seront pas suivis. En rÃ©alitÃ©, pour tÃ©lÃ©charger une page unique avec ses dÃ©pendances, (mÃªme si celles-ci sont sur d’autres sites) et Ãªtre sÃ»r que tout s’affichera correctement en local, l’auteur utilise conjointement d’autres options :

        wget -E -H -k -K -nh -p http://<site>/<document>

Il existe un cas oÃ¹ vous pouvez avoir besoin de rajouter des options. C’est si document contient un ensemble de cadres <FRAMESET>, Â« le saut de plus Â» offert par −p ne sera pas suffisant : vous rÃ©cupÃ©rez les pages cadres <FRAME> rÃ©fÃ©rencÃ©es mais pas leurs dÃ©pendances. C’est pourquoi, dans ce cas vous aurez besoin d’ajouter −r −l1 Ã la ligne de commande. −r −l1 lancera une rÃ©cursion depuis la page <FRAMESET> vers les pages <FRAME>, et −p rÃ©cupÃ©rera leurs dÃ©pendances. Si vous utilisez dÃ©jÃ un niveau de rÃ©cursion de 1 ou supÃ©rieur, vous aurez besoin de l’augmenter de 1. Dans le futur, −p pourrait Ãªtre assez malin pour faire Â« deux sauts de plus Â» dans le cas d’une page <FRAMESET>.

Pour clore ce sujet, Ã§a vaut la peine de connaÃ®tre l’idÃ©e que se fait Wget d’un lien vers un document externe. C’est toute URL spÃ©cifiÃ©e dans une balise <A>, <AREA> , ou <LINK> autre que <LINK REL="stylesheet">.

Options rÃ©cursives d’acceptation et de rejet

−A acclist --accept acclist

−R rejlist --reject rejlist

spÃ©cifie la liste (avec la virgule comme sÃ©parateur) des suffixes ou modÃ¨les de noms de fichiers qui doivent Ãªtre acceptÃ©s ou rejetÃ©s.

−D domain-list

--domains=domain-list

Positionne les domaines acceptÃ©s et recherchÃ©s par DNS , oÃ¹ domain-list est une liste avec la virgule comme sÃ©parateur. Remarquer que Ã§a n’active pas −H. Cette option accÃ©lÃ¨re les choses, mÃªme si un seul hÃ´te est concernÃ©.

--exclude-domains domain-list

Exclut les domaines contenus dans la liste domain-list de la recherche DNS.

--follow-ftp

Suit les liens FTP depuis les documents HTML . Sans cette option, Wget ignorera tous les liens FTP .

--follow-tags=list

Wget a une table interne de balises HTML qu’il considÃ¨re lorsqu’il examine les documents liÃ©s durant un tÃ©lÃ©chargement rÃ©cursif. Si un utilisateur veut se limiter Ã un sous-ensemble de ces balises, celui-ci devra les spÃ©cifier dans une liste avec la virgule comme sÃ©parateur, avec cette option.

−G list

--ignore-tags=list

C’est l’opposÃ© de l’option --follow-tags option. Pour laisser de cÃ´tÃ© certaines balises HTML lors du tÃ©lÃ©chargement rÃ©cursif, spÃ©cifier les dans une liste avec la virgule comme sÃ©parateur.

Dans le passÃ©, l’option −G Ã©tait la meilleure pour tÃ©lÃ©charger une page avec ses dÃ©pendances, en utilisant une ligne de commande comme :

        wget -Ga,area -H -k -K -nh -r http://<site>/<document>

Cependant, l’auteur de cette option allait au travers de pages avec des balises comme <LINK REL="home" HREF="/"> et il rÃ©alisa que l’option −G n’Ã©tait pas suffisante. On ne peut pas non plus dire Ã Wget d’ignorer <LINK>, sinon les feuilles de style ne seront pas tÃ©lÃ©chargÃ©es. Maintenant pour tÃ©lÃ©charger une page unique avec ses dÃ©pendances, il y a l’option dÃ©diÃ©e --page-requisites.

−H

--span-hosts

−L

--relative

Ne suivre que les liens relatifs. C’est utile pour rÃ©cupÃ©rer une page web sans Ãªtre distrait, mÃªme par celles qui sont sur le mÃªme hÃ´te.

−I list

--include-directories=list

SpÃ©cifie une liste de rÃ©pertoires sÃ©parÃ©s par des virgules que vous voulez suivre lors du tÃ©lÃ©chargement. Les Ã©lÃ©ments de list peuvent contenir des caractÃ¨res gÃ©nÃ©riques.

−X list

--exclude-directories=list

SpÃ©cifie une liste de rÃ©pertoires sÃ©parÃ©s par des virgules que vous voulez exclure du tÃ©lÃ©chargement. Les Ã©lÃ©ments de list peuvent contenir des caractÃ¨res gÃ©nÃ©riques.

−nh

--no-host-lookup

−np

--no-parent

Ne pas remonter dans les rÃ©pertoires parents. C’est une option utile, puisqu’elle garantit que seuls les fichiers en dessous d’une certaine hiÃ©rarchie seront tÃ©lÃ©chargÃ©s.

EXEMPLES

Utilisation simple

        wget http://fly.srk.fer.hr/

Mais que se passera-t-il si la connexion est lente et le fichier gros ? La connexion sera probablement interrompue avant que l’intÃ©gralitÃ© du fichier ne soit rapatriÃ©e. Dans ce cas, Wget essayera de retÃ©lÃ©charger le fichier jusqu’Ã ce qu’il y arrive ou qu’il dÃ©passe le nombre de tentatives par dÃ©faut (c’est-Ã -dire 20). Il est facile de changer le nombre de tentatives par 45, pour s’assurer que l’intÃ©gralitÃ© du fichier arrivera :

        wget --tries=45 http://fly.srk.fer.hr/jpg/flyweb.jpg

Maintenant laissons Wget travailler en arriÃ¨re-plan, et Ã©crire sa progression dans le fichier de log. C’est fatigant de taper --tries, aussi nous utiliserons −t.

        wget -t 45 -o log http://fly.srk.fer.hr/jpg/flyweb.jpg &

L’esperluette Ã la fin de la ligne envoie Wget Ã l’arriÃ¨re plan. Pour avoir un nombre infini de tentatives, utilisez −t inf.

L’usage du FTP est aussi simple. Wget tiendra compte du login et du mot de passe.

        wget ftp://gnjilux.srk.fer.hr/welcome.msg

Si vous spÃ©cifiez un rÃ©pertoire, Wget tÃ©lÃ©chargera l’inventaire du rÃ©pertoire et le transformera en document HTML . Essayez :

        wget ftp://prep.ai.mit.edu/pub/gnu/
        links index.html

        wget -i <file>

CrÃ©er une image miroir de profondeur 5 du site web de GNU , avec la mÃªme structure de rÃ©pertoire que l’original, avec un seul essai par document, et en sauvegardant le log des activitÃ©s dans gnulog :

        wget -r http://www.gnu.org/ -o gnulog

MÃªme chose que ci-dessus mais en convertissant les liens dans les fichiers HTML pour pointer vers des fichiers locaux, pour que vous puissiez les consulter hors-ligne :

        wget --convert-links -r http://www.gnu.org/ -o gnulog

TÃ©lÃ©charger une seule page HTML , mais en Ã©tant sÃ»r que tous les Ã©lÃ©ments nÃ©cessaires Ã son affichage, tels que les images incluses et les feuilles de styles externes seront aussi tÃ©lÃ©chargÃ©es. Et s’assurer aussi que la page tÃ©lÃ©chargÃ©e rÃ©fÃ©rence les liens tÃ©lÃ©chargÃ©s.

        wget -p --convert-links http://www.server.com/dir/page.html

La page HTML sera sauvegardÃ© dans www.server.com/dir/page.html, et les images, feuilles de styles, etc, quelque part dans www.server.com/, en fonction de l’endroit oÃ¹ elles Ã©taient sur le serveur distant.

MÃªme chose que ci-dessus, mais sans crÃ©er le rÃ©pertoire www.server.com/. En fait, je ne veux pas de tous ces noms de rÃ©pertoires alÃ©atoires du serveur, je veux juste sauvegarder tous les fichiers dans le sous-rÃ©pertoire download/ du rÃ©pertoire courant.

        wget -p --convert-links -nH -nd -Pdownload \
             http://www.server.com/dir/page.html

        wget -S http://www.linuxfr.org/

        wget -s http://www.linuxfr.org/
        more index.html

        wget -r -l2 -P/tmp ftp://wuarchive.wustl.edu/

Vous voulez tÃ©lÃ©charger tous les images GIF d’un rÃ©pertoire depuis un serveur HTTP . Vous avez essayÃ© wget http://www.server.com/dir/*.gif, mais Ã§a ne fonctionne pas car le tÃ©lÃ©chargement HTTP ne gÃ¨re pas l’expansion de nom. Dans ce cas, utilisez :

        wget -r -l1 --no-parent -A.gif http://www.server.com/dir/

Explication : −r −l1 signifie tÃ©lÃ©chargement rÃ©cursif, jusqu’Ã la profondeur 1. --no-parent signifie que les rÃ©fÃ©rences au rÃ©pertoire parent sont ignorÃ©es et −A.gif signifie de ne tÃ©lÃ©charger que les fichiers GIF . −A "*.gif" marche aussi.

Supposons que vous Ã©tiez au milieu d’un tÃ©lÃ©chargement, et que Wget a Ã©tÃ© interrompu. Maintenant vous voulez remplacer les fichiers dÃ©jÃ prÃ©sents Ce sera :

        wget -nc -r http://www.gnu.org/

Si vous voulez encoder votre nom d’utilisateur et votre mot de passe pour HTTP ou FTP , utilisez la syntaxe URL appropriÃ©e :

        wget ftp://mon_nom:mot_de_passe@unix.server.com/.emacs

Vous voulez rediriger la sortie des documents sur la sortie standard au lieu des fichiers :

        wget -O - http://jagor.srce.hr/ http://www.srce.hr/

Vous pouvez aussi combiner les deux options et fabriquer des pipelines pour tÃ©lÃ©charger des documents rÃ©fÃ©rencÃ© par un autre site.

        wget -O - http://cool.list.com/ │ wget --force-html -i -

Si vous voulez que Wget conserve la rÃ©plique d’une page (ou de sous-rÃ©pertoire FTP ), utilisez --mirror (−m), qui est le raccourci pour −r −l inf −N. Vous pouvez mettre Wget dans le fichier crontab pour lui demander de revÃ©rifier le site chaque dimanche :

        crontab
        0 0 * * 0 wget --mirror http://www.gnu.org/ -o /home/me/weeklog

En plus de ci-dessus, vous dÃ©sirez convertir les liens pour la consultation locale. Mais aprÃ¨s avoir lu ce manuel, vous savez que la conversion de lien ne gÃ¨re pas bien l’estampille temporelle, aussi vous dÃ©sirez que Wget conserve une copie des fichiers HTML avant conversion. L’invocation de Wget ressemblera Ã :

        wget --mirror --convert-links --backup-converted  \
             http://www.gnu.org/ -o /home/me/weeklog

Mais vous avez aussi remarquÃ© que la consultation locale ne marche pas du tout quand les fichiers HTML sont sauvegardÃ©s avec d’autres extensions que .html, peut-Ãªtre parce qu’ils ont Ã©tÃ© envoyÃ©s sous le nom index.cgi. Aussi vous voudriez que Wget renomme les fichiers avec content-type text/html et le nom nom.html.

        wget --mirror --convert-links --backup-converted \
             --html-extension -o /home/me/weeklog        \
             http://www.gnu.org/

        wget -m -k -K -E http://www.gnu.org/ -o /home/me/weeklog

FICHIERS

/usr/local/etc/wgetrc

.wgetrc

BOGUES

Les rapports de bogues sont les bienvenus. Envoyez-les Ã <bug−wget@gnu.org>.

Avant de soumettre un rapport de bogue, veuillez suivre les conseils simples suivants :

	1.		Assurez-vous que le comportement que vous voyez est rÃ©ellement un bogue. Si Wget crashe, c’est un bogue. Si Wget ne se comporte pas comme la documentation l’indique, c’est un bogue. Si les choses fonctionnent bizarrement, et que vous n’Ãªtes pas sÃ»r de la maniÃ¨re dont elles sont supposÃ©es fonctionner, Ã§a peut aussi Ãªtre un bogue.
	2.		Essayer de mettre en Ã©vidence les circonstances qui provoquent le bogue. Par exemple si Wget crashe avec wget −rLl0 −t5 −Y0 http://yoyodyne.com −o /tmp/log, vous devriez essayer de voir s’il crashe avec un ensemble plus rÃ©duit d’option.

Bien que je sois aussi intÃ©ressÃ© par le contenu du fichier .wgetrc, il ne faut pas le recopier directement dans le message de debug. Il vaut mieux essayer de reproduire le bogue avec un .wgetrc le plus simple possible. Seuls les paramÃ¨tres de .wgetrc qui ont une influence sur le bogue, devrait Ãªtre envoyÃ©s par courrier Ã©lectronique.

	3.		DÃ©marrez s’il vous plaÃ®t avec l’option −d et envoyez le log (ou uniquement les parties concernÃ©es). Si Wget a Ã©tÃ© compilÃ© sans le support debug, recompilez-le. C’est vraiment plus facile de traquer les bogues avec le support du debug activÃ©.
	4.		Si Wget a crashÃ©, essayez de le lancer dans un dÃ©bogueur, par exemple gdb ‘which wget‘ core et tapez where pour obtenir la pile des appels.

VOIR AUSSI

AUTEUR

Ãcrit Ã l’origine par Hrvoje Niksic <hniksic@arsdigita.com>.

COPYRIGHT

Vous avez l’autorisation de crÃ©er et de distribuer des copies textuelles de ce manuel, Ã condition que la notice de copyright et la notice de permission soient prÃ©servÃ©es dans toutes les copies.

Vous avez l’autorisation de copier, distribuer et/ou modifier ce documents sous les conditions de la GNU Free Documentation License, Version 1.1 ou toute version ultÃ©rieure publiÃ©e par la Free Software Foundation; avec comme sections invariantes Â« GNU General Public License Â» et Â« GNU Free Documentation License Â», sans texte avant ou aprÃ¨s. Une copie de la licence est incluse dans la section intitulÃ©e Â« GNU Free Documentation License Â».

TRADUCTION

wget(1)

Linux

CentOS 4.8