Linux	CentOS 5.3
	wget(1)

WGET

NOM

wget − Un rÃ©cupÃ©rateur rÃ©seau non interactif

SYNOPSIS

wget [option]... [ URL ]...

DESCRIPTION

GNU Wget est un programme non interactif de tÃ©lÃ©chargement de fichiers depuis le Web. C’est un logiciel libre. Il supporte les protocoles HTTP , HTTPS et FTP ainsi que le tÃ©lÃ©chargement au travers des proxies HTTP .

Wget est non interactif c’est-Ã -dire qu’il peut travailler en arriÃ¨re-plan, sans intervention de l’utilisateur. Ceci vous permet de lancer un tÃ©lÃ©chargement et de vous dÃ©connecter du systÃ¨me, laissant Wget finir le travail. En revanche, la plupart des navigateurs Web requiÃ¨rent la prÃ©sence constante de l’utilisateur, ce qui est particuliÃ¨rement pÃ©nible lorsqu’on transfÃ¨re beaucoup de donnÃ©es.

Wget peut suivre les liens des pages HTML et XHTML et crÃ©er une copie locale de sites web distants, en rÃ©crÃ©ant complÃ¨tement la structure du site original. Ceci est parfois dÃ©signÃ© sous le nom de Â« tÃ©lÃ©chargement rÃ©cursif Â». En faisant cela, Wget respecte le standard d’exclusion de robots (/robots.txt). Wget peut aussi convertir les liens dans les fichiers HTML tÃ©lÃ©chargÃ©s pour la consultation locale.

Wget a Ã©tÃ© conÃ§u pour Ãªtre robuste en dÃ©pit des connexions rÃ©seaux lentes ou instables : si un tÃ©lÃ©chargement Ã©choue suite Ã un problÃ¨me rÃ©seau, il rÃ©essayera jusqu’Ã ce que l’intÃ©gralitÃ© du fichier soit tÃ©lÃ©chargÃ©e. Si le serveur supporte la reprise, il lui demandera de reprendre lÃ oÃ¹ le tÃ©lÃ©chargement s’est interrompu.

OPTIONS

Options de base pour le dÃ©marrage

−V

--version

Affiche la version de Wget.

−h

--help

Affiche un message d’aide dÃ©crivant toutes les options de ligne de commande de Wget.

−b

--background

Passe en arriÃ¨re-plan immÃ©diatement aprÃ¨s le dÃ©marrage. Si aucun fichier de sortie n’est spÃ©cifiÃ© via −o, la sortie est redirigÃ©e vers wget-log.

−e commande

−-execute commande

ExÃ©cute commande comme si elle faisait partie de .wgetrc. La commande sera exÃ©cutÃ©e aprÃ¨s celles de .wgetrc, et donc prendra le pas sur celles-ci.

Options de suivi et de fichiers d’entrÃ©es

−o logfile

--output-file=logfile

Enregistre tous les messages dans logfile. Normalement les messages sont affichÃ©s sur la sortie d’erreur standard.

−a logfile

--append-output=logfile

Ajouter Ã logfile. C’est la mÃªme chose que l’option −o, sauf que les messages sont ajoutÃ©s Ã la fin du fichier logfile au lieu d’Ã©craser l’ancien fichier. Si logfile n’existe pas, il sera crÃ©Ã©.

−d

--debug

Active la sortie de dÃ©bogage, c’est-Ã -dire des informations importantes pour les dÃ©veloppeurs de Wget si quelque chose ne fonctionne pas correctement. Votre administrateur systÃ¨me peut avoir choisi de compiler Wget sans l’option de dÃ©bogage, dans ce cas −d ne fonctionnera pas. Remarquez que la compilation avec cette option est toujours sÃ»re : Wget compilÃ© avec l’option de dÃ©bogage n’affichera aucune information de dÃ©bogage Ã moins qu’on ne le lui demande avec −d.

−q

--quiet

DÃ©sactive la sortie de Wget.

−v

--verbose

Active le mode verbeux, avec toutes les donnÃ©es disponibles. Ce mode est activÃ© par dÃ©faut.

−nv

--non-verbose

Sortie non verbeux : dÃ©sactive le mode verbeux, sans toutefois Ãªtre complÃ¨tement muet (utilisez −q pour Ã§a), et donc seuls les messages d’erreurs et les informations de bases seront affichÃ©s.

−i fichier

--input-file=fichier

Lit les URL depuis fichier. Dans ce cas, aucune URL n’est requise sur la ligne de commande. S’il y a des URL sur la ligne de commande et dans un fichier d’entrÃ©e, celles de la ligne de commande sont tÃ©lÃ©chargÃ©es en premier. fichier n’est pas nÃ©cessairement un document HTML , une simple liste d’URL convient Ã©galement.

Cependant, si vous spÃ©cifiez --force-html, le document sera considÃ©rÃ© comme Ã©tant du html. Dans ce cas vous pouvez avoir des problÃ¨mes avec les liens relatifs, problÃ¨me qui se rÃ©sout en ajoutant <base href="url"> aux documents ou en spÃ©cifiant --base=url sur la ligne de commande.

−F

--force-html

Lorsque l’entrÃ©e est lue depuis un fichier, force Wget Ã le considÃ©rer comme un fichier HTML . Cela vous permet de rapatrier les liens relatifs depuis un fichier HTML de votre disque local, en ajoutant <base href="url"> au HTML , ou en utilisant l’option de ligne de commande --base.

−B URL

--base= URL

UtilisÃ© en conjonction avec −F, prÃ©fixe les liens relatifs avec URL dans le fichier spÃ©cifiÃ© par −i.

Options de tÃ©lÃ©chargement

--bind-address= ADRESSE

Lors de la crÃ©ation de la connexion TCP/IP cliente, utilise ADRESSE sur la machine locale (bind()). ADRESSE peut Ãªtre un nom d’hÃ´te ou une adresse IP . Cette option peut Ãªtre utile si votre machine possÃ¨de plusieurs adresses IP.

−t n

--tries=n

DÃ©finit le nombre de tentatives Ã n. SpÃ©cifiez 0 ou inf pour un nombre illimitÃ© de tentatives. Par dÃ©faut 20 tentatives sont effectuÃ©es, Ã moins qu’une erreur fatale telle que Â« connexion refusÃ©e Â» ou Â« non trouvÃ© Â» (404) apparaisse.

−O fichier

--output-document=fichier

Les documents ne seront pas Ã©crits dans les fichiers appropriÃ©s, mais tous concatÃ©nÃ©s les uns aux autres et Ã©crits dans fichier. Si fichier existe dÃ©jÃ , il sera remplacÃ©. Si fichier vaut -, les documents seront Ã©crits sur la sortie standard. Cette option positionne automatiquement le nombre de tentatives Ã 1.

−nc

--no-clobber

Si un fichier est tÃ©lÃ©chargÃ© plus d’une fois dans un mÃªme rÃ©pertoire, le comportement de Wget dÃ©pend de plusieurs options parmi lesquelles −nc. Dans certains cas, le fichier local sera remplacÃ© au fur et Ã mesure des tÃ©lÃ©chargements. Dans les autres cas, il sera prÃ©servÃ©.

Quand Wget est lancÃ© sans −N, −nc, ni −r, le tÃ©lÃ©chargement d’un mÃªme fichier dans un mÃªme rÃ©pertoire prÃ©servera le fichier original fichier, les copies suivantes seront renommÃ©es fichier.1, fichier.2 et ainsi de suite. Si l’option −nc est spÃ©cifiÃ©e, ce comportement est supprimÃ©, Wget ne tÃ©lÃ©chargera pas les nouvelles copies de fichier. C’est pourquoi no−clobber n’est pas un nom totalement adaptÃ© pour ce mode : ce n’est pas contre l’expulsion du fichier qu’elle protÃ¨ge (les suffixes numÃ©riques empÃªchent dÃ©jÃ le clobbering), mais elle empÃªche la sauvegarde des version multiples.

Quand Wget est lancÃ© avec −r, mais sans −N ni −nc, le retÃ©lÃ©chargement d’un fichier Ã©crasera l’ancienne version de celui-ci. L’option −nc empÃªche ce comportement : la version originale est prÃ©servÃ©e et les nouvelles copies du serveur sont ignorÃ©es.

Quand Wget est lancÃ© avec −N, indÃ©pendamment de −r, la dÃ©cision de tÃ©lÃ©charger la nouvelle version du fichier dÃ©pend des dates du fichier local et distant et de la taille du fichier. −nc ne devrait pas Ãªtre spÃ©cifiÃ© en mÃªme temps que −N.

Remarquez que si l’option −nc est spÃ©cifiÃ©e, les fichiers avec l’extension .html ou (beurk) .htm seront chargÃ©s depuis le disque local et analysÃ©s comme s’ils avaient Ã©tÃ© rapatriÃ©s depuis le Web.

−c

--continue

Reprend le tÃ©lÃ©chargement d’un fichier incomplet. C’est utile pour achever le tÃ©lÃ©chargement commencÃ© par une instance prÃ©cÃ©dente de Wget, ou par un autre programme. Par exemple :

        wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.Z

S’il y a un fichier nommÃ© ls-lR.Z dans le rÃ©pertoire courant, Wget supposera que c’est la premiÃ¨re partie du fichier distant, et demandera au serveur de continuer le tÃ©lÃ©chargement Ã l’offset Ã©gal Ã la longueur du fichier local.

Remarquez que vous n’avez pas besoin de spÃ©cifier cette option si vous voulez que l’invocation courante de Wget rÃ©essaye de retÃ©lÃ©charger un fichier parce que la connexion a Ã©tÃ© perdue. C’est le comportement par dÃ©faut. −c n’affecte que la reprise des tÃ©lÃ©chargements dÃ©marrÃ©s antÃ©rieurement Ã cette invocation de Wget, et dont les fichiers locaux sont encore prÃ©sents.

Sans l’option −c, l’exemple prÃ©cÃ©dent aurait juste tÃ©lÃ©chargÃ© le fichier distant dans ls-lR.Z.1, laissant intact le fichier tronquÃ© ls-lR.Z.

Depuis Wget 1.7, si vous utilisez −c sur un fichier non vide, et que le serveur ne supporte pas la reprise du tÃ©lÃ©chargement, Wget refusera de tÃ©lÃ©charger le fichier depuis zÃ©ro, ce qui dÃ©truirait le contenu existant. Si vous voulez vraiment recommencer le tÃ©lÃ©chargement depuis zÃ©ro, effacez le fichier.

Ãgalement depuis Wget 1.7, si vous utilisez −c sur un fichier de taille supÃ©rieure ou Ã©gale Ã celle du serveur, Wget refusera de tÃ©lÃ©charger le fichier et affichera un message d’explication car dans ce cas la reprise du tÃ©lÃ©chargement n’a aucun sens.

En revanche, l’utilisation de −c, sur tout fichier qui est plus grand sur le serveur que localement sera considÃ©rÃ© comme un tÃ©lÃ©chargement incomplet ; les octets manquants seront tÃ©lÃ©chargÃ©s et ajoutÃ©s la fin du fichier. C’est vraiment pratique dans certains cas : par exemple vous pouvez utiliser, wget −c pour ne tÃ©lÃ©charger que la nouvelle portion de donnÃ©es qui ont Ã©tÃ© ajoutÃ©s Ã un fichier de log.

Toutefois, si le fichier est plus grand du cÃ´tÃ© du serveur parce qu’il a Ã©tÃ© modifiÃ©, par opposition Ã un simple ajout, vous vous retrouvez avec un fichier corrompu. Wget n’a aucun moyen de vÃ©rifier que le fichier local est rÃ©ellement un prÃ©fixe valide du fichier distant. Vous devez faire attention quand vous utilisez simultanÃ©ment −c et −r, puisque chaque fichier sera considÃ©rÃ© comme un candidat Ã la reprise d’un tÃ©lÃ©chargement interrompu.

Autre exemple : vous rÃ©cupÃ©rez un fichier corrompu si vous utilisez −c avec un proxy HTTP boiteux qui insÃ¨re une chaÃ®ne Â« transfer interrupted Â» dans le fichier local. Dans le futur, une option retour en arriÃ¨re pourrait Ãªtre ajoutÃ©e pour s’occuper de ce cas.

Remarquez que −c ne fonctionne qu’avec les serveurs FTP et HTTP qui supportent l’en-tÃªte Range.

--progress=type=type

Positionne le type d’indicateur de progression. Les indicateurs valides sont dot (le point) et bar (une barre).

Par dÃ©faut c’est la barre qui est utilisÃ©e. C’est une longue barre de progression ASCII pour matÃ©rialiser le tÃ©lÃ©chargement. Si la sortie n’est pas un terminal, les points seront utilisÃ©s. Si vous voulez forcer l’indicateur barre, utilisez --progress=bar:force.

--progress=dot permet de sÃ©lectionner l’affichage de points. Des points sont imprimÃ©s Ã l’Ã©cran pour matÃ©rialiser le tÃ©lÃ©chargement rÃ©ussi d’une quantitÃ© dÃ©terminÃ©e de donnÃ©es.

Quand vous utilisez les points, vous pouvez aussi positionner le style en spÃ©cifiant dot:style. Les diffÃ©rents styles permettent de choisir la signification du point. Dans le style par dÃ©faut (default) chaque point reprÃ©sente 1K, il y a 10 points par bloc et 50 points par ligne. Le style binary est orientÃ© ordinateur : 8 K par point, 16 points par bloc et 48 points par ligne (ce qui fait 384 K par ligne). Le style mega est plus adaptÃ© pour le tÃ©lÃ©chargement de trÃ¨s gros fichiers : chaque point reprÃ©sente 64 K il y a 8 points par bloc et 48 points sur chaque ligne (ce qui fait 3 M par ligne).

Remarquez qu’il est possible d’indiquer le style par dÃ©faut en utilisant la commande "progress" dans .wgetrc. Cette option a une prioritÃ© infÃ©rieure Ã celle de la ligne de commande.

−N

--timestamping

Active l’estampille temporelle.

−S

--server-response

Affiche les en-tÃªtes envoyÃ©s par les serveurs HTTP et les rÃ©ponses envoyÃ©es par les serveurs FTP .

--spider

Lorsqu’il est invoquÃ© avec cette option, Wget se comportera comme une araignÃ©e, sur la toile, il ne tÃ©lÃ©chargera pas les pages, il vÃ©rifiera simplement leur prÃ©sence. Vous pouvez l’utiliser pour vÃ©rifier vos signets par exemple

        wget --spider --force-html -i bookmarks.html

Cette caractÃ©ristique nÃ©cessite encore quelques efforts pour se rapprocher des fonctionnalitÃ©s de vÃ©ritable araignÃ©es WWW .

−T secondes

--timeout=secondes

Positionne le dÃ©compte de lecture Ã secondes secondes. En cas d’Ã©mission d’une lecture rÃ©seau, le descripteur de fichier est vÃ©rifiÃ© pour un dÃ©compte, sinon une connexion pendante (lecture non interrompue) pourrait subsister. Le dÃ©compte par dÃ©faut est 900 secondes (quinze minutes). Positionnez le dÃ©compte Ã 0 pour dÃ©sactiver la vÃ©rification des dÃ©comptes.

Veuillez ne pas diminuer la valeur par dÃ©faut du dÃ©compte sans savoir exactement ce que vous Ãªtes en train de faire.

−−dns−timeout=secondes

Positionne le dÃ©compte de recherche DNS Ã secondes secondes. Une recherche DNS qui dÃ©passe le temps spÃ©cifiÃ© sera stoppÃ©e. Par dÃ©faut ce temps est dÃ©pendant de l’implantation des bibliothÃ¨ques systÃ¨mes.

−−connect−timeout=secondes

Positionne le dÃ©compte de connexion Ã secondes secondes. Les connexions TCP qui mettent plus de temps que spÃ©cifier pour s’Ã©tablir sont stoppÃ©es. Par dÃ©faut, ce temps est dÃ©pendant de l’implÃ©mentation des bibliothÃ¨ques systÃ¨me.

−−read−timeout=secondes

Positionne le dÃ©compte d’Ã©criture (et de lecture) Ã secondes secondes. Les Ã©critures prenant plus de temps que spÃ©cifiÃ© sont stoppÃ©es. La valeur par dÃ©faut est de 900 secondes.

−−limit−rate=valeur

Limite la dÃ©bit du tÃ©lÃ©chargement Ã valeur octets par seconde. Il est possible d’exprimer cette valeur en octets, kilooctets Ã l’aide du suffixe k ou en mÃ©gaoctets Ã l’aide du suffixe m. Par exemple, −−limit−rate=20k limitera le dÃ©bit Ã 20 ko/s. Cette option est utile, entre autre, lorsqu’on ne souhaite pas que Wget consomme toute la bande passante disponible.

Remarquez que Wget implante la limitation en dormant la durÃ©e appropriÃ©e aprÃ¨s une rÃ©ception depuis le rÃ©seau qui a pris moins de temps que spÃ©cifiÃ© par le dÃ©bit. Au bout du compte, cette stratÃ©gie ralentit le transfert TCP approximativement au dÃ©bit requis. Cependant, il se peut que cela prenne un peu de temps avant de se stabiliser ; ne soyez pas surpris si cette limite n’est pas vraiment respectÃ©e lors du transfert de petits fichiers.

−w secondes

--wait=secondes

Attendre la durÃ©e spÃ©cifiÃ©e en secondes entre les tÃ©lÃ©chargements. L’utilisation de cette option, est recommandÃ©e, puisqu’elle allÃ¨ge la charge du serveur en rÃ©duisant la frÃ©quence des requÃªtes. Ã la place des secondes, la durÃ©e peut Ãªtre spÃ©cifiÃ©e en minutes en utilisant le suffixe m, en heures avec le suffixe h, ou en jours avec le suffixe d.

La spÃ©cification d’une durÃ©e importante est utile si le rÃ©seau ou l’hÃ´te cible est coupÃ©, aussi Wget peut attendre suffisamment longtemps que le rÃ©seau soit rÃ©parÃ© avant de rÃ©essayer.

--waitretry=secondes

Si vous ne voulez pas que Wget attende entre chaque tÃ©lÃ©chargement, mais uniquement entre les essais ou tÃ©lÃ©chargement infructueux, vous pouvez utiliser cette option. Wget attend n secondes au n-iÃ¨me Ã©chec sur un fichier, jusqu’au maximum spÃ©cifiÃ©. C’est pourquoi une valeur de 10 fera patienter jusqu’Ã (1 + 2 + 3 +... + 10) = 55 secondes par fichier.

Remarquez que cette option est activÃ©e par dÃ©faut dans le fichier global .wgetrc.

--random-wait

Certains sites web peuvent analyser les logs pour identifier les programmes de tÃ©lÃ©chargement comme Wget en recherchant les similaritÃ©s statistiques temporelles entre les requÃªtes. Cette option fait varier la durÃ©e inter-requÃªtes entre 0 et 2 * wait secondes, oÃ¹ wait a Ã©tÃ© spÃ©cifiÃ© par l’option −w (ou −-wait), dans le but de dissimuler la prÃ©sence de Wget dans de telles analyses.

Un article rÃ©cent dans une publication consacrÃ©e au dÃ©veloppement sur une plate-forme cliente populaire fournissait le code pour rÃ©aliser cette analyse au vol. Son auteur suggÃ©rait de bloquer les adresses de classe C pour s’assurer que les programmes de tÃ©lÃ©chargement seront bloquÃ©s en dÃ©pit des changements d’adresses dues au DHCP.

L’option --random-wait a Ã©tÃ© inspirÃ©e par ce conseil mal avisÃ© de bloquer l’accÃ¨s Ã un site web Ã de nombreux utilisateurs innocents en raison des actions d’un seul.

−Y on/off

--proxy=on/off

Active/DÃ©sactive le support proxy. Le proxy est activÃ© par dÃ©faut si la variable d’environnement appropriÃ©e est dÃ©finie.

Pour plus d’information sur l’utilisation de proxys, voir la section Proxies de l’entrÃ©e GNU Info.

−Q quota

--quota=quota

SpÃ©cifie le quota de donnÃ©es pour les tÃ©lÃ©chargements automatiques. La valeur peut Ãªtre spÃ©cifiÃ©e en octets (dÃ©faut), kilooctets (suffixe k), ou mÃ©gaoctets (avec le suffixe m).

Remarquez que le quota n’affectera jamais le tÃ©lÃ©chargement d’un unique fichier. Aussi, si vous spÃ©cifiez wget −Q10k ftp://wuarchive.wustl.edu/ls-lR.gz, l’intÃ©gralitÃ© du fichier ls-lR.gz sera tÃ©lÃ©chargÃ©e. La mÃªme chose se produira si vous spÃ©cifiez plusieurs URL sur la ligne de commande. Wget ne tient compte du quota que pour les tÃ©lÃ©chargements rÃ©cursifs ou depuis un fichier d’entrÃ©e. Aussi vous pouvez tapez sans crainte wget −Q2m −i sites : le tÃ©lÃ©chargement s’arrÃªtera lorsque le quota sera atteint.

Positionner le quota Ã 0 ou inf signifie aucun quota.

−−dns−cache=off

DÃ©sactive le cache lors de recherches DNS . Normalement, Wget garde en mÃ©moire les adresses qu’il a dÃ©jÃ recherchÃ©es sur le serveur de noms, ce qui lui Ã©vite de recontacter Ã chaque fois le DNS pour le mÃªme (petit) ensemble d’adresses Ã partir desquelles la rÃ©cupÃ©ration est faite. Ce cache existe uniquement en mÃ©moire vive, Ã chaque exÃ©cution Wget contacte de nouveau le DNS .

Toutefois, dans certains cas, il n’est pas dÃ©sirable de garder en cache les noms d’hÃ´te, mÃªme pour une durÃ©e courte telle que l’exÃ©cution de Wget. Par exemple, les serveurs HTTP qui sont hebergÃ©s sur des machines dont l’adresse IP est allouÃ©e dynamiquement et change frÃ©quemment. Leur entrÃ©es DNS sont mises Ã jour Ã chaque changement. Quand le tÃ©lÃ©chargement depuis de tels hÃ´tes est interrompu par un changement d’adresse IP , Wget rÃ©essaye de tÃ©lÃ©charger, mais (en raison du cache du DNS) il contacte l’ancienne adresse. Avec le cache DNS dÃ©sactivÃ©, Wget rÃ©pÃ©tera la recherche DNS Ã chaque connexion, et ainsi obtiendra l’adresse dynamique correcte Ã chaque fois ; ceci au coÃ»t de recherches DNS supplÃ©mentaires et majoritairement inutiles.

Si vous ne comprenez pas la description ci-dessus, c’est que vous n’avez probablement pas besoin de cette option. (NDT : ou alors le traducteur s’est couchÃ© un peu trop tard !)

−−restrict−file−names=mode

Modifie les caractÃ¨res des URL distantes qui peuvent Ãªtre utilisÃ©s dans les noms de fichiers locaux gÃ©nÃ©rÃ©s Ã partir de celles-ci. Les caractÃ¨res qui sont restreints par cette option sont remplacÃ©s par %HH, oÃ¹ HH est le nombre hexadÃ©cimal qui correspond au caractÃ¨re remplacÃ©.

Par dÃ©faut Wget remplace les caractÃ¨res considÃ©rÃ©s invalides dans les noms de fichiers par le systÃ¨me d’exploitation, ainsi que les caractÃ¨res de contrÃ´le qui, pour la plupart, ne sont pas affichables. Cette option est utile pour modifier ce comportement par dÃ©faut, soit parce que vous souhaitez enregistrer les fichier sur une partition non-native, soit parce que vous souhaitez garder les caractÃ¨res de contrÃ´le.

Quand le mode est mis Ã Â« unix Â», Wget remplace le caractÃ¨re / ainsi que les caractÃ¨res de contrÃ´le faisant partie des ensembles 0−31 et 128−159. C’est le mode par dÃ©faut sur les systÃ¨mes d’exploitation Ã la UNIX.

Quand le mode est mis Ã Â« windows Â», Wget remplace les caractÃ¨res \, │, /, :, ?, ", *, <, > ainsi que les caractÃ¨res de contrÃ´le faisant partie des ensembles 0−31 et 128−159. En plus de cela, dans le mode windows, Wget utilise + Ã la place de : pour sÃ©parer l’hÃ´te du port dans les noms de fichiers locaux et utilise @ Ã la place de ? pour sÃ©parer la partie de requÃªte du reste dans le nom de fichier. Ainsi, une URL qui serait sauvegardÃ©e sous le nom www.xemacs.org:4300/search.pl?input=blah en mode unix aurait le nom www.xemacs.org+4300/search.pl@input=blah en mode windows. Ce mode est celui par dÃ©faut sous Windows.

Si vous ajoutez ,nocontrol au mode, comme par exemple unix,nocontrol, le remplacement des caractÃ¨res de contrÃ´le est dÃ©sactivÃ©. Il est possible d’indiquer −−restrict−file−names=nocontrol pour dÃ©sactiver le remplacement des caractÃ¨res de contrÃ´le sans affecter le choix automatique du mode de restriction de caractÃ¨re en fonction du systÃ¨me d’exploitation.

Options de rÃ©pertoires

−nd

--no-directories

Ne pas crÃ©er la hiÃ©rarchie de rÃ©pertoires lors du tÃ©lÃ©chargement rÃ©cursif. Si cette option est activÃ©e, tous les fichiers seront sauvegardÃ©s dans le rÃ©pertoire courant, sans Ã©crasement (si un nom apparaÃ®t plus d’une fois, les noms de fichiers auront un suffixe numÃ©rotÃ© .n).

−x

--force-directories

C’est l’opposÃ© de −nd : crÃ©er une hiÃ©rarchie de rÃ©pertoires, mÃªme si aucune n’aurait Ã©tÃ© crÃ©Ã©e autrement. Par exemple, wget −x http://fly.srk.fer.hr/robots.txt sauvegardera le fichier tÃ©lÃ©chargÃ© dans le fly.srk.fer.hr/robots.txt.

−nH

--no-host-directories

DÃ©sactive la gÃ©nÃ©ration de la racine des rÃ©pertoires avec le nom de l’hÃ´te. Par dÃ©faut, l’invocation de Wget avec −r http://fly.srk.fer.hr/ crÃ©era une hiÃ©rarchie de rÃ©pertoires avec fly.srk.fer.hr/ comme racine. Cette option dÃ©sactive ce comportement.

--cut-dirs=n

Ignore les n composantes du rÃ©pertoire. C’est utile pour contrÃ´ler finement le rÃ©pertoire lors du tÃ©lÃ©chargement rÃ©cursif.

Par exemple, avec le rÃ©pertoire ftp://ftp.xemacs.org/pub/xemacs/. Si vous le tÃ©lÃ©chargez avec l’option −r, il sera sauvegardÃ© localement sous ftp.xemacs.org/pub/xemacs/. Alors que l’option −nH peut supprimer la partie ftp.xemacs.org/, vous Ãªtes encore ennuyÃ© avec pub/xemacs. C’est lÃ que l’option --cut-dirs est intÃ©ressante ; elle permet de cacher Ã Wget n composantes du rÃ©pertoire distant. Voici plusieurs exemples pour illustrer la fonctionnement de l’option --cut-dirs option.

        pas d’option      -> ftp.xemacs.org/pub/xemacs/
        -nH               -> pub/xemacs/
        -nH --cut-dirs=1  -> xemacs/
        -nH --cut-dirs=2  -> .

        --cut-dirs=1      -> ftp.xemacs.org/xemacs/
        ...

Si vous voulez juste vous dÃ©barrasser de la structure des rÃ©pertoires, cette option est similaire Ã la combinaison −nd et −P. Cependant, contrairement Ã −nd, --cut-dirs ne se perd pas dans les sous-rÃ©pertoires. Par exemple, avec −nH −−cut-dirs=1, le sous-rÃ©pertoire beta/ se retrouvera placÃ© dans xemacs/beta, comme on s’y attend.

−P prefixe

--directory-prefix=prefixe

Positionne le prÃ©fixe pour les rÃ©pertoires Ã prefixe. Le rÃ©pertoire prefixe est le rÃ©pertoire oÃ¹ tous les autres fichiers seront sauvegardÃ©s, c-a-d le sommet de l’arbre de tÃ©lÃ©chargement. Par dÃ©faut c’est . (le rÃ©pertoire courant).

Options HTTP

−E

--html-extension

Si un fichier de type application/xhtml+xml ou texte/html est tÃ©lÃ©chargÃ© et que l’ URL ne se termine par l’expression rÃ©guliÃ¨re \.[Hh][Tt][Mm][Ll]?, cette option provoque l’ajout du suffixe .html au nom de fichier local. C’est pratique, si vous Ãªtes en train de rÃ©pliquer un site distant qui utilise des pages .asp, mais vous voulez que les pages rÃ©pliques soient visibles sur votre serveur Apache. Cette option est aussi trÃ¨s utile lorsque vous tÃ©lÃ©chargez la sortie de CGI. Une URL comme http://site.com/article.cgi?25 sera sauvegardÃ© sous article.cgi?25.html.

Remarquez que les noms de fichiers ainsi modifiÃ©s seront retÃ©lÃ©chargÃ©s chaque fois que vous ferez une rÃ©plique du site, car Wget ne peut pas savoir que le fichier local X.html correspond Ã l’ URL X distante (puisqu’il ne sait pas encore que l’ URL produira une sortie de type texte/html ou application/xhtml+xml. Pour prÃ©venir ce retÃ©lÃ©chargement, vous devez utiliser −k et −K aussi la version originale de fichier sera sauvegardÃ©e sous le nom X.orig.

--http-user=utilisateur

--http-passwd=mot-de-passe

SpÃ©cifie le nom d’utilisateur fIutilisateur et le mot de passe fImot_de_passe pour un serveur HTTP . En fonction du type de dÃ©fi, Wget le cryptera en utilisant le mÃ©canisme d’authentification basic (non-sÃ©curisÃ©) ou digest.

Une autre maniÃ¨re de spÃ©cifier le nom d’utilisateur et le mot de passe est d’utiliser l’ URL elle-mÃªme. Les deux mÃ©thodes rÃ©vÃ¨lent votre mot de passe Ã quiconque se donnant la peine de lancer "ps". Pour Ã©viter que le mot de passe soit vu, stockez-le dans .wgetrc ou .netrc et assurez-vous que vous avez protÃ©gÃ© ces fichiers des autres utilisateurs Ã l’aide de la commande "chmod". Si les mots de passe sont vraiment importants, supprimez-les de ces fichiers dÃ¨s que Wget a terminÃ© le tÃ©lÃ©chargement.

Pour plus d’informations en ce qui concerne les problÃ¨mes de sÃ©curitÃ©, reportez-vous Ã la section Security Considerations de l’entrÃ©e GNU Info.

−C on/off

--cache=on/off

Lorsque positionnÃ© Ã off, dÃ©sactive le cache cÃ´tÃ© serveur. Dans ce cas, Wget enverra au serveur distant la directive appropriÃ©e (Pragma:no-cache) pour rÃ©cupÃ©rer le fichier depuis le service distant, plutÃ´t que la version cachÃ©e. C’est particuliÃ¨rement utile pour tÃ©lÃ©charger et purger des documents obsolÃ¨tes sur des serveurs proxies.

Le cache est autorisÃ© par dÃ©faut.

--cookies=on/off

Lorsque positionnÃ© Ã off, dÃ©sactive l’utilisation des cookies. Le cookie est un mÃ©canisme pour prÃ©server l’Ã©tat du serveur. Le serveur envoie au client un cookie en envoyant l’en-tÃªte Set−Cookie, et le client rÃ©pondra avec le mÃªme cookie au requÃªtes ultÃ©rieures. Comme les cookies permettent aux propriÃ©taires du serveur de suivre Ã la trace les visiteurs et pour les sites d’Ã©changer cette information, on peut les considÃ©rer comme une brÃ¨che dans la sphÃ¨re privÃ©e. Par dÃ©faut, les cookies sont utilisÃ©s ; cependant le stockage des cookies n’est pas activÃ© par dÃ©faut.

--load-cookies fichier

Charge les cookies depuis fichier avant le premier tÃ©lÃ©chargement HTTP . fichier est un fichier texte dans le format originellement utilisÃ© par Netscape pour le fichier cookies.txt

Vous utiliserez cette option lorsque vous rÃ©pliquerez des sites qui requiÃ¨rent d’Ãªtre authentifiÃ© pour accÃ©der Ã leur contenu. Le processus d’authentification repose typiquement sur l’envoi d’un cookie HTTP pour recevoir et vÃ©rifier votre accrÃ©ditation. Le cookie est alors renvoyÃ© par le navigateur lorsque vous accÃ©dez Ã certaines parties du site pour prouver votre identitÃ©.

Faire une copie d’un tel site requiert que Wget envoie les mÃªmes cookies que votre navigateur lorsqu’il communique avec le site. Ceci est fait en indiquant l’emplacement du fichier cookies.txt avec --load-cookies. Wget enverra les mÃªme cookies que votre navigateur dans la mÃªme situation. Les navigateurs stockent leurs cookies dans des endroits diffÃ©rents :

Netscape 4.x.

Les cookies sont dans ~/.netscape/cookies.txt.

Mozilla and Netscape 6.x.

Les cookies de Mozilla s’appellent aussi cookies.txt, et sont situÃ©s quelque part dans le rÃ©pertoire ~/.mozilla. Le chemin complet ressemble souvent Ã ~/.mozilla/default/une-chaine-bizarre/cookies.txt.

Internet Explorer.

Vous pouvez fabriquer un fichier de cookies pour Wget en utilisant dans le menu Fichier, Importer et Exporter, Exporter les cookies. Ceci a Ã©tÃ© testÃ© avec Internet Explorer 5 ; ce n’est pas garanti que Ã§a marche avec les versions antÃ©rieures.

Autres navigateurs.

Si vous utilisez un autre navigateur pour crÃ©er vos cookies --load-cookies ne fonctionnera que si vous pouvez indiquer l’emplacement ou produire un fichier cookie dans le format Netscape comme s’y attend Wget.

Si vous ne pouvez pas utiliser --load-cookies, il reste encore une alternative. Si votre navigateur supporte le gestionnaire de cookies, vous pouvez l’utiliser pour voir les cookies utilisÃ©s pour l’accÃ¨s au site que vous copiez. Recopier le nom et la valeur du cookie et dites manuellement Ã Wget d’envoyer ces cookies, en court-circuitant le support officiel des cookies :

        wget --cookies=off --header "Cookie: <nom>=<valeur>"

--save-cookies fichier

Sauvegarde les cookies dans fichier Ã la fin de la session. Les cookies sans date d’expiration, ou qui sont dÃ©jÃ pÃ©rimÃ©s, ne sont pas sauvegardÃ©s.

--ignore-length

Malheureusement, certains serveurs HTTP (des programmes CGI , pour Ãªtre plus prÃ©cis) envoient des en-tÃªtes avec un bogue dans Â« Content−Length Â», ce qui fait que Wget se comporte bizarrement et ne pense pas que tout le document a Ã©tÃ© tÃ©lÃ©chargÃ©. Vous pouvez dÃ©tecter ce syndrome si Wget essaye de rÃ©cupÃ©rer le mÃªme document encore et encore, disant Ã chaque fois que la connexion a Ã©tÃ© fermÃ©e au mÃªme endroit dans le document.

Avec cette option, Wget ignorera l’en-tÃªte Â« Content−Length Â», s’il est prÃ©sent.

--header=en-tÃªte-additionel

DÃ©finit un en-tÃªte additionnel Ã passer aux serveurs HTTP . L’en-tÃªte doit contenir un Â« : Â» prÃ©cÃ©dÃ© par un ou plusieurs caractÃ¨res non blancs, et ne doit pas contenir de retour Ã la ligne.

Vous pouvez dÃ©finir plus d’un en-tÃªte additionnel en utilisant plusieurs fois l’option --header.

        wget --header=’Accept-Charset: iso-8859-2’ \
             --header=’Accept-Language: hr’        \
               http://fly.srk.fer.hr/

La spÃ©cification d’une chaÃ®ne de caractÃ¨res vide comme valeur d’en-tÃªte effacera tous les en-tÃªtes prÃ©dÃ©finis par l’utilisateur.

--proxy-user=utilisateur

--proxy-passwd=mot-de-passe

SpÃ©cifie le nom d’utilisateur utilisateur et le mot de passe mot-de-passe pour l’authentification sur un serveur proxy. Wget les encodera en utilisant le mÃ©canisme d’authentification de base.

Les mÃªmes considÃ©rations sur la sÃ©curitÃ© sont valables que pour l’option −−http−passwd.

--referer=url

Inclut Â« Referer: url Â» dans la requÃªte HTTP . C’est utile pour rÃ©cupÃ©rer des documents quand le traitement du cotÃ© serveur suppose qu’ils sont toujours rÃ©cupÃ©rÃ©s par des navigateurs web interactifs et qu’ils ne sont envoyÃ©s correctement que lorsque Â« Referer Â» est positionnÃ© Ã l’une des pages qui pointent vers eux.

−s

--save-headers

Enregistre les en-tÃªtes envoyÃ©s par le serveur HTTP vers le fichier, avant le contenu rÃ©el, avec une ligne vide comme sÃ©parateur.

−U agent-string

--user-agent=agent-string

S’identifier sous le nom agent-string pour le serveur HTTP .

Le protocole HTTP autorise les clients Ã s’identifier eux-mÃªmes en utilisant le champ Â« User−Agent Â» dans l’en-tÃªte. Ceci permet de distinguer les logiciels WWW , le plus souvent pour des buts statistiques ou pour tracer des violations de protocole. Wget s’identifie normalement sous le nom Wget/version, version Ã©tant la numÃ©ro de la version courante de Wget.

Cependant, certains sites sont connus pour imposer une politique de filtrage sur des clients en fonction de Â« User−Agent Â». Si, conceptuellement, ce n’est pas une trop mauvaise idÃ©e, Ã§a se traduit souvent par le refus de servir les clients autres que Mozilla ou Microsoft Internet Explorer. Cette option vous permet de falsifier la valeur de Â« User−Agent Â» envoyÃ©e par Wget. L’utilisation de cette option n’est pas recommandÃ©e, Ã moins que vous ne sachiez vraiment ce que vous Ãªtes en train de faire.

−−post−data=chaÃ®ne

−−post−file=fichier

Utilise POST comme mÃ©thode pour toutes les requÃªtes HTTP et envoie les donnÃ©es spÃ©cifiÃ©es dans le corps de la requÃªte. "−−post−data" transmet chaÃ®ne comme donnÃ©e tandis que "−−post−file" transmet le contenu de fichier. Autrement, les deux commandes sont identiques.

Veuillez noter que Wget a besoin de connaÃ®tre la taille des donnÃ©es POST Ã l’avance. Par consÃ©quent l’argument Ã "−−post−file" doit Ãªtre un fichier normal, une FIFO des entrÃ©es telles que /dev/stdin ne fonctionnent pas. Il n’est pas vraiment certain comment cette limitation de HTTP/1 .0 peut Ãªtre contournÃ©e. MÃªme si HTTP/1 .1 introduit la notion de transferts en blocs qui ne requiert pas de connaÃ®tre la taille Ã l’avance, un client ne peut utiliser cette fonction tant qu’il n’est pas sÃ»r que le serveur supporte HTTP/1 .1. Malheureusement, il n’est pas possible de le savoir avant que de recevoir la premiÃ¨re rÃ©ponse, ce qui requiert que la requÃªte soit finie... le problÃ¨me de l’oeuf et de la poule !

Remarquez que si Wget est redirigÃ© aprÃ¨s l’envoi de la requÃªte POST , il ne transmettra pas les donnÃ©es POST Ã la nouvelle adresse. Ceci est dÃ» au fait que souvent, les URL qui traitent le POST renvoient une redirection vers une page normale (mÃªme si, techniquement, ce n’est pas vraiment autorisÃ©) qui ne dÃ©sire pas ou ne supporte pas le POST . Il n’est pas encore clair si ce comportement est optimal ; si Ã§a ne marche pas, Ã§a changera.

L’exemple ci-dessous montre comment s’identifier sur un serveur en utilisant POST puis comment tÃ©lÃ©charger les pages souhaitÃ©es, qui ne sont accessible qu’aux utilisateurs autorisÃ©s :

        # Identification sur le serveur. Cela peut Ãªtre fait une seule fois.
        wget --save-cookies cookies.txt \
             --post-data ’user=truc&password=bidule’ \
             http://server.com/auth.php

        # Maintenant on peut rÃ©cupÃ©rer tout ce qui nous intÃ©resse.
        wget --load-cookies cookies.txt \
             -p http://server.com/interesting/article.php

Options FTP

−nr

--dont-remove-listing

Ne pas supprimer les fichiers temporaires .listing gÃ©nÃ©rÃ©s par les requÃªtes FTP . Normalement, ces fichiers contiennent la liste brute des rÃ©pertoires reÃ§us depuis les serveurs FTP . Ne pas les supprimer peut Ãªtre utile pour le dÃ©bogage ou pour vÃ©rifier facilement le contenu des rÃ©pertoires distants (par exemple pour vÃ©rifier que le miroir que vous Ãªtes en train de consulter est complet).

Remarquez que, mÃªme si Wget Ã©crit dans un nom de fichier connu, ce n’est pas un trou de sÃ©curitÃ© dans le scÃ©nario oÃ¹ un utilisateur crÃ©e un lien symbolique .listing vers /etc/passwd ou quelque chose d’autre et demande Ã root de lancer Wget dans son rÃ©pertoire. En fonction de l’option utilisÃ©e, Wget refusera d’Ã©crire dans .listing, faisant Ã©chouer l’opÃ©ration d’Ã©crasement, ou il supprimera le lien symbolique et le remplacera par le fichier .listing, ou le listing sera Ã©crit dans un fichier .listing.number.

MÃªme si cette situation n’est pas un problÃ¨me, root ne devrait jamais lancer Wget dans le rÃ©pertoire d’un utilisateur en qui il n’a pas confiance. Un utilisateur peut faire quelque chose d’aussi simple qu’un lien index.html vers /etc/passwd et demander Ã root de lancer Wget avec −N ou −r aussi le fichier sera remplacÃ©.

−g on/off

--glob=on/off

Active/dÃ©sactive l’englobement FTP . L’englobement signifie que vous pouvez utiliser les caractÃ¨res gÃ©nÃ©riques comme *, ?, [ et ] pour rÃ©cupÃ©rer plusieurs fichiers d’un mÃªme rÃ©pertoire en une fois. Par exemple :

        wget ftp://gnjilux.srk.fer.hr/*.msg

Par dÃ©faut, l’englobement est activÃ© si l’ URL contient un caractÃ¨re gÃ©nÃ©rique. Cette option permet d’activer ou de dÃ©sactiver l’englobement de maniÃ¨re permanente.

Vous pouvez avoir Ã protÃ©ger l’ URL avec des guillemets pour empÃªcher le shell d’interprÃ©ter les caractÃ¨res gÃ©nÃ©riques. L’englobement oblige Wget Ã regarder un listing de rÃ©pertoires, qui est dÃ©pendant du systÃ¨me. C’est pourquoi, pour le moment Ã§a ne marche qu’avec les serveurs FTP Unix (et ceux qui Ã©mulent la sortie du Â« ls Â» Unix).

--passive-ftp

Utilise le mÃ©canisme de tÃ©lÃ©chargement FTP passif, dans lequel le client initialise la connexion de donnÃ©es. C’est parfois requis pour accÃ©der Ã des FTP qui sont derriÃ¨re des pare-feux.

--retr-symlinks

Habituellement, lors du tÃ©lÃ©chargement rÃ©cursif de rÃ©pertoires FTP, si on rencontre un lien symbolique, le fichier liÃ© n’est pas tÃ©lÃ©chargÃ©. Ã la place, on crÃ©e un lien symbolique identique sur le systÃ¨me de fichiers local. Le fichier pointÃ© ne sera pas tÃ©lÃ©chargÃ©, Ã moins bien sÃ»r que le tÃ©lÃ©chargement rÃ©cursif ne le rencontre plus tard.

Cependant, quand --retr-symlinks est spÃ©cifiÃ©, les liens symboliques sont suivis et les fichiers dÃ©signÃ©s sont rÃ©cupÃ©rÃ©s. Pour le moment, cette option ne permet pas Ã Wget de suivre les liens symboliques sur les rÃ©pertoire pour y poursuivre sa rÃ©cursion, mais ceci devrait Ãªtre amÃ©liorÃ© dans le futur.

Remarquez que cette option n’a aucun effet pour le tÃ©lÃ©chargement d’un fichier (et non un rÃ©pertoire) si celui-ci a Ã©tÃ© spÃ©cifiÃ© sur la ligne de commande plutÃ´t que rencontrÃ© lors de la rÃ©cursion. Dans ce cas les liens symboliques sont toujours suivis.

Options de tÃ©lÃ©chargement rÃ©cursif

−r

--recursive

Active le tÃ©lÃ©chargement rÃ©cursif.

−l profondeur

--level=profondeur

SpÃ©cifie la profondeur maximale profondeur pour la rÃ©cursion. Par dÃ©faut la profondeur maximale est 5.

--delete-after

Cette option indique Ã Wget de dÃ©truire tous les fichiers qu’il tÃ©lÃ©charge, aprÃ¨s l’avoir fait. C’est utile pour prÃ©charger les pages les plus populaires dans un proxy, par exemple :

        wget -r -nd --delete-after http://whatever.com/~popular/page/

L’option −r tÃ©lÃ©charge rÃ©cursivement et −nd ne crÃ©e pas de rÃ©pertoires.

Remarquez que --delete-after efface les fichiers sur la machine locale. Ãa n’a rien Ã voir avec la commande DELE des serveurs FTP . Remarquez aussi que si --delete-after est spÃ©cifiÃ©, --convert-links est ignorÃ©, et donc les fichiers .orig ne sont pas crÃ©es.

−k

--convert-links

Une fois que le tÃ©lÃ©chargement est terminÃ©, convertit les liens du document pour qu’il soit consultable en local. Ceci affecte non seulement les liens hypertextes, mais aussi toute partie du document qui lie un contenu extÃ©rieur, comme les images, les liens vers les feuilles de style, les hyperliens vers du contenu non-HTML, etc.

Chaque lien sera modifiÃ© de l’une des deux faÃ§ons suivantes :

Les liens vers les fichiers qui ont Ã©tÃ© tÃ©lÃ©chargÃ©s par wget seront transformÃ©s en liens relatifs.

Exemple : si le fichier tÃ©lÃ©chargÃ© /toto/doc.html a un lien vers /titi/image.gif, aussi tÃ©lÃ©chargÃ©, alors le lien dans doc.html sera modifiÃ© pour pointer vers ../titi/image.gif. Ce type de transformation fonctionne trÃ¨s bien quelle que soit la combinaison de rÃ©pertoires.

Les liens vers les fichiers qui n’ont pas Ã©tÃ© tÃ©lÃ©chargÃ©s par Wget seront modifiÃ©s pour inclure le nom d’hÃ´te et le chemin absolu vers la destination.

Exemple : si le fichier tÃ©lÃ©chargÃ© /toto/doc.html a un lien vers /titi/image.gif (ou vers ../titi/image.gif), alors le lien dans doc.html sera modifiÃ© pour pointÃ© vers http://nom-d-hote/titi/image.gif.

GrÃ¢ce Ã ceci, la navigation locale fonctionne bien : si un fichier liÃ© a Ã©tÃ© tÃ©lÃ©chargÃ©, le lien dÃ©signe son nom local ; sinon, le lien dÃ©signe son nom Internet complet plutÃ´t qu’un lien brisÃ©. Le fait que les anciens liens soient convertis en liens relatifs vous permet de dÃ©placer ailleurs les hiÃ©rarchies tÃ©lÃ©chargÃ©es.

Remarquez que Wget ne peut pas savoir avant la fin du tÃ©lÃ©chargement quels seront les liens tÃ©lÃ©chargÃ©s. C’est pourquoi le travail accompli par −k n’a lieu qu’aprÃ¨s la fin de tous les tÃ©lÃ©chargements.

−K

--backup-converted

Lors de la conversion d’un fichier, sauvegarde le fichier original avec le suffixe .orig. Ceci affecte le comportement de −N.

−m

--mirror

Active toutes les options convenables pour faire un miroir. Cette option active la rÃ©cursion, l’estampille temporelle, positionne la profondeur de rÃ©cursion maximale Ã +infini et conserve le listing des rÃ©pertoires FTP . Actuellement c’est Ã©quivalent Ã −r −N −l inf −nr.

−p

--page-requisites

Cette option oblige Wget Ã tÃ©lÃ©charger tous les fichiers nÃ©cessaires Ã l’affichage convenable d’une page HTML donnÃ©e. Notamment les images, sons et feuilles de styles rÃ©fÃ©rencÃ©es.

Ordinairement, lors du tÃ©lÃ©chargement d’une unique page HTML , les documents requis pour l’afficher proprement ne sont pas tÃ©lÃ©chargÃ©s. L’utilisation de −r et −l peut aider, mais puisque Wget ne fait pas d’ordinaire la distinction entre les documents externes et internes, on se retrouve parfois avec des Â« documents feuilles Â» qui n’ont pas leurs prÃ©requis.

Par exemple, si le document 1.html contient une balise "<IMG>" rÃ©fÃ©renÃ§ant 1.gif et une balise "<A>" pointant vers un document externe 2.html. Et si 2.html est similaire mais que son image est 2.gif et qu’il a un lien vers 3.html. On peut aller loin comme Ã§a.

Si on exÃ©cute la commande

        wget -r -l 2 http://<site>/1.html

alors 1.html, 1.gif, 2.html, 2.gif et 3.html seront tÃ©lÃ©chargÃ©s. Comme vous pouvez le constater, 3.html n’aura pas sa dÃ©pendance 3.gif parce Wget compte simplement le nombre de sauts (ici jusqu’Ã 2) depuis 1.html dans le but de dÃ©terminer oÃ¹ il doit arrÃªter la rÃ©cursion. Cependant, avec cette commande :

        wget -r -l 2 -p http://<site>/1.html

tous les fichiers ci-dessus et la dÃ©pendance 3.gif de 3.html seront tÃ©lÃ©charchÃ©s. Similairement,

        wget -r -l 1 -p http://<site>/1.html

provoquera le tÃ©lÃ©chargement de 1.html, 1.gif, 2.html, et de 2.gif. On pourrait croire que :

        wget -r -l 0 -p http://<site>/1.html

ne tÃ©lÃ©chargera que 1.html et 1.gif, mais malheureusement ce n’est pas le cas car −l 0 est Ã©quivalent Ã −l inf, la rÃ©cursion infinie. Pour tÃ©lÃ©charger une unique page HTML (ou une poignÃ©e d’entre elles, toutes spÃ©cifiÃ©es sur la ligne de commande, ou dans un fichier d’entrÃ©e −i URL ) et leurs dÃ©pendances, laissez simplement de cotÃ© −r et −l :

        wget -p http://<site>/1.html

Remarquez que Wget se comportera comme si −r avait Ã©tÃ© spÃ©cifiÃ©, mais une seule page sera tÃ©lÃ©chargÃ©e, avec ses dÃ©pendances. Les liens de cette page vers des documents externes ne seront pas suivis. En rÃ©alitÃ©, pour tÃ©lÃ©charger une page unique avec ses dÃ©pendances, (mÃªme si celles-ci sont sur d’autres sites) et Ãªtre sÃ»r que tout s’affichera correctement en local, l’auteur utilise conjointement d’autres options :

        wget -E -H -k -K -p http://<site>/<document>

Pour clore ce sujet, Ã§a vaut la peine de connaÃ®tre l’idÃ©e que se fait Wget d’un lien vers un document externe : c’est toute URL spÃ©cifiÃ©e dans une balise "<A>", "<AREA>", ou "<LINK>" autre que "<LINK REL="stylesheet">".

−−strict−comments

Active l’analyse syntaxique stricte des commentaires HTML . Par dÃ©faut la premiÃ¨re occurrence de −−> est considÃ©rÃ©e comme la fin du commentaire.

D’aprÃ¨s les spÃ©cifications, les commentaires HTML sont reprÃ©sentÃ©s comme les dÃ©clarations SGML . Une dÃ©claration est une balise spÃ©ciale qui commence par <! et se termine par >, tel que <!DOCTYPE ...>. Elles peuvent contenir des commentaires qui sont alors dÃ©limitÃ©s du reste par une paire de −−. Les commentaires HTML sont des Â« dÃ©clarations vides Â», des dÃ©clarations SGML qui ne contiennent que des commentaires. Par consÃ©quent <!−−truc--> est un commentaire valide, de mÃªme que <!−−un-- −−deux--> mais pas <!−−1−−2−−>.

D’un autre cotÃ©, la plupart des auteurs HTML ne perÃ§oivent les commentaires que comme du texte dÃ©limitÃ© par <!−− et −−>, ce qui est lÃ©gÃ¨rement diffÃ©rent. Par exemple, quelque chose comme <!−−−−−−−−−−−−> n’est un commentaire valide que s’il y a un nombre de tirets multiple de quatre ! Sinon, techniquement, le commentaire ne s’arrÃªte qu’au prochain −−, qui peut Ãªtre situÃ© Ã l’autre bout du document. Ã cause de cela, la plupart des navigateurs Web ignorent complÃ¨tement la spÃ©cification et implantent la dÃ©finition plus intuitive qu’un commentaire est dÃ©limitÃ© par <!−− et −−>.

Jusqu’Ã la version 1.9 Wget interprÃ©tait les commentaires de maniÃ¨re stricte, ce qui provoquait parfois la disparition de certain liens dans des pages qui s’affichent correctement dans les navigateurs mais qui ont la malchance de contenir des commentaires non valides. Depuis la version 1.9, Wget a rejoint le cercle des clients qui implantent des commentaires Â« intuitifs Â», considÃ©rant la premiÃ¨re occurrence de −−> comme la fin d’un commentaire.

Si, pour une raison quelconque, vous souhaitez une analyse syntaxique stricte, utilisez cette option.

−A accliste --accept accliste

−R rejliste --reject rejliste

spÃ©cifie la liste (avec la virgule comme sÃ©parateur) des suffixes ou modÃ¨les de noms de fichiers qui doivent Ãªtre acceptÃ©s ou rejetÃ©s.

−D liste-domaines

--domains=liste-domaines

Indiques les noms de domaine qui peuvent Ãªtre suivis. liste-domaines est une liste avec la virgule comme sÃ©parateur. Remarquez que Ã§a n’active pas −H.

--exclude-domains liste-domaines

Exclut les domaines contenus dans la liste liste-domaines des liens Ã suivre.

--follow-ftp

Suit les liens FTP depuis les documents HTML . Sans cette option, Wget ignorera tous les liens FTP .

--follow-tags=liste

Wget a une table interne de balises HTML qu’il considÃ¨re lorsqu’il examine les documents liÃ©s durant un tÃ©lÃ©chargement rÃ©cursif. Si un utilisateur veut se limiter Ã un sous-ensemble de ces balises, celui-ci peut les spÃ©cifier Ã l’aide de cette option dans liste, avec la virgule comme sÃ©parateur.

−G liste

--ignore-tags=liste

C’est l’opposÃ© de l’option --follow-tags option. Pour laisser de cÃ´tÃ© certaines balises HTML lors du tÃ©lÃ©chargement rÃ©cursif, spÃ©cifier les dans une liste avec la virgule comme sÃ©parateur.

Dans le passÃ©, l’option −G Ã©tait la meilleure pour tÃ©lÃ©charger une page avec ses dÃ©pendances, en utilisant une ligne de commande comme :

        wget -Ga,area -H -k -K -r http://<site>/<document>

Cependant, l’auteur de cette option a trouvÃ© des pages avec des balises comme <LINK REL="home" HREF="/"> et il rÃ©alisa que l’option −G n’Ã©tait pas suffisante. On ne peut pas non plus dire Ã Wget d’ignorer <LINK>, sinon les feuilles de style ne seront pas tÃ©lÃ©chargÃ©es. Maintenant, pour tÃ©lÃ©charger une page unique avec ses dÃ©pendances, il y a l’option dÃ©diÃ©e --page-requisites.

−H

--span-hosts

−L

--relative

Ne suivre que les liens relatifs. C’est utile pour rÃ©cupÃ©rer une page web sans Ãªtre distrait, mÃªme par celles qui sont sur le mÃªme hÃ´te.

−I liste

--include-directories=liste

SpÃ©cifie une liste de rÃ©pertoires sÃ©parÃ©s par des virgules que vous voulez suivre lors du tÃ©lÃ©chargement. Les Ã©lÃ©ments de liste peuvent contenir des caractÃ¨res gÃ©nÃ©riques.

−X liste

--exclude-directories=liste

SpÃ©cifie une liste de rÃ©pertoires sÃ©parÃ©s par des virgules que vous voulez exclure du tÃ©lÃ©chargement. Les Ã©lÃ©ments de liste peuvent contenir des caractÃ¨res gÃ©nÃ©riques.

−np

--no-parent

Ne pas remonter dans les rÃ©pertoires parents. C’est une option utile, puisqu’elle garantit que seuls les fichiers en dessous d’une certaine hiÃ©rarchie seront tÃ©lÃ©chargÃ©s.

EXEMPLES

Utilisation simple

        wget http://fly.srk.fer.hr/

Mais que se passera-t-il si la connexion est lente et le fichier gros ? La connexion sera probablement interrompue avant que l’intÃ©gralitÃ© du fichier ne soit rapatriÃ©e. Dans ce cas, Wget essayera de re-tÃ©lÃ©charger le fichier jusqu’Ã ce qu’il y arrive ou qu’il dÃ©passe le nombre de tentatives par dÃ©faut (c’est-Ã -dire 20). Il est facile de changer le nombre de tentatives par 45, pour s’assurer que l’intÃ©gralitÃ© du fichier arrivera :

        wget --tries=45 http://fly.srk.fer.hr/jpg/flyweb.jpg

Maintenant laissons Wget travailler en arriÃ¨re-plan, et Ã©crire sa progression dans le fichier de log. C’est fatigant de taper --tries, aussi nous utiliserons −t.

        wget -t 45 -o log http://fly.srk.fer.hr/jpg/flyweb.jpg &

L’esperluette Ã la fin de la ligne envoie Wget Ã l’arriÃ¨re plan. Pour avoir un nombre infini de tentatives, utilisez −t inf.

L’usage du FTP est aussi simple. Wget tiendra compte du login et du mot de passe.

        wget ftp://gnjilux.srk.fer.hr/welcome.msg

Si vous spÃ©cifiez un rÃ©pertoire, Wget tÃ©lÃ©chargera l’inventaire du rÃ©pertoire et le transformera en document HTML . Essayez :

        wget ftp://prep.ai.mit.edu/pub/gnu/
        links index.html

        wget -i <file>

CrÃ©er une image miroir de profondeur 5 du site web de GNU , avec la mÃªme structure de rÃ©pertoire que l’original, avec un seul essai par document, et en sauvegardant le log des activitÃ©s dans gnulog :

        wget -r http://www.gnu.org/ -o gnulog

MÃªme chose que ci-dessus mais en convertissant les liens dans les fichiers HTML pour pointer vers des fichiers locaux, pour que vous puissiez les consulter hors-ligne :

        wget --convert-links -r http://www.gnu.org/ -o gnulog

TÃ©lÃ©charger une seule page HTML , mais en Ã©tant sÃ»r que tous les Ã©lÃ©ments nÃ©cessaires Ã son affichage, tels que les images incluses et les feuilles de styles externes seront aussi tÃ©lÃ©chargÃ©es. Et s’assurer aussi que la page tÃ©lÃ©chargÃ©e rÃ©fÃ©rence les liens tÃ©lÃ©chargÃ©s.

        wget -p --convert-links http://www.server.com/dir/page.html

La page HTML sera sauvegardÃ© dans www.server.com/dir/page.html, et les images, feuilles de styles, etc, quelque part dans www.server.com/, en fonction de l’endroit oÃ¹ elles Ã©taient sur le serveur distant.

MÃªme chose que ci-dessus, mais sans crÃ©er le rÃ©pertoire www.server.com/. En fait, je ne veux pas de tous ces noms de rÃ©pertoires alÃ©atoires du serveur, je veux juste sauvegarder tous les fichiers dans le sous-rÃ©pertoire download/ du rÃ©pertoire courant.

        wget -p --convert-links -nH -nd -Pdownload \
             http://www.server.com/dir/page.html

        wget -S http://www.linuxfr.org/

        wget -s http://www.linuxfr.org/
        more index.html

        wget -r -l2 -P/tmp ftp://wuarchive.wustl.edu/

Vous voulez tÃ©lÃ©charger tous les images GIF d’un rÃ©pertoire depuis un serveur HTTP . Vous avez essayÃ© wget http://www.server.com/dir/*.gif, mais Ã§a ne fonctionne pas car le tÃ©lÃ©chargement HTTP ne gÃ¨re pas l’expansion de nom. Dans ce cas, utilisez :

        wget -r -l1 --no-parent -A.gif http://www.server.com/dir/

Explication : −r −l1 signifie tÃ©lÃ©chargement rÃ©cursif, jusqu’Ã la profondeur 1. --no-parent signifie que les rÃ©fÃ©rences au rÃ©pertoire parent sont ignorÃ©es et −A.gif signifie de ne tÃ©lÃ©charger que les fichiers GIF . −A "*.gif" marche aussi.

Supposons que vous Ã©tiez au milieu d’un tÃ©lÃ©chargement, et que Wget a Ã©tÃ© interrompu. Maintenant vous voulez remplacer les fichiers dÃ©jÃ prÃ©sents Ce sera :

        wget -nc -r http://www.gnu.org/

Si vous voulez encoder votre nom d’utilisateur et votre mot de passe pour HTTP ou FTP , utilisez la syntaxe URL appropriÃ©e :

        wget ftp://mon_nom:mot_de_passe@unix.server.com/.emacs

Vous voulez rediriger la sortie des documents sur la sortie standard au lieu des fichiers :

        wget -O - http://jagor.srce.hr/ http://www.srce.hr/

Vous pouvez aussi combiner les deux options et fabriquer des pipelines pour tÃ©lÃ©charger des documents rÃ©fÃ©rencÃ© par un autre site.

        wget -O - http://cool.list.com/ │ wget --force-html -i -

Si vous voulez que Wget conserve la rÃ©plique d’une page (ou de sous-rÃ©pertoire FTP ), utilisez --mirror (−m), qui est le raccourci pour −r −l inf −N. Vous pouvez mettre Wget dans le fichier crontab pour lui demander de revÃ©rifier le site chaque dimanche :

        crontab
        0 0 * * 0 wget --mirror http://www.gnu.org/ -o /home/me/weeklog

En plus de ci-dessus, vous dÃ©sirez convertir les liens pour la consultation locale. Mais aprÃ¨s avoir lu ce manuel, vous savez que la conversion de lien ne gÃ¨re pas bien l’estampille temporelle, aussi vous dÃ©sirez que Wget conserve une copie des fichiers HTML avant conversion. L’invocation de Wget ressemblera Ã :

        wget --mirror --convert-links --backup-converted  \
             http://www.gnu.org/ -o /home/me/weeklog

Mais vous avez aussi remarquÃ© que la consultation locale ne fonctionne pas du tout quand les fichiers HTML sont sauvegardÃ©s avec d’autres extensions que .html, peut-Ãªtre parce qu’ils ont Ã©tÃ© envoyÃ©s sous le nom index.cgi. Aussi, vous voudriez que Wget renomme les fichiers avec content-type text/html et le nom nom.html.

        wget --mirror --convert-links --backup-converted \
             --html-extension -o /home/me/weeklog        \
             http://www.gnu.org/

        wget -m -k -K -E http://www.gnu.org/ -o /home/me/weeklog

FICHIERS

/etc/wgetrc

.wgetrc

BOGUES

Les rapports de bogues sont les bienvenus. Envoyez-les Ã <bug−wget@gnu.org>.

Avant de soumettre un rapport de bogue, veuillez suivre les conseils simples suivants :

	1.		Assurez-vous que le comportement que vous voyez est rÃ©ellement un bogue. Si Wget crashe, c’est un bogue. Si Wget ne se comporte pas comme la documentation l’indique, c’est un bogue. Si les choses fonctionnent bizarrement, et que vous n’Ãªtes pas sÃ»r de la maniÃ¨re dont elles sont supposÃ©es fonctionner, Ã§a peut aussi Ãªtre un bogue.
	2.		Essayer de mettre en Ã©vidence les circonstances qui provoquent le bogue. Par exemple si Wget crashe avec wget −rLl0 −t5 −Y0 http://yoyodyne.com −o /tmp/log, vous devriez essayer de voir s’il crashe avec un ensemble plus rÃ©duit d’option.

Bien que je sois aussi intÃ©ressÃ© par le contenu du fichier .wgetrc, il ne faut pas le recopier directement dans le message de debug. Il vaut mieux essayer de reproduire le bogue avec un .wgetrc le plus simple possible. Seuls les paramÃ¨tres de .wgetrc qui ont une influence sur le bogue, devrait Ãªtre envoyÃ©s par courrier Ã©lectronique.

	3.		DÃ©marrez s’il vous plaÃ®t avec l’option −d et envoyez le log (ou uniquement les parties concernÃ©es). Si Wget a Ã©tÃ© compilÃ© sans le support debug, recompilez-le. C’est vraiment plus facile de traquer les bogues avec le support du dÃ©bogage activÃ©.
	4.		Si Wget a plantÃ©, essayez de le lancer dans un dÃ©bogueur, par exemple gdb ‘which wget‘ core et tapez where pour obtenir la pile des appels.

VOIR AUSSI

AUTEUR

Ãcrit Ã l’origine par Hrvoje Niksic <hniksic@arsdigita.com>.

COPYRIGHT

Vous avez l’autorisation de crÃ©er et de distribuer des copies textuelles de ce manuel, Ã condition que la notice de copyright et la notice de permission soient prÃ©servÃ©es dans toutes les copies.

Vous avez l’autorisation de copier, distribuer et/ou modifier ce documents sous les conditions de la GNU Free Documentation License, Version 1.1 ou toute version ultÃ©rieure publiÃ©e par la Free Software Foundation; avec comme sections invariantes Â« GNU General Public License Â» et Â« GNU Free Documentation License Â», sans texte avant ou aprÃ¨s. Une copie de la licence est incluse dans la section intitulÃ©e Â« GNU Free Documentation License Â».

TRADUCTION

Mise Ã jour par Eric Piel, 2004 <Eric.Piel AT tremplin-utc POINT net>

AVERTISSEMENT SUR LA TRADUCTION

Il est possible que cette traduction soit imparfaite ou pÃ©rimÃ©e. En cas de doute, veuillez vous reporter au document original en langue anglaise fourni avec le programme.

wget(1)

Linux

CentOS 5.3