Linux	CentOS 5.3
	regex(7)

REGEX

NOM

regex − Expressions rationnelles POSIX.2.

DESCRIPTION

Les expressions rationnelles (Â« ER Â»), dÃ©finies par POSIX.2 existent sous deux formes : les ER modernes (en gros celles de egrep ; que POSIX 1OO3.2 appelle expressions rationnelles Â« Ã©tendues Â»), et les ER obsolÃ¨tes (en gros celles de ed(1) ; les ER basiques pour POSIX.2).

[NDT : Le terme Â« officiel Â» pour la traduction de Â« Regular expression Â» est Â« expression rationnelle Â», et c’est celui que j’emploierai. Toutefois, on utilise couramment le terme Â« expression rÃ©guliÃ¨re Â», mÃªme s’il s’agit d’un lÃ©ger abus de langage.]

Les ER obsolÃ¨tes existent surtout Ã titre de compatibilitÃ© avec d’anciens programmes ; on en parlera plus bas. POSIX.2 laisse de cÃ´tÃ© certains aspects syntaxiques et sÃ©mantiques des ER ; un signe Â« (!) Â» indique une interprÃ©tation qui peut ne pas Ãªtre totalement portable sur d’autres implÃ©mentation de 1003.2.

Une ER (moderne) est une(!) ou plusieurs branches non-vides(!), sÃ©parÃ©es par Â« | Â». Elle correspond Ã tout ce qui correspond Ã l’une des branches.

Une branche est une(!) ou plusieurs piÃ¨ces concatÃ©nÃ©es. Elle correspond Ã ce qui correspond Ã la premiÃ¨re piÃ¨ce, suivi de ce qui correspond Ã la seconde, et ainsi de suite.

Une piÃ¨ce est un atome suivi Ã©ventuellement d’un unique(!) Â« * Â», Â« + Â», Â« ? Â», ou d’un encadrement. Un atome suivi de Â« * Â» correspond Ã une sÃ©quence de 0 ou plusieurs correspondances pour l’atome. Un atome suivi d’un Â« + Â» correspond Ã une sÃ©quence de 1 ou plusieurs correspondances pour l’atome. Un atome suivi d’un Â« ? Â» correspond Ã une sÃ©quence de zÃ©ro ou une correspondance pour l’atome.

Un encadrement est un Â« { Â» suivi d’un entier dÃ©cimal non-signÃ©, suivis Ã©ventuellement d’une virgule, suivis Ã©ventuellement d’un entier dÃ©cimal non-signÃ©, toujours suivis d’un Â« } Â». Les entiers doivent Ãªtre entre 0 et RE_DUP_MAX (255(!)) compris, et s’il y en a deux, le second ne doit pas Ãªtre plus petit que le premier. Un atome suivi d’un encadrement contenant un entier i et pas de virgule, correspond Ã une sÃ©quence de i correspondances pour l’atome exactement. Un atome suivi d’un encadrement contenant un entier i et une virgule correspond Ã une sÃ©quence d’au moins i correspondances pour l’atome. Un atome suivi d’un encadrement contenant deux entiers i et j correspond Ã une sÃ©quence de i Ã j (compris) correspondances pour l’atome.

Un atome est une expression rationnelle encadrÃ©e par des parenthÃ¨ses (correspondant Ã ce qui correspond Ã l’expression rationnelle), un ensemble vide Â« () Â» (correspond Ã une chaÃ®ne nulle)(!), une expression entre crochets (voir plus bas), un point Â« . Â» (correspondant Ã n’importe quel caractÃ¨re), un accent Â« ^ Â» (correspondant Ã une chaÃ®ne vide en dÃ©but de ligne), Â« $ Â» (correspondant Ã une chaÃ®ne vide en fin de ligne), un Â« \ Â» suivi d’un des caractÃ¨res Â« ^.[$()|*+?{\ Â» (correspondant au caractÃ¨re littÃ©ral − sans signification particuliÃ¨re), un Â« \ Â» suivi de n’importe quel autre caractÃ¨re(!) (correspondant au caractÃ¨re pris sous forme littÃ©rale, comme si le Â« \ Â» Ã©tait absent(!)), ou un caractÃ¨re simple sans signification particuliÃ¨re (correspondant Ã ce caractÃ¨re/ Un Â« { Â» suivi d’un caractÃ¨re autre qu’un chiffre est considÃ©rÃ© sous sa forme littÃ©rale, pas un encadrement (!). Il est illÃ©gal de terminer une ER avec un Â« \ Â» seul.

Une expression entre crochets est une liste de caractÃ¨res encadrÃ©s par Â« [] Â». Elle correspond normalement Ã n’importe quel caractÃ¨re de la liste. Si la liste dÃ©bute par Â« ^ Â», elle correspond Ã n’importe quel caractÃ¨re sauf ceux de la liste. Si deux caractÃ¨res de la liste sont sÃ©parÃ©s par un Â« − Â», ils reprÃ©sentent tout l’intervalle de caractÃ¨res entre-eux (compris). Par exemple [0−9] en Ascii reprÃ©sente n’importe quel chiffre dÃ©cimal. Il est illÃ©gal(!) d’utiliser la mÃªme limite dans deux intervalles, comme Â« a−c−e Â». Les intervalles dÃ©pendent beaucoup de l’ordre de classement des caractÃ¨res, et les programmes portables doivent Ã©viter de les utiliser.

Pour insÃ©rer un Â« ] Â» littÃ©ral dans la liste, il faut le mettre en premiÃ¨re position (ou aprÃ¨s un Ã©ventuel Â« ^ Â»). Pour inclure un Â« − Â» littÃ©ral, il faut le placer en premiÃ¨re, derniÃ¨re position, ou en seconde borne d’un intervalle. Pour utiliser un − en premiÃ¨re borne d’intervalle, encadrez-le entre Â« [. Â» et Â« .] Â» pour en faire une fusion (plus bas).

Ã l’exception de ces Ã©lÃ©ments, et de quelques combinaisons avec des crochets (voir plus bas), tous les autres caractÃ¨res spÃ©ciaux, y compris le Â« \ Â», perdent leurs significations spÃ©ciales dans une expression entre crochets.

Dans une expression entre crochet, une fusion (un seul caractÃ¨re, ou une sÃ©quence de caractÃ¨res qui se comporte comme un seul, ou un nom de fusion) entre Â« [. Â» et Â« .] Â» correspond Ã la sÃ©quence des caractÃ¨res de la fusion. Une sÃ©quence est un Ã©lÃ©ment unique de l’expression entre crochets. Ainsi, un expression entre crochets contenant une fusion multi-caractÃ¨res peut correspondre Ã plus d’un caractÃ¨re. Par exemple, si la sÃ©quence inclut la fusion Â« ch Â», alors l’ER Â« [[.ch.]]*c Â» correspond aux cinq premiers caractÃ¨res de Â« chchcc Â».

Dans une expression entre crochets, une sÃ©quence encadrÃ©e par Â« [= Â» et Â« =] Â» est une classe d’Ã©quivalence, correspondant Ã la sÃ©quence des caractÃ¨res de tous les Ã©lÃ©ments Ã©quivalents Ã celui-ci, y compris lui-mÃªme. (S’il n’y a pas d’autres Ã©lÃ©ments Ã©quivalents, le fonctionnement est le mÃªme que si l’encadrement Ã©tait Â« [. Â» et Â« .] Â»). Par exemple, si o et ^ sont membres d’une classe Ã©quivalence, alors Â« [[=o=]] Â», Â« [[=^=]] Â», et Â« [o^] Â» sont tous synonymes. Une classe d’Ã©quivalence ne doit(!) pas Ãªtre une borne d’intervalle.

Dans une expression entre crochet, le nom d’une classe de caractÃ¨res encadrÃ© par Â« [: Â» et Â« :] Â» correspond Ã la liste de tous les caractÃ¨res de la classe. Les noms des classes standards sont :

alnum digit punct

alpha	graph	space
blank	lower	upper
cntrl	print	xdigit

Cela correspond aux classes des caractÃ¨res dÃ©finis pour wctype(3). Une localisation peut en fournir d’autres. Une classe de caractÃ¨res ne doit pas Ãªtre utilisÃ©e comme borne d’intervalle.

Dans le cas oÃ¹ une ER peut correspondre Ã plusieurs sous-chaÃ®nes d’une chaÃ®ne donnÃ©e, elle correspond Ã celle qui commence le plus tÃ´t dans la chaÃ®ne. Si l’ER peut correspondre Ã plusieurs sous-chaÃ®nes dÃ©butant au mÃªme point, elle correspond Ã la plus longue sous-chaÃ®ne. Les sous-expressions correspondent aussi Ã la plus longue sous-chaÃ®ne possible, Ã condition que la correspondance complÃ¨te soit la plus longue possible, les sous-expressions dÃ©butant le plus tÃ´t dans l’ER ayant prioritÃ© sur celles dÃ©butant plus loin. Notez que les sous-expressions de haut-niveau ont donc prioritÃ© sur les sous-expressions de bas-niveau les composant.

La longueur des correspondances est mesurÃ©e en caractÃ¨res, pas en Ã©lÃ©ments fusionnÃ©s. Une chaÃ®ne vide est considÃ©rÃ©e comme plus longueur qu’aucune correspondance. Par exemple Â« bb* Â» correspond au trois caractÃ¨res du milieu de Â« abbbc Â», Â« (wee|week)(knights|nights) Â» correspond aux dix caractÃ¨res de Â« weeknights Â», quand Â« (.*).* Â» est mis en correspondance avec Â« abc Â», la sous-expression entre parenthÃ¨ses correspond aux trois caractÃ¨res, et si Â« (a*)* Â» est mis en correspondance avec Â« bc Â» l’ER entiÃ¨re et la sous-ER entre parenthÃ¨ses correspondent toutes deux avec une chaÃ®ne nulle.

Si une correspondance sans distinction de casse est demandÃ©e, toutes les diffÃ©rences entre majuscules et minuscules disparaissent de l’alphabet. Un symbole alphabÃ©tique apparaissant hors d’une expression entre crochets est remplacÃ© par une expression contenant les deux casses (par exemple Â« x Â» devient Â« [xX] Â»). Lorsqu’il apparait dans une expression entre crochets, tous ses Ã©quivalents sont ajoutÃ©s (Â« [x] Â» devient Â« [xX] Â» et Â« [^x] Â» devient Â« [^xX] Â»).

Aucune limite particuliÃ¨re n’est imposÃ©e sur la longueur est ER(!). Les programmes destinÃ©s Ã Ãªtre portables devrait limiter leurs ER Ã 256 octets, car une implÃ©mentation compatible POSIX peut refuser les expressions plus longues.

Les expressions rationnelles obsolÃ¨tes (basiques) diffÃ¨rent sur plusieurs points. Â« | Â», Â« + Â», et Â« ? Â» sont des caractÃ¨res normaux sans Ã©quivalents. Les dÃ©limiteurs d’encadrements sont Â« \{ Â» et Â« \} Â», car Â« { Â» et Â« { Â» sont des caractÃ¨res ordinaires. Les parenthÃ¨ses pour les sous-expressions sont Â« $ Â» et Â« $ Â», car Â« ( Â» et Â« ) Â» sont des caractÃ¨res ordinaires. Â« ^ Â» est un caractÃ¨re ordinaire sauf au dÃ©but d’une ER ou au(!) dÃ©but d’une sous-expression entre parenthÃ¨ses, Â« $ Â» est un caractÃ¨re ordinaire sauf Ã la fin d’une ER ou Ã (!) la fin d’une sous-expressions entre parenthÃ¨ses, et Â« * Â» est un caractÃ¨re ordinaire s’il apparaÃ®t au dÃ©but d’une ER ou au dÃ©but d’une sous-expression entre parenthÃ¨ses (aprÃ¨s un Ã©ventuel Â« ^ Â»). Enfin, il existe un nouveau type d’atome, la rÃ©fÃ©rence arriÃ¨re : Â« \ Â» suivi d’un chiffre dÃ©cimal non-nul n correspond Ã la mÃªme sÃ©quence de caractÃ¨res que ceux mis en correspondance avec la n-iÃ¨me sous-expression entre parenthÃ¨ses. (les sous-expressions sont numÃ©rotÃ©es par leurs parenthÃ¨ses ouvrantes, de gauche Ã droite), ainsi Â« $[bc]$\1 Â» correspond Ã Â« bb Â» ou Â« cc Â» mais pas Ã Â« bc Â».

VOIR AUSSI

regex(3)

POSIX.2, section 2.8 (Regular Expression Notation).

BOGUES

Avoir deux sortes d’ER est un calvaire.

Les spÃ©cifications 1003.2 disent que Â« ) Â» est un caractÃ¨re ordinaire en l’absence de la Â« ( Â» correspondante. C’est dÃ» Ã une erreur d’interprÃ©tation et changera probablement. Ãvitez d’en tenir compte.

Les rÃ©fÃ©rences arriÃ¨res sont un vrai calvaire, et posent de gros problÃ¨mes d’efficacitÃ© pour l’implÃ©mentation. Elles sont de plus assez mal dÃ©finies (est-ce que Â« a$\(b$*\2\)*d Â» correspond Ã Â« abbbd Â» ?). Ãvitez-les.

Les spÃ©cifications 1003.2 sur les correspondances sans distinction de casse sont assez vagues. La description donnÃ©e plus haut est le consensus actuel parmi les implÃ©menteurs.

La syntaxe concernant les limites de mot est incroyablement laide.

AUTEUR

Cette page provient du paquetage regex de Henry Spencer.

TRADUCTION

Ce document est une traduction rÃ©alisÃ©e par Christophe Blaess <http://www.blaess.fr/christophe/> le 25 juillet 2003 et rÃ©visÃ©e le 14 aoÃ»t 2006.

L’Ã©quipe de traduction a fait le maximum pour rÃ©aliser une adaptation franÃ§aise de qualitÃ©. La version anglaise la plus Ã jour de ce document est toujours consultable via la commande : Â« LANG=C man 7 regex Â». N’hÃ©sitez pas Ã signaler Ã l’auteur ou au traducteur, selon le cas, toute erreur dans cette page de manuel.

regex(7)

Linux

CentOS 5.3