RegExp

Der RegExp constructor erstellt ein Objekt mit regul√§ren Werten, um diese dann als Muster an einem Text anzuwenden.

F√ľr eine Einf√ľhrung √ľber regul√§re Ausdr√ľcke, lies das Kapitel Regular Expressions im JavaScript Guide (englisch).

Syntax

/muster/flags

RegExp(muster [, flags])

Parameter

muster
Text des regulären Ausdrucks.
flags

Optional, flags kann eine Zeichenkette mit einer beliebige Kombination folgender Werte sein:

g
globale Suche (nach einem Treffer fortsetzen)
i
Groß-/Kleinschreibung ignorieren
m
multiline; behandelt den Suchkontext als Mehrfachzeilen, d.h. Anfang- und Endeanker (^ und $) entsprechen dem Anfang bzw. Ende jeder einzelnen Zeile (begrenzt durch \n oder \r), nicht nur dem Anfang und Ende der gesamten zu durchsuchenden Zeichenkette.
y
sticky; matches only from the index indicated by the lastIndex property of this regular expression in the target string (and does not attempt to match from any later indexes). This allows the match-only-at-start capabilities of the character "^" to effectively be used at any location in a string by changing the value of the lastIndex property.

Beschreibung

Es bestehen zwei M√∂glichkeiten, ein RegExp-Objekt zu erzeugen: Eine literale Notation und ein Konstruktor. In der literaren Version werden im Gegensatz zu der Konstruktorversion keine Anf√ľhrungszeichen verwendet, um Zeichenketten zu kennzeichnen. Dementsprechend erzeugen beide der folgenden Zeilen den gleichen regul√§ren Ausdruck:

/ab+c/i;
new RegExp("ab+c", "i");

Die literale Notation stellt eine Kompilierung des regul√§ren Ausdrucks w√§hrend der Auswertung des Ausdrucks bereit. Nutzen Sie die literale Notation, wenn der regul√§re Ausdruck unver√§ndert bleiben wird. Wenn Sie zum Beispiel die literale Notation f√ľr die Erzeugung eines regul√§ren Ausdruck verwenden, um ihn in einer Schleife zu anzuwenden, wird der regul√§re Ausdruck nicht in jedem Schleifendurchlauf rekompiliert.

Der Konstruktor des RegExp-Objekts, z.B. new RegExp("ab+c"), stellt eine Laufzeitkompilierung des regulären Ausdrucks bereit. Nutzen Sie die Konstruktor-Funktion, wenn sich das reguläre Suchmuster ändern wird oder Sie das Muster nicht kennen und es aus einer anderen Quelle wie z.B. einer Benutzereingabe beziehen.

Bei Verwendung der Konstruktor-Funktion sind die normalen Zeichenfolgenmaskierungsregeln (Voranstellen eines R√ľckw√§rtsschr√§gstrichs (\) vor Sonderzeichen innerhalb von Zeichenketten) einzuhalten. Zum Beispiel sind folgende Zeilen √§quivalent:

var re = /\w+/;
var re = new RegExp("\\w+");

Bedeutung spezieller Zeichen in regul√§ren Ausdr√ľcken

Zeichenklassen
Zeichen Bedeutung
.

(Punkt, Satzendezeichen) stimmt mit jedem Einzelzeichen au√üer den Zeilenvorschub- und Wagenr√ľcklaufzeichen (\n \r \u2028 oder \u2029) √ľberein.

Zu beachten ist, dass das m multiline flag nicht das Punktverhalten ver√§ndert. Um ein Musterentsprechung √ľber mehrere Zeilen hinweg zu erreichen, kann die leere negative Zeichenauswahl [^] verwendet werden, sie stimmt mit jedem Zeichen einschlie√ülich Zeilenumbr√ľchen √ľberein.

/.y/ passt z.B. auf "my" und "ay", nicht aber auf "yes"  in "yes make my day".

\d

Stimmt mit einer arabischen Ziffer √ľberein. √Ąquivalent zu [0-9].

/\d/ or /[0-9]/ passt z.B. auf '2' in "B2 ist die Zimmernummer."

\D

Stimmt mit jedem Zeichen √ľberein, das keine arabische Ziffer ist. √Ąquivalent zu [^0-9].

/\D/ or /[^0-9]/ passt z.B. auf 'B' in "B2 ist die Zimmernummer."

\w

Stimmt mit einem alphanumerischen Zeichen (Wortzeichen) einschlie√ülich dem Unterstrich √ľberein. √Ąquivalent zu [A-Za-z0-9_].

/\w/ passt zum Beispiel auf 'A' in "Apfel", '5' in "‚ā¨5,28," und '3' in "3D."

\W

Stimmt mit jedem Zeichen √ľberein, das kein alphanumerisches Zeichen (Wortzeichen) ist. √Ąquivalent zu [^A-Za-z0-9_].

/\W/ or /[^A-Za-z0-9_]/ passt z.B. auf '%' in "50%."

\s

Stimmt mit einem einzelnen Leerraumzeichen √ľberein (Leerzeichen, Tabulator, Seitenvorschub, Zeilenvorschub und weitere Unicode-Zeichen). √Ąquivalent zu [ \f\n\r\t\v‚Äč\u00a0\u1680‚Äč\u180e\u2000‚Äč\u2001\u2002‚Äč\u2003\u2004‚Äč \u2005\u2006‚Äč\u2007\u2008‚Äč\u2009\u200a‚Äč\u2028\u2029‚Äč‚Äč\u202f\u205f‚Äč \u3000].

/\s\w*/ passt z.B. auf ' bar' in "foo bar."

\S

Stimmt mit einem einzelnen Zeichen √ľberein, das kein Leerraumzeichen ist. (Nicht-Leerraumzeichen).
√Ąquivalent zu [^\s] und zu [^ \f\n\r\t\v‚Äč\u00a0\u1680‚Äč\u180e\u2000‚Äč\u2001\u2002‚Äč\u2003\u2004‚Äč \u2005\u2006‚Äč\u2007\u2008‚Äč\u2009\u200a‚Äč\u2028\u2029‚Äč‚Äč\u202f\u205f‚Äč \u3000].

/\S\w*/ passt z.B. auf 'foo' in "foo bar."

\t Stimmt mit einem Tabulatorzeichen √ľberein.
\r Stimmt mit einem Wagenr√ľcklaufzeichen √ľberein.
\n Stimmt mit einem Zeilenvorschub √ľberein.
\v Stimmt mit einem vertikalen Tabulatorzeichen √ľberein.
\f Stimmt mit einem Seitenvorschub √ľberein.
[\b]

Stimmt mit einem R√ľckl√∂schzeichen (Backspace) √ľberein. (Nicht zu verwechseln mit \b)

\0 Stimmt mit einem NUL-Zeichen √ľberein. (Keine weiteren Ziffern d√ľrfen folgen!)
\cX

Wobei X ein Buchstabe von A - Z ist. Stimmt mit einem Steuerzeichen √ľberein.

/\cM/ passt z.B. auf Steuerung-M in einer Zeichenkette.

\xhh

Stimmt mit einem Zeichen mit dem Code hh (zwei hexadezimale Ziffern) √ľberein.

/foo\x20bar/ passt z.B. auf 'o b' in "foo bar".

\uhhhh Stimmt mit einem Zeichen mit dem Unicode hhhh (vier hexadezimale Ziffern) √ľberein.
\

Bei einem Zeichen, das normalerweise als Literal behandelt wird, signalisiert ein vorangestellter R√ľckschr√§gstrich, dass es als Spezialzeichen und nicht als Literal zu interpretieren ist.

Z.B. passt /b/ auf das Zeichen 'b'. Durch Voranstellen des R√ľckschr√§gstriches vor das "b", also /\b/, bekommt das Zeichen eine besondere Bedeutung und passt auf eine Wordgrenze.

oder

Bei einem Zeichen, das normalerweise als Zeichen mit spezieller Bedeutung interpretiert wird, signalisiert ein vorangestellter R√ľckschr√§gstrich, dass es ohne besondere Bedeutung als Literal interpretiert werden soll.

Zum Beispiel ist * Quantor-Spezialzeichen, das eine √úbereinstimmung mit null oder mehreren Vorkommen des vorausgehenden Zeichens bedeutet; z.B. bedeutet /a*/ eine √úbereinstimmung von null oder mehr "a"s. Um dem "*" als Literal zu entsprechen, wird ein R√ľckschr√§gstrich vorangestellt; z.B. passt /a\*/ auf 'a*'.

Zeichenauswahl

Zeichen Bedeutung
[xyz]

Zeichenauswahl, stimmt mit einem Beliebigen der eingeschlossenen Zeichen √ľberein. Mittels eines Bindestriches kann ein Bereich von Zeichen angegeben werden.

[abcd] ist gleichbedeutend mit[a-d] und passt auf 'b' in "brisket" und 'c' in "chop".

[^xyz]

Eine negative bzw. komplementäre Zeichenauswahl. Das bedeutet eine Übereinstimmung mit jedem Zeichen, das nicht in den eckigen Klammern eingeschlossen ist. Mittels eines Bindestriches kann ein Bereich von Zeichen angegeben werden.

Zum Beispiel ist [^abc] gleichbedeutend mit [^a-c]. Beides passt auf 'o' in "bacon" und 'h' in "chop."

Bereichsgrenzen
Zeichen Bedeutung
^

Stimmt mit dem Anfang eines Subjekts und, wenn das multiline flag gesetzt ist, auch mit der Stelle unmittelbar nach einem Zeilenumbruchzeichen √ľberein.

/^E/ passt z.B. nicht auf 'E' in "ein E" aber auf das erste 'E' in "Ein E."

$

Stimmt mit dem Ende eines Subjekts und, wenn das multiline flag gesetzt ist, auch mit der Stelle unmittelbar vor einem Zeilenumbruchzeichen √ľberein.

/t$/ passt z.B. auf das 't' in "Brot", nicht aber in "Brote".

\b

Stimmt mit einer null-breiten Wortgrenze wie zwischen einem Buchstaben und einem Leerzeichen √ľberein. (Nicht zu verwechseln mit der Zeichenklasse [\b])

/\bno/ passt z.B. auf 'no' in "at noon"; /ly\b/ passt auf 'ly' in "possibly yesterday."

\B

Stimmt mit einer null-breiten Nichtwortgrenze wie zwischen zwei Buchstaben oder zwischen zwei Leerzeichen √ľberein.

/\Bon/ passt z.B. auf 'on' in "at noon" und /ye\B/ passt auf 'ye' in "possibly yesterday."

Gruppierung und R√ľckw√§rtsreferenz
Zeichen Bedeutung
(x)

Stimmt mit x √ľberein und speichert die √úbereinstimmung. Dies wird auch capturing parentheses (engl., aufzeichnende Klammern) genannt.

/(foo)/ passt z.B. auf 'foo' in "foo bar" und speichert die Übereinstimmung. Aufgezeichnete Teilzeichenketten können aus den Elementen [1], ..., [n] des Ergebnisfelds (Array) oder den Eigenschaften $1, ..., $9 des vordefinierten RegExp-Objekts ausgelesen werden.

Aufzeichnende Gruppierungen f√ľhren zu Performanzeinbu√üen. Wenn die √ľbereinstimmenden Teilzeichenketten nicht wiederverwendet werden m√ľssen, sind nicht aufzeichnende Klammern zu bevorzugen (siehe weiter unten).

\n

Wobei n eine positive Ganzzahl ist. Ein R√ľckbezug auf die zuletzt gefundene Teilzeichenkette, die der √úbereinstimmung mit der n-ten runden Klammer im regul√§ren Ausdruck entspricht (√∂ffnende Klammern gez√§hlt).

/apple(,)\sorange\1/ passt z.B. auf 'apple, orange,' in "apple, orange, cherry, peach." und zeichnet das Komma auf. Ein umfassenderes Beispiel folgt im Anschluss an diese Tabelle.

(?:x) Stimmt mit x √ľberein, speichert die √úbereinstimmung aber nicht, auch non-capturing parentheses genannt. Auf die √ľbereinstimmende Teilzeichenkette kann nicht mittels der Elemente [1], ..., [n] des Arrays oder der vordefinierten Eigenschaften $1, ..., $9 des RegExp-Objekts zugegriffen werden .
Quantoren
Zeichen Bedeutung
*

Stimmt mit dem null- oder mehrmaligen Vorkommen des voranstehenden Zeichen √ľberein.

/bo*/ passt z.B. auf 'boooo' in "A ghost booooed" und 'b' in "A bird warbled", aber auf nichts in "A goat grunted".

+

Stimmt mit dem ein- oder mehrmaligen Vorkommen des voranstehenden Zeichen √ľberein. √Ąquivalent zu {1,}

/ca+/ passt z.B. auf 'ca' in "candy" und 'caaa' in "caaandy" aber auf nichts in "cindy".

*?
+?

Passt wie * und+ weiter oben, aber der Ausdruck ist nicht gierig, d.h. er passt auf die k√ľrzestm√∂gliche √úbereinstimmung.

/_.*?_/ passt z.B. auf "_foo_" in "_foo_ _bar_" aber nicht auf "_foo_ _bar_" wie der Ausdruck ohne dem ? hinterm *.

?

Stimmt mit dem null- oder einmaligen Vorkommen des voranstehenden Zeichens √ľberein.

/e?le?/ passt z.B. auf das  'el' in "angel" und auf das 'le' in "angle."

If used immediately after any of the quantifiers *, +, ?, or {}, makes the quantifier non-greedy (matching the minimum number of times), as opposed to the default, which is greedy (matching the maximum number of times).

Das Fragezeichen wird auch in lookahead assertions verwendet, welche unter (?=), (?!), sowie (?:) in dieser Tabelle beschrieben sind.

x(?=y) Passt nur auf x, wenn y darauf folgt. Zum Beispiel passt /Jack(?=Sprat)/ nur auf 'Jack', wenn danach 'Sprat' folgt. /Jack(?=Sprat|Frost)/ passt nur auf 'Jack', wenn 'Sprat' oder 'Frost' folgt. Allerdings ist weder 'Sprat' noch 'Frost' Teil der √úbereinstimmungsresultate.
x(?!y)

Passt nur auf x, wenn darauf nicht y folgt. /\d+(?!\.)/ z.B. stimmt nur mit einer Zahl √ľberein, sofern kein Dezimalpunkt folgt.

/\d+(?!\.)/.exec("3.141") passt auf 141, aber nicht auf 3.

x|y

Passt entweder auf x oder y.

/green|red/ passt z.B. auf 'green' in "green apple" und auf 'red' in "red apple."

{n}

Wobei n eine positive Ganzzahl ist. Stimmt mit genau n Vorkommen des vorausgehenden Zeichens oder Teilausdrucks √ľberein.

/a{2}/ passt z.B. auf beide 'a' in "caandy" und die ersten beiden 'a' in "caaandy", nicht aber auf das 'a' in "candy".

{n,}

Wobei n eine positive Ganzzahl ist. Stimmt mit mindestens n Vorkommen des vorausgehenden Zeichens oder Teilausdrucks √ľberein.

/a{2,}/ passt z.B. auf alle 'a' in "caandy" und in "caaaaaaandy.", nicht aber auf das 'a' in "candy".

{n,m}

Wobei n und m positive Ganzzahlen sind. Stimmt mit mindestens n und h√∂chstens m Vorkommen des vorausgehenden Zeichens oder Teilausdrucks √ľberein.

/a{1,3}/ passt z.B. auf nichts in "cndy", das 'a' in "candy," die beiden 'a' in "caandy," und die ersten drei 'a' in "caaaaaaandy". Es ist zu beachten, dass bei der Übereinstimmung in "caaaaaaandy" der Treffer "aaa" ist, obwohl in der Originalzeichenkette mehr 'a' vorhanden wären.

Fußnoten

  1. ^Equivalent to:

    [\t\n\v\f\r \u00a0\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u200b\u2028\u2029\u3000]

  2. ^Equivalent to:

    [^\t\n\v\f\r \u00a0\u2000\u2001\u2002\u2003\u2004\u2005\u2006\u2007\u2008\u2009\u200a\u200b\u2028\u2029\u3000]

Eigenschaften

prototype
Erlaubt das Hinzuf√ľgen von Eigenschaften zu allen Objekten
Properties inherited from Function:

Methoden

Das globale RegExp Objekt hat keine eigenen Methoden. Es erbt allerdings manche Methoden durch die Prototypenkette.

Methods inherited from Function:

RegExp-Instanzen

Eigenschaften

Methoden

Beispiele

Beispiel: Anwendung regulären Ausdrucks zur Datenformatänderung

Das folgende Script nutzt die replace Methode und nutzt die vererbte String Instanz (re) um als R√ľckgabewert eine √úbereinstimmung des Namens (str) in dem Format erster, letzter und im Format letzter, erster zu finden. In dem zu ersetzenden Text nutzt das Script $1 und $2 um das Ergebnis der √ľbereinstimmenden Treffer in der Klammer als Muster des regul√§ren Ausdrucks.

var re = /(\w+)\s(\w+)/;
var str = "John Smith";
var newstr = str.replace(re, "$2, $1");
print(newstr);

Das ergibt: "Smith, John".

Beispiel: Anwendung eines regulären Ausdrucks auf mehrzeilige Texte

var s = "Please yes\nmake my day!";
s.match(/yes.*day/);
// Returns null
s.match(/yes[^]*day/);
// Returns 'yes\nmake my day'

Beispiel: Anwendung eines regulären Ausdrucks mit dem "sticky" flag

Dieses Beispiel zeigt, wie man die feste Kennzeichung (sticky flag) an regul√§re Ausdr√ľcke nutzt, um √úbereinstimmungen von individuelle Treffer von mehrzeigen Eingaben zu erhalten.

var text = "First line\nSecond line";
var regex = /(\S+) line\n?/y;

var match = regex.exec(text);
print(match[1]);  // prints "First"
print(regex.lastIndex); // prints 11

var match2 = regex.exec(text);
print(match2[1]); // prints "Second"
print(regex.lastIndex); // prints "22"

var match3 = regex.exec(text);
print(match3 === null); // prints "true"

One can test at run-time whether the sticky flag is supported, using try { … } catch { … }. For this, either an eval(…) expression or the RegExp(regex-string, flags-string) syntax must be used (since the /regex/flags notation is processed at compile-time, so throws an exception before the catch block is encountered). For example:

var supports_sticky;
try { RegExp('','y'); supports_sticky = true; }
catch(e) { supports_sticky = false; }
alert(supports_sticky); // alerts "true"

Beispiel: Regulärer Ausdruck und Unicode-Zeichen

Wie oben erw√§hnt treffen √úbereinstimmugnen mit \w or \W  nur ASCII basierende Zeichen; als Beispiel: 'a' bis 'z', 'A' bis 'Z', 0 bis 9 und '_'. Um √úbereinstimmungen f√ľr Zeichens√§tze anderer Sprachen wie Kyrillisch oder Hebr√§isch zu erzielen, nutze \uhhhh., w√§hrend "hhhh" den Unicode-Wert des Zeichensatzes in Hexadezimal angibt. Dieses Beispiel demonstriert wie man Unicode-Zeichen aus einem Wort erh√§lt:

var text = "–ě–Ī—Ä–į–∑–Ķ—Ü text –Ĺ–į —Ä—É—Ā—Ā–ļ–ĺ–ľ —Ź–∑—č–ļ–Ķ";
var regex = /[\u0400-\u04FF]+/g;

var match = regex.exec(text);
print(match[0]);  // prints "–ě–Ī—Ä–į–∑–Ķ—Ü"
print(regex.lastIndex);  // prints "7"

var match2 = regex.exec(text);
print(match2[0]);  // prints "–Ĺ–į" [did not print "text"]
print(regex.lastIndex);  // prints "15"

// and so on

Hier ist eine externe Quelle um alle Unicode Bl√∂cke f√ľr verschiedene Scripte zu erhalten: Regexp-unicode-block

Weitere nennenswerte Beispiele

Extrahieren eines Subdomain-Namens aus einer URL
var url = "http://xxx.domain.com";
print(/[^.]+/.exec(url)[0].substr(7)); // prints "xxx"

Browserkompatibilität

Wir konvertieren die Kompatibilitätsdaten in ein maschinenlesbares JSON Format. Diese Kompatibilitätstabelle liegt noch im alten Format vor, denn die darin enthaltenen Daten wurden noch nicht konvertiert. Finde heraus wie du helfen kannst!
Feature Chrome Firefox (Gecko) Internet Explorer Opera Safari (WebKit)
Basic support ? (Ja) ? ? ?
Feature Android Firefox Mobile (Gecko) IE Phone Opera Mobile Safari Mobile
Basic support ? (Ja) ? ? ?

Siehe auch