Регулярные выражения

Регулярные выражения - это шаблоны используемые для сопоставления последовательностей символов в строках. В JavaScript, регулярные выражения тоже объекты. Эти шаблоны используются в методах exec и test объекта RegExp, а также match, replace, search, и split объекта String. Данная глава описывает регулярные выражения в JavaScript.

Создание регулярного выражения

Регулярное выражение можно создать двумя способами:

  • Используя литерал регулярного выражения, например:
    var re = /ab+c/;
    

    Литералы регулярных выражений вызывают предварительную компиляцию регулярного выражения при анализе скрипта. Если ваше регулярное выражение постоянно то пользуйтесь им чтобы увеличить производительность.

  • Вызывая функцию конструктор объекта RegExp, например:
    var re = new RegExp("ab+c");
    

    Использование конструктора влечет за собой компиляцию регулярного выражения во время исполнения скрипта. Используйте данный способ, если знаете, что выражение будет изменяться или не знаете шаблон заранее. Например вы получаете его из стороннего источника, при пользовательском вводе.

Написание шаблона регулярного выражения

Шаблон регулярного выражения состоит из обычных символов, например /abc/, или комбинаций обычных и специальных символов, например /ab*c/ или /Chapter (\d+)\.\d*/. Последний пример включает в себя скобки, которые используются как "запоминающий механизм". Соответствие этой части шаблона запоминается для дальнейшего использования как описано в Using Parenthesized Substring Matches.

Использование простых шаблонов

Простые шаблоны используются для нахождения прямого соответствия в тексте. Например, шаблон /abc/ соответствует комбинации символов в строке  только когда символы 'abc' встречаются вместе и в том же порядке. Такое сопоставление произойдет в строке "Hi, do you know your abc's?" и "The latest airplane designs evolved from slabcraft." В обоих случаях сопоставление произойдет с подстрокой 'abc'. Сопоставление не произойдет в строке "Grab crab", потому что она не содержит подстроку 'abc'.

Использование специальных символов

В случае когда поиск соответствия требует чего-то большего, чем прямое сопоставление, например нахождение последовательности символов 'b' или нахождение пробела, шаблон включает в себя специальные символы. Например, шаблон /ab*c/ соответствует любой комбинации символов, в которой за 'a' следует ноль или более символов 'b' (* означает ноль или более вхождений предыдущего символа), за которыми сразу же следует символ 'c'. В строке "cbbabbbbcdebc," этому шаблону сопоставляется подстрока 'abbbbc'.

В следующей таблице приводится полный список специальных символов регулярных выражений с их описаниями.

Таблица 4.1 Специальные символы в регулярных выражения.
Символ Значение
\ Одно из следующего:
  • Для символов обычно обрабатываемых буквально, означает что следующий символ является специальным и не должен интерпретироваться буквально.
  • Например, /b/ сопоставляется символу 'b'. Добавляя слэш перед b, т.е используя /\b/, символ становится специальным символом, означающим границу слова.
  • Для символов обычно обрабатываемых особым образом означает, что следующий символ не является специальным и должен интерпретироваться буквально.
  • Например, * является специальным символом, сопоставляемым 0 или более повторений предыдущего символа; например, /a*/ означает соответствие 0 или более символов а. Для буквальной интерпретации *, поставьте перед ней обратный слэш; например, /a\*/ соответствует 'a*'.
  • Также не забудьте заэкранировать сам \ при его использовании в записи new RegExp("pattern") поскольку \ также является экранирующим символом в обычных строках.
^

Соответствует началу ввода. Если установлен флаг многострочности, также производит сопоставление непосредственно после переноса строки.

Например, /^A/ не соответствует 'A' в "an A", но соответствует 'A' в "An E".


Этот символ имеет другое значение при появлении в начале шаблона набора символов.

Например, /[^a-z\s]/ соответствует '3' в "I have 3 sisters".

$

Соответствует концу ввода. Если установлен битовый флаг многострочности, также сопоставляется содержимому до переноса строки.

Например, /t$/ не соответствует 't' в строке "eater", но соответствует строке "eat".

*

Соответствует предыдущему символу повторенному 0 или более раз.

Например, /bo*/ соответствует 'boooo' в "A ghost booooed" и 'b' в "A bird warbled", но не в "A goat grunted".

+

Соответствует предыдущему символу повторенному 1 или более раз. Эквивалентно {1,}.

Например, /a+/ соответствует 'a' в "candy" и всем символам a в "caaaaaaandy".

? Соответствует предыдущему символу повторенному

 0 или 1 раз. Эквивалентно {0,1}.

Например, /e?le?/ соответствует 'el' в "angel" и 'le' в "angle" а также 'l' в "oslo".

Если использован сразу после квалификаторов *, +, ?, or {}, делает квалификатор "нежадным" (соответствующим минимальному количеству символов), в отличие от режима по умолчанию, являющимся "жадным" (соответствующим максимальному числу символов). Например, используя /\d+/ не глобальное сопоставление "123abc" возвращает "123", если использовать /\d+?/, только "1" будет возвращена.

Также используется в упреждающих утверждениях (assertions), описанных в строках x(?=y) и x(?!y) данной таблицы.

.

(десятичная точка) соответствует любому символу кроме переноса строки.

Например, /.n/ соответствует 'an' и 'on' в "nay, an apple is on the tree", но не 'nay'.

(x)

Соответствует 'x' и запоминает это соответствие. Это называется захватывающие скобки.

Например, /(foo)/ соответствует 'foo' в "foo bar." Сопоставленная строка может быть получена из элементов результирующего массива [1], ..., [n].

(?:x) Соответствует 'x' но не запоминает соответствие. Это называется не-захватывающие скобки. Сопоставленная строка не может быть получена из элементов результирующего массива [1], ..., [n].
x(?=y)

Соответствует 'x' только если за 'x' следует 'y'. Это называется упреждение.

Например, /Jack(?=Sprat)/ соответствует 'Jack' только если за ним следует 'Sprat'. /Jack(?=Sprat|Frost)/ соответствует 'Jack' только если за ним следует 'Sprat' или 'Frost'. Тем не менее, ни 'Sprat' ни 'Frost' не являются частью сопоставленного результата.

x(?!y)

Соответствует 'x' только если за 'x' не следует 'y'. Это называется отрицательное упреждение.

Например, /\d+(?!\.)/ соответствует числу только если за ним не следует десятичная точка. Регулярное выражение /\d+(?!\.)/.exec("3.141") сопоставит '141' но не '3.141'.

x|y

Соответствует либо 'x' либо 'y'.

Например, /green|red/ соответствует 'green' в "green apple" и 'red' в "red apple."

{n}

n - положительное целое. Соответствует ровно n вхождениям предыдущего символа.

Например, /a{2}/ не соответствует 'a' в "candy," но соответствует всем а в "caandy," первым двум а в "caaandy."

{n,m}

m и n - положительные целые. Соответствует как минимум n и максимум m вхождениям предыдущего символа. При m=n=0 пропускается.

Например, /a{1,3}/ ничему не соответствует в строке "cndy", символу 'a' в "candy," двум а в "caandy," и трем первым а в "caaaaaaandy". Отметим, что при сопоставлении "caaaaaaandy", совпадает "aaa", хотя изначальная строка содержит больше а.

[xyz]

Набор символов. Соответствует любому символу из перечисленных. Можно указать диапазон символов используя тире. Специальные символы (как точка (.) и звездочка (*)) не имеют специального значения внутри такого набора.Их не надо экранировать. Экранирование работает так же.

Например, [abcd] эквивалентна [a-d]. Они соответствуют 'b' в "brisket" и 'c' в "city". /[a-z.]+/ и /[\w.]+/ обе соответствуют всему в "test.i.ng".

[^xyz]

Инвертированный или дополняющий набор символов. Это означает соответствие всему, что не в скобках. Можно указать диапазон символов с помощью тире. Все, что действует в обычном наборе символов, действует и здесь.

Например, [^abc] эквивалентно [^a-c]. Они соответствуют изначально 'r' в "brisket" и 'h' в "chop."

[\b] Соответствует бэкспейсу (U+0008). (Не путать с \b.)
\b

Соответствует границе слова. Граница слова соответствует позиции где за символом слова не следует другой символ слова или предшествует ему. Отметим, что граница слова не включается в соответствие. Другими словами, длина сопоставленной границы слова равна нулю. (Не путать с [\b].)

Примеры:
/\bmoo/ matches the 'moo' in "moon" ;
/oo\b/ does not match the 'oo' in "moon", because 'oo' is followed by 'n' which is a word character;
/oon\b/ matches the 'oon' in "moon", because 'oon' is the end of the string, thus not followed by a word character;
/\w\b\w/ will never match anything, because a word character can never be followed by both a non-word and a word character.

\B

Matches a non-word boundary. This matches a position where the previous and next character are of the same type: Either both must be words, or both must be non-words. The beginning and end of a string are considered non-words.

For example, /\B../ matches 'oo' in "noonday" (, and /y\B./ matches 'ye' in "possibly yesterday."

\cX

Where X is a character ranging from A to Z. Matches a control character in a string.

For example, /\cM/ matches control-M (U+000D) in a string.

\d

Соотвествует цифровому символу. Эквивалентно выражению [0-9].

Например, /\d/ or /[0-9]/ соотвествует  '2' в "B2 is the suite number."

\D

Matches any non-digit character. Equivalent to [^0-9].

For example, /\D/ or /[^0-9]/ matches 'B' in "B2 is the suite number."

\f

Соотвествует символу прогона страницы (U+000C). Особый символ управления печатью.

\n Соотвествует символу перевода строки (U+000A).
\r Соотвествует символу возврата каретки (U+000D).
\s

Соотвествует одиночному символу пустого пространства, включая пробел, табуляция, прогон страницы, перевод строки. Эквивалентен [ \f\n\r\t\v​\u00A0\u1680​\u180e\u2000​\u2001\u2002​\u2003\u2004​\u2005\u2006​\u2007\u2008​\u2009\u200a​\u2028\u2029​\u2028\u2029​\u202f\u205f​\u3000].

Например, /\s\w*/ совпадает с ' bar' в "foo bar."

\S

Соотвествует одничному символу непустого пространства. Эквивалентен [^ \f\n\r\t\v​\u00A0\u1680​\u180e\u2000​\u2001\u2002​\u2003\u2004​\u2005\u2006​\u2007\u2008​\u2009\u200a​\u2028\u2029​\u2028\u2029​\u202f\u205f​\u3000].

Например, /\S\w*/ совпадает с 'foo' в "foo bar."

\t Соотвествует символу горизонтальной табуляции (U+0009).
\v Соотвествует символу вертикальной табуляции (U+000B).
\w

Соотвествует любому цифробуквенному символу включая нижнее подчеркивание. Эквивалентен [A-Za-z0-9_].

Например, /\w/ совпадает с 'a' в "apple," '5' в "$5.28," и '3' в "3D."

\W

Соотвествует любому нецифробуквенному символу. Равносилен [^A-Za-z0-9_].

Например, /\W/ or /[^A-Za-z0-9_]/ совпадает с '%' в "50%."

\n

Где n это положительное целое. is a positive integer. A back reference to the last substring matching the n parenthetical in the regular expression (counting left parentheses).

For example, /apple(,)\sorange\1/ matches 'apple, orange,' in "apple, orange, cherry, peach."

\0 СMatches a NULL (U+0000) character. Do not follow this with another digit, because \0<digits> is an octal escape sequence.
\xhh Matches the character with the code hh (two hexadecimal digits)
\uhhhh Matches the character with the code hhhh (four hexadecimal digits).

Использование скобок

Скобки вокруг любой части регулярного выражения означают что эта часть совпадаемой подстроки будет запомнена. Раз запомнена, подстрока может выбвана для использования как это описано в Using Parenthesized Substring Matches.

Напрмер, паттерне /Chapter (\d+)\.\d*/ дополнительные экранирующие и специальные символы и указывает что часть шаблона должна быть запомнена. . It matches precisely the characters 'Chapter ' followed by one or more numeric characters (\d means any numeric character and + means 1 or more times), followed by a decimal point (which in itself is a special character; preceding the decimal point with \ means the pattern must look for the literal character '.'), followed by any numeric character 0 or more times (\d means numeric character, * means 0 or more times). In addition, parentheses are used to remember the first matched numeric characters.

This pattern is found in "Open Chapter 4.3, paragraph 6" and '4' is remembered. The pattern is not found in "Chapter 3 and 4", because that string does not have a period after the '3'.

To match a substring without causing the matched part to be remembered, within the parentheses preface the pattern with ?:. For example, (?:\d+) matches one or more numeric characters but does not remember the matched characters.

Работа с Регулярными Выражениями

Регулярные выражения используются в методах test и exec объекта RegExp и с методами match, replace, search, и split объекта String. Эти методы подробно объясняются в Справочнике JavaScript.

Table 4.2 Методы пользующиеся регулярными выражениями
Метод Описание
exec Метод RegExp, который выполняет поиск совпадения в  строке. Он возвращает массив данных.
test Метод RegExp, который тестирует совпадение в строке. Возвращет либо истину либо ложь.
match Метод String, который выполняет поиск совпадения в строке. Он возвращет массив данных либо null если совпадения отсутствуют.
search Метод String, который тестирует на совпадение в строке. Он возвращет индекс совпадения, или -1 если совпадений не будет найдено.
replace Метод String, который выполняет поиск совпадения в строке, и заменяет совпавшую подстроку другой подстрокой переданной как аргумент в этот метод.
split Метод String, который использует регулярное выражение или фиксированую строку чтобы разбить строку на массив подстрок.

Чтобы просто узнать есть ли в строке что либо соотвествующее шаблону, воспользуйтесь методами test или search; а чтобы получить больше информации пользуйтесь методами exec или match (хотя эти метода работают медленее). Если вы пользуютесь exec или match и если совпадения есть, эти методы вернут массив и обновленные свойства объекта ассоцированного регулярного выражения а также предопределенного объекта RegExp регулярного выражения. Если совпадений нет, метод exec вернет null (который сконвертируется в  false).

В след. примере, скрипт использует метод exec чтобы найти совпадения в строке.

var myRe = /d(b+)d/g;
var myArray = myRe.exec("cdbbdbsbz");

Если вам не нужен доступ к свойствам регулярного выражения, то альтернативный способ получить myArray можно так:

var myArray = /d(b+)d/g.exec("cdbbdbsbz");

Если вы хотите сконструировать регулярное выражение из строки, другой способ сделать это приведен ниже:

var myRe = new RegExp("d(b+)d", "g");
var myArray = myRe.exec("cdbbdbsbz");

С помощью этих скриптов, поиск совпадения завершается и возвращает массив и обновленные ствойства показанные  в след. таблице.

Table 4.3 Результаты выполнения регулярного выражения
Объект Свойство или индекс Описание В этом примере.
myArray   Совпавшая строка и все запомненные подстроки. ["dbbd", "bb"]
index Индекс совпавшей подстроки (индекс начинается с нуля). 1
input Исходная строка. "cdbbdbsbz"
[0] Последние совпавшие символы. "dbbd"
myRe lastIndex Индекс с которого начнется след. поиск совпадения. (Это свойство определяется только если регулярное выражение использует параметр g, описанный в Advanced Searching With Flags.) 5
source Текст шаблона. Обновляется в момент создания регулярного выражения, а не во время выполнения. "d(b+)d"

Как показано на во втором примере, вы можете пользоваться регулярными выражениямиAs shown in the second form of this example, you can use a regular expression created with an object initializer without assigning it to a variable. If you do, however, every occurrence is a new regular expression. For this reason, if you use this form without assigning it to a variable, you cannot subsequently access the properties of that regular expression. For example, assume you have this script:

var myRe = /d(b+)d/g;
var myArray = myRe.exec("cdbbdbsbz");
console.log("The value of lastIndex is " + myRe.lastIndex);

This script displays:

The value of lastIndex is 5

However, if you have this script:

var myArray = /d(b+)d/g.exec("cdbbdbsbz");
console.log("The value of lastIndex is " + /d(b+)d/g.lastIndex);

It displays:

The value of lastIndex is 0

The occurrences of /d(b+)d/g in the two statements are different regular expression objects and hence have different values for their lastIndex property. If you need to access the properties of a regular expression created with an object initializer, you should first assign it to a variable.

Using Parenthesized Substring Matches

Including parentheses in a regular expression pattern causes the corresponding submatch to be remembered. For example, /a(b)c/ matches the characters 'abc' and remembers 'b'. To recall these parenthesized substring matches, use the Array elements [1], ..., [n].

The number of possible parenthesized substrings is unlimited. The returned array holds all that were found. The following examples illustrate how to use parenthesized substring matches.

Example 1

The following script uses the replace() method to switch the words in the string. For the replacement text, the script uses the $1 and $2 in the replacement to denote the first and second parenthesized substring matches.

var re = /(\w+)\s(\w+)/;
var str = "John Smith";
var newstr = str.replace(re, "$2, $1");
console.log(newstr);

This prints "Smith, John".

Advanced Searching With Flags

Regular expressions have four optional flags that allow for global and case insensitive searching. To indicate a global search, use the g flag. To indicate a case-insensitive search, use the i flag. To indicate a multi-line search, use the m flag. To perform a "sticky" search, that matches starting at the current position in the target string, use the y flag. These flags can be used separately or together in any order, and are included as part of the regular expression.

Firefox 3 note

Support for the y flag was added in Firefox 3. The y flag fails if the match doesn't succeed at the current position in the target string.

To include a flag with the regular expression, use this syntax:

var re = /pattern/flags;

or

var re = new RegExp("pattern", "flags");

Note that the flags are an integral part of a regular expression. They cannot be added or removed later.

For example, re = /\w+\s/g creates a regular expression that looks for one or more characters followed by a space, and it looks for this combination throughout the string.

var re = /\w+\s/g;
var str = "fee fi fo fum";
var myArray = str.match(re);
console.log(myArray);

This displays ["fee ", "fi ", "fo "]. In this example, you could replace the line:

var re = /\w+\s/g;

with:

var re = new RegExp("\\w+\\s", "g");

and get the same result.

The m flag is used to specify that a multiline input string should be treated as multiple lines. If the m flag is used, ^ and $ match at the start or end of any line within the input string instead of the start or end of the entire string.

Примеры

След. примеры показывают использование регулярных выражений.

Изменение порядка в Исходной Строке

След. пример иллюстрирует формирование регулярного выражения и использование string.split() и string.replace(). Он очищает неправильно сформатированную исходную строку, которая содержит имена в неправильном порядке (имя идет первым) разделенные пробелами, табуляцией и одной точкой с запятой. В конце, изменяется порядок следования имен (фамилия станет перой) и сортируется список.

// The name string contains multiple spaces and tabs,
// and may have multiple spaces between first and last names.
var names = "Harry Trump ;Fred Barney; Helen Rigby ; Bill Abel ; Chris Hand ";

var output = ["---------- Original String\n", names + "\n"];

// Prepare two regular expression patterns and array storage.
// Split the string into array elements.

// pattern: possible white space then semicolon then possible white space
var pattern = /\s*;\s*/;

// Break the string into pieces separated by the pattern above and
// store the pieces in an array called nameList
var nameList = names.split(pattern);

// new pattern: one or more characters then spaces then characters.
// Use parentheses to "memorize" portions of the pattern.
// The memorized portions are referred to later.
pattern = /(\w+)\s+(\w+)/;

// New array for holding names being processed.
var bySurnameList = [];

// Display the name array and populate the new array
// with comma-separated names, last first.
//
// The replace method removes anything matching the pattern
// and replaces it with the memorized string—second memorized portion
// followed by comma space followed by first memorized portion.
//
// The variables $1 and $2 refer to the portions
// memorized while matching the pattern.

output.push("---------- After Split by Regular Expression");

var i, len;
for (i = 0, len = nameList.length; i < len; i++){
  output.push(nameList[i]);
  bySurnameList[i] = nameList[i].replace(pattern, "$2, $1");
}

// Display the new array.
output.push("---------- Names Reversed");
for (i = 0, len = bySurnameList.length; i < len; i++){
  output.push(bySurnameList[i]);
}

// Sort by last name, then display the sorted array.
bySurnameList.sort();
output.push("---------- Sorted");
for (i = 0, len = bySurnameList.length; i < len; i++){
  output.push(bySurnameList[i]);
}

output.push("---------- End");

console.log(output.join("\n"));

Использование спецсимволов для проверки входных данных

В след. примере, ожидается что пользователь введет телефонный номер и требуется проверить правильность символов набранных пользователем. Когда пользователь нажмет кнопку "Check", скрипт проверит правильность введеного номера. Если номер правильный (совпадает с символами определенными в регулярном выражении), то скрипт покажет сообщение благодарности для пользователя и подтвердит номер. Если нет, то скрипт проинформирует пользователя, что телефонный номер неправильный.

Регулярное выражение ищет сначала 0 или одну открывающую скобку \(?, затем три цифры \d{3}, затем 0 или одну закрывающую скобку \)?, потом одно тире, слеш или точка и когда найдет это, запомнит символ([-\/\.]), след. три цифры \d{3}, followed by the remembered match of a dash, forward slash, or decimal point \1, followed by four digits \d{4}.

The Change event activated when the user presses Enter sets the value of RegExp.input.

<!DOCTYPE html>
<html>  
  <head>  
    <meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">  
    <meta http-equiv="Content-Script-Type" content="text/javascript">  
    <script type="text/javascript">  
      var re = /\(?\d{3}\)?([-\/\.])\d{3}\1\d{4}/;  
      function testInfo(phoneInput){  
        var OK = re.exec(phoneInput.value);  
        if (!OK)  
          window.alert(RegExp.input + " isn't a phone number with area code!");  
        else
          window.alert("Thanks, your phone number is " + OK[0]);  
      }  
    </script>  
  </head>  
  <body>  
    <p>Enter your phone number (with area code) and then click "Check".
        <br>The expected format is like ###-###-####.</p>
    <form action="#">  
      <input id="phone"><button onclick="testInfo(document.getElementById('phone'));">Check</button>
    </form>  
  </body>  
</html>
autoPreviousNext("JSGChapters");

Метки документа и участники

Contributors to this page: fscholz, keika, teoli, wilddeer, uleming, Odysseus
Обновлялась последний раз: fscholz,
Скрыть боковую панель