rust/src/grammar/RustLexer.g4

lexer grammar RustLexer;

@lexer::members {
  public boolean is_at(int pos) {
    return _input.index() == pos;
  }
}


tokens {
    EQ, LT, LE, EQEQ, NE, GE, GT, ANDAND, OROR, NOT, TILDE, PLUT,
    MINUS, STAR, SLASH, PERCENT, CARET, AND, OR, SHL, SHR, BINOP,
    BINOPEQ, AT, DOT, DOTDOT, DOTDOTDOT, COMMA, SEMI, COLON,
    MOD_SEP, RARROW, FAT_ARROW, LPAREN, RPAREN, LBRACKET, RBRACKET,
    LBRACE, RBRACE, POUND, DOLLAR, UNDERSCORE, LIT_CHAR,
    LIT_INTEGER, LIT_FLOAT, LIT_STR, LIT_STR_RAW, LIT_BINARY,
    LIT_BINARY_RAW, IDENT, LIFETIME, WHITESPACE, DOC_COMMENT,
    COMMENT, SHEBANG
}

import xidstart , xidcontinue;


/* Expression-operator symbols */

EQ      : '=' ;
LT      : '<' ;
LE      : '<=' ;
EQEQ    : '==' ;
NE      : '!=' ;
GE      : '>=' ;
GT      : '>' ;
ANDAND  : '&&' ;
OROR    : '||' ;
NOT     : '!' ;
TILDE   : '~' ;
PLUS    : '+' ;
MINUS   : '-' ;
STAR    : '*' ;
SLASH   : '/' ;
PERCENT : '%' ;
CARET   : '^' ;
AND     : '&' ;
OR      : '|' ;
SHL     : '<<' ;
SHR     : '>>' ;

BINOP
    : PLUS
    | SLASH
    | MINUS
    | STAR
    | PERCENT
    | CARET
    | AND
    | OR
    | SHL
    | SHR
    ;

BINOPEQ : BINOP EQ ;

/* "Structural symbols" */

AT         : '@' ;
DOT        : '.' ;
DOTDOT     : '..' ;
DOTDOTDOT  : '...' ;
COMMA      : ',' ;
SEMI       : ';' ;
COLON      : ':' ;
MOD_SEP    : '::' ;
RARROW     : '->' ;
FAT_ARROW  : '=>' ;
LPAREN     : '(' ;
RPAREN     : ')' ;
LBRACKET   : '[' ;
RBRACKET   : ']' ;
LBRACE     : '{' ;
RBRACE     : '}' ;
POUND      : '#';
DOLLAR     : '$' ;
UNDERSCORE : '_' ;

// Literals

fragment HEXIT
  : [0-9a-fA-F]
  ;

fragment CHAR_ESCAPE
  : [nrt\\'"0]
  | [xX] HEXIT HEXIT
  | 'u' HEXIT HEXIT HEXIT HEXIT
  | 'U' HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT
  | 'u{' HEXIT '}'
  | 'u{' HEXIT HEXIT '}'
  | 'u{' HEXIT HEXIT HEXIT '}'
  | 'u{' HEXIT HEXIT HEXIT HEXIT '}'
  | 'u{' HEXIT HEXIT HEXIT HEXIT HEXIT '}'
  | 'u{' HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT '}'
  ;

fragment SUFFIX
  : IDENT
  ;

fragment INTEGER_SUFFIX
  : { _input.LA(1) != 'e' && _input.LA(1) != 'E' }? SUFFIX
  ;

LIT_CHAR
  : '\'' ( '\\' CHAR_ESCAPE
         | ~[\\'\n\t\r]
         | '\ud800' .. '\udbff' '\udc00' .. '\udfff'
         )
    '\'' SUFFIX?
  ;

LIT_BYTE
  : 'b\'' ( '\\' ( [xX] HEXIT HEXIT
                 | [nrt\\'"0] )
          | ~[\\'\n\t\r] '\udc00'..'\udfff'?
          )
    '\'' SUFFIX?
  ;

LIT_INTEGER

  : [0-9][0-9_]* INTEGER_SUFFIX?
  | '0b' [01_]+ INTEGER_SUFFIX?
  | '0o' [0-7_]+ INTEGER_SUFFIX?
  | '0x' [0-9a-fA-F_]+ INTEGER_SUFFIX?
  ;

LIT_FLOAT
  : [0-9][0-9_]* ('.' {
        /* dot followed by another dot is a range, not a float */
        _input.LA(1) != '.' &&
        /* dot followed by an identifier is an integer with a function call, not a float */
        _input.LA(1) != '_' &&
        !(_input.LA(1) >= 'a' && _input.LA(1) <= 'z') &&
        !(_input.LA(1) >= 'A' && _input.LA(1) <= 'Z')
  }? | ('.' [0-9][0-9_]*)? ([eE] [-+]? [0-9][0-9_]*)? SUFFIX?)
  ;

LIT_STR
  : '"' ('\\\n' | '\\\r\n' | '\\' CHAR_ESCAPE | .)*? '"' SUFFIX?
  ;

LIT_BINARY : 'b' LIT_STR ;
LIT_BINARY_RAW : 'b' LIT_STR_RAW ;

/* this is a bit messy */

fragment LIT_STR_RAW_INNER
  : '"' .*? '"'
  | LIT_STR_RAW_INNER2
  ;

fragment LIT_STR_RAW_INNER2
  : POUND LIT_STR_RAW_INNER POUND
  ;

LIT_STR_RAW
  : 'r' LIT_STR_RAW_INNER SUFFIX?
  ;


QUESTION : '?';

IDENT : XID_Start XID_Continue* ;

fragment QUESTION_IDENTIFIER : QUESTION? IDENT;

LIFETIME : '\'' IDENT ;

WHITESPACE : [ \r\n\t]+ ;

UNDOC_COMMENT     : '////' ~[\n]* -> type(COMMENT) ;
YESDOC_COMMENT    : '///' ~[\r\n]* -> type(DOC_COMMENT) ;
OUTER_DOC_COMMENT : '//!' ~[\r\n]* -> type(DOC_COMMENT) ;
LINE_COMMENT      : '//' ( ~[/\n] ~[\n]* )? -> type(COMMENT) ;

DOC_BLOCK_COMMENT
  : ('/**' ~[*] | '/*!') (DOC_BLOCK_COMMENT | .)*? '*/' -> type(DOC_COMMENT)
  ;

BLOCK_COMMENT : '/*' (BLOCK_COMMENT | .)*? '*/' -> type(COMMENT) ;

/* these appear at the beginning of a file */

SHEBANG : '#!' { is_at(2) && _input.LA(1) != '[' }? ~[\r\n]* -> type(SHEBANG) ;

UTF8_BOM : '\ufeff' { is_at(1) }? -> skip ;
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`lexer grammar RustLexer;`

Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`@lexer::members {`
			`public boolean is_at(int pos) {`
			`return _input.index() == pos;`
			`}`
			`}`


First pass at line comment correctness 2014-07-14 16:13:38 -05:00			`tokens {`
			`EQ, LT, LE, EQEQ, NE, GE, GT, ANDAND, OROR, NOT, TILDE, PLUT,`
			`MINUS, STAR, SLASH, PERCENT, CARET, AND, OR, SHL, SHR, BINOP,`
			`BINOPEQ, AT, DOT, DOTDOT, DOTDOTDOT, COMMA, SEMI, COLON,`
			`MOD_SEP, RARROW, FAT_ARROW, LPAREN, RPAREN, LBRACKET, RBRACKET,`
			`LBRACE, RBRACE, POUND, DOLLAR, UNDERSCORE, LIT_CHAR,`
			`LIT_INTEGER, LIT_FLOAT, LIT_STR, LIT_STR_RAW, LIT_BINARY,`
			`LIT_BINARY_RAW, IDENT, LIFETIME, WHITESPACE, DOC_COMMENT,`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`COMMENT, SHEBANG`
First pass at line comment correctness 2014-07-14 16:13:38 -05:00			`}`

Add proper XID_Start and XID_Continue rules and use CharPos for span comparison, closes #15679 2015-01-14 16:51:51 -06:00			`import xidstart , xidcontinue;`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00
First pass at line comment correctness 2014-07-14 16:13:38 -05:00
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`/* Expression-operator symbols */`

			`EQ : '=' ;`
			`LT : '<' ;`
			`LE : '<=' ;`
			`EQEQ : '==' ;`
			`NE : '!=' ;`
			`GE : '>=' ;`
			`GT : '>' ;`
			`ANDAND : '&&' ;`
			`OROR : '\|\|' ;`
			`NOT : '!' ;`
			`TILDE : '~' ;`
			`PLUS : '+' ;`
			`MINUS : '-' ;`
			`STAR : '*' ;`
			`SLASH : '/' ;`
			`PERCENT : '%' ;`
			`CARET : '^' ;`
			`AND : '&' ;`
			`OR : '\|' ;`
			`SHL : '<<' ;`
			`SHR : '>>' ;`

			`BINOP`
			`: PLUS`
Byte/raw binary literal fixes 2014-07-14 22:45:39 -05:00			`\| SLASH`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`\| MINUS`
			`\| STAR`
			`\| PERCENT`
			`\| CARET`
			`\| AND`
			`\| OR`
			`\| SHL`
			`\| SHR`
			`;`

			`BINOPEQ : BINOP EQ ;`

			`/* "Structural symbols" */`

			`AT : '@' ;`
			`DOT : '.' ;`
			`DOTDOT : '..' ;`
			`DOTDOTDOT : '...' ;`
			`COMMA : ',' ;`
			`SEMI : ';' ;`
			`COLON : ':' ;`
			`MOD_SEP : '::' ;`
			`RARROW : '->' ;`
			`FAT_ARROW : '=>' ;`
			`LPAREN : '(' ;`
			`RPAREN : ')' ;`
			`LBRACKET : '[' ;`
			`RBRACKET : ']' ;`
			`LBRACE : '{' ;`
			`RBRACE : '}' ;`
			`POUND : '#';`
			`DOLLAR : '$' ;`
			`UNDERSCORE : '_' ;`

			`// Literals`

			`fragment HEXIT`
			`: [0-9a-fA-F]`
			`;`

			`fragment CHAR_ESCAPE`
			`: [nrt\\'"0]`
			`\| [xX] HEXIT HEXIT`
			`\| 'u' HEXIT HEXIT HEXIT HEXIT`
			`\| 'U' HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`\| 'u{' HEXIT '}'`
			`\| 'u{' HEXIT HEXIT '}'`
			`\| 'u{' HEXIT HEXIT HEXIT '}'`
			`\| 'u{' HEXIT HEXIT HEXIT HEXIT '}'`
			`\| 'u{' HEXIT HEXIT HEXIT HEXIT HEXIT '}'`
			`\| 'u{' HEXIT HEXIT HEXIT HEXIT HEXIT HEXIT '}'`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

Adjust Antlr4 lexer to include suffixes. This makes the formal lexical grammar (more closely) reflect the one implemented by the compiler. 2014-11-19 03:25:48 -06:00			`fragment SUFFIX`
			`: IDENT`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`fragment INTEGER_SUFFIX`
			`: { _input.LA(1) != 'e' && _input.LA(1) != 'E' }? SUFFIX`
			`;`

Adjust Antlr4 lexer to include suffixes. This makes the formal lexical grammar (more closely) reflect the one implemented by the compiler. 2014-11-19 03:25:48 -06:00			`LIT_CHAR`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`: '\'' ( '\\' CHAR_ESCAPE`
			`\| ~[\\'\n\t\r]`
			`\| '\ud800' .. '\udbff' '\udc00' .. '\udfff'`
			`)`
			`'\'' SUFFIX?`
Byte/raw binary literal fixes 2014-07-14 22:45:39 -05:00			`;`

Adjust Antlr4 lexer to include suffixes. This makes the formal lexical grammar (more closely) reflect the one implemented by the compiler. 2014-11-19 03:25:48 -06:00			`LIT_BYTE`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`: 'b\'' ( '\\' ( [xX] HEXIT HEXIT`
			`\| [nrt\\'"0] )`
			`\| ~[\\'\n\t\r] '\udc00'..'\udfff'?`
			`)`
			`'\'' SUFFIX?`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

			`LIT_INTEGER`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00
			`: [0-9][0-9_]* INTEGER_SUFFIX?`
			`\| '0b' [01_]+ INTEGER_SUFFIX?`
			`\| '0o' [0-7_]+ INTEGER_SUFFIX?`
			`\| '0x' [0-9a-fA-F_]+ INTEGER_SUFFIX?`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

			`LIT_FLOAT`
Handle function calls to integers in model lexer correctly closes #15877 2014-12-30 07:03:00 -06:00			`: [0-9][0-9_]* ('.' {`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`/* dot followed by another dot is a range, not a float */`
Handle function calls to integers in model lexer correctly closes #15877 2014-12-30 07:03:00 -06:00			`_input.LA(1) != '.' &&`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`/* dot followed by an identifier is an integer with a function call, not a float */`
Handle function calls to integers in model lexer correctly closes #15877 2014-12-30 07:03:00 -06:00			`_input.LA(1) != '_' &&`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`!(_input.LA(1) >= 'a' && _input.LA(1) <= 'z') &&`
			`!(_input.LA(1) >= 'A' && _input.LA(1) <= 'Z')`
Handle function calls to integers in model lexer correctly closes #15877 2014-12-30 07:03:00 -06:00			`}? \| ('.' [0-9][0-9_])? ([eE] [-+]? [0-9][0-9_])? SUFFIX?)`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

			`LIT_STR`
Adjust Antlr4 lexer to include suffixes. This makes the formal lexical grammar (more closely) reflect the one implemented by the compiler. 2014-11-19 03:25:48 -06:00			`: '"' ('\\\n' \| '\\\r\n' \| '\\' CHAR_ESCAPE \| .)*? '"' SUFFIX?`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`LIT_BINARY : 'b' LIT_STR ;`
			`LIT_BINARY_RAW : 'b' LIT_STR_RAW ;`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00
			`/* this is a bit messy */`

			`fragment LIT_STR_RAW_INNER`
			`: '"' .*? '"'`
			`\| LIT_STR_RAW_INNER2`
			`;`

			`fragment LIT_STR_RAW_INNER2`
			`: POUND LIT_STR_RAW_INNER POUND`
			`;`

			`LIT_STR_RAW`
Adjust Antlr4 lexer to include suffixes. This makes the formal lexical grammar (more closely) reflect the one implemented by the compiler. 2014-11-19 03:25:48 -06:00			`: 'r' LIT_STR_RAW_INNER SUFFIX?`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

Handle question marks in model lexer, closes #15879 2015-01-13 16:31:53 -06:00
			`QUESTION : '?';`

Add proper XID_Start and XID_Continue rules and use CharPos for span comparison, closes #15679 2015-01-14 16:51:51 -06:00			`IDENT : XID_Start XID_Continue* ;`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00
Handle question marks in model lexer, closes #15879 2015-01-13 16:31:53 -06:00			`fragment QUESTION_IDENTIFIER : QUESTION? IDENT;`

Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`LIFETIME : '\'' IDENT ;`

			`WHITESPACE : [ \r\n\t]+ ;`

Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`UNDOC_COMMENT : '////' ~[\n]* -> type(COMMENT) ;`
Refine the tooling, handle comments 2014-07-14 19:27:28 -05:00			`YESDOC_COMMENT : '///' ~[\r\n]* -> type(DOC_COMMENT) ;`
			`OUTER_DOC_COMMENT : '//!' ~[\r\n]* -> type(DOC_COMMENT) ;`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00			`LINE_COMMENT : '//' ( ~[/\n] ~[\n]* )? -> type(COMMENT) ;`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00
First pass at line comment correctness 2014-07-14 16:13:38 -05:00			`DOC_BLOCK_COMMENT`
Byte/raw binary literal fixes 2014-07-14 22:45:39 -05:00			`: ('/*' ~[] \| '/!') (DOC_BLOCK_COMMENT \| .)? '*/' -> type(DOC_COMMENT)`
Lexer; subtly wrong; no makefile 2014-07-14 03:52:18 -05:00			`;`

First pass at line comment correctness 2014-07-14 16:13:38 -05:00			`BLOCK_COMMENT : '/' (BLOCK_COMMENT \| .)? '*/' -> type(COMMENT) ;`
Model lexer: Fix remaining issues 2015-04-21 05:02:12 -05:00
			`/* these appear at the beginning of a file */`

			`SHEBANG : '#!' { is_at(2) && _input.LA(1) != '[' }? ~[\r\n]* -> type(SHEBANG) ;`

			`UTF8_BOM : '\ufeff' { is_at(1) }? -> skip ;`