rust/src/comp/fe/lexer.rs

import std._io.stdio_reader;

fn in_range(char c, char lo, char hi) -> bool {
    ret lo <= c && c <= hi;
}

fn is_alpha(char c) -> bool {
    ret in_range(c, 'a', 'z') ||
        in_range(c, 'A', 'Z');
}

fn is_dec_digit(char c) -> bool {
    ret in_range(c, '0', '9');
}

fn is_hex_digit(char c) -> bool {
    ret in_range(c, '0', '9') ||
        in_range(c, 'a', 'f') ||
        in_range(c, 'A', 'F');
}

fn is_bin_digit(char c) -> bool {
    ret c == '0' || c == '1';
}

fn is_whitespace(char c) -> bool {
    ret c == ' ' || c == '\t' || c == '\r' || c == '\n';
}

fn consume_any_whitespace(stdio_reader rdr, char c) -> char {
    auto c1 = c;
    while (is_whitespace(c1)) {
        c1 = rdr.getc() as char;
    }
    be consume_any_line_comment(rdr, c1);
}

fn consume_any_line_comment(stdio_reader rdr, char c) -> char {
    auto c1 = c;
    if (c1 == '/') {
        auto c2 = rdr.getc() as char;
        if (c2 == '/') {
            while (c1 != '\n') {
                c1 = rdr.getc() as char;
            }
            // Restart whitespace munch.
            be consume_any_whitespace(rdr, c1);
        }
    }
    ret c;
}

fn next_token(stdio_reader rdr) -> token.token {
    auto eof = (-1) as char;
    auto c = rdr.getc() as char;
    auto accum_str = "";
    auto accum_int = 0;

    c = consume_any_whitespace(rdr, c);

    if (c == eof) { ret token.EOF(); }

    if (is_alpha(c)) {
        while (is_alpha(c)) {
            accum_str += (c as u8);
            c = rdr.getc() as char;
        }
        rdr.ungetc(c as int);
        ret token.IDENT(accum_str);
    }

    if (is_dec_digit(c)) {
        if (c == '0') {
        } else {
            while (is_dec_digit(c)) {
                accum_int *= 10;
                accum_int += (c as int) - ('0' as int);
                c = rdr.getc() as char;
            }
            rdr.ungetc(c as int);
            ret token.LIT_INT(accum_int);
        }
    }


    fn op_or_opeq(stdio_reader rdr, char c2,
                  token.op op) -> token.token {
        if (c2 == '=') {
            ret token.OPEQ(op);
        } else {
            rdr.ungetc(c2 as int);
            ret token.OP(op);
        }
    }

    alt (c) {
        // One-byte tokens.
        case (';') { ret token.SEMI(); }
        case (',') { ret token.COMMA(); }
        case ('.') { ret token.DOT(); }
        case ('(') { ret token.LPAREN(); }
        case (')') { ret token.RPAREN(); }
        case ('{') { ret token.LBRACE(); }
        case ('}') { ret token.RBRACE(); }
        case ('[') { ret token.LBRACKET(); }
        case (']') { ret token.RBRACKET(); }
        case ('@') { ret token.AT(); }
        case ('#') { ret token.POUND(); }

        // Multi-byte tokens.
        case ('=') {
            auto c2 = rdr.getc() as char;
            if (c2 == '=') {
                ret token.OP(token.EQEQ());
            } else {
                rdr.ungetc(c2 as int);
                ret token.OP(token.EQ());
            }
        }

        case ('-') {
            auto c2 = rdr.getc() as char;
            if (c2 == '>') {
                ret token.RARROW();
            } else {
                ret op_or_opeq(rdr, c2, token.MINUS());
            }
        }

        case ('&') {
            auto c2 = rdr.getc() as char;
            if (c2 == '&') {
                ret token.OP(token.ANDAND());
            } else {
                ret op_or_opeq(rdr, c2, token.AND());
            }
        }

        case ('+') {
            ret op_or_opeq(rdr, rdr.getc() as char, token.PLUS());
        }

        case ('*') {
            ret op_or_opeq(rdr, rdr.getc() as char, token.STAR());
        }

        case ('/') {
            ret op_or_opeq(rdr, rdr.getc() as char, token.STAR());
        }

        case ('!') {
            ret op_or_opeq(rdr, rdr.getc() as char, token.NOT());
        }

        case ('^') {
            ret op_or_opeq(rdr, rdr.getc() as char, token.CARET());
        }

        case ('%') {
            ret op_or_opeq(rdr, rdr.getc() as char, token.PERCENT());
        }

    }

    log "lexer stopping at ";
    log c;
    ret token.EOF();
}


//
// Local Variables:
// mode: rust
// fill-column: 78;
// indent-tabs-mode: nil
// c-basic-offset: 4
// buffer-file-coding-system: utf-8-unix
// compile-command: "make -k -C ../.. 2>&1 | sed -e 's/\\/x\\//x:\\//g'";
// End:
//
Simplify lexer/parser structure to use stdio_reader. 2010-08-18 15:41:13 -07:00			`import std._io.stdio_reader;`
Sketch some not-quite-compiling code into comp/fe/lexer.rs. 2010-07-14 09:41:36 -07:00
Add some code to lexer in rustc. 2010-08-19 18:42:17 -07:00			`fn in_range(char c, char lo, char hi) -> bool {`
Fix some lexer bugs in rustc. Beginning to lex stuff now. 2010-08-20 12:12:37 -07:00			`ret lo <= c && c <= hi;`
Add some code to lexer in rustc. 2010-08-19 18:42:17 -07:00			`}`

			`fn is_alpha(char c) -> bool {`
			`ret in_range(c, 'a', 'z') \|\|`
			`in_range(c, 'A', 'Z');`
			`}`

			`fn is_dec_digit(char c) -> bool {`
			`ret in_range(c, '0', '9');`
			`}`

			`fn is_hex_digit(char c) -> bool {`
			`ret in_range(c, '0', '9') \|\|`
			`in_range(c, 'a', 'f') \|\|`
			`in_range(c, 'A', 'F');`
			`}`

			`fn is_bin_digit(char c) -> bool {`
			`ret c == '0' \|\| c == '1';`
			`}`

			`fn is_whitespace(char c) -> bool {`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`ret c == ' ' \|\| c == '\t' \|\| c == '\r' \|\| c == '\n';`
Add some code to lexer in rustc. 2010-08-19 18:42:17 -07:00			`}`

Handle line-comments and a few more symbols in rustc lexer. 2010-08-23 19:17:04 -07:00			`fn consume_any_whitespace(stdio_reader rdr, char c) -> char {`
			`auto c1 = c;`
			`while (is_whitespace(c1)) {`
			`c1 = rdr.getc() as char;`
			`}`
			`be consume_any_line_comment(rdr, c1);`
			`}`

			`fn consume_any_line_comment(stdio_reader rdr, char c) -> char {`
			`auto c1 = c;`
			`if (c1 == '/') {`
			`auto c2 = rdr.getc() as char;`
			`if (c2 == '/') {`
			`while (c1 != '\n') {`
			`c1 = rdr.getc() as char;`
			`}`
			`// Restart whitespace munch.`
			`be consume_any_whitespace(rdr, c1);`
			`}`
			`}`
			`ret c;`
			`}`

Simplify lexer/parser structure to use stdio_reader. 2010-08-18 15:41:13 -07:00			`fn next_token(stdio_reader rdr) -> token.token {`
Add some code to lexer in rustc. 2010-08-19 18:42:17 -07:00			`auto eof = (-1) as char;`
			`auto c = rdr.getc() as char;`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`auto accum_str = "";`
			`auto accum_int = 0;`
Add some code to lexer in rustc. 2010-08-19 18:42:17 -07:00
Handle line-comments and a few more symbols in rustc lexer. 2010-08-23 19:17:04 -07:00			`c = consume_any_whitespace(rdr, c);`
Add some code to lexer in rustc. 2010-08-19 18:42:17 -07:00
			`if (c == eof) { ret token.EOF(); }`
Fix some lexer bugs in rustc. Beginning to lex stuff now. 2010-08-20 12:12:37 -07:00
Use str += u8 in rustc lexer. 2010-08-20 10:03:31 -07:00			`if (is_alpha(c)) {`
Expand rustc lexer to do almost-nearly-nontrivial stuff. 2010-08-20 11:41:34 -07:00			`while (is_alpha(c)) {`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`accum_str += (c as u8);`
Expand rustc lexer to do almost-nearly-nontrivial stuff. 2010-08-20 11:41:34 -07:00			`c = rdr.getc() as char;`
			`}`
Fix some lexer bugs in rustc. Beginning to lex stuff now. 2010-08-20 12:12:37 -07:00			`rdr.ungetc(c as int);`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`ret token.IDENT(accum_str);`
Use str += u8 in rustc lexer. 2010-08-20 10:03:31 -07:00			`}`
Expand rustc lexer to do almost-nearly-nontrivial stuff. 2010-08-20 11:41:34 -07:00
			`if (is_dec_digit(c)) {`
			`if (c == '0') {`
			`} else {`
			`while (is_dec_digit(c)) {`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`accum_int *= 10;`
			`accum_int += (c as int) - ('0' as int);`
Fix some lexer bugs in rustc. Beginning to lex stuff now. 2010-08-20 12:12:37 -07:00			`c = rdr.getc() as char;`
Expand rustc lexer to do almost-nearly-nontrivial stuff. 2010-08-20 11:41:34 -07:00			`}`
Fix some lexer bugs in rustc. Beginning to lex stuff now. 2010-08-20 12:12:37 -07:00			`rdr.ungetc(c as int);`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`ret token.LIT_INT(accum_int);`
Expand rustc lexer to do almost-nearly-nontrivial stuff. 2010-08-20 11:41:34 -07:00			`}`
			`}`

Handle line-comments and a few more symbols in rustc lexer. 2010-08-23 19:17:04 -07:00
			`fn op_or_opeq(stdio_reader rdr, char c2,`
			`token.op op) -> token.token {`
			`if (c2 == '=') {`
			`ret token.OPEQ(op);`
			`} else {`
			`rdr.ungetc(c2 as int);`
			`ret token.OP(op);`
			`}`
			`}`

Use pattern matching for the one-byte structural symbols in the self-hosted compiler 2010-08-20 14:34:48 -07:00			`alt (c) {`
Handle line-comments and a few more symbols in rustc lexer. 2010-08-23 19:17:04 -07:00			`// One-byte tokens.`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`case (';') { ret token.SEMI(); }`
			`case (',') { ret token.COMMA(); }`
			`case ('.') { ret token.DOT(); }`
			`case ('(') { ret token.LPAREN(); }`
			`case (')') { ret token.RPAREN(); }`
			`case ('{') { ret token.LBRACE(); }`
			`case ('}') { ret token.RBRACE(); }`
			`case ('[') { ret token.LBRACKET(); }`
			`case (']') { ret token.RBRACKET(); }`
			`case ('@') { ret token.AT(); }`
			`case ('#') { ret token.POUND(); }`
Handle line-comments and a few more symbols in rustc lexer. 2010-08-23 19:17:04 -07:00
			`// Multi-byte tokens.`
Accumulate number tokens properly, handle newline, EQ and EQEQ in rustc lexer. 2010-08-20 15:36:48 -07:00			`case ('=') {`
			`auto c2 = rdr.getc() as char;`
			`if (c2 == '=') {`
			`ret token.OP(token.EQEQ());`
			`} else {`
			`rdr.ungetc(c2 as int);`
			`ret token.OP(token.EQ());`
			`}`
			`}`
Handle line-comments and a few more symbols in rustc lexer. 2010-08-23 19:17:04 -07:00
			`case ('-') {`
			`auto c2 = rdr.getc() as char;`
			`if (c2 == '>') {`
			`ret token.RARROW();`
			`} else {`
			`ret op_or_opeq(rdr, c2, token.MINUS());`
			`}`
			`}`

			`case ('&') {`
			`auto c2 = rdr.getc() as char;`
			`if (c2 == '&') {`
			`ret token.OP(token.ANDAND());`
			`} else {`
			`ret op_or_opeq(rdr, c2, token.AND());`
			`}`
			`}`

			`case ('+') {`
			`ret op_or_opeq(rdr, rdr.getc() as char, token.PLUS());`
			`}`

			`case ('*') {`
			`ret op_or_opeq(rdr, rdr.getc() as char, token.STAR());`
			`}`

			`case ('/') {`
			`ret op_or_opeq(rdr, rdr.getc() as char, token.STAR());`
			`}`

			`case ('!') {`
			`ret op_or_opeq(rdr, rdr.getc() as char, token.NOT());`
			`}`

			`case ('^') {`
			`ret op_or_opeq(rdr, rdr.getc() as char, token.CARET());`
			`}`

			`case ('%') {`
			`ret op_or_opeq(rdr, rdr.getc() as char, token.PERCENT());`
			`}`

Use pattern matching for the one-byte structural symbols in the self-hosted compiler 2010-08-20 14:34:48 -07:00			`}`
Expand rustc lexer to do almost-nearly-nontrivial stuff. 2010-08-20 11:41:34 -07:00
			`log "lexer stopping at ";`
Simplify lexer/parser structure to use stdio_reader. 2010-08-18 15:41:13 -07:00			`log c;`
			`ret token.EOF();`
Sketch some not-quite-compiling code into comp/fe/lexer.rs. 2010-07-14 09:41:36 -07:00			`}`

Add do-nothing obj type for lexer to rustc. 2010-08-18 11:35:34 -07:00
Add modelines and related emacs chatter to rustc. 2010-08-12 10:29:23 -07:00			`//`
			`// Local Variables:`
			`// mode: rust`
			`// fill-column: 78;`
			`// indent-tabs-mode: nil`
			`// c-basic-offset: 4`
			`// buffer-file-coding-system: utf-8-unix`
			`// compile-command: "make -k -C ../.. 2>&1 \| sed -e 's/\\/x\\//x:\\//g'";`
			`// End:`
			`//`