thirdparty/coverage/phystokens.py

7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch"""Better tokenizing for coverage.py."""
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdochimport keyword, re, token, tokenize
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdochfrom coverage.backward import StringIO              # pylint: disable=W0622
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdochdef phys_tokens(toks):
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    """Return all physical tokens, even line continuations.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    tokenize.generate_tokens() doesn't return a token for the backslash that
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    continues lines.  This wrapper provides those tokens so that we can
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    re-create a faithful representation of the original source.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    Returns the same values as generate_tokens()
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    """
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    last_line = None
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    last_lineno = -1
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    last_ttype = None
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    for ttype, ttext, (slineno, scol), (elineno, ecol), ltext in toks:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        if last_lineno != elineno:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            if last_line and last_line[-2:] == "\\\n":
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                # We are at the beginning of a new line, and the last line
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                # ended with a backslash.  We probably have to inject a
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                # backslash token into the stream. Unfortunately, there's more
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                # to figure out.  This code::
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #   usage = """\
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #   HEY THERE
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #   """
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                # triggers this condition, but the token text is::
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #   '"""\\\nHEY THERE\n"""'
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                #
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                # so we need to figure out if the backslash is already in the
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                # string token or not.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                inject_backslash = True
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                if last_ttype == tokenize.COMMENT:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    # Comments like this \
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    # should never result in a new token.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    inject_backslash = False
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                elif ttype == token.STRING:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    if "\n" in ttext and ttext.split('\n', 1)[0][-1] == '\\':
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                        # It's a multiline string and the first line ends with
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                        # a backslash, so we don't need to inject another.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                        inject_backslash = False
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                if inject_backslash:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    # Figure out what column the backslash is in.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    ccol = len(last_line.split("\n")[-2]) - 1
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    # Yield the token, with a fake token type.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    yield (
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                        99999, "\\\n",
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                        (slineno, ccol), (slineno, ccol+2),
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                        last_line
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                        )
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            last_line = ltext
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            last_ttype = ttype
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        yield ttype, ttext, (slineno, scol), (elineno, ecol), ltext
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        last_lineno = elineno
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdochdef source_token_lines(source):
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    """Generate a series of lines, one for each line in `source`.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    Each line is a list of pairs, each pair is a token::
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        [('key', 'def'), ('ws', ' '), ('nam', 'hello'), ('op', '('), ... ]
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    Each pair has a token class, and the token text.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    If you concatenate all the token texts, and then join them with newlines,
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    you should have your original `source` back, with two differences:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    trailing whitespace is not preserved, and a final line with no newline
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    is indistinguishable from a final line with a newline.
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    """
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    ws_tokens = [token.INDENT, token.DEDENT, token.NEWLINE, tokenize.NL]
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    line = []
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    col = 0
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    source = source.expandtabs(8).replace('\r\n', '\n')
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    tokgen = tokenize.generate_tokens(StringIO(source).readline)
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    for ttype, ttext, (_, scol), (_, ecol), _ in phys_tokens(tokgen):
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        mark_start = True
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        for part in re.split('(\n)', ttext):
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            if part == '\n':
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                yield line
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                line = []
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                col = 0
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                mark_end = False
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            elif part == '':
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                mark_end = False
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            elif ttype in ws_tokens:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                mark_end = False
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            else:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                if mark_start and scol > col:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    line.append(("ws", " " * (scol - col)))
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    mark_start = False
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                tok_class = tokenize.tok_name.get(ttype, 'xx').lower()[:3]
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                if ttype == token.NAME and keyword.iskeyword(ttext):
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                    tok_class = "key"
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                line.append((tok_class, part))
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch                mark_end = True
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            scol = 0
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        if mark_end:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch            col = ecol
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch    if line:
7757ec2eadfa2dd8ac2aeed0a4399e9b07ec38cbBen Murdoch        yield line