Python-2.7.2/Lib/csv.py

4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm"""
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmcsv.py - read/write/investigate CSV files
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm"""
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmimport re
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmfrom functools import reduce
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmfrom _csv import Error, __version__, writer, reader, register_dialect, \
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                 unregister_dialect, get_dialect, list_dialects, \
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                 field_size_limit, \
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                 QUOTE_MINIMAL, QUOTE_ALL, QUOTE_NONNUMERIC, QUOTE_NONE, \
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                 __doc__
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmfrom _csv import Dialect as _Dialect
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmtry:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    from cStringIO import StringIO
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmexcept ImportError:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    from StringIO import StringIO
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm__all__ = [ "QUOTE_MINIMAL", "QUOTE_ALL", "QUOTE_NONNUMERIC", "QUOTE_NONE",
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            "Error", "Dialect", "__doc__", "excel", "excel_tab",
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            "field_size_limit", "reader", "writer",
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            "register_dialect", "get_dialect", "list_dialects", "Sniffer",
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            "unregister_dialect", "__version__", "DictReader", "DictWriter" ]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmclass Dialect:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    """Describe an Excel dialect.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    This must be subclassed (see csv.excel).  Valid attributes are:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    delimiter, quotechar, escapechar, doublequote, skipinitialspace,
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    lineterminator, quoting.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    """
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    _name = ""
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    _valid = False
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    # placeholders
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    delimiter = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    quotechar = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    escapechar = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    doublequote = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    skipinitialspace = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    lineterminator = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    quoting = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def __init__(self):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if self.__class__ != Dialect:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            self._valid = True
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self._validate()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def _validate(self):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        try:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            _Dialect(self)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        except TypeError, e:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # We do this for compatibility with py2.3
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            raise Error(str(e))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmclass excel(Dialect):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    """Describe the usual properties of Excel-generated CSV files."""
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    delimiter = ','
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    quotechar = '"'
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    doublequote = True
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    skipinitialspace = False
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    lineterminator = '\r\n'
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    quoting = QUOTE_MINIMAL
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmregister_dialect("excel", excel)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmclass excel_tab(excel):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    """Describe the usual properties of Excel-generated TAB-delimited files."""
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    delimiter = '\t'
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmregister_dialect("excel-tab", excel_tab)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmclass DictReader:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def __init__(self, f, fieldnames=None, restkey=None, restval=None,
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                 dialect="excel", *args, **kwds):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self._fieldnames = fieldnames   # list of keys for the dict
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.restkey = restkey          # key to catch long rows
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.restval = restval          # default value for short rows
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.reader = reader(f, dialect, *args, **kwds)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.dialect = dialect
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.line_num = 0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def __iter__(self):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return self
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    @property
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def fieldnames(self):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if self._fieldnames is None:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            try:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                self._fieldnames = self.reader.next()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            except StopIteration:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                pass
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.line_num = self.reader.line_num
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return self._fieldnames
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    @fieldnames.setter
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def fieldnames(self, value):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self._fieldnames = value
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def next(self):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if self.line_num == 0:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # Used only for its side effect.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            self.fieldnames
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        row = self.reader.next()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.line_num = self.reader.line_num
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # unlike the basic reader, we prefer not to return blanks,
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # because we will typically wind up with a dict full of None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # values
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        while row == []:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            row = self.reader.next()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        d = dict(zip(self.fieldnames, row))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        lf = len(self.fieldnames)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        lr = len(row)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if lf < lr:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            d[self.restkey] = row[lf:]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        elif lf > lr:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            for key in self.fieldnames[lr:]:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                d[key] = self.restval
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return d
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmclass DictWriter:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def __init__(self, f, fieldnames, restval="", extrasaction="raise",
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                 dialect="excel", *args, **kwds):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.fieldnames = fieldnames    # list of keys for the dict
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.restval = restval          # for writing short dicts
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if extrasaction.lower() not in ("raise", "ignore"):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            raise ValueError, \
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                  ("extrasaction (%s) must be 'raise' or 'ignore'" %
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                   extrasaction)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.extrasaction = extrasaction
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.writer = writer(f, dialect, *args, **kwds)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def writeheader(self):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        header = dict(zip(self.fieldnames, self.fieldnames))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.writerow(header)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def _dict_to_list(self, rowdict):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if self.extrasaction == "raise":
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            wrong_fields = [k for k in rowdict if k not in self.fieldnames]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if wrong_fields:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                raise ValueError("dict contains fields not in fieldnames: " +
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                                 ", ".join(wrong_fields))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return [rowdict.get(key, self.restval) for key in self.fieldnames]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def writerow(self, rowdict):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return self.writer.writerow(self._dict_to_list(rowdict))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def writerows(self, rowdicts):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        rows = []
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        for rowdict in rowdicts:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            rows.append(self._dict_to_list(rowdict))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return self.writer.writerows(rows)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm# Guard Sniffer's type checking against builds that exclude complex()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmtry:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    complex
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmexcept NameError:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    complex = float
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylmclass Sniffer:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    '''
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    "Sniffs" the format of a CSV file (i.e. delimiter, quotechar)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    Returns a Dialect object.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    '''
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def __init__(self):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # in case there is more than one possible delimiter
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        self.preferred = [',', '\t', ';', ' ', ':']
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def sniff(self, sample, delimiters=None):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        """
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        Returns a dialect (or None) corresponding to the sample
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        """
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        quotechar, doublequote, delimiter, skipinitialspace = \
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                   self._guess_quote_and_delimiter(sample, delimiters)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if not delimiter:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            delimiter, skipinitialspace = self._guess_delimiter(sample,
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                                                                delimiters)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if not delimiter:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            raise Error, "Could not determine delimiter"
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        class dialect(Dialect):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            _name = "sniffed"
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            lineterminator = '\r\n'
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            quoting = QUOTE_MINIMAL
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # escapechar = ''
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        dialect.doublequote = doublequote
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        dialect.delimiter = delimiter
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # _csv.reader won't accept a quotechar of ''
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        dialect.quotechar = quotechar or '"'
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        dialect.skipinitialspace = skipinitialspace
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return dialect
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def _guess_quote_and_delimiter(self, data, delimiters):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        """
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        Looks for text enclosed between two identical quotes
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        (the probable quotechar) which are preceded and followed
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        by the same character (the probable delimiter).
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        For example:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                         ,'some text',
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        The quote with the most wins, same with the delimiter.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        If there is no quotechar the delimiter can't be determined
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        this way.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        """
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        matches = []
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        for restr in ('(?P<delim>[^\w\n"\'])(?P<space> ?)(?P<quote>["\']).*?(?P=quote)(?P=delim)', # ,".*?",
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                      '(?:^|\n)(?P<quote>["\']).*?(?P=quote)(?P<delim>[^\w\n"\'])(?P<space> ?)',   #  ".*?",
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                      '(?P<delim>>[^\w\n"\'])(?P<space> ?)(?P<quote>["\']).*?(?P=quote)(?:$|\n)',  # ,".*?"
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                      '(?:^|\n)(?P<quote>["\']).*?(?P=quote)(?:$|\n)'):                            #  ".*?" (no delim, no space)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            regexp = re.compile(restr, re.DOTALL | re.MULTILINE)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            matches = regexp.findall(data)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if matches:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                break
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if not matches:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # (quotechar, doublequote, delimiter, skipinitialspace)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            return ('', False, None, 0)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        quotes = {}
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        delims = {}
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        spaces = 0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        for m in matches:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            n = regexp.groupindex['quote'] - 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            key = m[n]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if key:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                quotes[key] = quotes.get(key, 0) + 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            try:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                n = regexp.groupindex['delim'] - 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                key = m[n]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            except KeyError:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                continue
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if key and (delimiters is None or key in delimiters):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                delims[key] = delims.get(key, 0) + 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            try:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                n = regexp.groupindex['space'] - 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            except KeyError:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                continue
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if m[n]:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                spaces += 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        quotechar = reduce(lambda a, b, quotes = quotes:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                           (quotes[a] > quotes[b]) and a or b, quotes.keys())
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if delims:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            delim = reduce(lambda a, b, delims = delims:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                           (delims[a] > delims[b]) and a or b, delims.keys())
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            skipinitialspace = delims[delim] == spaces
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if delim == '\n': # most likely a file with a single column
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                delim = ''
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        else:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # there is *no* delimiter, it's a single column of quoted data
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            delim = ''
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            skipinitialspace = 0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # if we see an extra quote between delimiters, we've got a
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # double quoted format
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        dq_regexp = re.compile(r"((%(delim)s)|^)\W*%(quote)s[^%(delim)s\n]*%(quote)s[^%(delim)s\n]*%(quote)s\W*((%(delim)s)|$)" % \
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                               {'delim':delim, 'quote':quotechar}, re.MULTILINE)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if dq_regexp.search(data):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            doublequote = True
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        else:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            doublequote = False
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return (quotechar, doublequote, delim, skipinitialspace)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def _guess_delimiter(self, data, delimiters):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        """
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        The delimiter /should/ occur the same number of times on
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        each row. However, due to malformed data, it may not. We don't want
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        an all or nothing approach, so we allow for small variations in this
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        number.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm          1) build a table of the frequency of each character on every line.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm          2) build a table of frequencies of this frequency (meta-frequency?),
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm             e.g.  'x occurred 5 times in 10 rows, 6 times in 1000 rows,
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm             7 times in 2 rows'
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm          3) use the mode of the meta-frequency to determine the /expected/
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm             frequency for that character
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm          4) find out how often the character actually meets that goal
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm          5) the character that best meets its goal is the delimiter
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        For performance reasons, the data is evaluated in chunks, so it can
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        try and evaluate the smallest portion of the data possible, evaluating
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        additional chunks as necessary.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        """
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        data = filter(None, data.split('\n'))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        ascii = [chr(c) for c in range(127)] # 7-bit ASCII
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # build frequency tables
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        chunkLength = min(10, len(data))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        iteration = 0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        charFrequency = {}
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        modes = {}
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        delims = {}
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        start, end = 0, min(chunkLength, len(data))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        while start < len(data):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            iteration += 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            for line in data[start:end]:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                for char in ascii:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    metaFrequency = charFrequency.get(char, {})
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    # must count even if frequency is 0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    freq = line.count(char)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    # value is the mode
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    metaFrequency[freq] = metaFrequency.get(freq, 0) + 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    charFrequency[char] = metaFrequency
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            for char in charFrequency.keys():
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                items = charFrequency[char].items()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                if len(items) == 1 and items[0][0] == 0:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    continue
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                # get the mode of the frequencies
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                if len(items) > 1:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    modes[char] = reduce(lambda a, b: a[1] > b[1] and a or b,
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                                         items)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    # adjust the mode - subtract the sum of all
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    # other frequencies
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    items.remove(modes[char])
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    modes[char] = (modes[char][0], modes[char][1]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                                   - reduce(lambda a, b: (0, a[1] + b[1]),
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                                            items)[1])
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                else:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    modes[char] = items[0]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # build a list of possible delimiters
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            modeList = modes.items()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            total = float(chunkLength * iteration)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # (rows of consistent data) / (number of rows) = 100%
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            consistency = 1.0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # minimum consistency threshold
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            threshold = 0.9
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            while len(delims) == 0 and consistency >= threshold:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                for k, v in modeList:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    if v[0] > 0 and v[1] > 0:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        if ((v[1]/total) >= consistency and
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                            (delimiters is None or k in delimiters)):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                            delims[k] = v
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                consistency -= 0.01
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if len(delims) == 1:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                delim = delims.keys()[0]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                skipinitialspace = (data[0].count(delim) ==
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                                    data[0].count("%c " % delim))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                return (delim, skipinitialspace)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # analyze another chunkLength lines
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            start = end
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            end += chunkLength
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if not delims:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            return ('', 0)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # if there's more than one, fall back to a 'preferred' list
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        if len(delims) > 1:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            for d in self.preferred:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                if d in delims.keys():
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    skipinitialspace = (data[0].count(d) ==
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                                        data[0].count("%c " % d))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    return (d, skipinitialspace)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # nothing else indicates a preference, pick the character that
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # dominates(?)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        items = [(v,k) for (k,v) in delims.items()]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        items.sort()
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        delim = items[-1][1]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        skipinitialspace = (data[0].count(delim) ==
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                            data[0].count("%c " % delim))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return (delim, skipinitialspace)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm    def has_header(self, sample):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # Creates a dictionary of types of data in each column. If any
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # column is of a single type (say, integers), *except* for the first
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # row, then the first row is presumed to be labels. If the type
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # can't be determined, it is assumed to be a string in which case
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # the length of the string is the determining factor: if all of the
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # rows except for the first are the same length, it's a header.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # Finally, a 'vote' is taken at the end for each column, adding or
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # subtracting from the likelihood of the first row being a header.
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        rdr = reader(StringIO(sample), self.sniff(sample))
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        header = rdr.next() # assume first row is header
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        columns = len(header)
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        columnTypes = {}
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        for i in range(columns): columnTypes[i] = None
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        checked = 0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        for row in rdr:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            # arbitrary number of rows to check, to keep it sane
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if checked > 20:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                break
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            checked += 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if len(row) != columns:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                continue # skip rows that have irregular number of columns
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            for col in columnTypes.keys():
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                for thisType in [int, long, float, complex]:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    try:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        thisType(row[col])
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        break
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    except (ValueError, OverflowError):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        pass
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                else:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    # fallback to length of string
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    thisType = len(row[col])
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                # treat longs as ints
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                if thisType == long:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    thisType = int
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                if thisType != columnTypes[col]:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    if columnTypes[col] is None: # add new column type
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        columnTypes[col] = thisType
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    else:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        # type is inconsistent, remove column from
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        # consideration
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                        del columnTypes[col]
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # finally, compare results against first row and "vote"
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        # on whether it's a header
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        hasHeader = 0
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        for col, colType in columnTypes.items():
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            if type(colType) == type(0): # it's a length
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                if len(header[col]) != colType:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    hasHeader += 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                else:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    hasHeader -= 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm            else: # attempt typecast
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                try:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    colType(header[col])
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                except (ValueError, TypeError):
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    hasHeader += 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                else:
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm                    hasHeader -= 1
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm
4710c53dcad1ebf3755f3efb9e80ac24bd72a9b2darylm        return hasHeader > 0