keras/preprocessing/text.py

f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# Copyright 2015 The TensorFlow Authors. All Rights Reserved.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet#
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# Licensed under the Apache License, Version 2.0 (the "License");
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# you may not use this file except in compliance with the License.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# You may obtain a copy of the License at
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet#
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet#     http://www.apache.org/licenses/LICENSE-2.0
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet#
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# Unless required by applicable law or agreed to in writing, software
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# distributed under the License is distributed on an "AS IS" BASIS,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# See the License for the specific language governing permissions and
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# limitations under the License.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet# ==============================================================================
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet"""Utilities for text input preprocessing.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet"""
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletfrom __future__ import absolute_import
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletfrom __future__ import division
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletfrom __future__ import print_function
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
d21bf7d7502f447e5f967a479282b32b5845ba8bFrancois Cholletfrom collections import OrderedDict
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Cholletfrom hashlib import md5
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletimport string
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletimport sys
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletimport numpy as np
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletfrom six.moves import range  # pylint: disable=redefined-builtin
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletfrom six.moves import zip  # pylint: disable=redefined-builtin
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Cholletfrom tensorflow.python.platform import tf_logging as logging
e99724b78b9f6834b918ae8a599597f863cba8d4Anna Rfrom tensorflow.python.util.tf_export import tf_export
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletif sys.version_info < (3,):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  maketrans = string.maketrans
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletelse:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  maketrans = str.maketrans
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
e99724b78b9f6834b918ae8a599597f863cba8d4Anna R@tf_export('keras.preprocessing.text.text_to_word_sequence')
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletdef text_to_word_sequence(text,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet                          filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet                          lower=True,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet                          split=' '):
d21bf7d7502f447e5f967a479282b32b5845ba8bFrancois Chollet  """Converts a text to a sequence of words (or tokens).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      text: Input text (string).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      filters: Sequence of characters to filter out.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      lower: Whether to convert the input to lowercase.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      split: Sentence split marker (string).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  Returns:
d21bf7d7502f447e5f967a479282b32b5845ba8bFrancois Chollet      A list of words (or tokens).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  if lower:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    text = text.lower()
164b2ab29e84d512c1874fbc44e369c93835a352Francois Chollet
164b2ab29e84d512c1874fbc44e369c93835a352Francois Chollet  if sys.version_info < (3,) and isinstance(text, unicode):
164b2ab29e84d512c1874fbc44e369c93835a352Francois Chollet    translate_map = dict((ord(c), unicode(split)) for c in filters)
164b2ab29e84d512c1874fbc44e369c93835a352Francois Chollet  else:
164b2ab29e84d512c1874fbc44e369c93835a352Francois Chollet    translate_map = maketrans(filters, split * len(filters))
164b2ab29e84d512c1874fbc44e369c93835a352Francois Chollet
164b2ab29e84d512c1874fbc44e369c93835a352Francois Chollet  text = text.translate(translate_map)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  seq = text.split(split)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  return [i for i in seq if i]
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
e99724b78b9f6834b918ae8a599597f863cba8d4Anna R@tf_export('keras.preprocessing.text.one_hot')
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletdef one_hot(text,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            n,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            lower=True,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            split=' '):
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  """One-hot encodes a text into a list of word indexes of size n.
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  This is a wrapper to the `hashing_trick` function using `hash` as the
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  hashing function; unicity of word to index mapping non-guaranteed.
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  Arguments:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      text: Input text (string).
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      n: Dimension of the hashing space.
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      filters: Sequence of characters to filter out.
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      lower: Whether to convert the input to lowercase.
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      split: Sentence split marker (string).
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  Returns:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      A list of integer word indices (unicity non-guaranteed).
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  """
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  return hashing_trick(
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      text, n, hash_function=hash, filters=filters, lower=lower, split=split)
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Cholletdef hashing_trick(text,
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet                  n,
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet                  hash_function=None,
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet                  filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet                  lower=True,
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet                  split=' '):
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  """Converts a text to a sequence of indexes in a fixed-size hashing space.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  Arguments:
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      text: Input text (string).
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      n: Dimension of the hashing space.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      hash_function: if `None` uses python `hash` function, can be 'md5' or
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet          any function that takes in input a string and returns a int.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet          Note that `hash` is not a stable hashing function, so
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet          it is not consistent across different runs, while 'md5'
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet          is a stable hashing function.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      filters: Sequence of characters to filter out.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      lower: Whether to convert the input to lowercase.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      split: Sentence split marker (string).
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  Returns:
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet      A list of integer word indices (unicity non-guaranteed).
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  `0` is a reserved index that won't be assigned to any word.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  Two or more words may be assigned to the same index, due to possible
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  collisions by the hashing function.
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  The
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  probability
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  of a collision is in relation to the dimension of the hashing space and
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet  the number of distinct objects.
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  """
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  if hash_function is None:
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet    hash_function = hash
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  elif hash_function == 'md5':
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet    hash_function = lambda w: int(md5(w.encode()).hexdigest(), 16)
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  seq = text_to_word_sequence(text, filters=filters, lower=lower, split=split)
24101b35f3baebbfff3d8057ac223b325bc415ceFrancois Chollet  return [(hash_function(w) % (n - 1) + 1) for w in seq]
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
e99724b78b9f6834b918ae8a599597f863cba8d4Anna R@tf_export('keras.preprocessing.text.Tokenizer')
f49f801276154d0f693c5d57db6977a7eb32f017Francois Cholletclass Tokenizer(object):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  """Text tokenization utility class.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  This class allows to vectorize a text corpus, by turning each
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  text into either a sequence of integers (each integer being the index
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  of a token in a dictionary) or into a vector where the coefficient
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  for each token could be binary, based on word count, based on tf-idf...
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      num_words: the maximum number of words to keep, based
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          on word frequency. Only the most common `num_words` words will
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          be kept.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      filters: a string where each element is a character that will be
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          filtered from the texts. The default is all punctuation, plus
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          tabs and line breaks, minus the `'` character.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      lower: boolean. Whether to convert the texts to lowercase.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      split: character or string to use for token splitting.
d21bf7d7502f447e5f967a479282b32b5845ba8bFrancois Chollet      char_level: if True, every character will be treated as a token.
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      oov_token: if given, it will be added to word_index and used to
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet          replace out-of-vocabulary words during text_to_sequence calls
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  By default, all punctuation is removed, turning the texts into
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  space-separated sequences of words
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  (words maybe include the `'` character). These sequences are then
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  split into lists of tokens. They will then be indexed or vectorized.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  `0` is a reserved index that won't be assigned to any word.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  def __init__(self,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet               num_words=None,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet               filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet               lower=True,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet               split=' ',
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet               char_level=False,
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet               oov_token=None,
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet               **kwargs):
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet    # Legacy support
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet    if 'nb_words' in kwargs:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      logging.warning('The `nb_words` argument in `Tokenizer` '
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet                      'has been renamed `num_words`.')
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      num_words = kwargs.pop('nb_words')
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet    if kwargs:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      raise TypeError('Unrecognized keyword arguments: ' + str(kwargs))
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet
d21bf7d7502f447e5f967a479282b32b5845ba8bFrancois Chollet    self.word_counts = OrderedDict()
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.word_docs = {}
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.filters = filters
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.split = split
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.lower = lower
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.num_words = num_words
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.document_count = 0
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.char_level = char_level
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet    self.oov_token = oov_token
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  def fit_on_texts(self, texts):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """Updates internal vocabulary based on a list of texts.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Required before using `texts_to_sequences` or `texts_to_matrix`.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        texts: can be a list of strings,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            or a generator of strings (for memory-efficiency)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.document_count = 0
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    for text in texts:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      self.document_count += 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      seq = text if self.char_level else text_to_word_sequence(
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          text, self.filters, self.lower, self.split)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      for w in seq:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        if w in self.word_counts:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          self.word_counts[w] += 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          self.word_counts[w] = 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      for w in set(seq):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        if w in self.word_docs:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          self.word_docs[w] += 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          self.word_docs[w] = 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    wcounts = list(self.word_counts.items())
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    wcounts.sort(key=lambda x: x[1], reverse=True)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    sorted_voc = [wc[0] for wc in wcounts]
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    # note that index 0 is reserved, never assigned to an existing word
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.word_index = dict(
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet        list(zip(sorted_voc, list(range(1,
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet                                        len(sorted_voc) + 1)))))
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet    if self.oov_token is not None:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      i = self.word_index.get(self.oov_token)
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet      if i is None:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet        self.word_index[self.oov_token] = len(self.word_index) + 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.index_docs = {}
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    for w, c in list(self.word_docs.items()):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      self.index_docs[self.word_index[w]] = c
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  def fit_on_sequences(self, sequences):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """Updates internal vocabulary based on a list of sequences.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Required before using `sequences_to_matrix`
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    (if `fit_on_texts` was never called).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        sequences: A list of sequence.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            A "sequence" is a list of integer word indices.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.document_count = len(sequences)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    self.index_docs = {}
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    for seq in sequences:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      seq = set(seq)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      for i in seq:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        if i not in self.index_docs:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          self.index_docs[i] = 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          self.index_docs[i] += 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  def texts_to_sequences(self, texts):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """Transforms each text in texts in a sequence of integers.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Only top "num_words" most frequent words will be taken into account.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Only words known by the tokenizer will be taken into account.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        texts: A list of texts (strings).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Returns:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        A list of sequences.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    res = []
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    for vect in self.texts_to_sequences_generator(texts):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      res.append(vect)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    return res
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  def texts_to_sequences_generator(self, texts):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """Transforms each text in texts in a sequence of integers.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Only top "num_words" most frequent words will be taken into account.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Only words known by the tokenizer will be taken into account.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        texts: A list of texts (strings).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Yields:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        Yields individual sequences.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    num_words = self.num_words
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    for text in texts:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      seq = text if self.char_level else text_to_word_sequence(
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          text, self.filters, self.lower, self.split)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      vect = []
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      for w in seq:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        i = self.word_index.get(w)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        if i is not None:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          if num_words and i >= num_words:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            continue
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            vect.append(i)
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet        elif self.oov_token is not None:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet          i = self.word_index.get(self.oov_token)
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet          if i is not None:
0bd0bf02aa15a3238b77053a2f0ad6fe373c7d1cFrancois Chollet            vect.append(i)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      yield vect
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  def texts_to_matrix(self, texts, mode='binary'):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """Convert a list of texts to a Numpy matrix.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        texts: list of strings.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        mode: one of "binary", "count", "tfidf", "freq".
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Returns:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        A Numpy matrix.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    sequences = self.texts_to_sequences(texts)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    return self.sequences_to_matrix(sequences, mode=mode)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet  def sequences_to_matrix(self, sequences, mode='binary'):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """Converts a list of sequences into a Numpy matrix.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Arguments:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        sequences: list of sequences
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            (a sequence is a list of integer word indices).
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        mode: one of "binary", "count", "tfidf", "freq"
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Returns:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        A Numpy matrix.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    Raises:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        ValueError: In case of invalid `mode` argument,
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet            or if the Tokenizer requires to be fit to sample data.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    """
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    if not self.num_words:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      if self.word_index:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        num_words = len(self.word_index) + 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        raise ValueError('Specify a dimension (num_words argument), '
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet                         'or fit on some text data first.')
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      num_words = self.num_words
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    if mode == 'tfidf' and not self.document_count:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      raise ValueError('Fit the Tokenizer on some data '
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet                       'before using tfidf mode.')
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    x = np.zeros((len(sequences), num_words))
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    for i, seq in enumerate(sequences):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      if not seq:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        continue
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      counts = {}
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      for j in seq:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        if j >= num_words:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          continue
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        if j not in counts:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          counts[j] = 1.
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          counts[j] += 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet      for j, c in list(counts.items()):
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        if mode == 'count':
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          x[i][j] = c
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        elif mode == 'freq':
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          x[i][j] = c / len(seq)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        elif mode == 'binary':
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          x[i][j] = 1
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        elif mode == 'tfidf':
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          # Use weighting scheme 2 in
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          # https://en.wikipedia.org/wiki/Tf%E2%80%93idf
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          tf = 1 + np.log(c)
b8b8ebcf851df71ebb5209ae27d75e2befc50f0dFrancois Chollet          idf = np.log(1 + self.document_count /
b8b8ebcf851df71ebb5209ae27d75e2befc50f0dFrancois Chollet                       (1 + self.index_docs.get(j, 0)))
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          x[i][j] = tf * idf
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet        else:
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet          raise ValueError('Unknown vectorization mode:', mode)
f49f801276154d0f693c5d57db6977a7eb32f017Francois Chollet    return x