telemetry/util/statistics.py

a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)# Copyright 2014 The Chromium Authors. All rights reserved.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)# Use of this source code is governed by a BSD-style license that can be
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)# found in the LICENSE file.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)"""A collection of statistical utility functions to be used by metrics."""
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)import math
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)def Clamp(value, low=0.0, high=1.0):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """Clamp a value between some low and high value."""
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return min(max(value, low), high)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)def NormalizeSamples(samples):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """Sorts the samples, and map them linearly to the range [0,1].
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  They're mapped such that for the N samples, the first sample is 0.5/N and the
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  last sample is (N-0.5)/N.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Background: The discrepancy of the sample set i/(N-1); i=0, ..., N-1 is 2/N,
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  twice the discrepancy of the sample set (i+1/2)/N; i=0, ..., N-1. In our case
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  we don't want to distinguish between these two cases, as our original domain
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  is not bounded (it is for Monte Carlo integration, where discrepancy was
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  first used).
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if not samples:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return samples, 1.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  samples = sorted(samples)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  low = min(samples)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  high = max(samples)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  new_low = 0.5 / len(samples)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  new_high = (len(samples)-0.5) / len(samples)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if high-low == 0.0:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    return [0.5] * len(samples), 1.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  scale = (new_high - new_low) / (high - low)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  for i in xrange(0, len(samples)):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    samples[i] = float(samples[i] - low) * scale + new_low
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return samples, scale
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdochdef Discrepancy(samples, location_count=None):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """Computes the discrepancy of a set of 1D samples from the interval [0,1].
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  The samples must be sorted. We define the discrepancy of an empty set
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  of samples to be zero.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  http://en.wikipedia.org/wiki/Low-discrepancy_sequence
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  http://mathworld.wolfram.com/Discrepancy.html
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if not samples:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    return 0.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  max_local_discrepancy = 0
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  inv_sample_count = 1.0 / len(samples)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  locations = []
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  # For each location, stores the number of samples less than that location.
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  count_less = []
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  # For each location, stores the number of samples less than or equal to that
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  # location.
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  count_less_equal = []
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  if location_count:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    # Generate list of equally spaced locations.
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    sample_index = 0
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    for i in xrange(0, int(location_count)):
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      location = float(i) / (location_count-1)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      locations.append(location)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      while sample_index < len(samples) and samples[sample_index] < location:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch        sample_index += 1
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less.append(sample_index)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      while  sample_index < len(samples) and samples[sample_index] <= location:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch        sample_index += 1
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less_equal.append(sample_index)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  else:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    # Populate locations with sample positions. Append 0 and 1 if necessary.
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    if samples[0] > 0.0:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      locations.append(0.0)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less.append(0)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less_equal.append(0)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    for i in xrange(0, len(samples)):
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      locations.append(samples[i])
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less.append(i)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less_equal.append(i+1)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    if samples[-1] < 1.0:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      locations.append(1.0)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less.append(len(samples))
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_less_equal.append(len(samples))
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  # Iterate over the intervals defined by any pair of locations.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  for i in xrange(0, len(locations)):
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    for j in xrange(i+1, len(locations)):
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      # Length of interval
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)      length = locations[j] - locations[i]
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      # Local discrepancy for closed interval
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_closed = count_less_equal[j] - count_less[i]
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      local_discrepancy_closed = abs(float(count_closed) *
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch                                     inv_sample_count - length)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      max_local_discrepancy = max(local_discrepancy_closed,
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch                                  max_local_discrepancy)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      # Local discrepancy for open interval
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      count_open = count_less[j] - count_less_equal[i]
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      local_discrepancy_open = abs(float(count_open) *
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch                                   inv_sample_count - length)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch      max_local_discrepancy = max(local_discrepancy_open,
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch                                  max_local_discrepancy)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return max_local_discrepancy
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)def TimestampsDiscrepancy(timestamps, absolute=True,
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch                          location_count=None):
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """A discrepancy based metric for measuring timestamp jank.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  TimestampsDiscrepancy quantifies the largest area of jank observed in a series
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  of timestamps.  Note that this is different from metrics based on the
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  max_time_interval. For example, the time stamp series A = [0,1,2,3,5,6] and
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  B = [0,1,2,3,5,7] have the same max_time_interval = 2, but
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Discrepancy(B) > Discrepancy(A).
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Two variants of discrepancy can be computed:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Relative discrepancy is following the original definition of
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  discrepancy. It characterized the largest area of jank, relative to the
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  duration of the entire time stamp series.  We normalize the raw results,
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  because the best case discrepancy for a set of N samples is 1/N (for
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  equally spaced samples), and we want our metric to report 0.0 in that
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  case.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Absolute discrepancy also characterizes the largest area of jank, but its
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  value wouldn't change (except for imprecisions due to a low
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  |interval_multiplier|) if additional 'good' intervals were added to an
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  exisiting list of time stamps.  Its range is [0,inf] and the unit is
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  milliseconds.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  The time stamp series C = [0,2,3,4] and D = [0,2,3,4,5] have the same
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  absolute discrepancy, but D has lower relative discrepancy than C.
5d1f7b1de12d16ceb2c938c56701a3e8bfa558f7Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  |timestamps| may be a list of lists S = [S_1, S_2, ..., S_N], where each
5d1f7b1de12d16ceb2c938c56701a3e8bfa558f7Torne (Richard Coles)  S_i is a time stamp series. In that case, the discrepancy D(S) is:
5d1f7b1de12d16ceb2c938c56701a3e8bfa558f7Torne (Richard Coles)  D(S) = max(D(S_1), D(S_2), ..., D(S_N))
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  if not timestamps:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    return 0.0
5d1f7b1de12d16ceb2c938c56701a3e8bfa558f7Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  if isinstance(timestamps[0], list):
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    range_discrepancies = [TimestampsDiscrepancy(r) for r in timestamps]
5d1f7b1de12d16ceb2c938c56701a3e8bfa558f7Torne (Richard Coles)    return max(range_discrepancies)
5d1f7b1de12d16ceb2c938c56701a3e8bfa558f7Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  samples, sample_scale = NormalizeSamples(timestamps)
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  discrepancy = Discrepancy(samples, location_count)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  inv_sample_count = 1.0 / len(samples)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if absolute:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    # Compute absolute discrepancy
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    discrepancy /= sample_scale
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  else:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    # Compute relative discrepancy
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    discrepancy = Clamp((discrepancy-inv_sample_count) / (1.0-inv_sample_count))
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return discrepancy
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)def DurationsDiscrepancy(durations, absolute=True,
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch                         location_count=None):
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """A discrepancy based metric for measuring duration jank.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  DurationsDiscrepancy computes a jank metric which measures how irregular a
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  given sequence of intervals is. In order to minimize jank, each duration
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  should be equally long. This is similar to how timestamp jank works,
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  and we therefore reuse the timestamp discrepancy function above to compute a
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  similar duration discrepancy number.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  Because timestamp discrepancy is defined in terms of timestamps, we first
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  convert the list of durations to monotonically increasing timestamps.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  Args:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    durations: List of interval lengths in milliseconds.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    absolute: See TimestampsDiscrepancy.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    interval_multiplier: See TimestampsDiscrepancy.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  if not durations:
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch    return 0.0
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  timestamps = reduce(lambda x, y: x + [x[-1] + y], durations, [0])
e5d81f57cb97b3b6b7fccc9c5610d21eb81db09dBen Murdoch  return TimestampsDiscrepancy(timestamps, absolute, location_count)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)def ArithmeticMean(data):
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """Calculates arithmetic mean.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Args:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    data: A list of samples.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Returns:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    The arithmetic mean value, or 0 if the list is empty.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  numerator_total = Total(data)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  denominator_total = Total(len(data))
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return DivideIfPossibleOrZero(numerator_total, denominator_total)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)def StandardDeviation(data):
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """Calculates the standard deviation.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  Args:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    data: A list of samples.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  Returns:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    The standard deviation of the samples provided.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  if len(data) == 1:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    return 0.0
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  mean = ArithmeticMean(data)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  variances = [float(x) - mean for x in data]
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  variances = [x * x for x in variances]
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  std_dev = math.sqrt(ArithmeticMean(variances))
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  return std_dev
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)def TrapezoidalRule(data, dx):
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """ Calculate the integral according to the trapezoidal rule
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  TrapezoidalRule approximates the definite integral of f from a to b by
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  the composite trapezoidal rule, using n subintervals.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  http://en.wikipedia.org/wiki/Trapezoidal_rule#Uniform_grid
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  Args:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    data: A list of samples
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    dx: The uniform distance along the x axis between any two samples
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  Returns:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    The area under the curve defined by the samples and the uniform distance
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    according to the trapezoidal rule.
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  """
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  n = len(data) - 1
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  s = data[0] + data[n]
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  if n == 0:
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    return 0.0
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  for i in range(1, n):
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)    s += 2 * data[i]
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)  return s * dx / 2.0
a1401311d1ab56c4ed0a474bd38c108f75cb0cd9Torne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)def Total(data):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """Returns the float value of a number or the sum of a list."""
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if type(data) == float:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    total = data
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  elif type(data) == int:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    total = float(data)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  elif type(data) == list:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    total = float(sum(data))
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  else:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    raise TypeError
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return total
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)def DivideIfPossibleOrZero(numerator, denominator):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """Returns the quotient, or zero if the denominator is zero."""
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if not denominator:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return 0.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  else:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return numerator / denominator
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)def GeneralizedMean(values, exponent):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """See http://en.wikipedia.org/wiki/Generalized_mean"""
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if not values:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return 0.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  sum_of_powers = 0.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  for v in values:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    sum_of_powers += v ** exponent
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return (sum_of_powers / len(values)) ** (1.0/exponent)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)def Median(values):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """Gets the median of a list of values."""
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  return Percentile(values, 50)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)def Percentile(values, percentile):
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """Calculates the value below which a given percentage of values fall.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  For example, if 17% of the values are less than 5.0, then 5.0 is the 17th
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  percentile for this set of values. When the percentage doesn't exactly
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  match a rank in the list of values, the percentile is computed using linear
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  interpolation between closest ranks.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Args:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    values: A list of numerical values.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    percentile: A number between 0 and 100.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  Returns:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    The Nth percentile for the list of values, where N is the given percentage.
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  """
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if not values:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return 0.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  sorted_values = sorted(values)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  n = len(values)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  percentile /= 100.0
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  if percentile <= 0.5 / n:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return sorted_values[0]
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  elif percentile >= (n - 0.5) / n:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return sorted_values[-1]
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)  else:
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    floor_index = int(math.floor(n * percentile -  0.5))
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    floor_value = sorted_values[floor_index]
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    ceil_value = sorted_values[floor_index+1]
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    alpha = n * percentile - 0.5 - floor_index
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)    return floor_value + alpha * (ceil_value - floor_value)
4e180b6a0b4720a9b8e9e959a882386f690f08ffTorne (Richard Coles)
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)def GeometricMean(values):
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  """Compute a rounded geometric mean from an array of values."""
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  if not values:
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)    return None
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  # To avoid infinite value errors, make sure no value is less than 0.001.
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  new_values = []
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  for value in values:
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)    if value > 0.001:
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)      new_values.append(value)
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)    else:
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)      new_values.append(0.001)
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  # Compute the sum of the log of the values.
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  log_sum = sum(map(math.log, new_values))
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  # Raise e to that sum over the number of values.
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  mean = math.pow(math.e, (log_sum / len(new_values)))
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  # Return the rounded mean.
f2477e01787aa58f445919b809d89e252beef54fTorne (Richard Coles)  return int(round(mean))