repo/traffic-intelligence: python/utils.py comparison

comparison python/utils.py @ 749:10dbab1e871d dev

modifications in samples and distributions

author	Nicolas Saunier <nicolas.saunier@polymtl.ca>
date	Tue, 20 Oct 2015 00:03:25 -0400
parents	fe71639f1ee7
children	e01cabca4c55

comparison

equal deleted inserted replaced

-:d45ab817ee11
+:10dbab1e871d
 result = 0.
 for e, o in zip(expected, observed):
 result += ((e-o)*(e-o))/e
 return result
-class EmpiricalDistribution(object):
+class DistributionSample(object):
 def nSamples(self):
 return sum(self.counts)
 def cumulativeDensityFunction(sample, normalized = False):
 '''Returns the cumulative density function of the sample of a random variable'''
 counts = arange(1,len(sample)+1) # dtype = float
 if normalized:
 counts /= float(len(sample))
 return xaxis, counts
-class EmpiricalDiscreteDistribution(EmpiricalDistribution):
+class DiscreteDistributionSample(DistributionSample):
-'''Class to represent a sample of a distribution for a discrete random variable
+'''Class to represent a sample of a distribution for a discrete random variable'''
-'''
 def __init__(self, categories, counts):
 self.categories = categories
 self.counts = counts
 def mean(self):
 refProba = [probability(c) for c in self.categories]
 refProba[-1] = 1-npsum(refProba[:-1])
 refCounts = [r*self.nSamples() for r in refProba]
 return refCounts, refProba
-class EmpiricalContinuousDistribution(EmpiricalDistribution):
+class ContinuousDistributionSample(DistributionSample):
 '''Class to represent a sample of a distribution for a continuous random variable
 with the number of observations for each interval
 intervals (categories variable) are defined by their left limits, the last one being the right limit
 categories contain therefore one more element than the counts'''
 def __init__(self, categories, counts):
 # todo add samples for initialization and everything to None? (or setSamples?)
 self.categories = categories
 self.counts = counts
+@staticmethod
+def generate(sample, categories):
+if min(sample) < min(categories):
+print('Sample has lower min than proposed categories ({}, {})'.format(min(sample), min(categories)))
+if max(sample) > max(categories):
+print('Sample has higher max than proposed categories ({}, {})'.format(max(sample), max(categories)))
+dist = ContinuousDistributionSample(sorted(categories), [0]*(len(categories)-1))
+for s in sample:
+i = 0
+while  i<len(dist.categories) and dist.categories[i] <= s:
+i += 1
+if i <= len(dist.counts):
+dist.counts[i-1] += 1
+#print('{} in {} {}'.format(s, dist.categories[i-1], dist.categories[i]))
+else:
+print('Element {} is not in the categories'.format(s))
+return dist
 def mean(self):
 result = 0.
 for i in range(len(self.counts)-1):
 result += self.counts[i]*(self.categories[i]+self.categories[i+1])/2

Mercurial Hosting > traffic-intelligence

comparison python/utils.py @ 749:10dbab1e871d dev