repo/traffic-intelligence: python/ml.py comparison

comparison python/ml.py @ 908:b297525b2cbf

added options to the prototype cluster algorithm, work in progress

author	Nicolas Saunier <nicolas.saunier@polymtl.ca>
date	Mon, 26 Jun 2017 00:10:35 -0400
parents	9fd7b18f75b4
children	1cd878812529

comparison

equal deleted inserted replaced

-:9fd7b18f75b4
+:b297525b2cbf
 # k-means
 features = whiten(features)
 centroids,distortion = kmeans(features,k, iter)
 code,distance = vq(features,centroids) # code starting from 0 (represent first cluster) to k-1 (last cluster)
 return code,sigma
+class Cluster:
+'Represents a cluster, with a prototype id and the list of instances in cluster'
+def __init__(prototypeId, memberIndices = []):
+self.prototypeId = prototypeId
+self.memberIndices = memberIndices
 def assignToPrototypeClusters(instances, prototypeIndices, similarities, minSimilarity, similarityFunc = None, minClusterSize = None):
 '''Assigns instances to prototypes
 if minClusterSize is not None, the clusters will be refined by removing iteratively the smallest clusters
 and reassigning all elements in the cluster until no cluster is smaller than minClusterSize'''
 if assign:
 prototypeIndices.remove(smallestClusterIndex)
 indices = [i for i in range(similarities.shape[0]) if labels[i] == smallestClusterIndex]
 return prototypeIndices, labels
-def prototypeCluster(instances, similarities, minSimilarity, similarityFunc = None, minClusterSize = 0, randomInitialization = False, assign = True, initialPrototypeIndices = None):
+def prototypeCluster(instances, similarities, minSimilarity, similarityFunc = None, minClusterSize = 0, optimizeCentroid = True, randomInitialization = False, assign = True, initialPrototypeIndices = None):
 '''Finds exemplar (prototype) instance that represent each cluster
 Returns the prototype indices (in the instances list) and the cluster label of each instance
 the elements in the instances list must have a length (method __len__), or one can use the random initialization
 the positions in the instances list corresponds to the similarities
 if an instance is different enough (<minSimilarity),
 it will become a new prototype.
 Non-prototype instances will be assigned to an existing prototype
-TODO: at each step, optimize the prototype as the most similar in its current cluster (can be done easily if similarities are already computed)'''
+if optimizeCentroid is True, each time an element is added, we recompute the centroid trajectory as the most similar to all in the cluster
-# sort instances based on length
+TODO: check how similarity evolves in clusters'''
 if len(instances) == 0:
 print('no instances to cluster (empty list)')
 return None
+if similarityFunc is None:
+print('similarityFunc is None')
+return None
+# sort instances based on length
 indices = range(len(instances))
-if randomInitialization:
+if randomInitialization or optimizeCentroid:
 indices = np.random.permutation(indices)
 else:
 def compare(i, j):
 if len(instances[i]) > len(instances[j]):
 return -1
 return 0
 else:
 return 1
 indices.sort(compare)
 # go through all instances
+clusters = []
 if initialPrototypeIndices is None:
 prototypeIndices = [indices[0]]
 else:
-prototypeIndices = initialPrototypeIndices
+prototypeIndices = initialPrototypeIndices # think of the format: if indices, have to be in instances
+for i in prototypeIndices:
+clusters.append([i])
 for i in indices[1:]:
-if similarityFunc is not None:
+for j in prototypeIndices:
-for j in prototypeIndices:
+if similarities[i][j] < 0:
-if similarities[i][j] < 0:
+similarities[i][j] = similarityFunc(instances[i], instances[j])
-similarities[i][j] = similarityFunc(instances[i], instances[j])
+similarities[j][i] = similarities[i][j]
-similarities[j][i] = similarities[i][j]
+label = similarities[i][prototypeIndices].argmax()
-if similarities[i][prototypeIndices].max() < minSimilarity:
+if similarities[i][prototypeIndices[label]] < minSimilarity:
 prototypeIndices.append(i)
-elif randomInitialization: # replace prototype by current instance i if longer
+clusters.append([])
-label = similarities[i][prototypeIndices].argmax()
+else:
-if len(instances[prototypeIndices[label]]) < len(instances[i]):
+clusters[label].append(i)
-prototypeIndices[label] = i
+if optimizeCentroid:
+if len(clusters[label]) >= 2: # no point if only one element in cluster
+for j in clusters[label][:-1]:
+if similarities[i][j] < 0:
+similarities[i][j] = similarityFunc(instances[i], instances[j])
+similarities[j][i] = similarities[i][j]
+clusterIndices = clusters[label]
+clusterSimilarities = similarities[clusterIndices][:,clusterIndices]
+newCentroidIdx = clusterIndices[clusterSimilarities.sum(0).argmax()]
+if prototypeIndices[label] != newCentroidIdx:
+prototypeIndices[label] = newCentroidIdx
+elif randomInitialization: # replace prototype by current instance i if longer
+if len(instances[prototypeIndices[label]]) < len(instances[i]):
+prototypeIndices[label] = i
 if assign:
 return assignToPrototypeClusters(instances, prototypeIndices, similarities, minSimilarity, similarityFunc, minClusterSize)
 else:
 return prototypeIndices, None
 def computeClusterSizes(labels, prototypeIndices, outlierIndex = -1):
 clusterSizes = {i: sum(np.array(labels) == i) for i in prototypeIndices}
 clusterSizes['outlier'] = sum(np.array(labels) == outlierIndex)
 return clusterSizes
+def computeClusterStatistics(labels, prototypeIndices, instances, similarities, similarityFunc, clusters = None, outlierIndex = -1):
+if clusters is None:
+clusters = {protoId:[] for protoId in prototypeIndices+[-1]}
+for i,l in enumerate(labels):
+clusters[l].append(i)
+clusters = [clusters[protoId] for protoId in prototypeIndices]
+for i, cluster in enumerate(clusters):
+n = len(cluster)
+print('cluster {}: {} elements'.format(prototypeIndices[i], n))
+if n >=2:
+for j,k in enumerate(cluster):
+for l in cluster[:j]:
+if similarities[k][l] < 0:
+similarities[k][l] = similarityFunc(instances[k], instances[l])
+similarities[l][k] = similarities[k][l]
+print('Mean similarity to prototype: {}'.format((similarities[prototypeIndices[i]][cluster].sum()+1)/(n-1)))
+print('Mean overall similarity: {}'.format((similarities[cluster][:,cluster].sum()+n)/(n*(n-1))))
 # Gaussian Mixture Models
 def plotGMMClusters(model, dataset = None, fig = None, colors = utils.colors, nUnitsPerPixel = 1., alpha = 0.3):
 '''plot the ellipse corresponding to the Gaussians
 and the predicted classes of the instances in the dataset'''
 if fig is None:

Mercurial Hosting > traffic-intelligence

comparison python/ml.py @ 908:b297525b2cbf