repo/traffic-intelligence: python/ml.py comparison

comparison python/ml.py @ 907:9fd7b18f75b4

re arranged motion pattern learning

author	Nicolas Saunier <nicolas.saunier@polymtl.ca>
date	Fri, 23 Jun 2017 23:50:02 -0400
parents	8e8ec4ece66e
children	b297525b2cbf

comparison

equal deleted inserted replaced

-:a57e6fbcd8e3
+:9fd7b18f75b4
 return centroids
 # TODO recompute centroids for each cluster: instance that minimizes some measure to all other elements
 def spectralClustering(similarityMatrix, k, iter=20):
-	'''Spectral Clustering algorithm'''
+'''Spectral Clustering algorithm'''
-	n = len(similarityMatrix)
+n = len(similarityMatrix)
-	# create Laplacian matrix
+# create Laplacian matrix
-	rowsum = np.sum(similarityMatrix,axis=0)
+rowsum = np.sum(similarityMatrix,axis=0)
-	D = np.diag(1 / np.sqrt(rowsum))
+D = np.diag(1 / np.sqrt(rowsum))
-	I = np.identity(n)
+I = np.identity(n)
-	L = I - np.dot(D,np.dot(similarityMatrix,D))
+L = I - np.dot(D,np.dot(similarityMatrix,D))
-	# compute eigenvectors of L
+# compute eigenvectors of L
-	U,sigma,V = np.linalg.svd(L)
+U,sigma,V = np.linalg.svd(L)
-	# create feature vector from k first eigenvectors
+# create feature vector from k first eigenvectors
-	# by stacking eigenvectors as columns
+# by stacking eigenvectors as columns
-	features = np.array(V[:k]).T
+features = np.array(V[:k]).T
-	# k-means
+# k-means
-	features = whiten(features)
+features = whiten(features)
-	centroids,distortion = kmeans(features,k, iter)
+centroids,distortion = kmeans(features,k, iter)
-	code,distance = vq(features,centroids) # code starting from 0 (represent first cluster) to k-1 (last cluster)
+code,distance = vq(features,centroids) # code starting from 0 (represent first cluster) to k-1 (last cluster)
-	return code,sigma
+return code,sigma
-def prototypeCluster(instances, similarities, minSimilarity, similarityFunc = None, minClusterSize = None, randomInitialization = False):
+def assignToPrototypeClusters(instances, prototypeIndices, similarities, minSimilarity, similarityFunc = None, minClusterSize = None):
-'''Finds exemplar (prototype) instance that represent each cluster
+'''Assigns instances to prototypes
-Returns the prototype indices (in the instances list) and the cluster label of each instance
-the elements in the instances list must have a length (method __len__), or one can use the random initialization
-the positions in the instances list corresponds to the similarities
-if similarityFunc is provided, the similarities are calculated as needed (this is faster) if not in similarities (negative if not computed)
-similarities must still be allocated with the right size
-if an instance is different enough (<minSimilarity),
-it will become a new prototype.
-Non-prototype instances will be assigned to an existing prototype
 if minClusterSize is not None, the clusters will be refined by removing iteratively the smallest clusters
-and reassigning all elements in the cluster until no cluster is smaller than minClusterSize
+and reassigning all elements in the cluster until no cluster is smaller than minClusterSize'''
+indices = [i for i in range(len(instances)) if i not in prototypeIndices]
-TODO: at each step, optimize the prototype as the most similar in its current cluster (can be done easily if similarities are already computed)'''
+labels = [-1]*len(instances)
-# sort instances based on length
-if len(instances) == 0:
-print('no instances to cluster (empty list)')
-return None
-indices = range(len(instances))
-if randomInitialization:
-indices = np.random.permutation(indices)
-else:
-def compare(i, j):
-if len(instances[i]) > len(instances[j]):
-return -1
-elif len(instances[i]) == len(instances[j]):
-return 0
-else:
-return 1
-indices.sort(compare)
-# go through all instances
-prototypeIndices = [indices[0]]
-for i in indices[1:]:
-if similarityFunc is not None:
-for j in prototypeIndices:
-if similarities[i][j] < 0:
-similarities[i][j] = similarityFunc(instances[i], instances[j])
-similarities[j][i] = similarities[i][j]
-if similarities[i][prototypeIndices].max() < minSimilarity:
-prototypeIndices.append(i)
-elif randomInitialization: # replace prototype by current instance i if longer
-label = similarities[i][prototypeIndices].argmax()
-if len(instances[prototypeIndices[label]]) < len(instances[i]):
-prototypeIndices[label] = i
-# assignment
-indices = [i for i in range(similarities.shape[0]) if i not in prototypeIndices]
 assign = True
 while assign:
-labels = [-1]*similarities.shape[0]
 for i in prototypeIndices:
 labels[i] = i
 for i in indices:
 if similarityFunc is not None:
 for j in prototypeIndices:
 clusterSizes = {i: sum(np.array(labels) == i) for i in prototypeIndices}
 smallestClusterIndex = min(clusterSizes, key = clusterSizes.get)
 assign = (clusterSizes[smallestClusterIndex] < minClusterSize)
 if assign:
 prototypeIndices.remove(smallestClusterIndex)
-indices.append(smallestClusterIndex)
+indices = [i for i in range(similarities.shape[0]) if labels[i] == smallestClusterIndex]
 return prototypeIndices, labels
+def prototypeCluster(instances, similarities, minSimilarity, similarityFunc = None, minClusterSize = 0, randomInitialization = False, assign = True, initialPrototypeIndices = None):
+'''Finds exemplar (prototype) instance that represent each cluster
+Returns the prototype indices (in the instances list) and the cluster label of each instance
+the elements in the instances list must have a length (method __len__), or one can use the random initialization
+the positions in the instances list corresponds to the similarities
+if similarityFunc is provided, the similarities are calculated as needed (this is faster) if not in similarities (negative if not computed)
+similarities must still be allocated with the right size
+if an instance is different enough (<minSimilarity),
+it will become a new prototype.
+Non-prototype instances will be assigned to an existing prototype
+TODO: at each step, optimize the prototype as the most similar in its current cluster (can be done easily if similarities are already computed)'''
+# sort instances based on length
+if len(instances) == 0:
+print('no instances to cluster (empty list)')
+return None
+indices = range(len(instances))
+if randomInitialization:
+indices = np.random.permutation(indices)
+else:
+def compare(i, j):
+if len(instances[i]) > len(instances[j]):
+return -1
+elif len(instances[i]) == len(instances[j]):
+return 0
+else:
+return 1
+indices.sort(compare)
+# go through all instances
+if initialPrototypeIndices is None:
+prototypeIndices = [indices[0]]
+else:
+prototypeIndices = initialPrototypeIndices
+for i in indices[1:]:
+if similarityFunc is not None:
+for j in prototypeIndices:
+if similarities[i][j] < 0:
+similarities[i][j] = similarityFunc(instances[i], instances[j])
+similarities[j][i] = similarities[i][j]
+if similarities[i][prototypeIndices].max() < minSimilarity:
+prototypeIndices.append(i)
+elif randomInitialization: # replace prototype by current instance i if longer
+label = similarities[i][prototypeIndices].argmax()
+if len(instances[prototypeIndices[label]]) < len(instances[i]):
+prototypeIndices[label] = i
+if assign:
+return assignToPrototypeClusters(instances, prototypeIndices, similarities, minSimilarity, similarityFunc, minClusterSize)
+else:
+return prototypeIndices, None
 def computeClusterSizes(labels, prototypeIndices, outlierIndex = -1):
 clusterSizes = {i: sum(np.array(labels) == i) for i in prototypeIndices}
 clusterSizes['outlier'] = sum(np.array(labels) == outlierIndex)
 return clusterSizes
 # Plot an ellipse to show the Gaussian component
 v, w = np.linalg.eigh(covariance)
 angle = np.arctan2(w[0][1], w[0][0])
 angle = 180*angle/np.pi  # convert to degrees
-	v *= 4
+v *= 4
 ell = mpl.patches.Ellipse(mean, v[0], v[1], 180+angle, color=colors[i])
 ell.set_clip_box(fig.bbox)
 ell.set_alpha(alpha)
 fig.axes[0].add_artist(ell)
 return labels

Mercurial Hosting > traffic-intelligence

comparison python/ml.py @ 907:9fd7b18f75b4