SlideShare a Scribd company logo
1 of 27
A General Multiobjective Clustering Approach Based on Multiple
Distance Measure
Mehran Mesbahzade
May 2019 1
CONG LIU, JIE LIU, DUNLU PENG AND CHUNXUE WU
School of Optical-Electrical and Computer Engineering,
University of Shanghai for Science and Technology
https://ieeexplore.ieee.org/document/8421571/
 Introduction
 MULTIPLE DISTANCE MEASURE FRAMEWORK
 DISTANCE MATRICES DEFINITION
 MOECDM
 MOEACDM
 PROCEDURE OF MOECDM (OR MOEACDM) ALGORITHM
 EXPERIMENTS OF MOECDM
 DISCUSSION AND CONCLUSIONS
Highlights
2
Clustering analysis is an unsupervised learning approach that can find underlying substructures in a group of unlabeled
data points. And as an active subject, it is widely used in various research fields, such as data mining , pattern recognition,
image segmentation and computer vision. The task of clustering is to partition a dataset into many subgroups such that
objects within a group have a high similarity and objects belonging to different groups have a low similarity. A variety of
clustering methods have been developed for different goals and applications in specific areas. Partitioning clustering,
hierarchical clustering and density clustering are three most popular clustering techniques recently.
1.Introduction
3
In this section, we will describe the details of the two proposed multiple distance clustering methods, MOECDM and
MOEACDM. First of all, an appropriate multiobjective evolutionary algorithm should be designed. We apply NSGA-II
to play this role in our methods due to its fast nondominated sorting mechanism, and a series of changes are
applied to enable this algorithm to cope better with multiple distance clustering. NSGA-II is a well known
multiobjective evolutionary algorithm, and the other multiobjective evolutionary algorithms also can be considered
in here. Secondly, we need to get the distance matrices by using different distance measures, and each matrix
contains the relationship of each pair of objects in a specific distance space. And then the details of MOECDM can be
introduced, it can partition a dataset in different distance spaces at the same time.
2. MULTIPLE DISTANCE MEASURE FRAMEWORK
4
Let X = {x1, x2, · · · , xn} be a set of n data objects, where xi = (xi,1, xi,2, · · · , xi,h) ∈ Rh is a h-dimensional point in the continuous
feature space. DM is the distance matrix, and dij is the distance between xi and xj . Many distance measures can be applied
in here such as Euclidean distance, Path distance, Manifold distance and so on.
Next, we will split the DM instead of original dataset. The smaller of dij is, the closer between data xi and data xj. Suppose
that we shall divide the dataset X into k clusters C1, C2, · · · , Ck and |Ci| represents the number of data points in cluster Ci.
• Euclidean distance
• Path distance
The Path distance between a pair of points is defined as the minimum value of the maximum gap in any path which links
the pair of the points. Πi,j = {π|π = π0π1 · · · πk, 1 ≤ πs ≤ n, π0 = i, πk = j} denote all the possible paths which link xi and xj. The
Path distance between xi and xj is mathematically defined as
A. DISTANCE MATRICES DEFINITION
5
The Euclidean distance matrix DM1 and the Path distance matrix DM2 are defined as Equation 3.
A. DISTANCE MATRICES DEFINITION
6
1) Representation and Initialization
In this scheme, each individual r consists of n genes r = {r1, r2, ..., rn} and the value of each gene ri is an integer, which
represents the data object xi will be assigned to the rith cluster. The range of ri falls into {1, ..., k}, where k is the cluster number.
All of the data objects having the same cluster label are then assigned to the same cluster. The label encoding scheme has a
major limitation that is it is usually time-consuming owing to the large-sized genes. To alleviate this limitation and to make
the individuals have a higher probability to lie in the promising search space, in this section, we apply three strategies to
produce the initial population P(0) = {r1(0), ..., rpop(0)}, where rl(0) represents the lth individual in the initial population and the
pop represents the population size. One of these strategies is to generate individuals at random, another strategy is to
generate individuals by NCUT pre-clustering based on Euclidean distance and the last one is to generate individuals by NCUT
pre-clustering based on Path distance.
The number of individuals generated by different strategies are adjusted by three parameters, pop_α1, pop_α2, pop_α3.
pop_α1 ∗ pop, pop_α2 ∗ pop and pop_α3 ∗ pop individuals are generated by the three strategies respectively.
B. MOECDM
7
B. MOECDM
8
The procedure of the initialization scheme can be seen in
Algorithm 1. Through this scheme, a set of individuals with two
distance measures characteristic have been generated in a
single run of MOECDM.
B. MOECDM
9
2) Objective Functions Designing
In this section, we propose a new multiobjective combination strategy, and two objective functions are designed in two
different distance spaces and optimized simultaneously by a multiobjective evolutionary algorithm.
It is well known that, the main rule of clustering is to minimize the compactness of each cluster, which is usually computed
by the distance between objects and either cluster’s centroids or medoids. However, the centroid of each cluster with
irregular structure is invalid and the medoid is hard to get by using many existing encoding schemes in evolutionary
algorithm. Therefore, in here, the objective functions will be established by minimizing the distance of each pair of objects
in the same cluster, and they can be written as Equation 4.
where d1
xy and d2
xy represent the two distance between object x and y respectively. The clustering results will be obtained by
minimizing JF1 and JF2 simultaneously.
B. MOECDM
10
3) Crossover Operator
In this subsection, each of individuals will be chosen to cross with a crossover individual in
a certain probability pc. We use two strategies to select the crossover individual. The first
is to select it from all of the current individuals, and the second is to select it from the
nondominated individuals. It is noted that, only one strategy can be used in once
crossover procedure. The first strategy can enhance the diversity of the new population
and the second strategy can push the population quickly towards the global optima. In
each generation, which strategy can be selected depending on a parameter, pc_α(g),
which is varied with the number of generation(g) and can be computed by Equation 5.
From this formula we can see that, the value of pc_α(g) decreases in the range between
[1, exp(1 − max_g)] as g increases. The details of the crossover operator are shown in
Algorithm 2.
B. MOECDM
11
4) Mutation Operator
The mutation operator is implemented after crossover operator. This operator can
be used to increase the diversity of population. According to the analysis above, the
value of each gene rcj
l(g + 1) is an integer from {1, ..., k}, which needs to be changed
with a probability pm. In this procedure, we also design two strategies to choose.
The one is to change rcj
l(g + 1) into another integer from
{1, ...rcj
l(g + 1) − 1, rcj
l(g + 1) + 1, ..., k} with a probability
1
𝐾−1
and the other is to
change it into rcj
best, which is the best individual evaluated till the current generation.
pm_α(g) is the selection parameter that determines which strategy can be chosen
and can be computed by Equation 6. The procedure of the mutation operator can
be seen in Algorithm 3.
B. MOECDM
12
5) Selection Operator
After mutation operator, two set of populations, current population P(g) = {r1(g), ..., rpop(g)} and the mutation population
Pm(g + 1) = {rm1(g + 1), ..., rmpop(g + 1)}, can be obtained. To keep the population size is equal with the subsequent
generations and ensure favorable solutions are preserved, a selection operator needs to be executed to preserve
individuals with high fitness and to eliminate individuals with low fitness. MOECDM employs the selection operator
proposed in NSGA-II to achieve this goal. In this selection operator, all of the individuals (P(g)∪Pm(g+1)) can be ranked
based on a nondominated sorting and a crowding distance estimation procedure, which is a measure that can
differentiate the importance of the individuals that have the same rank. The low-ranking and low-crowding individuals can
be selected at first. Though selection, the next generation population P(g + 1) = {r1(g + 1), ..., rpop(g + 1)} can be obtained.
C. MOEACDM
13
It is important to stress that the MOECDM makes sense when the number of cluster k is fixed. However, that does not hold
when k is variable. Indeed, it is straightforward to see that one can minimize the JF1 and JF2 by increasing the k, the
two functions will equal to zero in the limit case. The representation, crossover operator, mutation operator, selection
operator are similar as those in MOECDM.
1) Representation and Initialization
A slight difference between MOEACDM and MOECDM in representation is
the range of each gene is {1, ..., k} in MOECDM and that is {1, ..., kmax} in MOEACDM,
where kmax represents the maximum cluster number expected. Unlike MOECDM,
the best k∗ in MOEACDM is unknown.
Hence, the initial population will be generated by NCUT pre-clustering not
only with different distance measures but also with different cluster numbers.
The procedure of initialization for the MOEACDM is shown in Algorithm 4.
C. MOEACDM
14
2) Objective Functions Designing
In many literatures, validity index is widely used strategy that can detect the desirable cluster number by
looking for a balance between the compactness for each cluster and the separation between each pair of clusters.
The majority of the existing validity indices are inapplicable in here, similar with the analysis above, most of them are
designed based on Euclidean distance. We will try to design a new objective functions combination, each objective function
in which is based on a specific distance measure. Moreover, each objective function also requires to consider the balance of
compactness and separation in order to detect desirable cluster number automatically. Our inspiration comes from
Modularity method, which is a typical method used to detect network structures by the relationship of each pair of nodes.
where the definitions of d1
xy and d2
xy are the same as those in the previous section.
D. PROCEDURE OF
MOECDM (OR MOEACDM)
ALGORITHM
15
The detailed procedures of the
MOECDM (MOEACDM) algorithm
are as described in Figure 1:
‫اول‬ ‫بخش‬:‫و‬ ‫ها‬ ‫داده‬ ‫ورودی‬
‫پارامترها‬
‫تکاملی‬ ‫پارامترهای‬:‫جمعیت‬ ‫اندازه‬
pop‫نسل‬ ‫تعداد‬ ‫حداکثر‬max_g،
‫اندازی‬ ‫راه‬ ‫پارامترهای‬pop_α1،
pop_α2‫و‬pop_α3،‫پارامترهای‬
crossoverpc‫و‬pc_α،
‫جهش‬ ‫پارامترهای‬pm‫و‬pm_α،
g = 0
‫اولیه‬ ‫جمعیت‬ ‫ایجاد‬P (0)‫با‬
‫از‬ ‫استفاده‬‫الگوریتم‬1‫برای‬
MOECDM‫یا‬‫الگوریتم‬4‫برای‬
MOEACDM
‫دوم‬ ‫بخش‬:‫سازی‬ ‫آماده‬
‫سوم‬ ‫بخش‬:‫اپراتورهای‬‫تکامل‬‫ی‬
‫سازی‬ ‫مرتب‬‫نامغلوب‬:
‫سازی‬ ‫مرتب‬‫نامغلوب‬‫روی‬ ‫بر‬ ‫را‬
‫ب‬ ‫را‬ ‫رتبه‬ ‫و‬ ‫دهد‬ ‫می‬ ‫انجام‬ ‫جمعیت‬‫ه‬
‫دهد‬ ‫می‬ ‫اختصاص‬ ‫فرد‬ ‫هر‬.‫فاصل‬‫ه‬
‫دست‬ ‫به‬ ‫مورد‬ ‫هر‬ ‫برای‬ ‫را‬ ‫ازدحام‬
‫آورد‬ ‫می‬.
‫جمعی‬ ‫ایجاد‬ ‫برای‬ ‫جمعیت‬ ‫انتخاب‬‫ت‬
‫بعدی‬P (g + 1)‫طرح‬ ‫توسط‬
‫سازی‬ ‫مرتب‬‫نامغلوب‬‫ف‬ ‫طرح‬ ‫و‬‫اصله‬
‫ازدحام‬
‫سازی‬ ‫مرتب‬‫نامغلوب‬:‫مرت‬ ‫انجام‬‫ب‬
‫سازی‬‫نامغلوب‬‫جمعیت‬ ‫روی‬ ‫بر‬
‫ح‬ ‫راه‬ ‫آوردن‬ ‫دست‬ ‫به‬ ‫برای‬ ‫نهایی‬‫ل‬
‫جبهه‬‫پارتو‬
‫بندی‬ ‫خوشه‬ ‫پارامترهای‬:
‫شماره‬ ‫خوشه‬k‫برای‬MOECDM‫یا‬
‫شماره‬ ‫خوشه‬ ‫باال‬ ‫مرز‬ ‫حداکثر‬
k_max‫برای‬MOEACDM
‫ماتریس‬‫فاصله‬‫اقلیدسی‬DM1‫و‬
‫ماتریس‬‫مسیر‬ ‫فاصله‬DM2‫را‬
‫کند‬ ‫می‬ ‫محاسبه‬.
،J1 ‫و‬ J2 ‫هر‬ ‫برای‬ ‫را‬ ‫هدف‬ ‫تابع‬
‫می‬ ‫محاسبه‬ ‫اولیه‬ ‫جمعیت‬ ‫در‬ ‫مورد‬ ‫دو‬
‫کند‬.
‫چهارم‬ ‫بخش‬:‫بند‬ ‫خوشه‬ ‫نتایج‬‫ی‬
‫جبهه‬‫پارتو‬‫می‬ ‫انتخاب‬ ‫را‬ ‫نهایی‬‫کند‬
‫ا‬ ‫را‬ ‫بندی‬ ‫خوشه‬ ‫نتایج‬ ‫بهترین‬‫نتخاب‬
‫گیرد‬ ‫می‬ ‫خروجی‬ ‫و‬ ‫کند‬.
III. EXPERIMENTS OF MOECDM
16
A. DATASETS USED
In order to show the advantage of MOECDM for discovering different structures, we apply sixteen datasets to test the proposed
method. These datasets can be divided into four groups, spherical-type datasets, irregular type datasets, shape-type datasets and
real-life datasets. Spherical-type datasets contains four datasets named Data_separated1, Data_separated2, Data_connected1 and
Data_connected2, as shown in Figure 2. The clusters in each dataset have spherical structure and can be used to test the Euclidean
relationship in MOECDM. Irregular-type datasets contains four datasets as shown in Figure 3, they are Data_spiral, Data_rect,
Data_circle1 and Data_circle2. The four datasets have clusters with complex structure and can be used to test the Path relationship
in MOECDM.
III. EXPERIMENTS OF MOECDM
17
B. PARAMETERS SETTING
Population size(pop) and Maximum number of generations(max_g) are
two important parameters in evolutionary algorithm. For pop, on the
one hand, according to the introduction of section II-B1, the population
should contain individuals generated by using three strategies. Hence,
it should satisfy with pop > 3. We set to pop = 200 in MOECDM, and it
can prove to be more than sufficient to store all nondominated
solutions. For max_g, We set it to max_g = 200 in this experiment. The
values of pop_α1, pop_α2 and pop_α3 are set to 0.5, 0.25 and 0.25
respectively. The reason is we hope the individuals generated at random
are more than the other two strategies. For crossover operator and
mutation operator, the values of pc, pc_α, pm and pm_α are all set to 1.
The reason is the new population P(g + 1) is selected from P(g) ∪ Pm(g +
1), hence the Pm(g + 1) should has a large difference from P(g).
III. EXPERIMENTS OF MOECDM
18
C. PERFORMANCE MEASURES
In order to evaluate the performance of all the clustering algorithms quantitatively, in here, two measures, Rand index(R) and
F-measure(F), are used for evaluating the performance of the proposed method. They are defined as Equations 8 and 9
respectively.
where Precision =
𝑆𝑆
𝑆𝑆+𝑆𝐷
and Recall =
𝑆𝑆
𝑆𝑆+𝑆𝐷
.
SS is the number of pair points having same class labels belonging to the same clusters, SD is the number of pair points
having different class labels belonging to the same clusters, is the number of pair points having same class labels belonging
to different clusters, and DD is the number of pair points having different class labels belonging to the different clusters. Note
that higher the value of R(F), better is the clustering.
III. EXPERIMENTS OF MOECDM
19
D. ANALYSIS OF MOECDM
The first dataset adopted is Data_connected1 and the second dataset adopted
Is Data_circle1. Each cluster in this dataset is uniformly generated from a hyper-spherical
area, and connected with each other. The Pareto front and several clustering results are
presented in Figure 5. We can get ten clustering results corresponding to the
nondominated Pareto front. From left to right in Figure 5(a), J1 decreases with
the J2 increases. We select three meaningful partitions to analyze this nondominated
Pareto front. Figure 5(b) corresponds to the red point of the nondominated Pareto front.
It is the best clustering result, and the Rand value(F-measure) is 0.96(0.94).
FIGURE 5:
(a) The Pareto front of Data_connected1,
(b) The clustering result of the red point in Pareto front,
(c) The clustering result of the black point in Pareto front and
(d) The clustering result of the green point in Pareto front
FIGURE 6: (a) The Pareto front of Data_circle1, (b) The clustering result of
the red point in Pareto front, (c) The clustering result of the black point
in Pareto front and (d) The clustering result of the green point in Pareto front
The two experiments show that MOECDM is able to discover the
hidden distribution of each cluster with spherical and irregular structures.
III. EXPERIMENTS OF MOECDM
20
E. COMPARISON WITH OTHER METHODS
In this subsection, MOECDM is compared with three other approaches including Kmeans, FCM and NCUT. Kmeans
and FCM are two traditional clustering techniques, and they are designed based on Euclidean distance. NCUT is a spectral
clustering method and it can partition the relational dataset well. Relational dataset describes the distance between each
pair of objects. Hence, different distance measures and their combination can be applied to set up different matrices.
Here, we apply four strategies to set up the matrix, and they are
(1) Euclidean distance (NCUT(E)),
(2) Path distance (NCUT(P)),
(3) combining the Euclidean and Path distance measures directly (NCUT(E+P)), and
(4) normalizing the Euclidean and Path distance measures within the range [0, 1] (NCUT(Norm(E)+Norm(P))).
IV. EXPERIMENTS OF MOEACDM
21
Table 3 provides the comparison results of aforementioned
algorithms. Each algorithm is to execute twenty times on
each dataset. Mean_R, Max_R, Mean_F and Max_F show the
average Rand index, the maximum Rand index, the average
F-measures and the maximum F-measures respectively in
twenty runs.
TABLE 3: Comparison of the Rand index and F-measure
calculated by different methods
IV. EXPERIMENTS OF MOEACDM
23
A. ANALYSIS OF MOEACDM
In this subsection, we also apply two datasets to show the nondominated Pareto front obtained by MOEACDM
and corresponding clustering results. Data_separated1 and Data_spiral can be used in here. Figure 7 shows the nondominated
Pareto front and the clustering results by using MOEACDM for Data_separated1. In particular, it is only two points in the
nondominated Pareto front, and the two clustering results corresponding to the nondominated Pareto
front are very similar. A good explanation for this situation is that both of the two distance measures show the similar
relationship on this dataset. At the same time, table 4 also gives us the same view with Figure 7 .
TABLE 4: The Cluster number, Rand index and F-measure corresponding to different
nondominated Pareto front points for Data_separated1
FIGURE 7:
(a) The Pareto front of Data_separated1,
(b) The clustering result of the red point in the nondominated Pareto front and
(c) The clustering result of the green point in the nondominated Pareto
IV. EXPERIMENTS OF MOEACDM
24
Table 5 sketches the variations of J1, J2, cluster number, Rand value and F-measure
with ten different Pareto points. As can be seen from this table, the value of J1 is
decreasing and the value of J2 is increasing at the same time. As we all know, we
need to find out the trade-off between two objective functions. For this dataset,
Path distance is more dominant than Euclidean distance, therefore, the best
clustering result is the first Pareto point, which is the minimum of J2. Furthermore,
with the increasing of J1 and the decreasing of J2, the cluster number is far away
from the correct cluster number, and the Rand value(F-measure) is decreasing.
TABLE 5: The Cluster number, Rand index and F-measure corresponding to
different nondominated Pareto front points for Data_spiral
Figure 8 provides the nondominated Pareto front and three clustering results for
Data_spiral. Clearly the Figure 8(b) is the best clustering result, and it is the
first point in the nondominated Pareto front.
IV. EXPERIMENTS OF MOEACDM
25
C. DISCUSSION OF KMAX
The maximum cluster number expected, kmax, should be analyzed in this
subsection. It is an important parameter because it determines the size of search
space. On the one hand, a too large kmax will cause a waste of memory and
processing time. On the other hand, a too small kmax will increase the probability
of leaving k∗ out, thus becoming unreachable. Ideally, kmax = n is the best way,
however, the computation time is also high. We need to select a trade-off
between speed and accuracy of the proposed method.
Figure 9 plots the desirable cluster number obtained by using different kmax value
for four test datasets. The kmax value changes from 2 to 20 with a step size of
one. As can be seen from these figures, if the kmax is smaller than k∗, the kmax will
be detected as k∗. And, if the kmax is bigger than k∗, MOEACDM can always find
the optimal cluster number k∗ in all of the runs. The experimental results suggest
that MOEACDM is not sensitive to this parameter, kmax.
FIGURE 9: The desirable cluster number by using different values of kmax for four
test datasets
IV. EXPERIMENTS OF MOEACDM
26
Table 6 summarizes the clustering results obtained by aforementioned methods for the eight test datasets. Each algorithm is
to execute ten times on each dataset. CN denotes correct cluster number. AP(E) correctly identifies the correct number for
Data_separated1, Data_connected1,Iris and Soybean. The reason is the four datasets have clusters with spherical structure.
AP(P) correctly identifies the correct number for Data_separated1, Data_connected1, Data_spiral, Data_circle1, Spiral2 and Iris in
all runs, however, the values of Mean_R and Mean_F for Data_separated1, Data_connected1 and Iris are not the best.
TABLE 6: Comparison of the cluster number obtained(CN),
Mean Rand(Mean_R) and Mean F-measure(Mean_F) calculated
by compared approaches
V. DISCUSSION AND CONCLUSIONS
28
Clustering is an important task for discovering the hidden structures and is the subject of active research on several research fields
including information retrieval, finance, network management and medicine. The datasets in these fields may consist of a variety of
characteristics and have different structures. The existing evolutionary clustering approaches optimize one objective function and
they are hardly to cope with the dataset with multiple structures. In this paper, we propose a new Multi objective evolutionary
clustering framework to split dataset with different structures. Two objective functions designed based on two distance measures
are optimized simultaneously by a multi objective evolutionary algorithm. This approach takes into consideration of the
relationship between data points based on two different distance measures, therefore, it can split complex structures. However,
there are two limitations need to be improved. The first is the best solution is not chosen from nondominated Pareto front
automatically and the second is evolutionary algorithm is usually time-consuming. In the future, we will try to solve these
problems and take the approaches into application fields such as data analysis and image segmentation. In addition, testing other
combinations of distance measures is also a future work.
TABLE 7: The average running time (seconds) of MOECDM and MOEACDM
with different (pop,max_g) for eight datasets
The End
29

More Related Content

What's hot

Fuzzy c-Means Clustering Algorithms
Fuzzy c-Means Clustering AlgorithmsFuzzy c-Means Clustering Algorithms
Fuzzy c-Means Clustering AlgorithmsJustin Cletus
 
CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...
CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...
CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...IJCNCJournal
 
Dynamic clustering algorithm using fuzzy c means
Dynamic clustering algorithm using fuzzy c meansDynamic clustering algorithm using fuzzy c means
Dynamic clustering algorithm using fuzzy c meansWrishin Bhattacharya
 
MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...
MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...
MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...ijcseit
 
RFNM-Aranda-Final.PDF
RFNM-Aranda-Final.PDFRFNM-Aranda-Final.PDF
RFNM-Aranda-Final.PDFThomas Aranda
 
Scheduling Using Multi Objective Genetic Algorithm
Scheduling Using Multi Objective Genetic AlgorithmScheduling Using Multi Objective Genetic Algorithm
Scheduling Using Multi Objective Genetic Algorithmiosrjce
 
FAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTING
FAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTINGFAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTING
FAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTINGIJNSA Journal
 
On clusteredsteinertree slide-ver 1.1
On clusteredsteinertree slide-ver 1.1On clusteredsteinertree slide-ver 1.1
On clusteredsteinertree slide-ver 1.1VitAnhNguyn94
 
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...Scientific Review
 
A C OMPARATIVE A NALYSIS A ND A PPLICATIONS O F M ULTI W AVELET T RANS...
A C OMPARATIVE  A NALYSIS  A ND  A PPLICATIONS  O F  M ULTI  W AVELET  T RANS...A C OMPARATIVE  A NALYSIS  A ND  A PPLICATIONS  O F  M ULTI  W AVELET  T RANS...
A C OMPARATIVE A NALYSIS A ND A PPLICATIONS O F M ULTI W AVELET T RANS...IJCI JOURNAL
 
Penalty Function Method For Solving Fuzzy Nonlinear Programming Problem
Penalty Function Method For Solving Fuzzy Nonlinear Programming ProblemPenalty Function Method For Solving Fuzzy Nonlinear Programming Problem
Penalty Function Method For Solving Fuzzy Nonlinear Programming Problempaperpublications3
 
Deep learning ensembles loss landscape
Deep learning ensembles loss landscapeDeep learning ensembles loss landscape
Deep learning ensembles loss landscapeDevansh16
 
Iterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO DecoderIterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO DecoderCSCJournals
 

What's hot (15)

Fuzzy c-Means Clustering Algorithms
Fuzzy c-Means Clustering AlgorithmsFuzzy c-Means Clustering Algorithms
Fuzzy c-Means Clustering Algorithms
 
K means report
K means reportK means report
K means report
 
CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...
CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...
CONSTRUCTING A FUZZY NETWORK INTRUSION CLASSIFIER BASED ON DIFFERENTIAL EVOLU...
 
Dynamic clustering algorithm using fuzzy c means
Dynamic clustering algorithm using fuzzy c meansDynamic clustering algorithm using fuzzy c means
Dynamic clustering algorithm using fuzzy c means
 
MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...
MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...
MULTI-OBJECTIVE ENERGY EFFICIENT OPTIMIZATION ALGORITHM FOR COVERAGE CONTROL ...
 
RFNM-Aranda-Final.PDF
RFNM-Aranda-Final.PDFRFNM-Aranda-Final.PDF
RFNM-Aranda-Final.PDF
 
Scheduling Using Multi Objective Genetic Algorithm
Scheduling Using Multi Objective Genetic AlgorithmScheduling Using Multi Objective Genetic Algorithm
Scheduling Using Multi Objective Genetic Algorithm
 
FAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTING
FAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTINGFAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTING
FAST DETECTION OF DDOS ATTACKS USING NON-ADAPTIVE GROUP TESTING
 
On clusteredsteinertree slide-ver 1.1
On clusteredsteinertree slide-ver 1.1On clusteredsteinertree slide-ver 1.1
On clusteredsteinertree slide-ver 1.1
 
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural Ne...
 
A C OMPARATIVE A NALYSIS A ND A PPLICATIONS O F M ULTI W AVELET T RANS...
A C OMPARATIVE  A NALYSIS  A ND  A PPLICATIONS  O F  M ULTI  W AVELET  T RANS...A C OMPARATIVE  A NALYSIS  A ND  A PPLICATIONS  O F  M ULTI  W AVELET  T RANS...
A C OMPARATIVE A NALYSIS A ND A PPLICATIONS O F M ULTI W AVELET T RANS...
 
Penalty Function Method For Solving Fuzzy Nonlinear Programming Problem
Penalty Function Method For Solving Fuzzy Nonlinear Programming ProblemPenalty Function Method For Solving Fuzzy Nonlinear Programming Problem
Penalty Function Method For Solving Fuzzy Nonlinear Programming Problem
 
Deep learning ensembles loss landscape
Deep learning ensembles loss landscapeDeep learning ensembles loss landscape
Deep learning ensembles loss landscape
 
Bistablecamnets
BistablecamnetsBistablecamnets
Bistablecamnets
 
Iterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO DecoderIterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO Decoder
 

Similar to A general multiobjective clustering approach based on multiple distance measures

Classification of Iris Data using Kernel Radial Basis Probabilistic Neural N...
Classification of Iris Data using Kernel Radial Basis Probabilistic  Neural N...Classification of Iris Data using Kernel Radial Basis Probabilistic  Neural N...
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural N...Scientific Review SR
 
An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...
An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...
An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...Adam Fausett
 
8.clustering algorithm.k means.em algorithm
8.clustering algorithm.k means.em algorithm8.clustering algorithm.k means.em algorithm
8.clustering algorithm.k means.em algorithmLaura Petrosanu
 
A COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERING
A COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERINGA COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERING
A COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERINGIJORCS
 
Drobics, m. 2001: datamining using synergiesbetween self-organising maps and...
Drobics, m. 2001:  datamining using synergiesbetween self-organising maps and...Drobics, m. 2001:  datamining using synergiesbetween self-organising maps and...
Drobics, m. 2001: datamining using synergiesbetween self-organising maps and...ArchiLab 7
 
Optimising Data Using K-Means Clustering Algorithm
Optimising Data Using K-Means Clustering AlgorithmOptimising Data Using K-Means Clustering Algorithm
Optimising Data Using K-Means Clustering AlgorithmIJERA Editor
 
AN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHMAN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHMIJNSA Journal
 
AN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHMAN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHMIJNSA Journal
 
Enhanced Genetic Algorithm with K-Means for the Clustering Problem
Enhanced Genetic Algorithm with K-Means for the Clustering ProblemEnhanced Genetic Algorithm with K-Means for the Clustering Problem
Enhanced Genetic Algorithm with K-Means for the Clustering ProblemAnders Viken
 
Mine Blood Donors Information through Improved K-Means Clustering
Mine Blood Donors Information through Improved K-Means ClusteringMine Blood Donors Information through Improved K-Means Clustering
Mine Blood Donors Information through Improved K-Means Clusteringijcsity
 
Iterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO DecoderIterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO DecoderCSCJournals
 
Quantum inspired evolutionary algorithm for solving multiple travelling sales...
Quantum inspired evolutionary algorithm for solving multiple travelling sales...Quantum inspired evolutionary algorithm for solving multiple travelling sales...
Quantum inspired evolutionary algorithm for solving multiple travelling sales...eSAT Publishing House
 
The International Journal of Engineering and Science (The IJES)
The International Journal of Engineering and Science (The IJES)The International Journal of Engineering and Science (The IJES)
The International Journal of Engineering and Science (The IJES)theijes
 
CLUSTERING HYPERSPECTRAL DATA
CLUSTERING HYPERSPECTRAL DATACLUSTERING HYPERSPECTRAL DATA
CLUSTERING HYPERSPECTRAL DATAcsandit
 
Comparison Between Clustering Algorithms for Microarray Data Analysis
Comparison Between Clustering Algorithms for Microarray Data AnalysisComparison Between Clustering Algorithms for Microarray Data Analysis
Comparison Between Clustering Algorithms for Microarray Data AnalysisIOSR Journals
 
Novel algorithms for Knowledge discovery from neural networks in Classificat...
Novel algorithms for  Knowledge discovery from neural networks in Classificat...Novel algorithms for  Knowledge discovery from neural networks in Classificat...
Novel algorithms for Knowledge discovery from neural networks in Classificat...Dr.(Mrs).Gethsiyal Augasta
 

Similar to A general multiobjective clustering approach based on multiple distance measures (20)

Classification of Iris Data using Kernel Radial Basis Probabilistic Neural N...
Classification of Iris Data using Kernel Radial Basis Probabilistic  Neural N...Classification of Iris Data using Kernel Radial Basis Probabilistic  Neural N...
Classification of Iris Data using Kernel Radial Basis Probabilistic Neural N...
 
An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...
An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...
An_Accelerated_Nearest_Neighbor_Search_Method_for_the_K-Means_Clustering_Algo...
 
8.clustering algorithm.k means.em algorithm
8.clustering algorithm.k means.em algorithm8.clustering algorithm.k means.em algorithm
8.clustering algorithm.k means.em algorithm
 
A COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERING
A COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERINGA COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERING
A COMPARATIVE STUDY ON DISTANCE MEASURING APPROACHES FOR CLUSTERING
 
I1803014852
I1803014852I1803014852
I1803014852
 
AROPUB-IJPGE-14-30
AROPUB-IJPGE-14-30AROPUB-IJPGE-14-30
AROPUB-IJPGE-14-30
 
Drobics, m. 2001: datamining using synergiesbetween self-organising maps and...
Drobics, m. 2001:  datamining using synergiesbetween self-organising maps and...Drobics, m. 2001:  datamining using synergiesbetween self-organising maps and...
Drobics, m. 2001: datamining using synergiesbetween self-organising maps and...
 
Optimising Data Using K-Means Clustering Algorithm
Optimising Data Using K-Means Clustering AlgorithmOptimising Data Using K-Means Clustering Algorithm
Optimising Data Using K-Means Clustering Algorithm
 
AN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHMAN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHM
 
AN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHMAN IMPROVED MULTI-SOM ALGORITHM
AN IMPROVED MULTI-SOM ALGORITHM
 
Enhanced Genetic Algorithm with K-Means for the Clustering Problem
Enhanced Genetic Algorithm with K-Means for the Clustering ProblemEnhanced Genetic Algorithm with K-Means for the Clustering Problem
Enhanced Genetic Algorithm with K-Means for the Clustering Problem
 
MCCS
MCCSMCCS
MCCS
 
Mine Blood Donors Information through Improved K-Means Clustering
Mine Blood Donors Information through Improved K-Means ClusteringMine Blood Donors Information through Improved K-Means Clustering
Mine Blood Donors Information through Improved K-Means Clustering
 
Neural nw k means
Neural nw k meansNeural nw k means
Neural nw k means
 
Iterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO DecoderIterative Soft Decision Based Complex K-best MIMO Decoder
Iterative Soft Decision Based Complex K-best MIMO Decoder
 
Quantum inspired evolutionary algorithm for solving multiple travelling sales...
Quantum inspired evolutionary algorithm for solving multiple travelling sales...Quantum inspired evolutionary algorithm for solving multiple travelling sales...
Quantum inspired evolutionary algorithm for solving multiple travelling sales...
 
The International Journal of Engineering and Science (The IJES)
The International Journal of Engineering and Science (The IJES)The International Journal of Engineering and Science (The IJES)
The International Journal of Engineering and Science (The IJES)
 
CLUSTERING HYPERSPECTRAL DATA
CLUSTERING HYPERSPECTRAL DATACLUSTERING HYPERSPECTRAL DATA
CLUSTERING HYPERSPECTRAL DATA
 
Comparison Between Clustering Algorithms for Microarray Data Analysis
Comparison Between Clustering Algorithms for Microarray Data AnalysisComparison Between Clustering Algorithms for Microarray Data Analysis
Comparison Between Clustering Algorithms for Microarray Data Analysis
 
Novel algorithms for Knowledge discovery from neural networks in Classificat...
Novel algorithms for  Knowledge discovery from neural networks in Classificat...Novel algorithms for  Knowledge discovery from neural networks in Classificat...
Novel algorithms for Knowledge discovery from neural networks in Classificat...
 

Recently uploaded

Connect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck PresentationConnect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck PresentationSlibray Presentation
 
Pigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions
 
Artificial intelligence in the post-deep learning era
Artificial intelligence in the post-deep learning eraArtificial intelligence in the post-deep learning era
Artificial intelligence in the post-deep learning eraDeakin University
 
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...shyamraj55
 
Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 365
Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 365Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 365
Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 3652toLead Limited
 
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr LapshynFwdays
 
Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Scott Keck-Warren
 
APIForce Zurich 5 April Automation LPDG
APIForce Zurich 5 April  Automation LPDGAPIForce Zurich 5 April  Automation LPDG
APIForce Zurich 5 April Automation LPDGMarianaLemus7
 
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphSIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphNeo4j
 
Integration and Automation in Practice: CI/CD in Mule Integration and Automat...
Integration and Automation in Practice: CI/CD in Mule Integration and Automat...Integration and Automation in Practice: CI/CD in Mule Integration and Automat...
Integration and Automation in Practice: CI/CD in Mule Integration and Automat...Patryk Bandurski
 
Install Stable Diffusion in windows machine
Install Stable Diffusion in windows machineInstall Stable Diffusion in windows machine
Install Stable Diffusion in windows machinePadma Pradeep
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking MenDelhi Call girls
 
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupStreamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupFlorian Wilhelm
 
Beyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry InnovationBeyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry InnovationSafe Software
 
Unblocking The Main Thread Solving ANRs and Frozen Frames
Unblocking The Main Thread Solving ANRs and Frozen FramesUnblocking The Main Thread Solving ANRs and Frozen Frames
Unblocking The Main Thread Solving ANRs and Frozen FramesSinan KOZAK
 
Kotlin Multiplatform & Compose Multiplatform - Starter kit for pragmatics
Kotlin Multiplatform & Compose Multiplatform - Starter kit for pragmaticsKotlin Multiplatform & Compose Multiplatform - Starter kit for pragmatics
Kotlin Multiplatform & Compose Multiplatform - Starter kit for pragmaticscarlostorres15106
 
Benefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other FrameworksBenefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other FrameworksSoftradix Technologies
 
Enhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for PartnersEnhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for PartnersThousandEyes
 
Scanning the Internet for External Cloud Exposures via SSL Certs
Scanning the Internet for External Cloud Exposures via SSL CertsScanning the Internet for External Cloud Exposures via SSL Certs
Scanning the Internet for External Cloud Exposures via SSL CertsRizwan Syed
 

Recently uploaded (20)

Connect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck PresentationConnect Wave/ connectwave Pitch Deck Presentation
Connect Wave/ connectwave Pitch Deck Presentation
 
Pigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping ElbowsPigging Solutions Piggable Sweeping Elbows
Pigging Solutions Piggable Sweeping Elbows
 
Artificial intelligence in the post-deep learning era
Artificial intelligence in the post-deep learning eraArtificial intelligence in the post-deep learning era
Artificial intelligence in the post-deep learning era
 
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
Automating Business Process via MuleSoft Composer | Bangalore MuleSoft Meetup...
 
Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 365
Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 365Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 365
Tech-Forward - Achieving Business Readiness For Copilot in Microsoft 365
 
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
"Federated learning: out of reach no matter how close",Oleksandr Lapshyn
 
Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024Advanced Test Driven-Development @ php[tek] 2024
Advanced Test Driven-Development @ php[tek] 2024
 
APIForce Zurich 5 April Automation LPDG
APIForce Zurich 5 April  Automation LPDGAPIForce Zurich 5 April  Automation LPDG
APIForce Zurich 5 April Automation LPDG
 
DMCC Future of Trade Web3 - Special Edition
DMCC Future of Trade Web3 - Special EditionDMCC Future of Trade Web3 - Special Edition
DMCC Future of Trade Web3 - Special Edition
 
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge GraphSIEMENS: RAPUNZEL – A Tale About Knowledge Graph
SIEMENS: RAPUNZEL – A Tale About Knowledge Graph
 
Integration and Automation in Practice: CI/CD in Mule Integration and Automat...
Integration and Automation in Practice: CI/CD in Mule Integration and Automat...Integration and Automation in Practice: CI/CD in Mule Integration and Automat...
Integration and Automation in Practice: CI/CD in Mule Integration and Automat...
 
Install Stable Diffusion in windows machine
Install Stable Diffusion in windows machineInstall Stable Diffusion in windows machine
Install Stable Diffusion in windows machine
 
08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men08448380779 Call Girls In Friends Colony Women Seeking Men
08448380779 Call Girls In Friends Colony Women Seeking Men
 
Streamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project SetupStreamlining Python Development: A Guide to a Modern Project Setup
Streamlining Python Development: A Guide to a Modern Project Setup
 
Beyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry InnovationBeyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
Beyond Boundaries: Leveraging No-Code Solutions for Industry Innovation
 
Unblocking The Main Thread Solving ANRs and Frozen Frames
Unblocking The Main Thread Solving ANRs and Frozen FramesUnblocking The Main Thread Solving ANRs and Frozen Frames
Unblocking The Main Thread Solving ANRs and Frozen Frames
 
Kotlin Multiplatform & Compose Multiplatform - Starter kit for pragmatics
Kotlin Multiplatform & Compose Multiplatform - Starter kit for pragmaticsKotlin Multiplatform & Compose Multiplatform - Starter kit for pragmatics
Kotlin Multiplatform & Compose Multiplatform - Starter kit for pragmatics
 
Benefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other FrameworksBenefits Of Flutter Compared To Other Frameworks
Benefits Of Flutter Compared To Other Frameworks
 
Enhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for PartnersEnhancing Worker Digital Experience: A Hands-on Workshop for Partners
Enhancing Worker Digital Experience: A Hands-on Workshop for Partners
 
Scanning the Internet for External Cloud Exposures via SSL Certs
Scanning the Internet for External Cloud Exposures via SSL CertsScanning the Internet for External Cloud Exposures via SSL Certs
Scanning the Internet for External Cloud Exposures via SSL Certs
 

A general multiobjective clustering approach based on multiple distance measures

  • 1. A General Multiobjective Clustering Approach Based on Multiple Distance Measure Mehran Mesbahzade May 2019 1 CONG LIU, JIE LIU, DUNLU PENG AND CHUNXUE WU School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology https://ieeexplore.ieee.org/document/8421571/
  • 2.  Introduction  MULTIPLE DISTANCE MEASURE FRAMEWORK  DISTANCE MATRICES DEFINITION  MOECDM  MOEACDM  PROCEDURE OF MOECDM (OR MOEACDM) ALGORITHM  EXPERIMENTS OF MOECDM  DISCUSSION AND CONCLUSIONS Highlights 2
  • 3. Clustering analysis is an unsupervised learning approach that can find underlying substructures in a group of unlabeled data points. And as an active subject, it is widely used in various research fields, such as data mining , pattern recognition, image segmentation and computer vision. The task of clustering is to partition a dataset into many subgroups such that objects within a group have a high similarity and objects belonging to different groups have a low similarity. A variety of clustering methods have been developed for different goals and applications in specific areas. Partitioning clustering, hierarchical clustering and density clustering are three most popular clustering techniques recently. 1.Introduction 3
  • 4. In this section, we will describe the details of the two proposed multiple distance clustering methods, MOECDM and MOEACDM. First of all, an appropriate multiobjective evolutionary algorithm should be designed. We apply NSGA-II to play this role in our methods due to its fast nondominated sorting mechanism, and a series of changes are applied to enable this algorithm to cope better with multiple distance clustering. NSGA-II is a well known multiobjective evolutionary algorithm, and the other multiobjective evolutionary algorithms also can be considered in here. Secondly, we need to get the distance matrices by using different distance measures, and each matrix contains the relationship of each pair of objects in a specific distance space. And then the details of MOECDM can be introduced, it can partition a dataset in different distance spaces at the same time. 2. MULTIPLE DISTANCE MEASURE FRAMEWORK 4
  • 5. Let X = {x1, x2, · · · , xn} be a set of n data objects, where xi = (xi,1, xi,2, · · · , xi,h) ∈ Rh is a h-dimensional point in the continuous feature space. DM is the distance matrix, and dij is the distance between xi and xj . Many distance measures can be applied in here such as Euclidean distance, Path distance, Manifold distance and so on. Next, we will split the DM instead of original dataset. The smaller of dij is, the closer between data xi and data xj. Suppose that we shall divide the dataset X into k clusters C1, C2, · · · , Ck and |Ci| represents the number of data points in cluster Ci. • Euclidean distance • Path distance The Path distance between a pair of points is defined as the minimum value of the maximum gap in any path which links the pair of the points. Πi,j = {π|π = π0π1 · · · πk, 1 ≤ πs ≤ n, π0 = i, πk = j} denote all the possible paths which link xi and xj. The Path distance between xi and xj is mathematically defined as A. DISTANCE MATRICES DEFINITION 5
  • 6. The Euclidean distance matrix DM1 and the Path distance matrix DM2 are defined as Equation 3. A. DISTANCE MATRICES DEFINITION 6
  • 7. 1) Representation and Initialization In this scheme, each individual r consists of n genes r = {r1, r2, ..., rn} and the value of each gene ri is an integer, which represents the data object xi will be assigned to the rith cluster. The range of ri falls into {1, ..., k}, where k is the cluster number. All of the data objects having the same cluster label are then assigned to the same cluster. The label encoding scheme has a major limitation that is it is usually time-consuming owing to the large-sized genes. To alleviate this limitation and to make the individuals have a higher probability to lie in the promising search space, in this section, we apply three strategies to produce the initial population P(0) = {r1(0), ..., rpop(0)}, where rl(0) represents the lth individual in the initial population and the pop represents the population size. One of these strategies is to generate individuals at random, another strategy is to generate individuals by NCUT pre-clustering based on Euclidean distance and the last one is to generate individuals by NCUT pre-clustering based on Path distance. The number of individuals generated by different strategies are adjusted by three parameters, pop_α1, pop_α2, pop_α3. pop_α1 ∗ pop, pop_α2 ∗ pop and pop_α3 ∗ pop individuals are generated by the three strategies respectively. B. MOECDM 7
  • 8. B. MOECDM 8 The procedure of the initialization scheme can be seen in Algorithm 1. Through this scheme, a set of individuals with two distance measures characteristic have been generated in a single run of MOECDM.
  • 9. B. MOECDM 9 2) Objective Functions Designing In this section, we propose a new multiobjective combination strategy, and two objective functions are designed in two different distance spaces and optimized simultaneously by a multiobjective evolutionary algorithm. It is well known that, the main rule of clustering is to minimize the compactness of each cluster, which is usually computed by the distance between objects and either cluster’s centroids or medoids. However, the centroid of each cluster with irregular structure is invalid and the medoid is hard to get by using many existing encoding schemes in evolutionary algorithm. Therefore, in here, the objective functions will be established by minimizing the distance of each pair of objects in the same cluster, and they can be written as Equation 4. where d1 xy and d2 xy represent the two distance between object x and y respectively. The clustering results will be obtained by minimizing JF1 and JF2 simultaneously.
  • 10. B. MOECDM 10 3) Crossover Operator In this subsection, each of individuals will be chosen to cross with a crossover individual in a certain probability pc. We use two strategies to select the crossover individual. The first is to select it from all of the current individuals, and the second is to select it from the nondominated individuals. It is noted that, only one strategy can be used in once crossover procedure. The first strategy can enhance the diversity of the new population and the second strategy can push the population quickly towards the global optima. In each generation, which strategy can be selected depending on a parameter, pc_α(g), which is varied with the number of generation(g) and can be computed by Equation 5. From this formula we can see that, the value of pc_α(g) decreases in the range between [1, exp(1 − max_g)] as g increases. The details of the crossover operator are shown in Algorithm 2.
  • 11. B. MOECDM 11 4) Mutation Operator The mutation operator is implemented after crossover operator. This operator can be used to increase the diversity of population. According to the analysis above, the value of each gene rcj l(g + 1) is an integer from {1, ..., k}, which needs to be changed with a probability pm. In this procedure, we also design two strategies to choose. The one is to change rcj l(g + 1) into another integer from {1, ...rcj l(g + 1) − 1, rcj l(g + 1) + 1, ..., k} with a probability 1 𝐾−1 and the other is to change it into rcj best, which is the best individual evaluated till the current generation. pm_α(g) is the selection parameter that determines which strategy can be chosen and can be computed by Equation 6. The procedure of the mutation operator can be seen in Algorithm 3.
  • 12. B. MOECDM 12 5) Selection Operator After mutation operator, two set of populations, current population P(g) = {r1(g), ..., rpop(g)} and the mutation population Pm(g + 1) = {rm1(g + 1), ..., rmpop(g + 1)}, can be obtained. To keep the population size is equal with the subsequent generations and ensure favorable solutions are preserved, a selection operator needs to be executed to preserve individuals with high fitness and to eliminate individuals with low fitness. MOECDM employs the selection operator proposed in NSGA-II to achieve this goal. In this selection operator, all of the individuals (P(g)∪Pm(g+1)) can be ranked based on a nondominated sorting and a crowding distance estimation procedure, which is a measure that can differentiate the importance of the individuals that have the same rank. The low-ranking and low-crowding individuals can be selected at first. Though selection, the next generation population P(g + 1) = {r1(g + 1), ..., rpop(g + 1)} can be obtained.
  • 13. C. MOEACDM 13 It is important to stress that the MOECDM makes sense when the number of cluster k is fixed. However, that does not hold when k is variable. Indeed, it is straightforward to see that one can minimize the JF1 and JF2 by increasing the k, the two functions will equal to zero in the limit case. The representation, crossover operator, mutation operator, selection operator are similar as those in MOECDM. 1) Representation and Initialization A slight difference between MOEACDM and MOECDM in representation is the range of each gene is {1, ..., k} in MOECDM and that is {1, ..., kmax} in MOEACDM, where kmax represents the maximum cluster number expected. Unlike MOECDM, the best k∗ in MOEACDM is unknown. Hence, the initial population will be generated by NCUT pre-clustering not only with different distance measures but also with different cluster numbers. The procedure of initialization for the MOEACDM is shown in Algorithm 4.
  • 14. C. MOEACDM 14 2) Objective Functions Designing In many literatures, validity index is widely used strategy that can detect the desirable cluster number by looking for a balance between the compactness for each cluster and the separation between each pair of clusters. The majority of the existing validity indices are inapplicable in here, similar with the analysis above, most of them are designed based on Euclidean distance. We will try to design a new objective functions combination, each objective function in which is based on a specific distance measure. Moreover, each objective function also requires to consider the balance of compactness and separation in order to detect desirable cluster number automatically. Our inspiration comes from Modularity method, which is a typical method used to detect network structures by the relationship of each pair of nodes. where the definitions of d1 xy and d2 xy are the same as those in the previous section.
  • 15. D. PROCEDURE OF MOECDM (OR MOEACDM) ALGORITHM 15 The detailed procedures of the MOECDM (MOEACDM) algorithm are as described in Figure 1: ‫اول‬ ‫بخش‬:‫و‬ ‫ها‬ ‫داده‬ ‫ورودی‬ ‫پارامترها‬ ‫تکاملی‬ ‫پارامترهای‬:‫جمعیت‬ ‫اندازه‬ pop‫نسل‬ ‫تعداد‬ ‫حداکثر‬max_g، ‫اندازی‬ ‫راه‬ ‫پارامترهای‬pop_α1، pop_α2‫و‬pop_α3،‫پارامترهای‬ crossoverpc‫و‬pc_α، ‫جهش‬ ‫پارامترهای‬pm‫و‬pm_α، g = 0 ‫اولیه‬ ‫جمعیت‬ ‫ایجاد‬P (0)‫با‬ ‫از‬ ‫استفاده‬‫الگوریتم‬1‫برای‬ MOECDM‫یا‬‫الگوریتم‬4‫برای‬ MOEACDM ‫دوم‬ ‫بخش‬:‫سازی‬ ‫آماده‬ ‫سوم‬ ‫بخش‬:‫اپراتورهای‬‫تکامل‬‫ی‬ ‫سازی‬ ‫مرتب‬‫نامغلوب‬: ‫سازی‬ ‫مرتب‬‫نامغلوب‬‫روی‬ ‫بر‬ ‫را‬ ‫ب‬ ‫را‬ ‫رتبه‬ ‫و‬ ‫دهد‬ ‫می‬ ‫انجام‬ ‫جمعیت‬‫ه‬ ‫دهد‬ ‫می‬ ‫اختصاص‬ ‫فرد‬ ‫هر‬.‫فاصل‬‫ه‬ ‫دست‬ ‫به‬ ‫مورد‬ ‫هر‬ ‫برای‬ ‫را‬ ‫ازدحام‬ ‫آورد‬ ‫می‬. ‫جمعی‬ ‫ایجاد‬ ‫برای‬ ‫جمعیت‬ ‫انتخاب‬‫ت‬ ‫بعدی‬P (g + 1)‫طرح‬ ‫توسط‬ ‫سازی‬ ‫مرتب‬‫نامغلوب‬‫ف‬ ‫طرح‬ ‫و‬‫اصله‬ ‫ازدحام‬ ‫سازی‬ ‫مرتب‬‫نامغلوب‬:‫مرت‬ ‫انجام‬‫ب‬ ‫سازی‬‫نامغلوب‬‫جمعیت‬ ‫روی‬ ‫بر‬ ‫ح‬ ‫راه‬ ‫آوردن‬ ‫دست‬ ‫به‬ ‫برای‬ ‫نهایی‬‫ل‬ ‫جبهه‬‫پارتو‬ ‫بندی‬ ‫خوشه‬ ‫پارامترهای‬: ‫شماره‬ ‫خوشه‬k‫برای‬MOECDM‫یا‬ ‫شماره‬ ‫خوشه‬ ‫باال‬ ‫مرز‬ ‫حداکثر‬ k_max‫برای‬MOEACDM ‫ماتریس‬‫فاصله‬‫اقلیدسی‬DM1‫و‬ ‫ماتریس‬‫مسیر‬ ‫فاصله‬DM2‫را‬ ‫کند‬ ‫می‬ ‫محاسبه‬. ،J1 ‫و‬ J2 ‫هر‬ ‫برای‬ ‫را‬ ‫هدف‬ ‫تابع‬ ‫می‬ ‫محاسبه‬ ‫اولیه‬ ‫جمعیت‬ ‫در‬ ‫مورد‬ ‫دو‬ ‫کند‬. ‫چهارم‬ ‫بخش‬:‫بند‬ ‫خوشه‬ ‫نتایج‬‫ی‬ ‫جبهه‬‫پارتو‬‫می‬ ‫انتخاب‬ ‫را‬ ‫نهایی‬‫کند‬ ‫ا‬ ‫را‬ ‫بندی‬ ‫خوشه‬ ‫نتایج‬ ‫بهترین‬‫نتخاب‬ ‫گیرد‬ ‫می‬ ‫خروجی‬ ‫و‬ ‫کند‬.
  • 16. III. EXPERIMENTS OF MOECDM 16 A. DATASETS USED In order to show the advantage of MOECDM for discovering different structures, we apply sixteen datasets to test the proposed method. These datasets can be divided into four groups, spherical-type datasets, irregular type datasets, shape-type datasets and real-life datasets. Spherical-type datasets contains four datasets named Data_separated1, Data_separated2, Data_connected1 and Data_connected2, as shown in Figure 2. The clusters in each dataset have spherical structure and can be used to test the Euclidean relationship in MOECDM. Irregular-type datasets contains four datasets as shown in Figure 3, they are Data_spiral, Data_rect, Data_circle1 and Data_circle2. The four datasets have clusters with complex structure and can be used to test the Path relationship in MOECDM.
  • 17. III. EXPERIMENTS OF MOECDM 17 B. PARAMETERS SETTING Population size(pop) and Maximum number of generations(max_g) are two important parameters in evolutionary algorithm. For pop, on the one hand, according to the introduction of section II-B1, the population should contain individuals generated by using three strategies. Hence, it should satisfy with pop > 3. We set to pop = 200 in MOECDM, and it can prove to be more than sufficient to store all nondominated solutions. For max_g, We set it to max_g = 200 in this experiment. The values of pop_α1, pop_α2 and pop_α3 are set to 0.5, 0.25 and 0.25 respectively. The reason is we hope the individuals generated at random are more than the other two strategies. For crossover operator and mutation operator, the values of pc, pc_α, pm and pm_α are all set to 1. The reason is the new population P(g + 1) is selected from P(g) ∪ Pm(g + 1), hence the Pm(g + 1) should has a large difference from P(g).
  • 18. III. EXPERIMENTS OF MOECDM 18 C. PERFORMANCE MEASURES In order to evaluate the performance of all the clustering algorithms quantitatively, in here, two measures, Rand index(R) and F-measure(F), are used for evaluating the performance of the proposed method. They are defined as Equations 8 and 9 respectively. where Precision = 𝑆𝑆 𝑆𝑆+𝑆𝐷 and Recall = 𝑆𝑆 𝑆𝑆+𝑆𝐷 . SS is the number of pair points having same class labels belonging to the same clusters, SD is the number of pair points having different class labels belonging to the same clusters, is the number of pair points having same class labels belonging to different clusters, and DD is the number of pair points having different class labels belonging to the different clusters. Note that higher the value of R(F), better is the clustering.
  • 19. III. EXPERIMENTS OF MOECDM 19 D. ANALYSIS OF MOECDM The first dataset adopted is Data_connected1 and the second dataset adopted Is Data_circle1. Each cluster in this dataset is uniformly generated from a hyper-spherical area, and connected with each other. The Pareto front and several clustering results are presented in Figure 5. We can get ten clustering results corresponding to the nondominated Pareto front. From left to right in Figure 5(a), J1 decreases with the J2 increases. We select three meaningful partitions to analyze this nondominated Pareto front. Figure 5(b) corresponds to the red point of the nondominated Pareto front. It is the best clustering result, and the Rand value(F-measure) is 0.96(0.94). FIGURE 5: (a) The Pareto front of Data_connected1, (b) The clustering result of the red point in Pareto front, (c) The clustering result of the black point in Pareto front and (d) The clustering result of the green point in Pareto front FIGURE 6: (a) The Pareto front of Data_circle1, (b) The clustering result of the red point in Pareto front, (c) The clustering result of the black point in Pareto front and (d) The clustering result of the green point in Pareto front The two experiments show that MOECDM is able to discover the hidden distribution of each cluster with spherical and irregular structures.
  • 20. III. EXPERIMENTS OF MOECDM 20 E. COMPARISON WITH OTHER METHODS In this subsection, MOECDM is compared with three other approaches including Kmeans, FCM and NCUT. Kmeans and FCM are two traditional clustering techniques, and they are designed based on Euclidean distance. NCUT is a spectral clustering method and it can partition the relational dataset well. Relational dataset describes the distance between each pair of objects. Hence, different distance measures and their combination can be applied to set up different matrices. Here, we apply four strategies to set up the matrix, and they are (1) Euclidean distance (NCUT(E)), (2) Path distance (NCUT(P)), (3) combining the Euclidean and Path distance measures directly (NCUT(E+P)), and (4) normalizing the Euclidean and Path distance measures within the range [0, 1] (NCUT(Norm(E)+Norm(P))).
  • 21. IV. EXPERIMENTS OF MOEACDM 21 Table 3 provides the comparison results of aforementioned algorithms. Each algorithm is to execute twenty times on each dataset. Mean_R, Max_R, Mean_F and Max_F show the average Rand index, the maximum Rand index, the average F-measures and the maximum F-measures respectively in twenty runs. TABLE 3: Comparison of the Rand index and F-measure calculated by different methods
  • 22. IV. EXPERIMENTS OF MOEACDM 23 A. ANALYSIS OF MOEACDM In this subsection, we also apply two datasets to show the nondominated Pareto front obtained by MOEACDM and corresponding clustering results. Data_separated1 and Data_spiral can be used in here. Figure 7 shows the nondominated Pareto front and the clustering results by using MOEACDM for Data_separated1. In particular, it is only two points in the nondominated Pareto front, and the two clustering results corresponding to the nondominated Pareto front are very similar. A good explanation for this situation is that both of the two distance measures show the similar relationship on this dataset. At the same time, table 4 also gives us the same view with Figure 7 . TABLE 4: The Cluster number, Rand index and F-measure corresponding to different nondominated Pareto front points for Data_separated1 FIGURE 7: (a) The Pareto front of Data_separated1, (b) The clustering result of the red point in the nondominated Pareto front and (c) The clustering result of the green point in the nondominated Pareto
  • 23. IV. EXPERIMENTS OF MOEACDM 24 Table 5 sketches the variations of J1, J2, cluster number, Rand value and F-measure with ten different Pareto points. As can be seen from this table, the value of J1 is decreasing and the value of J2 is increasing at the same time. As we all know, we need to find out the trade-off between two objective functions. For this dataset, Path distance is more dominant than Euclidean distance, therefore, the best clustering result is the first Pareto point, which is the minimum of J2. Furthermore, with the increasing of J1 and the decreasing of J2, the cluster number is far away from the correct cluster number, and the Rand value(F-measure) is decreasing. TABLE 5: The Cluster number, Rand index and F-measure corresponding to different nondominated Pareto front points for Data_spiral Figure 8 provides the nondominated Pareto front and three clustering results for Data_spiral. Clearly the Figure 8(b) is the best clustering result, and it is the first point in the nondominated Pareto front.
  • 24. IV. EXPERIMENTS OF MOEACDM 25 C. DISCUSSION OF KMAX The maximum cluster number expected, kmax, should be analyzed in this subsection. It is an important parameter because it determines the size of search space. On the one hand, a too large kmax will cause a waste of memory and processing time. On the other hand, a too small kmax will increase the probability of leaving k∗ out, thus becoming unreachable. Ideally, kmax = n is the best way, however, the computation time is also high. We need to select a trade-off between speed and accuracy of the proposed method. Figure 9 plots the desirable cluster number obtained by using different kmax value for four test datasets. The kmax value changes from 2 to 20 with a step size of one. As can be seen from these figures, if the kmax is smaller than k∗, the kmax will be detected as k∗. And, if the kmax is bigger than k∗, MOEACDM can always find the optimal cluster number k∗ in all of the runs. The experimental results suggest that MOEACDM is not sensitive to this parameter, kmax. FIGURE 9: The desirable cluster number by using different values of kmax for four test datasets
  • 25. IV. EXPERIMENTS OF MOEACDM 26 Table 6 summarizes the clustering results obtained by aforementioned methods for the eight test datasets. Each algorithm is to execute ten times on each dataset. CN denotes correct cluster number. AP(E) correctly identifies the correct number for Data_separated1, Data_connected1,Iris and Soybean. The reason is the four datasets have clusters with spherical structure. AP(P) correctly identifies the correct number for Data_separated1, Data_connected1, Data_spiral, Data_circle1, Spiral2 and Iris in all runs, however, the values of Mean_R and Mean_F for Data_separated1, Data_connected1 and Iris are not the best. TABLE 6: Comparison of the cluster number obtained(CN), Mean Rand(Mean_R) and Mean F-measure(Mean_F) calculated by compared approaches
  • 26. V. DISCUSSION AND CONCLUSIONS 28 Clustering is an important task for discovering the hidden structures and is the subject of active research on several research fields including information retrieval, finance, network management and medicine. The datasets in these fields may consist of a variety of characteristics and have different structures. The existing evolutionary clustering approaches optimize one objective function and they are hardly to cope with the dataset with multiple structures. In this paper, we propose a new Multi objective evolutionary clustering framework to split dataset with different structures. Two objective functions designed based on two distance measures are optimized simultaneously by a multi objective evolutionary algorithm. This approach takes into consideration of the relationship between data points based on two different distance measures, therefore, it can split complex structures. However, there are two limitations need to be improved. The first is the best solution is not chosen from nondominated Pareto front automatically and the second is evolutionary algorithm is usually time-consuming. In the future, we will try to solve these problems and take the approaches into application fields such as data analysis and image segmentation. In addition, testing other combinations of distance measures is also a future work. TABLE 7: The average running time (seconds) of MOECDM and MOEACDM with different (pop,max_g) for eight datasets

Editor's Notes

  1. به نام خدا مقاله : یک رویکرد عمومی خوشه بندی چند منظوره بر اساس روش اندازه گیری فاصله چندگانه
  2. بخش اول معرفی معرفی چهار چوب اندازه گیری چند تایی تعاریف MATRIX فاصله معرفی MOECDM معرفی MOEACDM روش الگوریتم MOECDM آزمایشات MOECDM بحث و نتیجه گیری
  3. 1. معرفی تجزیه و تحلیل CLUSTERING یک رویکرد یادگیری بی نظارت است که می تواند زیر ساخت های نهفته را در یک گروه از نقاط داده بدون برچسب مشاهده کند. و به عنوان یک موضوع فعال، آن را به طور گسترده ای در زمینه های مختلف تحقیق، مانند داده کاوی ، تشخیص الگو، تقسیم بندی تصویر و بینایی کامپیوتر استفاده می شود. وظیفه خوشه بندی این است که یک مجموعه داده را به بخش های مختلف تقسیم کند به طوری که اشیاء در یک گروه شباهت زیادی دارند و اشیاء متعلق به گروه های مختلف یک شباهت کم دارند. روش های مختلف خوشه بندی برای اهداف و برنامه های کاربردی خاص به ویژه ارائه شده اند. خوشه بندی پارتیشن بندی، خوشه بندی سلسله مراتبی و خوشه بندی تراکمی اخیرا سه تکنیک محبوب ترین خوشه بندی است.
  4. 2. چهار چوب اندازه گیری چند تایی در این بخش، جزئیات دو روش خوشه بندی چند تایی پیشنهاد شده، MOECDM و MOEACDM را توصیف می کنیم. اول از همه، یک الگوریتم تکاملی چند منظوره مناسب باید طراحی شود. ما از NSGA-II استفاده می کنیم به دلیل مکانیزم مرتبسازی سریع این الگوریتم، و یک سری تغییرات اعمال می کنیم تا این الگوریتم برای خوشه بندی چندتایی بهتر عمل کند. NSGA-II یک الگوریتم تکاملی چند منظوره شناخته شده است و دیگر الگوریتم های تکاملی چند هدفه نیز می تواند در اینجا مورد توجه قرار گیرد. در مرحله دوم، ما باید با استفاده از اندازه گیری های مختلف فاصله، ماتریس فاصله را بدست آوریم، و هر ماتریس شامل رابطه هر جفت شی در یک فضای فاصله خاص است. و سپس جزئیات MOECDM را تعریف می کنیم، می تواند یک مجموعه داده در فضاهای فاصله مختلف در یک زمان پارتیشن بندی کند.
  5. تعاریف MATRIX فاصله در این بخش، ما روش های اندازه گیری فاصله استفاده شده در روش ما معرفی می کنیم و ماتریس های فاصله را بدست می آوریم. X = {x1, x2, · · · , xn} مجموعه ای از n داده ها است که در آن xi = (xi,1, xi,2, · · · , xi,h) ∈ Rh یک نقطه ی h بعدی در فضای مجهول پیوسته است. DM ماتریس فاصله است، و dij فاصله بین xi و xj است. در اینجا می توان از روش های مختلف اندازه گیری فاصله ای مانند فاصله اقلیدسی، فاصله مسیر، فاصله منیفولد و غیره استفاده کرد. سپس ، DM را به جای مجموعه داده اصلی تقسیم کنیم. هرچقدر مقدار dij کوچکتر باشد، فاصله بین data xi و data xj نزدیک تر است. فرض کنید که ما مجموعه داده X را به kکلاستر تقسیم کنیم. C1، C2، · · ·، Ck و | Ci | نشان دهنده تعداد نقاط داده در خوشه Ci است. فاصله ی اقلیدسی فاصله مسیر فاصله مسیر بین یک جفت نقطه به عنوان حداقل مقدار حداکثر فاصله در هر مسیری است که جفت نقطه را به هم مرتبط می کند. Πi,j = {π|π = π0π1 · · · πk, 1 ≤ πs ≤ n, π0 = i, πk = j} تمام مسیرهای ممکن که xi و xj را پیوند می دهند را نشان می دهد. فاصله مسیر بین xi و xj به صورت ریاضی تعریف شده است
  6. ماتریس فاصله اقلیدسی DM1 و DM2 ماتریس مسافت مسیر به عنوان معادله 3 تعریف شده اند.
  7. ب. MOECDM در این بخش چندین مولفه کلیدی MOECDM معرفی می شوند. آنها عبارتند از شمای طراحی، طرح اولیه سازی، اپراتور کراس اور، اپراتور جهش، اپراتور انتخاب و طراحی توابع هدف. 1) ارائه و مقدار دهی اولیه در این طرح، هر فرد R شامل n ژن استr = {r1, r2, ..., rn} و ارزش هر ژن ri یک عدد صحیح است که نشان می دهد داده xi به خوشه rith اختصاص داده می شود.محدوده ri به {1، ...، k} تقسیم می شود، که k شماره خوشه است. تمام اشیاء داده که دارای برچسب خوشه ای مشابه هستند، سپس به همان خوشه اختصاص داده می شوند. طرح برچسبگذاری یک محدودیت عمده دارد که به دلیل ژنهای بزرگ اندازه آن معمولا وقت گیر است. برای رفع این محدودیت و ایجاد احتمال بالایی برای افراد تا در فضای جستجو قرار بگیرند، در این بخش سه استراتژی استفاده شده برای تولید جمعیت اولیه P(0) = {r1(0), ..., rpop(0)} جایی که rl(0) نشان دهنده یك فرد در جمعیت اولیه است و پاپ نشان دهنده جمعیت است. یکی از این استراتژی ها تولید افراد به طور تصادفی است، استراتژی دیگری برای تولید افراد از طریق خوشه بندی NCUK بر اساس فاصله اقلیدسی است و آخرین راه کار این است که افراد را از طریق خوشه بندی NCUT بر اساس فاصله مسیر تولید کنیم. تعداد افراد ایجاد شده توسط استراتژی های مختلف با سه پارامتر، pop_α1، pop_α2، pop_α3 تنظیم می شوند. P op_α1 * pop، pop_α2 * pop و pop_α3 * pop به ترتیب با سه استراتژی تولید می شوند.
  8. روش طرح اولیه سازی را می توان در الگوریتم 1 مشاهده کرد. از طریق این طرح، مجموعه ای از افراد با دو اندازه گیری فاصله مشخص شده در یک اجرای MOECDM تولید شده است. ورودی: تعداد خوشه ها k ، ماتریس های فاصله اندازه جمعیت pop و 3 پارامتر تنظیم خروجی: جمعیت اولیه
  9. 2) طراحی توابع هدف در بیشتر مقالات موجود، تعدادی از ترکیبات تابع هدف برای افزایش دقت نتیجه خوشه بندی پیشنهاد شده است. با این حال، همانطور که همه ما می دانیم، بسیاری از ترکیب ها بر اساس یک اندازه گیری از راه دور، مانند فاصله اقلیدس طراحی شده است. رسیدن به نتیجه قابل اعتماد برای مجموعه داده ها با ساختارهای پیچیده بسیار مشکل است. برای حل این مسئله، در این بخش، ما یک استراتژی ترکیب چند بعدی جدید پیشنهاد می کنیم و دو تابع هدف در دو فضای فاصله مختلف طراحی شده و به طور همزمان با الگوریتم تکاملی چند هدفه بهینه می شوند. به خوبی شناخته شده است که قاعده اصلی خوشه بندی این است که فشرده سازی هر خوشه به حداقل برسد، که معمولا با فاصله بین اجسام و یا centroids یا medoids خوشه محاسبه می شود. با این حال، centroid هر خوشه با ساختار نامنظم نامعتبر است و با استفاده از بسیاری از طرح های encoding موجود در الگوریتم تکاملی رسیدن به medoid سخت است. بنابراین، در اینجا، توابع هدف با به حداقل رساندن فاصله هر یک از جفت از اشیاء در یک خوشه، و آنها را می توان به عنوان معادله 4 نوشته شده است. که در آن d1xy و d2xy به ترتیب دو فاصله بین شی x و y را نشان می دهند. نتایج خوشه بندی با دست آوردن همزمان JF1 و JF2 به دست می آید.
  10. 3) اپراتور Crossover در این بخش، هر یک از افراد انتخاب می شود که با یک فرد Crossover با احتمال pc کراس شوند. فرد Crossover باید در افراد باقی مانده انتخاب شود. ما از دو راهبرد برای انتخاب فرد Crossover استفاده می کنیم. اول این که آن را از همه افراد فعلی انتخاب کنیم، و دوم این است که آن را از افراد غریبه انتخاب کنیم. تنها یک استراتژی میتواند در یک فرآیند Crossover یکبار استفاده شود. استراتژی اول می تواند تنوع جمعیت جدید را ارتقا دهد و استراتژی دوم می تواند افراد را به سرعت به سوی بهترین نقطه global برساند. در هر نسل، استراتژی را می توان بسته به یک پارامتر انتخاب کرد، pc_α (g) که با معادله 5 به دست می آید. از این فرمول می توانیم ببینیم که مقدار pc_α (g) در محدوده بین [1, exp(1 − max_g)] کاهش پیدا میکند هر چقدر g افزایش می یابد. در مرحله اول، استراتژی اول ممکن است در یک احتمال بزرگتر انتخاب شود. از سوی دیگر، در مرحله بعد، استراتژی دوم ممکن است با احتمال بیشتری انتخاب شود. جزئیات اپراتور کراس اوور در الگوریتم 2 نشان داده شده است. ورودی های الگوریتم : pc: احتمال Crossover جمعیت نسل gام خروجی: جمعیت کراس اوور
  11. 4) اپراتور جهش اپراتور جهش پس از عمل Crossover اجرا می شود. این اپراتور میتواند برای افزایش تنوع جمعیت استفاده شود. مقدار هر ژن rcjl(g + 1) یک عدد صحیح از {1، ...، k} است که باید با احتمال pm تغییر کند. در این روش، ما نیز دو استراتژی را برای انتخاب طراحی می کنیم. یکی تغییر rcjl(g + 1) به عدد صحیح دیگر از {1, ...rcjl(g + 1) − 1, rcjl(g + 1) + 1, ..., k} با احتمال k−11 و دیگری این است که آن را تغییر دهیم به rcjbestبهترین فردی است که تا نسل فعلی ارزیابی شده. pm_α (g) پارامتر انتخاب است که تعیین می کند که کدام استراتژی را می توان انتخاب کرد و می تواند با معادله 6 محاسبه شود. روش اپراتور جهش در الگوریتم 3 دیده می شود.
  12. 5) اپراتور انتخاب پس از عملگر جهش، دو مجموعه جمعیت، جمعیت فعلی P (g) = {r1 (g)، ...، rpop (g)} و جمعیت جهش Pm (g + 1) = {rm1 (g + 1)، ...، rmpop (g + 1)} می تواند بدست آید. برای حفظ اندازه برابر جمعیت با نسل های بعد و اطمینان از اینکه راه حل های مطلوب حفظ می شوند، باید یک اپراتور انتخابی برای حفظ افراد با فیتنس بالا و حذف افراد با فیتنس پایین اجرا شود. MOECDM اپراتور انتخابی پیشنهاد شده در NSGA-II را برای رسیدن به این هدف به کار می گیرد. در این اپراتور انتخاب همه افراد (P (g) ∪Pm (g + 1)) می توانند براساس یک مرتب سازی نامغلوب و یک روش برآورد فاصله که یک اندازه است که می تواند اهمیت افراد دارای رتبه یکسان را تشخیص دهد. سپس، جمعیت نسل بعدی P(g + 1) = {r1(g + 1), ..., rpop(g + 1)} می توان به دست آید.
  13.   C. MOEACDM یک نکته مهم این که MOECDM هنگامی که تعداد خوشه k ثابت باشد، برای ما منطقی است. با این حال، هنگامی که k متغیر است، عمل نمی کند. در حقیقت، ساده است که ببینیم که می توان JF1 و JF2 را با افزایش k به حداقل برسانیم، و این دو توابع برابر با صفر می شوند در برخی موارد. بسیاری از محققان تمایل دارند این پارامتر را به طور خودکار با جستجوی تعادل میان خوشه درونی و میان خوشه ای به طور خودکار شناسایی کنند. در این بخش، ما همچنین سعی می کنیم این پارامتر را به طور خودکار با طراحی یک توابع هدف مناسب در فضاهای فاصله مختلف بدست آوریم . روش، اپراتور crossover، اپراتور جهش، اپراتور انتخاب همانند MOECDM هستند. و در مورد مراحل مختلف، از جمله استراتژی اولیه سازی و طراحی توابع هدف، بحث خواهیم کرد.   1) نمایندگی و اولیه سازی تفاوت اندکی بین MOEACDM و MOECDM در محدوده هر ژن {1، ...، k} در MOECDM است و {1، ...، kmax} در MOEACDM، که در آن kmax نشان دهنده حداکثر تعداد خوشه ای است که انتظار می رود . بر خلاف MOECDM، بهترین k * در MOEACDM ناشناخته است. از این رو، جمعیت اولیه توسط NCUK تولید می شود نه تنها با فاصله های مختلف، بلکه با تعداد خوشه های مختلف نیز تولید می شود. روش اولیه برای MOEACDM در الگوریتم 4 نشان داده شده است.
  14. 2) طراحی توابع هدف در بسیاری از مقالات، استراتژی "شاخص اعتبار" به طور گسترده ای استفاده می شود که می تواند تعداد خوشه مطلوب را با جستجوی تعادل بین فشرده سازی برای هر خوشه و جدایی بین هر جفت خوشه ها، شناسایی کند. اکثر شاخص های اعتبار موجود در اینجا غیر قابل استفاده هستند. ما سعی خواهیم کرد یک ترکیبی از تابع هدف جدید طراحی کنیم، هر تابع هدف که بر اساس یک معیار اندازه گیری خاص است. علاوه بر این، هر تابع هدف همچنین نیاز به تعادل فشرده سازی و جداسازی را در نظر می گیرد تا به طور خودکار خوشه مطلوب را شناسایی کند. الهام ما از روش Modularity است که یک روش معمول برای تشخیص ساختارهای شبکه با رابطه هر جفت گره است. بر اساس این ایده، دو تابع هدف جدید در فضاهای فاصله مختلف، به صورت معادله 7 بازنویسی خواهند شد. که در آن تعاریف d1xy و d2xy همانند مقادیر قبلی است.
  15. D. روش الگوریتم MOECDM (یا MOEACDM) روش های دقیق الگوریتم MOECDM (MOEACDM) همانطور که در شکل 1 نشان داده شده است: ~~~~~~~~~~~~~~~~~ قسمت اول : ورودی داده ها و پارامترها پارامترهای خوشه بندی خوشه خوشه k برایMOECDM یا حداکثر مرز بالا از خوشه k_max برای MOEACDM دیتا ست X پارامترهای تکاملی: اندازه جمعیت pop حداکثر تعداد نسل max_g، پارامترهای راه اندازی pop_α1، pop_α2 و pop_α3، پارامترهای crossover pc و pc_α، پارامترهای جهش pm و pm_α، g = 0 ~~~~~~~~~~~~~~~~~ قسمت دوم: آماده سازی ماتریس فاصله اقلیدسیDM1 و DM2 ماتریس فاصله مسیر را محاسبه می کند ایجاد جمعیت اولیه P (0) با استفاده از الگوریتم 1 برای MOECDM یا الگوریتم 4 برای MOEACDM دو تابع هدف، J1 و J2 را برای هر فرد در جمعیت اولیه محاسبه کنید. ~~~~~~~~~~~~~~~~~ قسمت سوم: اپراتورهای تکاملی g<max_g اگر Yes باشد: مرتب سازی نامغلوب : مرتب سازی نامغلوب را بر روی جمعیت انجام می دهد و رتبه را به هر فرد اختصاص می دهد. فاصله ازدحام را برای هر مورد به دست می آورد. با استفاده از الگوریتم 2، جمعیت متقاطع جمعیت P (g + 1) را تولید کنید ایجاد جمعیت جهش Pm (g + 1) با استفاده از الگوریتم 3 انتخاب جمعیت برای ایجاد جمعیت بعدی P (g + 1) توسط طرح مرتب سازی نامغلوب و طرح فاصله ازدحام اگر NO باشد مرتب سازی نامنظم: انجام مرتب سازی غلط ناپذیر بر روی جمعیت نهایی را انجام دهید و راه حل های نهایی پارتو را بدست آورید
  16. آزمایشات MOECDM در این بخش، اثربخشی روش پیشنهادی، MOECDM را در ترکیب معیار های فاصله مختلف مورد آزمون قرار خواهیم داد. جزئیات به شرح زیر معرفی می شوند. A. دیتاست های استفاده شده برای نشان دادن مزیت MOECDM برای کشف ساختارهای مختلف، برای تست روش پیشنهادی، از 16 مجموعه داده استفاده می کنیم. این مجموعه داده ها را می توان به چهار گروه، مجموعه داده های کروی، مجموعه داده های غیر عادی و نامرتب، مجموعه داده های نوع شکل و مجموعه داده های واقعی تقسیم کرد. مجموعه داده های کروی شامل چهار مجموعه داده به نام Data_separated1، Data_separated2، Data_connected1 و Data_connected2 هستند، همانطور که در شکل 2 نشان داده شده است. خوشه ها در هر مجموعه داده دارای ساختار کروی هستند و می توانند برای آزمایش رابطه ی اقلیدسی در MOECDM استفاده شوند. داده های نوع نامنظم شامل چهار مجموعه داده است که در شکل 3 نشان داده شده است، Data_spiral، Data_rect، Data_circle1 و Data_circle2 هستند. چهار مجموعه داده دارای خوشه ای با ساختار پیچیده هستند و می توانند برای رابطه مسیر در MOECDM استفاده شوند. این دو گروه مجموعه داده های مصنوعی هستند. مجموعه داده های Shapetype حاوی R15، Pathbased، Jain و Spiral2 است که در شکل 4 نشان داده شده است. چهار مجموعه داده ها به صورت گسترده در بسیاری از مقالات دیگر مقالات مورد استفاده قرار می گیرند. و داده های موجود در دنیای واقعی نیز شامل چهار مجموعه داده ای به نام Iris، Soybean، Wine، Glass می باشد و از مجموعه داده های UCI محبوب استفاده می کنند. آنها می توانند برای تست اعتبار MOECDM برای داده های دنیای واقعی استفاده شوند. جزئیات این مجموعه داده ها از لحاظ تعداد اشیاء، تعداد ابعاد و تعداد خوشه ها در جدول 1 خلاصه شده است. بعد، دو آزمایش در این مجموعه داده ها اجرا می شود. اولین آزمایش، جبهه ناپایدار پارتو و نتایج مربوط به خوشه بندی را نشان می دهد، و آزمایش دوم، مقایسه MOECDM با برخی از روش های خوشه بندی دیگر است که بعدا در این بخش شرح داده خواهد شد.
  17.   B. تعیین پارامترها نتایج خوشه بندی با تنظیم پارامترها، که باید با دقت بر اساس شواهد نظری انتخاب شود، تحت تأثیر قرار می گیرد. اندازه جمعیت (pop) و حداکثر تعداد نسل (max_g) دو پارامتر مهم در الگوریتم تکاملی هستند. برای pop، از یک سو، طبق مقدمه بخش دوم-B1، جمعیت باید شامل افراد تولید شده با استفاده از سه استراتژی باشد. از این رو، باید با pop> 3. از این رو ما در MOECDM روی pop = 200 قرار دادیم و می توان آن را ثابت کرد که برای ذخیره تمام راه حل های غیرمتعارف مناسب است. برای max_g، روشن است که با افزایش این پارامتر، دقت الگوریتم بهبود می یابد. بنابراین، ما در این آزمایش آن را به max_g = 200 تعیین می کنیم. مقادیر pop_α1، pop_α2 و pop_α3 به ترتیب 0.5، 0.25 و 0.25 تنظیم می شوند. دلیل این است که ما امیدواریم که افراد تولید شده به صورت تصادفی بیش از دو استراتژی دیگر باشند. برای اپراتور کراس اوور و اپراتور جهش، مقادیر pc، pc_α، pm و pm_α همه به 1 تعلق دارند. دلیل این است که جمعیت جدید P (g + 1) از P (g) ∪ Pm (g + 1) انتخاب شده است، از این رو Pm (g + 1) باید تفاوت بزرگی از P (g) داشته باشد. پارامترهای مورد استفاده برای MOECDM در مطالعه تجربی ما در جدول 2 آمده است.
  18. C. ارزیابی عملکرد برای ارزیابی عملکرد الگوریتم های خوشه ای به صورت کمی، در اینجا، دو شاخص، Rand index (R) و F-measure (F) مورد استفاده قرار می گیرند. آنها به ترتیب معادلات 8 و 9 تعریف می شوند.   SS تعداد نقاط زوج دارای برچسب های کلاس مشابه متعلق به همان خوشه است، SD تعداد نقاط زوج دارای برچسب های کلاس های مختلف متعلق به خوشه های مشابه است، DS تعداد نقاط زوج دارای برچسب های کلاس مشابه متعلق به خوشه های مختلف است و DD تعداد نقاط زوج دارای برچسب های مختلف کلاس متعلق به خوشه های مختلف است. توجه داشته باشید که هرچقدر ارزش R (F) بالاتر باشد، خوشه بندی بهتر است.
  19. D. تحلیل MOECDM در این بخش، دو مجموعه داده ها برای نشان دادن جبهه ناپایدار پارتو و نتایج خوشه بندی مربوطه انتخاب شد. به منظور مؤثرتر کردن روش پیشنهادی، خوشه های دو مجموعه داده باید ساختارهای متفاوت داشته باشند. از این رو، اولین مجموعه داده، Data_connected1 است و مجموعه داده دوم، Data_circle1 است.   مجموعه داده اولی که انتخاب شدهData_connected1 است که در شکل 2 نشان داده شده است. هر خوشه در این مجموعه داده به صورت یکنواخت از یک ناحیه فوق کروی تولید می شود و به یکدیگر متصل هستند. قسمت جبهه پارتو و چندین نتایج خوشه بندی در شکل 5 ارائه شده است. ما می توانیم ده نتیجه خوشه بندی مربوط به جبهه ناپایدار پارتو دریافت کنیم. از سمت چپ به راست در شکل 5 (a)، J1 با افزایش J2 کاهش می یابد. ما سه پارتیشن معنی دار را برای تحلیل این جبهه ناپایدار پارتو انتخاب می کنیم. شکل 5 (b) مربوط به نقطه قرمز جبهه ناپایدار پارتو است. این بهترین نتیجه خوشه بندی است و مقدار رند (F-measure) 0.96 (0.94) است. شکل 5 (c) مربوط به نقطه سیاه است که نشان دهنده حداکثر J1 و حداقل J2 است. از این رو این نتیجه خوشه ای ایده آل نیست. شکل 5 (d) مربوط به نقطه سبز است و دارای حداقل J1 و حداکثر J2 است. برای این نتیجه خوشه بندی، فاصله اقلیدس بیشتر از فاصله مسیر است و مقدار رند (اندازه گیری F) 0.94 (0.92) است. Data_circle1 در شکل 3 نشان داده شده است. بر خلاف Data_connected1، این مجموعه داده شامل دو خوشه با ساختار پیچیده است. جبهه ناپایدار پارتو که توسط MOECDM برای Data_circle1 به دست می آید و نتایج خوشه بندی چندگانه در شکل 6 ارائه شده است. ما همچنین سه نتیجه معنی دار برای تجزیه و تحلیل جبهه ناپایدار پارتو را انتخاب می کنیم. نقطه پارتو قرمز مربوط به شکل 6 (b) است که بهترین است و شاخص رند (اندازه گیری F) 1.00 (1.00) است. نقطه پارتو سبز مربوط به شکل 6 (d) است که بدترین نتیجه است. در این نتیجه خوشه بندی، فاصله ی اقلیدسی بیشتر از فاصله مسیر است و شاخص رند (اندازه ی F) 0.50 (0.50) است. نقطه سیاه میان نقطه قرمز و نقطه سبز است و مقدار رند آن (اندازه گیری F) 0.67 (0.66) است. این آزمایش نشان می دهد که فاصله مسیر برای Data_circle1 مناسب است. شکل 5: (a) قسمت پارتو Data_connected1 (ب) نتیجه خوشه بندی از نقطه قرمز در قسمت جلو پارتو (c) نتیجه خوشه بندی از نقطه سیاه در قسمت پارتو و (د) نتیجه خوشه بندی از نقطه سبز در جبهه پارتو شکل 6: (a) قسمت پارتو Data_circle1 (ب) نتیجه خوشه ای از نقطه قرمز در قسمت جلو پارتو (c) نتیجه خوشه ای از نقطه سیاه در قسمت پارتو و (د) نتیجه خوشه بندی از نقطه سبز در جبهه پارتو دو آزمایش نشان می دهد که MOECDM می تواند توزیع پنهان هر خوشه را با ساختارهای کروی و نامنظم کشف کند.
  20.   E. مقايسه با روشهاي ديگر در این بخش، MOECDM با سه روش دیگر از جمله Kmeans، FCM و NCUT مقایسه می شود. Kmeans و FCM دو تکنیک خوشه بندی سنتی هستند و بر اساس فاصله اقلیدس طراحی شده اند. NCUT روش خوشه بندی طیفی است و می تواند مجموعه داده های ارتباطی را به خوبی تجزیه کند. مجموعه داده های ارتباطی، فاصله بین هر جفت اشیا را توصیف می کند. از این رو، اندازه گیری های مختلف فاصله و ترکیب آنها می تواند برای تنظیم ماتریس های مختلف استفاده شود. در اینجا چهار راهبرد برای ایجاد ماتریس اعمال می شود: (1) فاصله اقلیدس (NCUT (E))، (2) فاصله مسیر (NCUT (P))، (3) ترکیب اندازه فاصله اقلیدسی و فاصله مسیر (NCUT (E + P)) و (4) نرمال سازی مسائل اقلیدسی و مسافت مسیر در محدوده [0، 1] (NCUT (Norm (E) + Norm (P))).  
  21. جدول 3 نتایج مقایسه الگوریتم هایی که گفته شد را ارائه می دهد. هر الگوریتم بیست بار در هر مجموعه داده اجرا می شود. Mean_R، Max_R، Mean_F و Max_F نشان می دهد که به طور متوسط ​​شاخص Rand، حداکثر شاخص Rand، میانگین F-measure و حداکثر F-measures در بیست اجرا می شود. جدول 3: مقایسه شاخص Rand و F-measureبا روش های مختلف محاسبه شده است.
  22. در آزمایش ما kmin به 2 تنظیم شده است. برای انتخاب بهترین kmax مشکل است. این پارامتر اندازه فضای جستجو را تعیین می کند، که از اندازه knmax برای مجموعه ای از اندازه n تعیین شده است. فضای جستجو در هنگام kmax به صورت نمادین رشد می کند افزایش. برای سادگی، ما kmax را به 10 تنظیم می کنیم و در بخش IV-C توضیح خواهیم داد. جدا از kmax، max_g و pop نیز باید مورد توجه قرار گیرد. از آنجا که فضای جستجو MOEACDM kn max است که بیشتر از kn در MOECDM است. از این رو max_g باید از MOECDM بزرگتر باشد. بر اساس تجزیه و تحلیل بالا، ما حداکثر 500 را تنظیم می کنیم. برای پاپ، طبق الگوریتم 4، جمعیت باید شامل افرادی باشد که از استراتژی های مختلف ساخته شده باشد؛ به عبارت دیگر پاپ باید به عنوان معادله 10 را برآورده کند. جایی که NIR، NIE و NIP تعداد افراد تولید شده را به طور تصادفی نشان می دهد، تعداد افراد تولید شده بر اساس فاصله اقلیدس و تعداد افراد تولید شده بر اساس فاصله مسافت به ترتیب. β یک پارامتر است که می تواند از هر روش پیش خوشه ای ناشی از ورودی جلوگیری کند اگر تنها یک بار اجرا شود و باید با β> 2 برآورده شود. عموما سه پارامتر باید با NIR = NIE + NIP و NIE = NIP = (kmax - kmin + 1). از این رو، پاپ را می توان به 2 * 2 * (kmax - kmin + 1) * β تنظیم کرد. ما در این آزمایش پاپ را به 500 تنظیم کردیم.
  23. A. تجزیه و تحلیل MOEACDM در این بخش، ما همچنین دو مجموعه داده را برای نشان دادن جبهه ناپایدار پارتو به دست آمده از MOEACDM و نتایج خوشه بندی مربوطه اعمال می کنیم. Data_separated1 و Data_spiral را می توان در اینجا استفاده کرد. شکل 7 نمایش جبهه پارتو نامغلوب و نتایج خوشه بندی را با استفاده از MOEACDM برای Data_separated1 نشان می دهد. به طور خاص، این تنها دو نقطه در جبهه ناپایدار پارتو است، و دو نتیجه خوشه بندی مربوط به جبهه ناپایدار پارتو بسیار مشابه است. توضیح خوبی برای این وضعیت این است که هر دو معیار فاصله نشان دهنده رابطه مشابه در این مجموعه داده است. جدول 4 نیز همانند شکل 7 نمایش می دهد. جدول 4: شماره خوشه، شاخص رند و F-measure مربوط به نقاط مختلف پاروتو برای Data_separated1 شکل 7:a) ) جبهه پارتو Data_separated1، (b)نتیجه خوشه بندی در نقطه قرمز در جبهه ناپایدار پاروتو c)) نتیجه خوشه بندی در نقطه سبز در جبهه ناپایدار پاروتو
  24. جدول 5، تغییرات J1، J2، شماره خوشه ، مقدار Rand و F-measure را با ده نقطه پارتو متفاوت نشان می دهد. همانطور که از این جدول دیده می شود، مقدار J1 کاهش می یابد و مقدار J2 در همان زمان افزایش می یابد. همانطور که همه ما می دانیم، ما باید بین دو تابع هدف trade-off را پیدا کنیم. برای این مجموعه داده، فاصله مسیر بیشتر از فاصله اقلیدس غالب است، بنابراین بهترین نتیجه خوشه بندی، اولین نقطه پارتو است با حداقل J2. علاوه بر این، با افزایش J1 و کاهش J2، تعداد خوشه ها از تعداد خوشه صحیح دور است و مقدار Rand (F-measure) کاهش می یابد. جدول 5: تعداد خوشه ها، شاخص رند و F-measure که مربوط به پارامترهای مختلف جبهه پاروتو برای Data_spiral است. شکل 8، جبهه پارتو و سه نتایج خوشه بندی برای Data_spiral را نمایش میدهد. واضح است که شکل 8 (b) بهترین نتیجه خوشه بندی است و اولین نقطه در جبهه ناپایدار پارتو است.
  25. C. بررسی KMAX حداکثر تعداد خوشه انتظار می رود، kmax، باید در این قسمت تحلیل شود. این یک پارامتر مهم است زیرا اندازه فضای جستجو را تعیین می کند. از یک طرف، kmax بیش از حد بزرگ باعث تلف شدن حافظه و زمان پردازش می شود. از سوی دیگر، یک kmax بسیار کوچک احتمال احتمال خروج k * را افزایش می دهد، بنابراین غیر قابل دسترس خواهد بود. در حالت ایده آل، kmax = n بهترین راه است، اما زمان محاسبه نیز بالا است. ما باید یک trade-off بین سرعت و دقت روش پیشنهادی را انتخاب کنیم. شکل 9، تعداد خوشه ای مطلوب به دست آمده با استفاده از مقدار kmax مختلف برای چهار مجموعه داده های آزمون می باشد. مقدار kmax از 2 تا 20 با اندازه گام یک تغییر می کند. همان طور که می توان از این تنظیمات دید، اگر kmax کوچکتر از k * باشد، kmax به عنوان k * تشخیص داده می شود. و اگر kmax بزرگتر از k * باشد، MOEACDM همیشه می تواند تعداد خوشه مطلوب k * را در تمام اجرا ها پیدا کند. نتایج تجربی نشان می دهد که MOEACDM به این پارامتر kmax حساس نیست. شکل 9: تعداد خوشه مطلوب با استفاده از مقادیر مختلف kmax برای چهار مجموعه داده های تست
  26. جدول 6 خلاصه نتایج خوشه بندی به دست آمده از روش های فوق برای هشت مجموعه داده های تست. هر الگوریتم باید ده بار در هر مجموعه داده اجرا شود. CN نشان دهنده شماره خوشه درست است. AP (P) شماره درست را برای Data_separated1، Data_connected1، Iris و Soybean به درستی شناسایی می کند. دلیل این است که چهار مجموعه داده دارای خوشه ای با ساختار کروی هستند. AP(P) به درستی شماره صحیح Data_separated1، Data_connected1، Data_spiral، Data_circle1، Spiral2 و Iris را در هر اجرا حساب می کند، با این حال، مقادیر Mean_R و Mean_F برای Data_separated1، Data_connected1 و Iris بهترین نیستند. جدول 6: مقایسه تعداد خوشه به دست آمده (CN)، میانگین رند ((Mean_Rو میانگینF-measure(Mean_F) محاسبه شده توسط روابط مقایسه شده
  27. D. تفاوت بین MOECDM و MOEACDM در این بخش، ما تفاوت و رابطه بین دو رویکرد، MOECDM و MOEACDM بحث می کنیم. بعضی از مراحل باید مورد توجه قرار گیرند شامل نمایندگی، واسطه، اپراتور crossover، اپراتور جهش، اپراتور انتخابی و طراحی تابع هدف. برای نمایندگی، اپراتور crossover، اپراتور جهش و اپراتور انتخاب، دو رویکرد استراتژی مشابهی را اعمال می کند. برای ابتدایی، جمعیت اولیه توسط روش قبل از خوشه سازی NCUK با یک خوشه ثابت k ایجاد می شود و از طریق روش پیش خوشه ای مشابه تولید می شود، اما با یک متغیر k از محدوده {kmin، ...، kmax} تولید می شود. برای طراحی تابع هدف، MOECDM تنها قوام درون خوشه را در نظر می گیرد به عنوان معادله 4 و MOEACDM نه تنها قوام درون خوشه را در نظر می گیرد، بلکه همسانی بین خوشه ای را به عنوان معادله 7 در نظر می گیرد. بنابراین زمان اجرای MOEACDM بالاتر از MOECDM است. بعد، ما همچنین زمان اجرای هر دو روش، MOECDM و MOEACDM، با استفاده از پارامترهای مشابه (پاپ، max_g) برای مجموعه داده های آزمون. نتایج در جدول 7 ذکر شده است. هر مجموعه داده آزمایشی در 10 برنامه مستقل توسط دو روش با پارامترهای مختلف انجام می شود. این دو روش در Matlab R2014b برنامه ریزی شده اند و رایانه برای آزمایش با یک پردازش مرکزی اینتل هسته ای 2.5 گیگاهرتزی و 4 گیگابایت حافظه مجهز شده است. از جدول 7 می توانیم ببینیم که زمان محاسبه MOECDM در MOEACDM با پارامترهای مشابه (pop، max_g) در اکثر مجموعه داده های آزمون کمتر است. نتایج خوشه بندی نتایج تجزیه و تحلیل فوق را ثابت می کند.
  28. V. بحث و نتیجه گیری خوشه بندی یک وظیفه مهم برای کشف ساختارهای پنهان است و موضوع پژوهش های فعال در زمینه های مختلف تحقیقاتی از جمله بازیابی اطلاعات، سرمایه گذاری، مدیریت شبکه و پزشکی است. مجموعه داده ها در این زمینه ها ممکن است از ویژگی های گوناگون تشکیل شده و دارای ساختارهای متفاوت باشند. رویکردهای خوشه تکاملی موجود معمولا یک تابع هدف را بهینه سازی می کنند و به سختی می توانند با مجموعه داده های با ساختارهای چندگانه مقابله کنند. در این مقاله، یک چارچوب خوشهبندی تکاملی جدید چند منظوره را برای تقسیم مجموعه داده ها با ساختارهای مختلف پیشنهاد می کنیم. دو تابع هدف طراحی شده بر اساس دو اندازه گیری از راه دور به طور همزمان با الگوریتم تکاملی چند هدفه بهینه می شوند. این رویکرد، رابطه بین نقاط داده را براساس دو اندازه گیری فاصله مختلف در نظر می گیرد، بنابراین می تواند ساختارهای پیچیده را تقسیم کند. با این حال، دو محدودیت وجود دارد که باید بهبود یابد. اول بهترین راه حل است که به طور خودکار از جبهه ناپایدار پارتو انتخاب نشده و دوم الگوریتم تکاملی است که معمولا زمان گیر است. در آینده، ما سعی خواهیم کرد این مشکلات را حل کنیم و رویکردهای خود را در زمینه های کاربردی مانند تجزیه و تحلیل داده ها و تقسیم بندی تصویر قرار دهیم. علاوه بر این، آزمایش سایر ترکیبات اندازه گیری از راه دور نیز کار آینده ای است. جدول 7: متوسط زمان اجرا (ثانیه) MOECDM و MOEACDMبا مقدار متفاوت (pop,max_g) ، برای هشت مجموعه داده