حراج!
elsevier

An efficient and scalable density-based clustering algorithm for datasets with complex structures (یک الگوریتم خوشه بندی مبتنی بر تراکم قابل مقیاس دهی و کارامد برای مجموعه داده های با ساختار های پیچیده)

25,000 تومان 17,000 تومان

دانلود رایگان مقاله انگلیسی

Elsevier Journal

Year:2015

42 صفحه فارسی

توضیحات محصول

An efficient and scalable density-based clustering algorithm for datasets with complex structures

Abstract

As a research branch of data mining, clustering, as an unsupervised learning scheme, focuses on assigning objects in the dataset into several groups, called clusters, without any prior knowledge. Density-Based Spatial Clustering of Applications with Noise (DBSCAN) is one of the most widely used clustering algorithms for spatial datasets, which can detect any shapes of clusters and can automatically identify noise points. However, there are several troublesome limitations of DBSCAN: (1) the performance of the algorithm depends on two specified parameters, ε and MinPts in which ε represents the maximum radius of a neighborhood from the observing point and MinPts means the minimum number of data points contained in such a neighborhood. (2) The time consumption for searching the nearest neighbors of each object is intolerable in the cluster expansion. (3) Selecting different starting points results in quite different consequences. (4) DBSCAN is unable to identify adjacent clusters of various densities. In addition to these restrictions about DBSCAN mentioned above, the identification of border points is often ignored. In our paper, we successfully solve the above problems. Firstly, we improve the traditional locality sensitive hashing method to implement fast query of nearest neighbors. Secondly, several definitions are redefined on the basis of the influence space of each object, which takes the nearest neighbors and the reverse nearest neighbors into account. The influence space is proved to be sensitive to local density changes to successfully reduce the amount of parameters and identify adjacent clusters of different densities. Moreover, this new relationship based on the influence space makes the insensitivity to the ordering of inputting points possible. Finally, a new concept—core density reachable based on the influence space is put forward which aims to distinguish between border objects and noisy objects. Several experiments are performed which demonstrate that the performance of our proposed algorithm is better than the traditional DBSCAN algorithm and the improved algorithm IS-DBSCAN.

یک الگوریتم خوشه بندی مبتنی بر تراکم قابل مقیاس دهی و کارامد برای مجموعه داده های با ساختار های پیچیده

چکیده

به عنوان یک شاخه پژوهشی داده کاوی، خوشه بندی، به عنوان یک طرح یادگیری نظارت نشده، بر روی تخصیص آبجکت ها در مجموعه داده، در چند گروه به نام خوشه، بدون هیچ اطلاعات قبلی، تمرکز دارد. خوشه بندی فضایی مبتنی بر تراکم از کاربرد ها با نویز (DBSCAN) یکی از معمولترین الگوریتم های خوشه بندی برای مجموعه داده های فضایی می باشد که می تواند هر شکلی از خوشه را تشخیص داده و به طور اتوماتیک نقاط نویز را مشخص نماید. به هر حال، مشکلات متعددی در خصوص DBSCAN وجود دارد : 1) کارایی الگوریتم وابسته به دو پارامتر مشخص شده ɛ و MINPTS می باشد که در آن، ɛ ماکزیمم شعاع همسایگی از نقطه شاهد را نشان داده و Minpt به معنی مینیمم تعداد نقاط داده شامل شده در چنین همسایگی می باشد. 2) صرف زمان برای بررسی نزدیکترین همسایه از هر آبجکت در بسط خوشه، قابل تحمل نمی باشد. 3) انتخاب نقاط شروع مختلف منجر به نتایج متفاوت می شود. 4) DBSCAN برای شناسایی خوشه های همسایه با هویت های مختلف قابل استفاده نمی باشد. علاوه بر این محدودیت ها در مورد DBSCAN، شناسایی نقطه مرزی اغلب در نظر گرفته نمی شود. در این مقاله ، ما به طور موفق، مشکلات فوق را حل کرده ایم. در ابتدا؛ ما به طور سنتی، روش هاشینگ حساس از لحاظ محلی را برای پیاده سازی جستجو و جستجوی سریع از نزدیکترین همسایه، بهبود بخشیدیم. ثانیا چندین تعریف بر مبنای فضای تاثیر هر آبجکت باز تعریف می شود که نزدیکترین همسایه و نزدیکترین همسایه معکوس را در نظر می گیرید. فضای تاثیر، اثبات شده که حساس به تغییرات تراکم محلی برای کاهش موفقیت امیز مقدار پارامتر ها و شناسایی خوشه های مجاور با چگالی های متفاوت می باشد. به علاوه، این رابطه جدید برمبنای فضای تاثیر، عدم حساسیت به ترتیب وارد کردن نقاط محتمل را ایجاد می نماید. سرانجام یک مفهوم جدید تراکم قابل دستیابی هسته ای بر مبنای فضای تاثیر مطرح می شود که هدفی در تمییز دادن میان آبجکت های مرزی و آبجکت های نویز دار دارد. چندین آزمایش اجرا شده است که نشان می دهد که کارایی الگوریتم پیشنهادی ما بهتر از الگوریتم DBSCAN قدیمی و الگوریتم بهبود یافته IS – DBSCAN می باشد.

دیدگاهها

هیچ دیدگاهی برای این محصول نوشته نشده است.

اولین نفری باشید که دیدگاهی را ارسال می کنید برای “An efficient and scalable density-based clustering algorithm for datasets with complex structures (یک الگوریتم خوشه بندی مبتنی بر تراکم قابل مقیاس دهی و کارامد برای مجموعه داده های با ساختار های پیچیده)”

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *