نقد و بررسی
مقاله خوشهبندی جریانهای دادهای متنی یک روش درختی با تابع سهتایی و بردار ویژگی سهتایی
چکیده فارسی :
دیتا یا دادهها را میتوان یکی از عناصر اصلی در تکنیک دادهکاوی در نظر گرفت. با توجه به حجم دادهای وسیع دادههای آنلاین که از بهوسیلهی حسگرها، چتهای اینترنتی، توییتر، فیسبوک، بانک آنلاین و یا تراکنشهای ATM ایجاد میشود، محدودیت اصلی دریافتن الگوهای مکرر در جریانهای دادهای این بوده که فقط یکبار باید اسکن دادهها را با حافظهی محدود و زمان پردازشی کم انجام دهیم. مفهوم تغییر پویای دادهها به یک چالش کلیدی تبدیلشده است که ما آن را جریانهای دادهای نامگذاری میکنیم. در این مقاله قصد داریم الگوریتمی را بر مبنای یافتن الگوهای مکرر در جریانهای دادهای و با استفاده از یک روش درختی ارائه دهیم و جریانهای دادهای متنی که بهوسیلهی مقیاس تشابه سهتایی ایجادشدهاند را مورد خوشهبندی قرار دهیم.
چکیده انگلیسی:
Data is the primary concern in data mining. Data Stream Mining is gaining a lot of practical significance with the huge online data generated from Sensors, Internet Relay Chats, Twitter, Facebook, Online Bank or ATM Transactions. The primary constraint in finding the frequent patterns in data streams is to perform only one time scan of the data with limited memory and requires less processing time. The concept of dynamically changing data is becoming a key challenge, what we call as data streams. In our present work, the algorithm is based on finding frequent patterns in the data streams using a tree based approach and to continuously cluster the text data streams being generated using a new ternary similarity measure defined.
0دیدگاه کاربران