More Related Content
Similar to Time series data mining (20)
Time series data mining
- 1. بررسیبورس در آن کاربرد و زمانی های سری در کاوی داده
میرمحمد محمد سید،ارشد کارشناسی مقطعتهران واحد اسالمی آزاد دانشگاه
جنوب،تهران استان ،m.mirmohamad@gmail.com
:چکیده
مشاهدات از ای مجموعه ،زمانی سری یکمی اتفاق زمان ترتیب به که است ی.افتند
بعبارتیسریداده از ای دنباله زمانی های.است زمان به وابسته که هستند هایی
،هوا روزانه دمای مانندقیمت و فروشگاه یک هفتگی فروش کلصندوق و سهام هایهای
سرمایه.مشترک گذاریخصوصیتداده زیاد حجم ،زمانی سری یکزی ابعاد ،هاضرورت و اد
ما دارای طرفی از و است مداوم رسانی بروز.باشد می پیوسته و عددی هیتیافزایش
داده از استفادهد خاص بطور و ،زمانی هایادهگسترده تحقیقات باعث ،زمانی سری های
روی بر کاوی داده فیلد درآنهااست شده.که است روشی زمانی سری بینی پیش مدل
پ برای قبلی شده مشاهده مقادیر ازمی استفاده مقادیر آینده بینی یش.کند
ماسری روی جامعی مرور مقاله این درو داشت خواهیم زمانی های3جنبهمهم
سرییعنی زمانی هایRepresentation،IndexingوSimilarity measureمی بررسی راسپس .کنیم
روی مروریتکنیککمک به انتها در و داشت خواهیم ها سری این روی کاوی داده های
رگرسیونسهامی بازار ،.کرد خواهیم بررسی نمونه بطور را
:کلیدی کلمات
سریهای،زمانیمعیارشباهت,تحلیلزمانی،معیارفاصله,شاخصبندیداده,
کاوشداده
- 2. 1-:مقدمه
سریداده اشیا از مهمی کالس زمانی های
زممی سادگی به و هستند انیآنه توانا
راپیدا علمی و مالی کاربردهای در
.کردمثال بطور:
•قیمت مانند ،اقتصاد در زمانی سری
صادرات ،متوالی روزهای در سهام
درآمد متوسط ،متوالی ماههای در
... متوالی ماههای در
•علوم در بویژه ،فیزیک زمانی سری
،دریایی علوم ،جوی آثار به مربوط
.)فیزیک زمین(ژئو فیزیک
•سریزم هایانیبازاریابیو تجزیه ،
یا هفته در فروش ارقام تحلیل
مسئله یک متوالی ماههایمهمدر
تجارتاست.
•سریزمانی هایجمعیتنگاری،
ساالنه گیری اندازهجمعیتباهدف
پیشبینیتغییراتجمعیتدرمدت
زماندهتابیستسالآینده.
ه واقع درممی که انطورسری در بینیدهای
،زمانیزمان از توالی یک در ها داده
یا روزانه مثال ،شوند می گیری اندازه
. ..و ساالنه یا هفتگی
مجموعه زمانی سری یکمشاهداتی از ای
و شود می ساخته زمان ترتیب به که است
و زیاد اطالعات،ابعاد باالی حجم دارای
طرفی از و است مداوم رسانی بروز ضرورت
پیوست و عددی ماهیتی دارای.باشد می ه
داده در بنابراینمعیار ،زمانی سری های
.است تخمین مبنای بر ها سری شباهت
موضوع درسری در کاوی دادهزمانی های
داده چطور ما که اینست اصلی مشکلهای
.دهیم نمایش را زمانی سریحجم با چون
داده از زیادیهاز زیادی ابعاد و ا
دادهو سر هالزوما و داریم کارتمام
داده اینکار بدرد است ممکن ابعاد و ها
.نخورد مارایج راهکارهای از یکی،
ابعاد با ای دامنه به زمانی سری تبدیل
از استفاده آن همراه به و کمترشاخص
بندی.است مناسبعمعیار این بر الوه
سری بین شباهتزیرتوالی یا و زمانی های-
سری از ایو زمانی هایsegmentationیا
موضوع ،زمانی سری بندی بخشاتمهمیدر
داده این روی کاوی داده بحثمی ها
باشند.
ادامه در3داده مدیریت مهم جنبههای
یعنی زمانی سریRepresentation،Similarity
MeasureوIndexing.کرد خواهیم بررسی را
تکنیک سپسداده این روی کاوی داده های-
می بررسی را هایک انتها در و .کنیم
قرار بررسی مورد را نمونه سهام بازار
.داد خواهیم
2-سهمدیریت در مهم جنبه
دا:زمانی سری های ده
1-2-Representation:چطور ما اینکه
زما سری یک اصلی خصوصیاتنمایش را نی
تکنیک اینکه و .دهیمهایRepresentation
در دهند کاهش را ابعاد بتوانند باید
.شود حفظ سری اصلی خصوصیات حالیکه
2-2-Similarity Measure(شباهت معیار):
شباهت معیار توانیم می چطور اینکهرا
کنیم تعریف ها سری برایتابتوانیم
که کنیم مشخصهم با مختلف سری دو
دارند همخوانینه یاچطور اینکه .می
سری دو بین را حسی فاصله یک توانیم
پایه بر باید معیار این .کنیم فرموله
مفاهیمسری بنابراین ،باشد ادراکیهایی
لح از حتی کهیکسان هم با ریاضی اظ
می ،نیستندشبیه ادراکی لحاظ از توانند
.باشند بهم
3-2-Indexing:)بندی (شاخصاینکه
داده عظیم حجم روی بتوانیم چطورهای
باال سرعت با را ها جو و پرس زمانی سری
مکانیزم چه دیگر بعبارت .دهیم پاسخ
indexingتکنیک .شود گرفته بکار باید ای
indexingفضای بایدمینیممایو کند مصرف
امکان حد تا آن محاسباتی پیچیدگی
.باشد حداقل
از تری مفصل توضیح به ادامه در3جنبه
:پرداخت خواهیم باال
Time Series Data Representation -3:
داده ،شد اشاره قبال که همانطورسری های
.هستند زیادی ابعاد دارای زمانیاگر
ندهیم کاهش را ابعاد حجم این،تعریف
الگوریتمداده روی که هاییسری خام های
هزینه پر بسیار کنند عمل زمانی های
دلیل مهمترین .بود خواهدTime series
Representationیا ابعاد کاهشdimension reduction
.استتکنیک یکRepresentationبایدشکلی
کاهش با را سری ازdimensionهاابعاد یا
- 3. بدهد ما بهو اصلی خصوصیات حالیکه در
شکلاست شده حفظ سری اصلی.
کامپیوتر علوم عمده مشکالت از یکی،
روش انتخابRepresentationو مناسبکارآمد
داده برای.است زمانی سری هایاین با
دیدگاه،تکنینکبرای مختلفی های
Representationسریآمده بوجود زمانی های
مثل .استDFT،PAA،APCAکه .. ودر
ادامهتکنیک این از بعضی مورد درها
.کرد خواهیم صحبت
بطورکلیتکنیکهایRepresentationدو در
می قرار دسته:گیرند
1-Adaptiveسری شکل آنها در که :
از بعد جدید،ابعاد کاهشسازگار
.است اصلی سری با همشکل تقریبا و
2-Non-Adaptiveکه :سری شکل آنها در
از بعد جدیدلزوما ،ابعاد کاهش
ممکن و نیست اصلی سری با سازگار
اصلی شکل با متفاوت کامال است
.باشد
شکل(1)تکنیک انواع از نماییهای
Representationمی نشان را:دهد
(شکل1)
رایج از برخی بررسی به حالتکنیک ترین-
هایRepresentationمی:پردازیم
Sampling -1-3برداری نمونه یا:
دداده نقاط تعداد اگر تکنیک این رای
،سازند می را سری کهmبگیرم نظر در
،nاز بعد داده نقاط تعدادکاهشابعاد
که استn<mصورت به نقاط این .است
قرار و شوند می انتخاب سری از نمونه
.باشند نقاط کل نماینده است
متد یک متد اینNon-Adaptiveشکل و است
زمانیکه را اصلی سریnکوچک بسیار
باشداست ممکن و کند حفظ تواند نمی
.شود اصلی سری شکل از متفاوت
(شکل2)
-2-3(PAA) Piecewise Aggregate
Approximation:
به اصلی سری روش این درsegmentیا ها
بخشهر برای و شود می تقسیم مختلف های
segmentو شود می محاسبه مقدار میانگین
یک عنوان بهdata pointسری نمایش برای
جدیدمی گرفته نظر در.شوداگسری طول ر
داده نقاط تعداد یا مابرابر ایmباشد
برابر ما سریP1=(p1…pm)از بعد که است
dimension reductionابعاد کاهش یابه تبدیل
P2=(p1..pn)که شود میn<mو استکدام هر
محاسبه زیر فرمول از جدید سری نقاط از
می:شوند
آن در که𝑒𝑘انتهای نقطه مقدار برابر
بخش𝑘امو𝑠𝑘ابتدای مقداربخش𝑘ام
.است
(شکل3)
3-3-Adaptive Piecewise Constant
Approximation(APCA):
روش یافته تعمیم روش اینPAAدر و است
یک طول آنsegmentوبدین نیست ثابت
تواند می ترتیبadaptiveسری اصلی باشکل
.باشد
(شکل4)
- 4. 4-3-Piecewise Linear Approximation:
این بهتکنیکPiecewise Linear Representationیا
PLR.شود می گفته هم
:دارد مختلف روش دو تکنیک این
1-linear interpolation
2-linear regression
Linear Interpolation -1-4-3:
توالی کنیم فرض اگرP = (p1 … pj)داشته را
خطی برابر تخمین خط روش این در ،باشیم
که است𝑝1به را𝑝𝑗خط و .کند می متصل
از بعدی تخمین𝑝𝑗.شد خواهد شروعPLRیک
الگوریتمbottom-up.استPLRتخمین یک با
شکلی به شود می آغاز زمانی سری از خوب
طول به سری تخمین برای کهm،m/2،segment
جفت شونده تکرار بطور و است نیاز مورد
segmentهستند ترین هزینه کم که هایی
ا و شوند می ادغام هم باتا موضوع ین
می پیدا ادامه زمانیتعداد که کند
segment.باشد نیاز مورد تعداد برابر ها
(شکل5)
(شکل6)
Linear Regression -2-4-3:
روش این،ر سریخطوط بهترین با ااتصال
می نمایشکه خطی بهترین بعبارتی .دهد
سری از تقریبی و تخمین دهنده نشان
حفظ با ابعاد کاهش این بر عالوه .است
.شود می انجام روش این در برجسته نقاط
برجسته نقاط این بهPIPیاPerceptually
Important Pointsمی گفته.شود
زمانی سری در𝑃با𝑛( نقطه𝑃 =
(𝑝1 … 𝑝𝑛)پردازش فرآیند در نقاط ،)PIP
جای ،نقطه اهمیت به توجه با توانند می
.کنند عوض را خودشان
یعنی داده نقطه اولین𝑝1یعنی وآخرین
𝑝𝑛دومین و اولینPIP.هستند هاPIP
نقطه ،بعدیرا فاصله بیشترین که است ای
دو باPIPاوچهارم نقطه .باشد داشته ل
نقطه ،با را فاصله بیشترین که است ای
دو که خطیPIPمتصل بهم آنرا مجاور
.باشد داشته کردهاولین مابین همچنین
ودومینPIP.باشدموقعیت پردازش فرآیند
PIPتعداد زمانیکه تاPIPبدست نظر مورد
سری نقاط تمام یا و بیایدPلیست به
شده مرتبLپیدا ادامه ،شوند الحاق
می.کند
( شکل7)از نمایشیLinear Regressionبا7
PIP:باشد می
(شکل7)
تکنیک حال هر بهبحث برای زیادی های
Representationحوصله از که است شده مطرح
معیار ادامه در .است خارج مقاله این
.داد خواهیم قرار بررسی مورد را شباهت
SimilarityMeasure -4:
شباهت معیار،بنیادآنالیز برای مهمی
سریو گوناگون زمانی هایروشهای
.باشد می کاوی دادهدرداده پایگاههای
مرسومدقیق همخوانی ،شباهت معیار ،
اما است مقادیردردادهزمانی سری های
معیار ،دارند پیوسته و عددی ماهیتی که
.است تخمین روش به شباهت
س یک در کنید فرضمربوط زمانی ریبه
جو و پرس سهام:داریم نیاز را زیر های
1-تمام کردن پیداسهامکه هایی
سه شبیهامA.هستند
2-که سهامدارانی تمام کردن پیدا
قیمت مبنای بر خریدشان الگوی
های سهام پایانیhigh-techبوده
.است
دادهتوانند می هاشباهت بررسی جهتبه
پردازش و سازماندهی مختلف روش دو
.شوند
- 5. 1-Whole sequence matchingکهبرروی
داده کلشباهت زمانی سری های
.شود می بررسی
2-Subsequence matchingاین در که
زیرتوالی اگر ،روشنام به ایQ
نام به سری و باشیم داشتهP،
می بررسی صورت این به شباهتشود
توالی زیر کهاز هاییPکهباQ
دارند همخوانیمی انتخاب.شوند
Indexing -5:
طرح یکIndexingمی کمک ما بهتا کند
کارآمد سازماندهیداده از یهامنظور به
داده سریع بازیابیدیتابیس از هاهای
.باشیم داشته بزرگ
Data Mining Tasks -6:
روشهایس کاوی داده برای را زیرریهای
می قرار بررسی مورد زمانی:دهیم
•Query by content
•Motif discovery
•Clustering
•Classification
•Prediction (Forecasting)
•Summarization(Segmentation)
•Anomaly Detection
6-1-Query by content:
روش اینمبنای برحل راه بازیابیهایی
و پرس به را شباهت بیشترین که استجوی
( شکل .دارند کاربر درخواستی8)Query
by contentفضای یک در را2نشان بعدی
می:دهد
(شکل8)
،باال شکل درسری یک نمایانگر نقطه هر
داده ازبه توجه با که باشد می های
فضای از ای نقطه در آن خصوصیات2بعدی
وارد جو و پرس یک وقتی .است گرفته قرار
نمایش از شکلی به تبدیل ،شود می سیستم
(Representationکه شود می )با مقایسه قابل
.شود دیگر نقاطمقایسه گونه دو سپس
.شود انجام تواند میRange queryسری که-
مشخص فاصله با را هایی𝑒ازqueryما به
و دهد میk-Nearest- neighborhoodکه𝑘نقطه
با فاصله کمترین که ایqueryدارند را
می ما به.دهد
6-2-Clustering:
کالسترینگ دراست نقاطی کردن پیدا هدف
بیشت کهو دارند بهم را شباهت رین
کالستربا را فاصله بیشترین مختلف های
.دارند هم
(شکل9)
روشclusteringمی تقسیم روش زیر دو به:شود
1-Whole Series Clusteringیک روش این در
سری با کامل بطور زمانی سری
و شود می مقایسه دیگر زمانی
شبی که آنهایییک در هستند هم ه
می قرار کالستر.گیرند
2-Subsequence Clusteringزیر روش این در
توالیسری از هامقایسه و ایجاد ها
می.شوند
Classification -3-6:
زیرتوالی یا سری به روش این درهایی
یک سری ازclass labelبا .شود می داده
داده به توجهکه موجود هایclass label-
می آموزش مدل ،است مشخص شانبینیدو
می سیستم وارد جدیدی سری وقتی،شود
میمقدار تواندclass labelتخمین آنرا
.بزند
شکل(11)می نشان را فرآیند این
:دهد
(شکل10)
- 6. شکلaمی نشان را آموزشی مجموعه.دهد
شکلbدادهبدون هایlabelمی نشان را-
.است شده سیستم وارد که دهدشکل در
cنسبت کالس یک به شده وارد نقطه هر
.است شده داده
Segmentation -7:
سری دقیق تخمین روش این هدفزمانی های
کا بااصلی خصوصیات حالیکه در ابعاد هش
آنحفظمی است شده.باشد
شکل(11)سیستم یک خروجیsegmentationرا
می نشان:دهد
(شکل11)
از سری بازسازی خطای کاهش روش این هدف
این برای اصلی راهکار و است اصلی سری
روش شود می استفاده سالهاست که موضوع
PLAهای روش (ازrepresentationپیش که است )
صحبت آن به راجع تر.کردیم
Prediction -1-7:
سری در مهم های روش از یکیزمانی های
اسسری زیر یا سری کمک به آن در و تها
مقاد ، موجود مقادیر وآینده یر
زیر و ها سری و متغیرهابینی پیش ها سری
.شود می زده تخمین و
شکل(12)می نشان را بینی پیش سناریوی
:دهد
(شکل12)
Anomaly Detection -2-7:
توالی زیر روش دراینبا که سری های
تفاوت سری نرمال حالتمالجظه قابل
می شناسایی را دارند.کنیمشکل(13)
می روش این برای مثالی:باشد
(شکل13)
Motif Discovery -3-7:
توالی زیر کردن پیدا هدفکه است هایی
د پیوستهتکرار بزرگتر زمانی سری یک ر
شدهها زیرتوالی این به . .اندmotifمی
.گویند
شکل(11)اینمی نشان را موضوع:دهد
(شکل14)
بینی پیش به راجع خواهیم می ادامه در
کمک به سهام بازارTimeSeries data mining
نمونه بازار یک ادامه در و کنیم صحبت
می قرار بررسی مورد را.دهیم
با سهام بازار بینی پیش
از استفادهTime Series Data
Mining:
برای جذاب موضوعات از یکیمحققاندر
بینی پیش ، سالها طی در ،مالی امور
این نتایج و .است سهام آینده قیمت
فروش و خرید در فعاالن به تحقیقات
برای مناسب زمان تا کند می کمک سهام
و بزنند تخمین را سهام فروش و خرید
.کنند گیری تصمیم آن مبنای بر
می ماسری کاوی داده روش هر از توانیم
ب پیش برای زمانیسهام آینده ارزش ینی
.بگیریم کمکاز ما مقاله این در
رگرسیون آنالیزهای روش از که
Predictionاستمقادیر بینی پیش برای
نیجریه بازار در سهام قیمت آینده
کرده استفاده.ایم
اطالعات ازخالصه کار این برای ما
درتبادالت ها قیمت هفتگی و روزانه
نیجریه سهام بازاربرای3به سهام
- 7. های نامFirst Bank of Nigeria Plc, Zenith Bank Plc,
and Skye Bankکرده استفاده.ایم
Linear Regressionتکنیک ترین رایج از یکی-
ارزش بینی پیش برای کاوی داده های
مشخصهمقادیر مبنای بر هامشخصههای
است دیگراین از مثال این در ما و
می روش.کنیم استفاده خواهیم
ممکن مقادیر از تخمینی که رگرسیون خط
:است زیر فرمول به ،است سری یک
𝑌 = 𝑎𝑥 + 𝑏
آن در که𝑌،وابسته متغیر𝑥متغیر
و مستقل𝑎و خط ضریب𝑏مبدا از عرض
.است خط
مقدار𝑎و𝑏فرمول ازهایزیر
شو می محاسبهن:د
Y،سهام فعلی قیمت کننده مشخصx
مقدارP.E، سود به قیمت نسبت یا𝑦̅
سهام های قیمت میانگین𝑥̅میانگینP.E
وnدر دخیل سهام های قیمت تعداد
.باشد می فرمول
برای که ای داده3جمع نظر مورد سهام
صورت به است شده آوری( جدول1):است
( جدول1)
اطالعات به توجه با خواهیم می ما حاال
برای را رگرسیون خط ، باال3بانک
.کنیم فرموله نظر مورد
کار این مثال طور بهبانک برای را
این جزئیات .ایم داده انجام اول
می را محاسبه( جدول در توانید2)
.کنید مشاهده
جدول(2)
مقدار اینجا تاaوbمحاسبه را
خط فرمول در جایگذاری با حاال .کردیم
:رسیم می زیر فرمول به
برا را رگرسیون خط فرمول ترتیب بهمین
ی2.میکنیم محاسبه دیگر سهام
مقدار وقتی ،ها فرمول این داشتن با
مقدار واقع در ،شود سیستم وارد جدیدی
P.Eبر جدیدیمحاسبه نظر مورد سهام ای
می ،شوددر آن جایگذاری با توانیم
جای باال(به فرمولx( سهام ارزش )y)
.بزنیم تخمین را
از آمده بدست فرمول زیر در3سهام
:ایم کرده محاسبه را نظر مورد
•First Bank Plc
•𝑦 = 35.85 + 0.12𝑥
•Skye Bank Plc
- 8. •𝑦 = 30.97 − 0.64𝑥
•Zenith Bank Plc
•𝑦 = 14.39 + 1.16𝑥
-8:گیری نتیجه
امروزهطور به زمانی سری های داده
مخ موضوعات در گستردهتالخصوص علی لف
و هستند مطرح علمی و مالی مباحث
این باالی حجم بعلت اما .دارند کاربرد
بروز ضرورت و زیاد ابعاد و اطالعات
به نیاز ،ها داده این مداوم رسانی
صورت به بتوانند که است هایی تکنیک
پرکا و مفید الگوهای خودکارربردرا
کشف ها داده عظیم حجم این دل از
داده های تکنیک بنابراین .نمایند
بسیار تواند می ها داده این روی کاوی
.باشند اهمیت با
این در کاوی داده از خاص طور به ما
بینی پیش و سهام بازار در ها سری
تکنیک کمک به سهام آینده قیمت
یعنی آن نوع ترین ساده و رگرسیون
رگرسیواما .کردیم استفاده خطی ن
ما که بود این داشت وجود که موضوعی
از توانستیم می نظرمان مورد هدف برای
نیز دیگری کاوی داده تکنیک هر
.نماییم استفاده
ما به که مدلی آوردن بدست نهایت در
یک سهام آینده وضعیت بینی پیش در
این به منجر تواند می کند کمک شرکت
ا ذینفعان که شودبتوانند بازار ین
و خرید برای موقعی به و درست تصمیمات
.بگیرند هایشان سهام فروش
مراجع:
[1] Tak-chung Fu, A review on time series data
mining, Department of Computing, Hong Kong
Polytechnic University, Hunghom, Kowloon,
Hong Kong, Elsevier Publications, 2011
[2] PHILIPPE ESLING and CARLOS AGON,
Time-Series Data Mining,Institut de Recherche
et Coordination, ACM Computing Surveys,
2012
[3] S AbdulsalamSulaiman Olaniyi, Adewole,
Kayode S., Jimoh, R. G, Stock Trend Prediction
Using Regression Analysis – A Data Mining
Approach,AJSS Journal, 2010-11