SlideShare a Scribd company logo
1 of 66
Download to read offline
Fusion and Correlation
Tools & Case-studies
Iran Telecommunication Research Center(ITRC)
Communication Technology Department
Web ranking project
By: Mahdi Sayyad
November, 2017
Outline
 Who we are?
 Our Work Process
 Applied researches on Fusion
 Applied researches on Correlation
 Data Fusion Tools
 Log/event Correlation Tools
 Conclusions
Our Team
Mahdi Sayyad
MS in Computer Engineering ,CEH
,CCNA, ISMS Lead Auditor,
Cybersecurity Researcher, Co-Founder
of ICSGROUP.
7+ year experience in InfoSec and
Cybersecurity analysis
Mohammad H. Bazrafkan
MS in Information Security, CEH, OSCP, Co-
Founder ARTINERTEBAT.
6+ year experience in InfoSec and
Cybersecurity analysis
Our Research Process
Requirements
analysis
•Problem Definition
•Requirement Skills
•Scope Determination
•Team Selection and
acquisition
Information
Gathering and
Resource
Selection
•Papers(journals and
Conferences)
•Books(handbooks and
proceeding studies)
•Thesis
•Technical reports
•Workshop presentation
•Main Keywords: Data
Fusion/Log Correlation/web
log Analytics
Review and Study
•Fundamentals and
scope define
•Models and
Architectures
•Tools and Techniques
Feasibility
Analysis and
Proposed
solutions
•Leveraging tools and
techniques for use
case
•Selection and
Developing proposed
solution
Reporting
• Phase 1 
• Phase 2 
• Phase 3
Case-Study
Review
 Applied researches on Fusion
 Applied researches on Correlation
Case-study structure
9
36
42Cases
Correlation
Papers(18)
4
Fusion
Papers(18)
5
‫الگ‬ ‫نوع‬:‫پژوهش‬ ‫در‬ ‫استفاده‬ ‫مورد‬ ‫های‬ ‫الگ‬ ‫ویژگی‬ ‫و‬ ‫فرمت‬
‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬:‫ادغام‬ ‫فرآیند‬ ‫انجام‬ ‫از‬ ‫هدف‬/‫در‬ ‫ها‬ ‫داده‬ ‫همبستگی‬
‫پژوهش‬
‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬:‫ها‬ ‫مدل‬ ‫اساس‬ ‫بر‬ ‫شده‬ ‫استفاده‬ ‫معماری‬ ‫یا‬ ‫مدل‬
‫ادغام‬ ‫های‬ ‫معماری‬ ‫یا‬/‫پژوهش‬ ‫در‬ ‫ها‬ ‫داده‬ ‫همبستگی‬
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬:‫شده‬ ‫استفاده‬ ‫پردازشی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬‫فرآیند‬ ‫در‬
‫پژوهش‬ ‫در‬ ‫ها‬ ‫داده‬ ‫ادغام‬
‫شده‬ ‫استفاده‬ ‫ابزار‬:‫فرآی‬ ‫در‬ ‫شده‬ ‫استفاده‬ ‫پردازشی‬ ‫افزارهای‬ ‫نرم‬ ‫یا‬ ‫ابزار‬‫ند‬
‫ادغام‬/‫پژوهش‬ ‫در‬ ‫ها‬ ‫داده‬ ‫همبستگی‬
‫عملی‬ ‫آزمایش‬ ‫شرح‬:‫فرآیند‬ ‫انجام‬ ‫چگونگی‬ ‫از‬ ‫ای‬ ‫خالصه‬ ‫شرح‬
‫ادغام‬/‫عملی‬ ‫آزمایش‬ ‫صورت‬ ‫به‬ ‫ها‬ ‫داده‬ ‫همبستگی‬
‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬:‫ادغام‬ ‫فرآیند‬ ‫ارزیابی‬ ‫و‬ ‫تحلیل‬/‫ه‬‫مبستگی‬
‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫های‬ ‫ویژگی‬ ‫و‬ ‫اهداف‬ ‫با‬ ‫پژوهش‬ ‫های‬ ‫داده‬
Fusion case-study: article#1
WebWarehouse–ANewWebInformationFusionToolforWebMining,2006
‫الگ‬ ‫نوع‬
•‫انواع‬‫الگ‬‫ها‬(‫الگ‬‫وب‬،‫سرور‬‫الگ‬‫اسکریپت‬‫های‬‫جاسازی‬،‫شده‬‫الگ‬‫اطالعات‬‫خزش‬‫شده‬‫و‬...)
•‫برای‬‫مطالعه‬‫موردی‬:‫اطالعات‬‫وب‬‫سایت‬NYMEX(‫بورس‬‫کاالی‬‫نفتی‬‫نیویورک‬)
‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬
‫ایجاد‬‫یک‬‫انباره‬‫داده‬‫ویژه‬‫داده‬‫های‬‫وب‬‫با‬‫جایگزینی‬‫فرآیند‬،‫استخراج‬‫تبدیل‬‫و‬‫بارگزاری‬(ETL)‫در‬‫انباره‬‫داده‬‫ها‬‫با‬‫فرآیند‬،‫استخراج‬،‫ادغام‬‫نگاشت‬‫و‬‫بارگزاری‬
(EFML)‫در‬‫انباره‬‫وب‬
‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫معماری‬‫منبع‬‫داده‬:
oComplementary Fusion(‫ادغام‬‫اطالعات‬‫چند‬‫موجودیت‬‫مرتبط‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬)
oRedundant Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫یکسان‬)
oCooperative Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫یکسان‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫مختلف‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫های‬‫متفاوت‬)
‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:
oMulti-Level Fusion(‫استخراج‬‫و‬‫ادغام‬‫داده‬‫ها‬،‫ویژگی‬‫ها‬‫و‬‫تصمیم‬‫ها‬‫در‬‫چند‬‫سطح‬)
‫فرآیند‬‫ادغام‬‫داده‬‫ها‬:
oData In–Data Out (DAI-DAO)–‫ورودی‬‫داده‬‫های‬،‫خام‬‫خروجی‬‫داده‬‫های‬‫خام‬‫تجمیع‬‫شده‬
oData In–Feature Out (DAI-FEO)–‫ورودی‬‫داده‬‫های‬،‫خام‬‫خروجی‬‫ویژگی‬‫ها‬
oFeature In–Feature Out (FEI-FEO)-‫ورودی‬‫ویژگی‬،‫ها‬‫خروجی‬‫ویژگی‬‫های‬‫غنی‬‫شده‬
oFeature In–Decision Out (FEI-DEO)–‫ورودی‬‫ویژگی‬،‫ها‬‫خروجی‬‫تصمیم‬‫ها‬
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬
•‫راهکار‬‫اجرایی‬EFML(،‫استخراج‬،‫ادغام‬‫نگاشت‬‫و‬‫بارگزاری‬):
•‫استخراج‬:‫استفاده‬‫از‬Object Exchange Model (OEM)
•‫ادغام‬:‫استفاده‬‫از‬‫دو‬‫راهکار‬‫همگونی‬‫ساختار‬(‫تطابق‬‫ساختاری‬)‫و‬‫ناهمگونی‬‫ساختار‬(‫استنتاج‬‫هستان‬‫شناسی‬)
•‫نگاشت‬:‫استفاده‬‫از‬‫توابع‬‫مرسوم‬‫انباره‬‫داده‬‫ها‬‫برای‬‫نگاشت‬‫ساختارها‬(‫روش‬‫های‬‫رابطه‬‫ای‬‫و‬‫غیر‬‫رابطه‬‫ای‬)
•‫بارگزاری‬:‫ورود‬‫داده‬‫ها‬‫و‬‫پردازش‬‫آنها‬‫بر‬‫اساس‬‫مدل‬‫داده‬‫های‬‫طراحی‬‫شده‬‫در‬‫انباره‬‫وب‬
•‫پردازش‬‫داده‬‫ها‬‫توسط‬‫الگوریتم‬‫های‬‫داده‬‫کاوی‬(‫خوشه‬،‫بندی‬‫رده‬،‫بندی‬‫قوانین‬‫انجمنی‬)‫و‬OLAP
‫شده‬ ‫استفاده‬ ‫ابزار‬‫ابزار‬‫یا‬‫بستر‬‫فنی‬‫مشخصی‬‫در‬‫این‬‫پژوهش‬‫برای‬‫پیاده‬‫سازی‬‫مدل‬‫انباره‬‫وب‬‫ارائه‬‫نشده‬‫است‬.
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫در‬‫این‬‫مقاله‬‫به‬‫عنوان‬‫آزمایش‬،‫عملی‬‫داده‬‫های‬‫وب‬‫سایت‬‫بورس‬‫کاالی‬‫نفتی‬‫نیویورک‬(NYMEX)‫مورد‬‫استفاده‬‫قرار‬‫گرفته‬‫است‬.‫در‬‫آزمایش‬‫ارائه‬،‫شده‬
‫محصوالت‬‫نفتی‬‫که‬‫در‬‫صفحات‬‫مختلف‬‫این‬‫وب‬‫سایت‬‫دارای‬‫اطالعات‬،‫فنی‬،‫نقدها‬‫قیمت‬‫و‬‫پیش‬‫بینی‬‫ها‬‫می‬‫باشد‬‫به‬‫عنوان‬‫موجودیت‬‫اطالعاتی‬‫در‬‫م‬‫دل‬‫انباره‬‫وب‬
‫تحت‬‫فرآیند‬EFML‫جمع‬‫آوری‬‫و‬‫ذخیره‬‫می‬،‫گردد‬‫سپس‬‫جدول‬FACT‫بر‬‫اساس‬‫اطالعات‬‫و‬‫ویژگی‬‫های‬‫کاالهای‬‫بورسی‬‫مبتنی‬‫بر‬‫ابعاد‬(،‫زمان‬،‫میزان‬‫قیمت‬‫و‬
‫محدوده‬‫تغییرات‬)‫را‬‫تشکیل‬‫می‬‫دهد‬.‫در‬‫نهایت‬‫بر‬‫اساس‬‫روش‬‫های‬‫داده‬‫کاوی‬‫و‬OLAP‫به‬‫تجزیه‬‫تحلیل‬‫اطالعات‬‫جدول‬FACT‫پرداخته‬‫شده‬‫و‬‫تصمیم‬
‫پیشنهادی‬‫مبنی‬‫بر‬‫سودده‬‫یا‬‫ضررده‬‫بودن‬‫این‬‫کاالی‬‫بورسی‬‫مورد‬‫تحلیل‬‫و‬‫پیش‬‫بینی‬‫واقع‬‫می‬‫گردد‬.
‫ب‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ندی‬
‫با‬‫توجه‬‫به‬‫مدل‬‫ارائه‬‫شده‬‫در‬‫پژوهش‬‫تحت‬‫عنوان‬‫مدل‬‫انباره‬‫وب‬‫با‬‫پشتیبانی‬‫از‬‫انواع‬‫الگ‬،‫ها‬‫معماری‬‫های‬‫و‬‫سطوح‬‫ادغام‬‫داده‬‫های‬‫این‬‫پژوهش‬‫و‬‫انواع‬‫روش‬‫ه‬‫ای‬
‫تجزیه‬‫و‬،‫تحلیل‬‫می‬‫تواند‬‫به‬‫عنوان‬‫مدلی‬‫مناسب‬‫برای‬‫ذخیره‬‫سازی‬‫و‬‫تجمیع‬‫الگ‬‫های‬‫پروژه‬‫رتبه‬‫بندی‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫بکار‬‫گرفته‬‫شو‬‫د‬.
Fusion case-study: article#1
WebWarehouse–ANewWebInformationFusionToolforWebMining,2006
Fusion case-study: article#1
WebWarehouse–ANewWebInformationFusionToolforWebMining,2006
(1) Web Warehouse architecture in Article#1 (2) EFML in Article#1
Fusion case-study: article#2
AResearchoftheInternetBasedonWebInformationExtractionandDataFusion,2011
‫الگ‬ ‫نوع‬•‫به‬‫صورت‬‫آنالین‬(‫بدون‬‫ذخیره‬‫سازی‬‫داده‬)،‫بر‬‫اساس‬‫استخراج‬‫و‬‫پردازش‬‫در‬‫نتایج‬‫جستجوی‬‫گوگل‬
‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬
•‫یک‬‫راهکار‬‫جستجوی‬‫شخصی‬‫سازی‬‫شده‬‫در‬‫اینترنت‬‫بر‬‫اساس‬،‫فیلتر‬‫استخراج‬‫و‬‫یکپارچه‬‫سازی‬‫اطالعات‬‫حجیم‬‫از‬‫وب‬‫با‬‫اعمال‬‫نیازمندی‬‫های‬‫کاربر‬
•‫تسهیل‬‫دستیابی‬‫به‬‫نتایج‬‫مطلوب‬‫بر‬‫اساس‬‫ترجیحات‬‫کاربران‬‫می‬‫باشد‬.
•‫رویکرد‬‫ادغام‬‫داده‬‫ها‬‫در‬‫این‬،‫پژوهش‬‫صرفا‬‫ادعام‬‫نتایچ‬‫استخراج‬‫شده‬‫از‬‫موتور‬‫جستجوی‬‫گوگل‬‫بر‬‫اساس‬‫کلیدواژه‬‫های‬‫مورد‬‫جستجوی‬‫کاربر‬‫می‬‫باشد‬.
‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫استاندارد‬‫در‬‫این‬‫مقاله‬‫ارائه‬‫نشده‬‫است‬.‫اما‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1:
‫معماری‬‫منبع‬‫داده‬:Redundant Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫یکسان‬)
‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:Medium-Level Fusion(‫استخراج‬‫و‬‫ادغام‬‫ویژگی‬‫ها‬)
‫فرآیند‬‫ادغام‬‫داده‬‫ها‬:Data In–Feature Out (DAI-FEO)–‫ورود‬‫داده‬‫های‬،‫خام‬‫خروج‬‫ویژگی‬‫ها‬
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬
‫یک‬‫الگوریتم‬‫ابتکاری‬‫برای‬‫مقایسه‬‫کلیدواژه‬‫مورد‬‫جستجوی‬‫کاربر‬‫با‬‫کلیدواژه‬‫های‬‫نتایج‬‫موتور‬‫جستجو‬‫و‬‫استفاده‬‫از‬‫یک‬‫روش‬‫وزن‬‫دهی‬‫برای‬‫استخر‬‫اج‬‫نهایی‬‫ویژگی‬
‫های‬‫مطلوب‬‫کاربر‬
‫شده‬ ‫استفاده‬ ‫ابزار‬‫وب‬‫سرویس‬‫جستجوی‬‫گوگل‬‫با‬‫پروتکل‬SOAP(Google Search Soap API)
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫وب‬‫سرویس‬‫جستجوی‬‫گوگل‬‫با‬‫پروتکل‬SOAP‫در‬‫یک‬‫نرم‬‫افزار‬‫پیاده‬‫سازی‬‫شده‬‫و‬‫سپس‬‫عبارت‬"IBM ThinkPad T60 2007BT1 price"‫مورد‬‫جستجو‬‫واقع‬
‫شده‬‫است‬.‫سپس‬‫نتایج‬‫بر‬‫اساس‬‫کلیدواژه‬‫های‬‫مورد‬،‫جستجو‬‫از‬‫گوگل‬‫استخراج‬‫شده‬‫و‬‫ویژگی‬‫های‬‫مشترک‬‫نتایج‬(‫نظیر‬‫مشخصات‬‫سخت‬‫افزاری‬‫و‬...‫لب‬‫ت‬‫اپ‬)‫به‬‫عنوان‬
‫یک‬‫مجموعه‬‫داده‬‫تحت‬‫فرآیند‬‫ادغام‬‫اطالعات‬‫پردازش‬‫شده‬‫و‬‫پارامتر‬"‫قیمت‬"‫بر‬‫اساس‬‫روش‬‫وزن‬‫دهی‬‫مورد‬‫وزن‬‫دهی‬‫قرار‬‫گرفته‬‫و‬‫حد‬‫پایین‬‫و‬‫حد‬‫باالی‬‫مقادیر‬‫ای‬‫ن‬
‫پارامتر‬‫به‬‫کاربر‬‫گزارش‬‫شده‬‫است‬.
‫بند‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ی‬‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫تناسبی‬‫با‬‫شرایط‬،‫الگ‬‫هدف‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫ن‬‫دارد‬.
‫الگ‬ ‫نوع‬‫بر‬‫روی‬‫فرمت‬‫مشخصی‬‫از‬‫الگ‬‫متمرکز‬‫نشده‬‫است‬‫و‬‫بحث‬‫استراتژی‬‫کلی‬‫روش‬‫های‬‫ادغام‬‫برای‬‫شاخص‬‫گذاری‬(Indexing)‫اطالعات‬‫وب‬‫مطرح‬‫شده‬‫است‬
‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬‫بررسی‬‫سطوح‬‫و‬‫روش‬‫های‬‫ادغام‬‫داده‬‫ها‬‫با‬‫هدف‬‫شاخص‬‫گذاری‬(Indexing)‫موثر‬‫مستندات‬‫چند‬‫رسانه‬‫ای‬‫وب‬
‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫های‬‫ارائه‬‫شده‬‫ادغام‬‫داده‬‫ها‬‫در‬‫حوزه‬‫وب‬‫را‬‫به‬‫صورت‬‫یک‬‫مقاله‬‫مروری‬‫بررسی‬‫نموده‬‫است‬.‫البته‬‫حوزه‬‫مدل‬‫ها‬‫و‬‫معماری‬‫ها‬‫را‬‫به‬‫صورت‬‫زیر‬‫متمرکز‬
‫بررسی‬‫کرده‬‫است‬:
‫معماری‬‫منبع‬‫داده‬:Collaborative/Cooperative Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫یکسان‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫مختلف‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫های‬
‫متفاوت‬)
‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:Multi-Level/Multi Modal Fusion(‫استخراج‬‫و‬‫ادغام‬‫داده‬،‫ها‬‫ویژگی‬‫ها‬‫و‬‫تصمیم‬‫ها‬‫در‬‫چند‬‫سطح‬)
‫فرآیند‬‫ادغام‬‫داده‬‫ها‬:
oFeature In–Feature Out (FEI-FEO)–‫ورود‬‫ویژگی‬،‫ها‬‫خروج‬‫ویژگی‬‫های‬‫غنی‬‫شده‬
oFeature In–Decision Out (FEI-DEO)–‫ورودی‬‫ویژگی‬،‫ها‬‫خرجی‬‫تصمیم‬
oDecision In–Decision Out (DEI-DEO)–‫ورودی‬‫تصمیم‬،‫ها‬‫خروجی‬‫تصمیم‬‫های‬‫غنی‬‫شده‬
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬
‫برای‬‫هر‬‫یک‬‫از‬‫فرآیندهای‬‫ادغام‬‫داده‬‫های‬‫بررسی‬،‫شده‬‫یک‬‫یا‬‫چند‬‫الگوریتم‬‫یادگیری‬‫ماشین‬‫نظیر‬SVM،Multiple Kernel Learning (MKL)،Time Delay
Neural Network (TDNN)،Bayesian Network‫و‬‫غیره‬‫را‬‫مورد‬‫بررسی‬‫قرار‬‫داده‬‫است‬.
‫شده‬ ‫استفاده‬ ‫ابزار‬‫با‬‫توجه‬‫به‬‫اینکه‬،‫مقاله‬‫یک‬‫مقاله‬‫مروری‬‫بر‬‫سایر‬‫مقاالت‬،‫است‬‫ابزار‬‫خاصی‬‫برای‬‫آزمایش‬‫مورد‬‫استفاده‬‫یا‬‫معرفی‬‫نشده‬‫است‬.
‫عملی‬ ‫آزمایش‬ ‫شرح‬‫با‬‫توجه‬‫به‬‫اینکه‬،‫مقاله‬‫یک‬‫مقاله‬‫مروری‬‫بر‬‫سایر‬‫مقاالت‬،‫است‬‫آزمایش‬‫عملی‬‫صورت‬‫نگرفته‬‫است‬.
‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫بندی‬‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫تناسبی‬‫با‬‫شرایط‬،‫الگ‬‫هدف‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫ن‬‫دارد‬.
Fusion case-study: article#3
FusionMethodsforMulti-ModalIndexingofWebData,2013
‫الگ‬ ‫نوع‬
‫خزش‬‫اطالعات‬‫از‬‫منابع‬‫داده‬:
IMDB(‫اطالعات‬‫کلی‬‫فیلم‬‫ها‬)
Twitter(‫فیدبک‬‫ها‬‫و‬‫ترند‬‫نظرات‬‫کاربران‬‫در‬‫مورد‬‫فیلم‬‫ها‬)
Metacritic(‫نقدها‬‫و‬‫امتیازبندی‬‫فیلم‬‫ها‬)
Rotten Tomatoes(‫نقد‬‫ها‬‫و‬‫اخبار‬‫در‬‫مورد‬‫فیلم‬‫ها‬)
‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬‫ادغام‬‫داده‬‫های‬‫منابع‬‫مختلف‬‫برای‬‫تجمیع‬‫اطالعات‬‫در‬‫خصوص‬‫فیلم‬‫های‬‫سینمایی‬
‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫استاندارد‬‫در‬‫این‬‫مقاله‬‫ارائه‬‫نشده‬‫است‬.‫اما‬‫می‬‫توان‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1:
‫معماری‬‫منبع‬‫داده‬:Complementary Fusion(‫ادغام‬‫اطالعات‬‫چند‬‫موجودیت‬‫مرتبط‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬)–‫برای‬‫ترکیب‬‫منابع‬‫داده‬‫ای‬‫مرتبط‬‫با‬‫فیلم‬‫ها‬
‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:Medium-Level Fusion(‫استخراج‬‫و‬‫ادغام‬‫ویژگی‬‫ها‬)
‫فرآیند‬‫ادغام‬‫داده‬‫ها‬:Data In–Feature Out (DAI-FEO)–‫ورود‬‫داده‬‫های‬،‫خام‬‫خروج‬‫ویژگی‬‫ها‬
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬‫استفاده‬‫از‬‫روش‬‫استنتاج‬‫پرس‬‫و‬‫جوهای‬‫معنایی‬‫مبتنی‬‫بر‬‫گراف‬Gremlin
‫شده‬ ‫استفاده‬ ‫ابزار‬
API‫های‬‫دریافت‬‫و‬‫استخراج‬‫اطالعات‬‫از‬‫وب‬(urllib،wget،cURL)
‫استفاده‬‫از‬‫دیکشنری‬OrderdDict.‫برای‬‫تبدیل‬‫منابع‬‫داده‬‫ای‬‫به‬‫فایل‬JSON
‫استفاده‬‫از‬HBase‫برای‬‫ذخیره‬‫سازی‬‫فایل‬‫های‬JSON
TITAN(‫پایگاه‬‫داده‬‫مبتنی‬‫بر‬‫گراف‬‫با‬‫زبان‬‫پرس‬‫و‬‫جوی‬‫گراف‬Gremlin)
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫در‬‫این‬،‫آزمایش‬‫اطالعات‬250‫فیلم‬‫از‬‫منابع‬‫داده‬‫ای‬‫مذکور‬‫استخراج‬‫و‬‫ذخیره‬‫سازی‬‫گردیده‬،‫است‬‫اطالعات‬‫استخراج‬‫شده‬‫شامل‬‫اطالعات‬‫سازندگان‬‫و‬،‫بازیگران‬‫بودجه‬،‫فیلم‬‫تاریخ‬‫ساخت‬‫و‬‫ن‬،‫مایش‬
‫ژانر‬‫فیلم‬(‫از‬IMDB)،‫نظرات‬‫کاربران‬(‫از‬Twitter)،‫نقدهای‬‫تخصصی‬‫و‬‫امتیازها‬(‫از‬Metacritic)،‫اخبار‬‫فیلم‬‫ها‬(Rotten Tomatoes)‫می‬‫باشد‬.
‫سپس‬‫اطالعات‬‫تجمیع‬‫شده‬‫برای‬‫یک‬‫پرس‬‫و‬‫جوی‬‫نمونه‬(‫فیلم‬The Dark Knight Rises)‫پردازش‬‫و‬‫نمایش‬‫شده‬‫است‬.
‫ب‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ندی‬‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫تناسبی‬‫با‬‫شرایط‬،‫الگ‬‫هدف‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫ندارد‬.
Fusion case-study: article#4
InformationIntegrationforMoviesDataUsingGraphDatabase,2015
‫الگ‬ ‫نوع‬‫الگ‬‫وب‬،‫سرور‬‫الگ‬‫اسکریپت‬Google Analytics‫و‬‫الگ‬‫خزش‬‫شده‬‫از‬‫وب‬
‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬
‫ترکیب‬‫چند‬‫نوع‬‫الگ‬‫از‬‫بازدیدهای‬‫یک‬‫وب‬‫سایت‬‫تجارت‬‫الکترونیک‬(‫الگ‬‫وب‬‫سرور‬‫و‬‫الگ‬‫اسکریپت‬Google Analytics‫آن‬‫وب‬‫سایت‬)‫و‬‫استخراج‬‫اقالم‬‫اطالعاتی‬‫مشابه‬‫آن‬‫وب‬‫سایت‬(‫محصوالت‬‫و‬‫قیمت‬‫ها‬)‫از‬‫سایت‬‫های‬‫دیگر‬
(‫رقبای‬‫آن‬‫وب‬‫سایت‬)‫به‬‫جهت‬‫انجام‬‫فرآیند‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫با‬‫استفاده‬‫از‬‫روش‬‫های‬‫داده‬‫کاوی‬‫می‬‫باشد‬.
‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫ارائه‬‫شده‬‫در‬‫این‬‫مقاله‬‫در‬‫شکل‬(3)‫ارائه‬‫شده‬‫است‬.‫می‬‫توان‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1،‫مدل‬‫و‬‫معماری‬‫ادغام‬‫داده‬‫های‬‫بکار‬‫گرفته‬‫شده‬‫در‬‫این‬‫پژوهش‬‫را‬‫به‬‫صورت‬‫ذیل‬‫بیان‬‫نمود‬:
‫معماری‬‫منبع‬‫داده‬:
oCooperative Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫یکسان‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫مختلف‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫های‬‫متفاوت‬):‫برای‬‫ترکیب‬‫الگ‬‫وب‬‫سرور‬‫و‬‫الگ‬Google Analytics
oComplementary Fusion(‫ادغام‬‫اطالعات‬‫چند‬‫موجودیت‬‫مرتبط‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬)-‫برای‬‫ترکیب‬‫اطالعات‬‫خزش‬‫شده‬‫رقبا‬
•‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:MultiLevel Fusion(‫استخراج‬‫ویژگی‬‫ها‬‫و‬‫تصمیم‬‫ها‬–‫ادغام‬‫داده‬‫ها‬‫و‬‫ویژگی‬‫ها‬)
‫فرآیند‬‫ادغام‬‫داده‬‫ها‬:
oData In–Feature Out (DAI-FEO):‫ورود‬‫داده‬‫های‬،‫خام‬‫خروج‬‫ویژگی‬‫ها‬
oFeature In–Decision Out (FEI-DEO):‫ورود‬‫ویژگی‬،‫ها‬‫خروج‬‫تصمیم‬‫ها‬
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬‫استفاده‬‫از‬‫روش‬‫استنتاج‬‫پرس‬‫و‬‫جوهای‬‫معنایی‬SPARQL‫و‬‫تحلیل‬‫نتایج‬‫پرس‬‫و‬‫جو‬‫شده‬‫با‬‫استفاده‬‫از‬‫روش‬‫های‬‫الگویابی‬‫داده‬‫کاوی‬(‫نام‬‫دقیق‬‫روش‬‫ذکر‬‫نشده‬‫است‬)
‫شده‬ ‫استفاده‬ ‫ابزار‬
Piwik(‫ابزار‬‫تجزیه‬‫و‬‫تحلیل‬‫بازدید‬‫ها‬‫از‬‫الگ‬‫وب‬‫سرور‬)
Google Analyitcs API(‫وب‬‫سرویس‬‫دریافت‬‫اطالعات‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫توسط‬‫اسکریپت‬Google Analytics)
‫هستان‬‫شناسی‬‫استاندارد‬Open Linked Data(‫پردازش‬‫معنایی‬‫اطالعات‬)
SPARQL‫برای‬‫پردازش‬‫پرس‬‫و‬‫جوهای‬‫معنایی‬‫هستان‬‫شناسی‬
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫آزمایش‬‫عملی‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫الگ‬‫های‬‫استخراج‬‫شده‬‫از‬‫وب‬‫سرورها‬‫و‬‫الگ‬‫اسکریپت‬Google Analytics‫از‬15‫وب‬‫سایت‬‫تجارت‬‫الکترونیک‬‫در‬‫کشورهای‬(،‫انگلیس‬،‫اسپانیا‬‫یونان‬‫و‬‫آلمان‬)‫می‬‫باشد‬.
‫در‬‫این‬،‫آزمایش‬‫الگ‬‫های‬‫وب‬‫سرور‬،‫ها‬‫الگ‬‫اسکریپت‬Google Analytics‫و‬‫اطالعات‬‫خزش‬‫شده‬‫از‬،‫وب‬‫به‬‫صورت‬‫یک‬‫فرمت‬‫داده‬‫های‬RDF‫توسط‬‫توابع‬‫نگاشت‬‫در‬‫قالب‬‫یک‬‫مجموعه‬‫داده‬‫با‬‫عنوان‬‫مخزن‬RDF‫ادغام‬‫و‬‫ذخیره‬‫می‬
‫گردند‬.‫سپس‬‫این‬RDF‫در‬‫قالب‬‫هستان‬‫شناسی‬‫ابتکاری‬‫مقاله‬‫تحت‬‫عنوان‬WAO (Web Analytics Ontology)‫بازنمایی‬‫شده‬‫و‬‫با‬‫هستان‬‫شناسی‬‫استاندارد‬Open Linked Data‫استنتاج‬‫می‬‫گردد‬.
‫پس‬‫از‬،‫آن‬‫اطالعات‬‫مخزن‬RDF،‫توسط‬‫زبان‬‫پرس‬‫و‬‫جوی‬‫معنایی‬SPARQL‫مورد‬‫پردازش‬‫قرار‬‫گرفته‬‫و‬‫به‬‫عنوان‬‫ورودی‬‫الگوریتم‬‫های‬‫تحلیلی‬‫داده‬‫کاوی‬‫مورد‬‫استفاده‬‫قرار‬‫می‬‫گیرند‬.
‫در‬‫آزمایش‬‫انجام‬،‫شده‬‫دو‬‫مطالعه‬‫موردی‬‫به‬‫عنوان‬‫نتایج‬‫تحلیلی‬‫فرآیند‬‫مذکور‬‫ارائه‬‫شده‬،‫است‬‫مطالعه‬‫موردی‬،‫اول‬‫در‬‫خصوص‬‫الگویابی‬‫رفتار‬‫بازدیدکنندگان‬‫و‬‫مطالعه‬‫موردی‬،‫دوم‬‫در‬‫خصوص‬‫تحلیل‬‫پروفایل‬‫محصو‬‫الت‬‫و‬
‫بازدیدکنندگان‬‫می‬‫باشد‬.
‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬
‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫با‬‫پروژه‬‫رتبه‬‫بندی‬‫تطابق‬‫دارد‬‫و‬‫راهکار‬‫ارائه‬‫شده‬،‫آن‬‫می‬‫تواند‬‫برای‬‫حل‬‫چالش‬‫های‬‫مو‬‫رد‬‫نیاز‬
‫پروژه‬‫رتبه‬‫بندی‬‫بکار‬‫گرفته‬‫شود‬.
Fusion case-study: article#5
Anontology-baseddataintegrationapproachforwebanalyticsine-commerce,2016
Fusion case-study: article#5
Anontology-baseddataintegrationapproachforwebanalyticsine-commerce,2015
(3) Web analytics architecture
‫الگ‬ ‫نوع‬‫انواع‬‫الگ‬‫ها‬‫به‬‫ویژه‬‫الگ‬‫های‬Event‫در‬‫سیستم‬‫عامل‬‫ها‬
‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫ارائه‬‫یک‬‫نرم‬‫افزار‬‫به‬‫نام‬LEC‫یا‬‫همبسته‬‫سازی‬‫رویداد‬‫الگ‬‫ها‬‫بر‬‫اساس‬‫معماری‬‫پرس‬‫و‬‫جوهای‬‫مستمر‬(Continuous Query)
‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫در‬‫شکل‬(4)‫ارائه‬‫شده‬،‫است‬‫جزئیات‬‫معماری‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬:
‫مدل‬‫باال‬‫به‬‫پایین‬(‫تعیین‬‫اهداف‬‫و‬‫تحلیل‬،‫ها‬‫سپس‬‫همبستگی‬‫الگ‬‫ها‬‫بر‬‫ا‬‫ساس‬‫اهداف‬‫و‬‫تحلیل‬‫ها‬)
‫معماری‬Mirco-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫یک‬‫نوع‬‫الگ‬):‫تکنیک‬‫های‬‫استفاده‬‫شده‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬:
oField-based correlation(‫همبستگی‬‫بر‬‫اساس‬‫فیلدها‬)
oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬)
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬
‫هر‬‫یک‬‫از‬‫مولفه‬‫های‬‫معماری‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشند‬(‫شکل‬4):
‫موتور‬‫شاخص‬‫گذاری‬(Indexing engine):‫در‬‫این‬،‫مولفه‬‫فایل‬‫های‬‫الگ‬‫به‬‫صورت‬‫الگ‬‫های‬‫معکوس‬IFL‫تبدیل‬‫می‬‫شوند‬.
‫پوشه‬‫بندها‬(Wrappers):‫در‬‫این‬،‫مولفه‬‫فایل‬‫هایی‬‫که‬‫دارای‬‫ساختار‬‫عمومی‬‫و‬‫شناخته‬‫شده‬‫و‬‫همگون‬‫هستند‬‫با‬‫الگ‬‫هایی‬‫که‬‫ناشناخته‬‫یا‬‫ساختار‬‫ناهمگ‬‫ونی‬
‫دارند‬‫تفکیک‬‫و‬‫دسته‬‫بندی‬‫می‬‫گردند‬.
‫مدیریت‬‫پاالیش‬(Filtration manager):‫در‬‫این‬،‫مولفه‬‫قبل‬‫از‬‫اجرای‬‫پرس‬‫و‬،‫جوها‬‫داده‬‫های‬‫جریانی‬(stream)‫مورد‬‫پاالیش‬‫واقع‬‫می‬‫شوند‬.
‫موتور‬‫پرس‬‫و‬‫جو‬(Query Engine):‫در‬‫این‬‫مولفه‬‫تاریخچه‬‫و‬‫اطالعات‬‫الگ‬‫ها‬‫برای‬‫فرآیند‬‫همبسته‬‫سازی‬‫از‬‫الگ‬‫های‬‫خام‬‫و‬‫معکوس‬‫مورد‬‫پرس‬‫و‬‫جو‬‫واقع‬
‫می‬‫شوند‬.
‫موتور‬‫همبسته‬‫ساز‬(Correlation engine):‫در‬‫این‬‫مولفه‬‫بر‬‫اساس‬‫قواعد‬‫تعریف‬‫شده‬‫همبسته‬،‫سازی‬‫الگ‬‫ها‬‫مورد‬‫تجزیه‬‫و‬‫تحلیل‬‫قرار‬‫گرفته‬‫و‬‫همبست‬‫ه‬‫می‬
‫گردند‬.
Correlation case-study: article#1
LECLogEventCorrelationArchitectureBasedonContinuousQuery,2009
Correlation case-study: article#1
LECLogEventCorrelationArchitectureBasedonContinuousQuery,2009
‫شده‬ ‫استفاده‬ ‫ابزار‬
‫زبان‬‫پرس‬‫و‬‫جوی‬‫مستمر‬CQL(Continuous Query Language)
‫سیستم‬‫مدیریت‬‫جریان‬‫داده‬(STREAM DSMS)
‫پیاده‬‫سازی‬‫نرم‬‫افزار‬‫در‬Lucene Framework
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫در‬‫آزمایش‬‫عملی‬‫این‬،‫مقاله‬‫توسط‬‫یک‬‫برنامه‬‫به‬‫نام‬LogGenerator‫که‬‫با‬‫زبان‬Java‫توسط‬‫نگارندگان‬‫مقاله‬‫پیاده‬‫سازی‬‫شده‬،‫است‬‫اقدام‬
‫به‬‫تولید‬‫الگ‬‫های‬‫مورد‬‫نظر‬‫از‬‫رویدادهای‬‫ماشین‬‫می‬‫نماید‬.‫این‬‫الگ‬‫ها‬‫در‬‫قالب‬‫رویدادهای‬‫سرویس‬‫های‬Client/Server‫ایجاد‬‫شده‬‫اند‬.
‫همچنین‬‫نرم‬‫افزار‬LEC‫بر‬‫اساس‬‫معماری‬‫مورد‬‫نظر‬،‫آن‬‫توسط‬‫چهارچوب‬Lucene Framework‫پیاده‬‫سازی‬‫شده‬‫است‬‫و‬‫فرمت‬‫الگ‬‫ها‬
‫در‬‫مرحله‬‫پوشه‬‫بندی‬‫تبدیل‬‫به‬XML‫می‬‫گردند‬.‫در‬‫نهایت‬‫نمونه‬‫الگ‬‫های‬‫تولیدی‬‫بر‬‫اساس‬‫قواعد‬‫مشخص‬‫مورد‬‫همبسته‬‫سازی‬‫و‬‫تحلیل‬
‫واقع‬‫شده‬‫اند‬.
‫ب‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ندی‬
‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫ت‬‫حلیل‬
‫با‬‫پروژه‬‫رتبه‬‫بندی‬‫به‬‫طور‬‫کامل‬‫تطبیق‬‫ندارد‬‫اما‬‫از‬‫الگوریتم‬‫بررسی‬‫شده‬‫در‬‫آن‬‫می‬‫توان‬‫برای‬‫حل‬‫چالش‬‫های‬‫پروژه‬‫رتبه‬‫بندی‬‫استفاده‬
‫نمود‬.
Correlation case-study: article#1
LECLogEventCorrelationArchitectureBasedonContinuousQuery,2009
(4) Web analytics architecture
‫الگ‬ ‫نوع‬‫استفاده‬‫از‬‫الگ‬‫های‬‫دسترسی‬‫کاربران‬‫به‬‫وب‬‫سرور‬
‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫انجام‬‫فرآیند‬‫همبستگی‬‫الگ‬‫های‬‫وب‬‫سرور‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫الگوی‬‫بازدیدکنندگان‬
‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1،‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬:
‫مدل‬‫پایین‬‫به‬‫باال‬(‫همبستگی‬‫الگ‬‫ها‬‫سپس‬‫کشف‬‫دانش‬‫از‬‫روی‬‫تحلیل‬)
‫معماری‬Micro-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫یک‬‫نوع‬‫الگ‬):
oField-based correlation(‫همبستگی‬‫بر‬‫اساس‬‫فیلدها‬)
oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬)
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬
‫الگوریتم‬‫خاصی‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫استفاده‬‫نشده‬‫است‬‫و‬‫راهکارها‬‫ی‬‫کلی‬Web Usage Mining‫نظیر‬‫تحلیل‬‫های‬،‫آماری‬‫خوشه‬،‫بندی‬‫قوانین‬،‫انجمنی‬‫رده‬‫بندی‬‫و‬‫درخت‬،‫تصمیم‬‫الگوهای‬
‫متوالی‬‫و‬‫شناسایی‬‫الگو‬‫برای‬‫تحلیل‬‫الگوی‬‫کاربران‬‫مورد‬‫بررسی‬‫واقع‬‫شده‬‫اند‬.
‫شده‬ ‫استفاده‬ ‫ابزار‬‫ابزار‬‫یا‬‫نرم‬‫افزار‬‫خاصی‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫استفاده‬‫نشده‬‫است‬.
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫در‬‫این‬‫مقاله‬‫به‬‫عنوان‬‫یک‬‫مقاله‬‫مبتنی‬‫بر‬‫ارائه‬،‫راهکار‬‫به‬‫مراحل‬‫یک‬‫راهکار‬‫اجرایی‬‫از‬‫مرحله‬‫منبع‬‫داده‬‫های‬‫خام‬(‫الگ‬‫وب‬‫سرور‬)،‫نحوه‬‫پاک‬‫سازی‬‫و‬‫نرمال‬‫سازی‬‫داده‬،‫ها‬‫کشف‬‫الگوها‬‫و‬‫تحل‬‫یل‬
‫الگوها‬‫می‬‫پردازد‬.‫هر‬‫یک‬‫از‬‫مراحل‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشند‬:
o‫پاک‬‫سازی‬‫و‬‫نرمال‬‫سازی‬‫داده‬‫ها‬:‫حذف‬‫رکوردهایی‬‫که‬‫دارای‬‫متد‬GET‫نباشند‬‫یا‬‫کد‬‫وضعیت‬‫پاسخ‬‫به‬‫صورت‬‫خطا‬‫بوده‬‫باشد‬‫یا‬‫فایل‬‫های‬‫استاتیک‬‫نظیر‬JPG،CSS‫و‬‫غیره‬.
o‫کشف‬‫الگوها‬:‫در‬‫این‬‫مرحله‬‫به‬‫شناسایی‬‫کاربران‬‫منحصربفرد‬‫و‬‫نشست‬‫های‬‫کاربران‬(Sessions)‫پرداخته‬‫می‬‫شود‬.‫کاربران‬‫منحصربفرد‬‫بر‬‫اساس‬‫ترکیب‬‫آدرس‬IP‫منحصربفرد‬‫و‬‫اطالعات‬
‫عامل‬‫کاربری‬(User_agent)‫تفکیک‬‫می‬‫شوند‬‫و‬‫نشست‬‫های‬‫کاربران‬‫بر‬‫اساس‬‫وقفه‬30‫دقیقه‬‫ای‬‫بین‬‫آخرین‬‫درخواست‬‫هر‬‫کاربر‬‫با‬‫درخواست‬‫بعدی‬‫آن‬‫تفکیک‬‫می‬‫شوند‬.
o‫تحلیل‬‫الگوها‬:‫در‬‫این‬‫مرحله‬‫با‬‫استفاده‬‫از‬‫روش‬‫های‬‫داده‬‫کاوی‬‫و‬‫آماری‬‫به‬‫تحلیل‬‫الگوها‬‫پرداخته‬‫می‬‫شود‬.
‫بن‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫دی‬
‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫با‬‫پروژه‬‫رتبه‬‫بندی‬‫به‬‫طور‬‫کامل‬‫تطبیق‬‫ن‬‫دارد‬‫اما‬‫از‬
‫راهکارهای‬‫تحلیل‬‫الگوی‬‫بررسی‬‫شده‬‫در‬‫آن‬‫می‬‫توان‬‫برای‬‫حل‬‫چالش‬‫های‬‫پروژه‬‫رتبه‬‫بندی‬‫استفاده‬‫نمود‬.
Correlation case-study: article#2
AccessPatternsinWebLogData-AReview,2013
‫الگ‬ ‫نوع‬‫الگ‬‫های‬‫وب‬‫سرور‬‫شامل‬‫الگ‬‫دسترسی‬‫کاربران‬‫و‬‫الگ‬‫خطاها‬(‫استفاده‬‫از‬‫الگ‬‫وب‬‫سایت‬‫موسسه‬‫آموزشی‬davkota.org‫به‬‫عنوان‬‫مطالعه‬‫موردی‬)
‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫انجام‬‫فرآیند‬‫همبستگی‬‫الگ‬‫های‬‫وب‬‫سرور‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫الگوی‬‫بازدیدکنندگان‬‫و‬‫نوع‬‫خطاهای‬‫وب‬‫سرور‬
‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1:
‫مدل‬‫پایین‬‫به‬‫باال‬(‫همبستگی‬‫الگ‬‫ها‬‫سپس‬‫کشف‬‫دانش‬‫از‬‫روی‬‫تحلیل‬)
‫معماری‬Macro-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫چند‬‫نوع‬‫الگ‬‫مختلف‬):‫تکنیک‬‫های‬‫استفاده‬‫شده‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬:
oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬)
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬
‫در‬‫این‬‫مقاله‬‫از‬‫الگوریتم‬‫خاصی‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫استفاده‬‫نشده‬‫است‬‫و‬‫راهکارهای‬‫اجرایی‬‫نرم‬‫افزار‬‫تجزیه‬‫و‬‫تحلیل‬‫الگ‬‫های‬‫وب‬‫سرور‬(WebLog Expert)‫در‬
‫انجام‬‫تحلیل‬‫ها‬‫بکار‬‫گرفته‬‫شده‬‫اند‬.‫که‬‫روش‬‫های‬‫این‬‫ابزار‬‫به‬‫شیوه‬‫های‬‫مبتنی‬‫بر‬‫قواعد‬‫می‬‫باشد‬.
‫شده‬ ‫استفاده‬ ‫ابزار‬‫استفاده‬‫از‬‫ابزار‬‫تجزیه‬‫و‬‫تحلیل‬‫الگ‬‫های‬‫وب‬‫سرور‬(WebLog Expert)
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫در‬‫این‬‫مقاله‬‫به‬‫عنوان‬‫آزمایش‬،‫عملی‬‫الگ‬‫های‬‫وب‬‫سرور‬‫موسسه‬‫آموزشی‬davkota.org‫به‬‫عنوان‬‫مطالعه‬‫موردی‬‫از‬‫تاریخ‬8‫اکتبر‬2012‫الی‬14‫اکتبر‬2012‫مورد‬
‫استفاده‬‫قرار‬‫گرفته‬‫است‬.
‫سپس‬‫الگ‬‫های‬‫دسترسی‬‫و‬‫خطای‬‫وب‬‫سرور‬‫این‬‫وب‬‫سایت‬‫با‬‫استفاده‬‫از‬‫ابزار‬WebLog Expert‫مورد‬‫تجزیه‬‫و‬‫تحلیل‬‫قرار‬‫گرفته‬‫است‬.‫در‬‫نهایت‬‫بر‬‫اساس‬‫خروجی‬
‫تحلیل‬‫های‬‫این‬‫نرم‬‫افزار‬‫مبنی‬‫بر‬‫الگوی‬‫بازدیدکنندگان‬(‫پردازش‬‫پارامترهای‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫نظیر‬‫میزان‬‫بازدیدکنندگان‬،‫منحصربفرد‬‫نشست‬،‫ها‬‫اطالعات‬‫عامل‬
‫های‬‫کاربری‬‫مانند‬‫سیستم‬،‫عامل‬‫مروگر‬‫و‬...)‫و‬‫الگوی‬‫خطاهای‬‫رخ‬‫داده‬(‫بررسی‬‫انواع‬‫کدهای‬‫وضعیت‬HTTP)‫به‬‫تحلیل‬‫ارتباط‬‫آنها‬‫با‬‫یکدیگر‬‫پرداخته‬‫است‬.
‫بند‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ی‬
‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫با‬‫پروژه‬‫رتبه‬‫بن‬‫دی‬‫تطابق‬
‫ندارد‬‫و‬‫راهکار‬‫ارائه‬‫شده‬،‫آن‬‫نمی‬‫تواند‬‫برای‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫بکار‬‫گرفته‬‫شود‬.
Correlation case-study: article#3
AnalysisofWebServerLogFilestoIncreaseTheEffectivenessofTheWebsiteUsingWebMiningTool,2013
‫الگ‬ ‫نوع‬‫الگ‬IaaS(‫ارائه‬‫بستر‬‫به‬‫صورت‬‫سرویس‬)‫از‬‫سیستم‬‫مدیریت‬‫ابری‬OpenStack
‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫انجام‬‫فرآیند‬‫همبستگی‬‫الگ‬‫های‬‫بستر‬‫ابری‬OpenStack‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫رفتارها‬‫و‬‫سرویس‬‫های‬‫مستاجران‬‫ابری‬
‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬
‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1:
‫مدل‬‫پایین‬‫به‬‫باال‬(‫همبستگی‬‫الگ‬‫ها‬‫سپس‬‫کشف‬‫دانش‬‫از‬‫روی‬‫تحلیل‬)
‫معماری‬Micro-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫یک‬‫نوع‬‫الگ‬):‫تکنیک‬‫های‬‫استفاده‬‫شده‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬:
oField-based correlation(‫همبستگی‬‫بر‬‫اساس‬‫فیلدها‬)-‫در‬‫این‬‫مقاله‬‫از‬‫عبارت‬Attribute-based correlation‫استفاده‬‫شده‬
oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬)-‫در‬‫این‬‫مقاله‬‫از‬‫عبارت‬
Conjunctive/Disjunctive correlation‫استفاده‬‫شده‬
‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬
‫استفاده‬‫از‬‫یک‬‫الگوریتم‬‫ابتکاری‬‫با‬‫تجزیه‬‫و‬‫تحلیل‬‫شاخص‬‫های‬‫الگ‬‫نظیر‬:
‫تعداد‬‫کاربران‬‫منحصربفرد‬‫ابر‬
‫تعداد‬‫ماشین‬‫های‬‫مجازی‬‫منحصربفرد‬‫ابر‬
‫تعداد‬‫دسترسی‬‫به‬‫سیستم‬‫عامل‬‫های‬‫منحصربفرد‬‫قابل‬‫نصب‬
‫تعداد‬IP‫آدرس‬‫های‬‫منحصربفرد‬‫ماشین‬‫مجازی‬‫های‬‫مجازی‬‫ابر‬
‫تعداد‬‫مستاجران‬‫منحصربفرد‬‫ابر‬
‫شده‬ ‫استفاده‬ ‫ابزار‬‫استفاده‬‫از‬‫بستر‬‫مدیریت‬‫ابری‬OpenStack‫برای‬‫ایجاد‬‫شرایط‬‫آزمایش‬‫و‬‫استفاده‬‫از‬‫الگ‬‫های‬‫آن‬
Correlation case-study: article#4
EventCorrelationforLogAnalysisintheCloud,2016
Correlation case-study: article#4
EventCorrelationforLogAnalysisintheCloud,2016
‫عملی‬ ‫آزمایش‬ ‫شرح‬
‫در‬‫این‬،‫مقاله‬‫محیط‬‫آزمایش‬‫در‬‫بستر‬‫مدیریت‬‫ابری‬OpenStack‫پیاده‬‫سازی‬‫شده‬‫است‬.‫سپس‬‫تعدادی‬‫مستاجر‬،‫ابر‬‫کاربران‬‫استفاده‬‫کننده‬‫از‬‫هر‬‫ابر‬‫و‬‫سای‬‫ر‬
‫شرایط‬‫داده‬‫ای‬‫مورد‬‫نیاز‬‫آزمایش‬‫الگ‬‫گردیده‬‫است‬.‫با‬‫استفاده‬‫از‬‫الگوریتم‬‫ابتکاری‬‫همبستگی‬‫الگ‬،‫ها‬‫اقدام‬‫به‬‫تجزیه‬‫و‬‫تحلیل‬‫و‬‫همبسته‬‫س‬‫ازی‬‫الگ‬‫های‬
OpenStack‫نموده‬‫است‬.‫در‬‫نهایت‬‫خروجی‬‫همبسته‬‫سازی‬‫الگ‬‫ها‬‫را‬‫از‬‫نظر‬‫الگوی‬‫استفاده‬‫کنندگان‬‫از‬‫ابر‬‫مورد‬‫تجزیه‬‫و‬‫تحلیل‬‫قرار‬‫داده‬‫است‬‫و‬‫نت‬‫ایج‬‫را‬‫با‬
‫سایر‬‫شیوه‬‫های‬‫تجزیه‬‫و‬‫تحلیل‬‫الگ‬‫نظیر‬‫روش‬‫های‬‫خوشه‬،‫بندی‬‫رده‬‫بندی‬‫و‬‫قوانین‬‫انجمنی‬‫در‬‫داده‬‫کاوی‬‫مورد‬‫مقایسه‬‫و‬‫بحث‬‫قرار‬‫داده‬‫است‬.
‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬
‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫با‬‫پروژه‬‫ر‬‫تبه‬‫بندی‬
‫تطابق‬‫ندارد‬‫و‬‫راهکار‬‫ارائه‬‫شده‬،‫آن‬‫نمی‬‫تواند‬‫برای‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫بکار‬‫گرفته‬‫شود‬.
Fusion Tools
 OracleFusionDevelopment
 Logfusion
 Lumify
 Lucidworks fusion
Oracle FusionDevelopment: Intro& features
 A fundamental approach based on assembled solutions, not written. Solutions are built by
assembling services together and in the process transcending disparate technology
boundaries. Fusion applications and services are built on Fusion Development is very similar
to Extreme Programming and Iterative development, and is heavily influenced by SOA. The
focus is on applications that can be quickly built and easily managed.
 Features
 Fusion Development enables rapid application development through composition instead
of coding
 barriers for an enterprise to make changes are lowered
 Rapid application development and changes can incent rapid decision-making
Oracle FusionDevelopment: Architectureandcomponents
Oracle Fusion Composed of two parts:
 Fusion Middleware(FMW): Comprises of Oracle Application Server and other stack
components that Oracle has acquired in past few years.
o Fusion Middleware products covering areas like: Oracle business Intelligence(BI), Oracle Identify
manager, Content manager, Service-Oriented Architecture(SOA)
 Fusion Application(OFA): Is next generation suite of applications that replace E-Bussiness
Suite. It will assimilate best of features from:
o E-business Suite
o JD Edwards
o PoepleSoft
o Siebel
 Fusion Applications is build on top of Oracle Fusion Middleware Technology stack using
Oracle Fusion Architecture as blueprint.
Oracle Fusion
Development:
Architectureand components
Oracle Fusion Apps Architecture – source: oracle .com
Oracle FusionDevelopment: Price& Licensing
….Varies according to configuration and use case
Logfusion: Intro& features
 LogFusion is a powerful real-time log monitoring application designed
for system administrators and developers! Use custom highlighting rules,
filtering and more. You can even sync your LogFusion settings between
computers.
 Main Features:
oSupports Many Log Types and create log categories
oRow Highlighting, Advanced Text Filtering
oWatched Folders
oCustom Columns
oSync Highlight Rules
oAuto-Scroll (like 'tail')
oScrollbar Highlight Markings
Logfusion: Price&Licensing
AltamiracorpLumify: Intro & features
Altamira LUMIFY an open source big data fusion, analysis, and visualization platform that
supports the development of actionable intelligence. Includes concepts:
 Ontology: structure for organizing information(i.e., your data model)
 Entities: any “thing” you want to represent(e.g., person, place, event)
 Relationships: a link between two entities(e.g., leader-of, work-for, sibling-of)
 Properties: data about an entity(e.g., first name, last name, date of birth)
 Graph: collection of entities and relationships between them
 Main Features:
o Speed and Scale
o Open Data. Your Data. Any Data.
o Bring Your Own Analytics
o Browser Based
o Collaborate in Real Time
o Better Decisions from your Data By visually linking data points
What can Do:
o Search
o Link analysis
o Knowledge Building
o Graph Visualization
o Multimedia analysis
o Geospatial analysis
AltamiracorpLumify: Architectureand components
It’s free and open source…
AltamiracorpLumify:Price& Licensing
 Lucidworks Fusion is the platform for intelligent search and search
analytics. Fusion leverages Apache Solr, the open source search engine,
and Apache Spark, the open source cluster computing framework,
to give you fast, scalable, proven, and reliable processing for
customized search and analytics over all of your data.
 Features:
 Simplified Development
 Robust Deployment Platform
 Enterprise Features OOTB
 AI-Driven Relevance
 Data That Is Accessed Your Way
 Data Analytics
 Analytics Dashboards
Lucidworks Fusion:Intro& features
Lucidworks Fusion:Architectureandcomponents
Lucidworks Fusion Architecture
Lucidworks Fusion:Architectureandcomponents
Fusion Server Architecture
Lucidworks Fusion:Architectureandcomponents
• Fusion UI
• UI Service
• Connectors
• REST API Services
• Solr
• Spark
• ZooKeeper
• bin/fusion
15 Day Free Trial Available
Lucidworks Fusion:Price&Licensing
Correlation Tools
 Solarwinds Log Event Manager(LEM)
 Logrythm
 Splunk
 ManageEngine EventLog Analyzer
 Logalyze
 ELK Stack
 Graylog
Solarwinds LogEvent Manager(LEM): Intro &features
 Powerful log analysis, true real-tie event correlation & advanced IT search.
 Main Features:
o Real-time log analysis – in-memory processing
o Event Correlation - giving “context” to disparate events from different
manufacturers
o Active Response – proactively defend your network
o Compliance – PCI, SOX, GLBA, HIPAA, NERC CIP and more
o Correlation rules – over 700 out-of-box network and security monitoring rules, a
flexible and powerful rule builder, behavior detection
o Node-based licensing mode
o Virtual Appliance(.OVA) ready to deploy with VMWare ESX, Microsoft Hyper-V
Solarwinds LogEvent Manager(LEM): Architectureand
Components
• LEM Manager:
o Syslog server
o Database
o Webserver
o Correlation Engine
• LEM Agent(Win&Lin)
• LEM Reports Console
Solarwinds LogEvent Manager(LEM): Price& Licensing
Logrythm: Intro & features
The LogRhythm Security Intelligence Platform is a highly configurable, cross-platform log management
and security information and event management (founded in 2003).
Markets and use cases: As well as large enterprises, plays well in government agencies,
MSSPs and mid-sized businesses.
Metrics: LogRhythm’s decentralized architecture is said to make it highly scalable.
 Security qualifications: FISMA, GPG13, PCI DSS, HIPAA, NERC CIP, SOX and ISO 27001.
 Intelligence: Machine analytics to surface advanced threats. Its risk-based priority algorithm
applies risk and threat factors to automatically qualify alarms based on highest risk
 Delivery: Can be deployed as an appliance, software or virtual instance.
Logrythm: Intro& features
Agents: LogRhythm can collect all types of Windows Event Logs with or without the use of an
agent. Its agent technology facilitates the aggregation of log data, security events and other
machine data. Data Collectors can operate locally or remotely.
 Pricing: Subscription pricing is tied to volume consumption. Licensing is also based on a daily
(rather than hourly) average of messages per second (MPS).
 LogRhythm held a consistent processing, analysis and indexing rate of 300,000
messages per second (MPS)
Logrythm: ArchitectureandComponents
• Main Components:
o Platform Manager
o Data Collector
o System Monitor Agent
o Network Monitor
o Data Processor
o AI Engine
o Data Indexer
• Scalability and performance
at several tiers:
 Collection
 Processing
 Machine analytics
 Persistence
 Search analytics
Logrythm: Price & Licensing
 Starting at US $35,000
/ UK £27,000, plus 20
percent for annual
maintenance.
Splunk: Intro & features
It's a powerful software/Engine which can be used to search,investigate, troubleshoot,
monitor, visualize,alert, and report on everything that's happening in your entire IT
infrastructure from one location in real time.
Features:
o Splunk will search logs of all machines/Servers /Network devices from your enterprise and will
present available info as result just like Google
o you don't need to login to multiple servers and dig for all logs for particular event .Splunk will do it
for you in smarter way.
o You can even monitor your twitter feeds, gmail, mailbox etc using splunk.
o Splunk do not require any database like Oracle or MS SQL to store its data.It stores it's data in
indexes.so no additional cost for DB
o Its a data mining tool for Big Data.Built in to handle Big/large data without affecting performance
o It can work as monitoring tool,SIEM,reporting tool,analysys tool, root cause analysis....and much
more
Splunk: ArchitectureandComponents
 Splunk Consist of:
o Search Head
o Splunk forwarder
o Indexer
o Deployment Server
Splunk: Price &Licensing
It all depends on the volume that you're indexing daily i.e. how much log data you are
sending to splunk to process/store.
ManageEngine EventLogAnalyzer: Intro& features
a web-based tool provides end-to-end log management, with agent and agentless methods of log collection,
custom log parsing, complete log analysis with reports and alerts, a powerful log search engine, and flexible log
archiving options.
Features:
o Multiple log format support: Correlation is carried out across multiple log formats(Real-time event
correlation), enabling you to correlate logs from Windows and Unix systems, network devices, and more.
o Enhanced field-level correlation: Correlation can be done based on multiple log field values to provide fine-
grained attack detection.
o Predefined rules: The module is packaged with 25 predefined complex attack patterns.
o Custom rule builder: The custom correlation rule builder has been upgraded to include over 250 predefined
network actions and advanced filters.
 Check for unique, constant, or shared field values among the actions that make up a rule.
 Use multiple comparison conditions for fields, namely 'equals', 'not equal to', 'starts with', or 'ends with'.
 Create rules for individual log types using specific network actions, or rules common to all log types with generic network actions.
o Incident management integration: All correlation alerts can be viewed and managed with the in-built incident
management console.
ManageEngine EventLogAnalyzer: Architectureand
Components
 EventLog Analyzer components:
o EventLog Analyzer Server
o EventLog Analyzer
database(PostgreSQL, also My SQL
or MS SQL )
o User web console
ManageEngine EventLogAnalyzer: Distributed
Architecture
• 1 Admin Server
• N Managed Server
ManageEngine EventLogAnalyzer: Price& Licensing
Free Edition Premium Edition Distributed Edition
Starts at $495 Starts at $1,995
Centralized collection and archival ✓ ✓ ✓
Universal Log Parsing and indexing ✗ ✓ ✓
File Integrity Monitoring ✗ ✓ ✓
Real-time event correlation and alerts ✗ ✓ ✓
Compliance reporting ✓ ✓ ✓
Log forensics ✓ ✓ ✓
Scalable architecture ✗ ✗ ✓
Multi-geographical location monitoring with
distributed central-collector
✗ ✗ ✓
Site specific reports ✗ ✗ ✓
Rebranding and client specific views ✗ ✗ ✓
Logalyze: Intro& features
 a free, open-source, java-based log management tool to collects, parses,
indexes and stores log data from any device, OS or application.
Features:
o Process log data at a high rate
o Parse any log row with built in or custom made Log Templates
o Ability to analyze custom business application logs
o Browse or search logs with a web based administration GUI like with Google
o Create multi dimensional statistics real-time based on individual fields of log
o Securely transport log data to other LOGalyze
o engines or syslog devices
o Compatible with rsyslog, syslog-ng, Lasso, Snare
o Connect remotely to SOAP API service
o The AHR ticketing system provides powerful tool closing your open incidents more quickly.
Logalyze: Architectureand Components
contains two main component:
LOGalyze Engine is a standalone log
analyzer engine. It runs as a
service, collects or receives log
data, analyze them and provide
automated reports, synthetic
events, alerts.
LOGalyze Admin is a RIA web
interface for managing the Engine,
search log data and display
reports, alerts
Engine offers a SOAP Web Services interface, so any SOAP client
can connect to it
Logalyze: Price & Licensing
It’s totally Free…
ELK Stack: Intro& features
 ELK stands for Elasticsearch, Logstash and Kibana. The trio, joined together to give
users the ability to run log analysis on top of open sourced software that everyone
can run for free.
 Features:
o Real-time data and real-time analytics.
o Scalable, high-availability, multi-tenant.
o Full text search.
o Document orientation
o Simple to use and DevOps friendly(Elasticsearch rest API)
o price!- free and open source
ELK Stack: Architectureand Components
 Main Components:
o Elasticsearch: Store
o Logstash:
Filtering/parsing
o Kibana: Visualize
ELK Stack: PriceandLicense
It’s totally Free…
Graylog: Intro & features
 Graylog (formerly known as Graylog2) is an open source syslog management platform, helps you to
collect, index and analyze syslog on a centralized location.
 Features:
o Collect and parse: Parse and enrich logs, wire data, and event data from any data source. (3rd
party collectors such as beats, fluentd and nxlog)
o Analyze and Search: Search through terabytes of log data to discover and analyze important
information. Use the powerful search syntax to find exactly what you are looking for. Save
search queries to share
o Drill-Down and Visualize: Create dashboards to visualize metrics and observe trends in one
central location. Use field statistics, quick values, and charts from the search results page to dive
in for deeper analysis of your data.
o Alert and Trigger: Trigger actions or get notified when something needs attention, such as failed
login attempts, exceptions or performance degradation
o Enterprise Ready: Extend the functionality of Graylog
o REST API: Both configuration settings and log data are available through the Graylog REST API
 Graylog has been successful in providing log management software because it was built for log
management from the beginning.
Graylog: ArchitectureandComponents
 Main components:
o Elasticsearch
o Mongodb: storing meta information
and configuration data
o Graylog: focus on CPU Power
 Graylog-Server
 Graylog-web-interface
Graylog: ArchitectureandComponents- onseparate hosts
 has several Graylog nodes behind a load
balancer distributing the processing load.
 The load balancer can ping the Graylog
nodes via HTTP on the Graylog REST API to
check if they are alive and take dead nodes
out of the cluster.
Graylog: big environments
Graylog: Price and licensing
Enterprise PlatinumEnterprise GoldGraylog SilverOpen Source
Graylog Enterprise for users with
data > 200 GB/day
Graylog Enterprise for
users with data up to 200
GB/day
Reduce risk with 10 support
requests per year on Graylog
Open Source.
Graylog is open source and will
always be free to use
Contact us for
custom pricing
$9,000
per node/year
$6,000
per node/year
Free Forever
Graylog Enterprise Features for > 200
GB/day:
 Audit Log
 Archiving
Platinum Support
Graylog Enterprise Features
for up to 200 GB/day:
 Audit Log
 Archiving
Gold Support
Open Source Features Plus:
• Personalized Engineer Support
Silver Support
Open Source Features Include:
• LDAP Role-based access control
• Configurable data retention
policy
• Alerting
• Encrypted Communication
• API Access
• Custom alerting
• Online community Support
OtherPlayers…HPArcSight,IBMQradarandAlienVault
Conclusion
Highlighted approach
• An ontology-based data integration approach for web analytics in e-commerce,2015
• Web Warehouse – A New Web Information Fusion Tool for Web Mining, 2006
• LEC Log Event Correlation Architecture Based on Continuous Query,2009
Fusion Tool
• Lumify (stream)
• Lucidwork fusion (batch)
Log Correlation Tool
• Splunk
ِData Fusion and Log correlation tools & case-studies
ِData Fusion and Log correlation tools & case-studies

More Related Content

Similar to ِData Fusion and Log correlation tools & case-studies

مبان و مد ر_ت فناور_ اطلاعات
مبان  و مد ر_ت فناور_ اطلاعاتمبان  و مد ر_ت فناور_ اطلاعات
مبان و مد ر_ت فناور_ اطلاعاتLampesht
 
13940305-NetManagementOS_ver1.5
13940305-NetManagementOS_ver1.513940305-NetManagementOS_ver1.5
13940305-NetManagementOS_ver1.5Ehsan Khanahmadi
 
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب Mohammad Ahmadzadeh
 
اسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجارياسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجاريAli Masoombeigi
 
Interoperability maturity model (Iran)
 Interoperability maturity model (Iran) Interoperability maturity model (Iran)
Interoperability maturity model (Iran)Hanieh Kashfi
 
2- Agile BABOK - Ali Razi
2- Agile BABOK - Ali Razi2- Agile BABOK - Ali Razi
2- Agile BABOK - Ali RaziAli Moghadam
 
RUP (Rational Unified Process)
RUP (Rational Unified Process)RUP (Rational Unified Process)
RUP (Rational Unified Process)Javad Pourhosaini
 
A Novel Aprroach for smart contract audit.pdf
A Novel Aprroach for smart contract audit.pdfA Novel Aprroach for smart contract audit.pdf
A Novel Aprroach for smart contract audit.pdfSaeidGhasemshirazi
 
resume Ali Valimohammadi(N41)
resume Ali Valimohammadi(N41)resume Ali Valimohammadi(N41)
resume Ali Valimohammadi(N41)Ali Valimohammadi
 
مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری نویسنده ناص...
مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری   نویسنده ناص...مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری   نویسنده ناص...
مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری نویسنده ناص...Aidin NaseriFard
 
13940305-SharePoint-Ver3.51-forStudent
13940305-SharePoint-Ver3.51-forStudent13940305-SharePoint-Ver3.51-forStudent
13940305-SharePoint-Ver3.51-forStudentEhsan Khanahmadi
 
مقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتمقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتiuvmtech
 
Persian Document ITBSC
Persian Document   ITBSCPersian Document   ITBSC
Persian Document ITBSCHamideh Iraj
 
Oracle Data Integrator (persian)
Oracle Data Integrator (persian)Oracle Data Integrator (persian)
Oracle Data Integrator (persian)Ehsan Hamzei
 
ISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعات
ISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعاتISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعات
ISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعاتMahdi Sayyad
 
Introduction to database
Introduction to databaseIntroduction to database
Introduction to databaseEsmatullah Adel
 
موتور جستجوی درون سازمانی
موتور جستجوی درون سازمانیموتور جستجوی درون سازمانی
موتور جستجوی درون سازمانیHamedSanaei
 

Similar to ِData Fusion and Log correlation tools & case-studies (20)

مبان و مد ر_ت فناور_ اطلاعات
مبان  و مد ر_ت فناور_ اطلاعاتمبان  و مد ر_ت فناور_ اطلاعات
مبان و مد ر_ت فناور_ اطلاعات
 
13940305-NetManagementOS_ver1.5
13940305-NetManagementOS_ver1.513940305-NetManagementOS_ver1.5
13940305-NetManagementOS_ver1.5
 
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
در نگهداشت و مدیریت دارائی ITILبکارگیری چارچوب
 
اسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجارياسلايد آموزشي هوش تجاري
اسلايد آموزشي هوش تجاري
 
Interoperability maturity model (Iran)
 Interoperability maturity model (Iran) Interoperability maturity model (Iran)
Interoperability maturity model (Iran)
 
2- Agile BABOK - Ali Razi
2- Agile BABOK - Ali Razi2- Agile BABOK - Ali Razi
2- Agile BABOK - Ali Razi
 
Agile & BABOK | By Ali Razi
Agile & BABOK | By Ali RaziAgile & BABOK | By Ali Razi
Agile & BABOK | By Ali Razi
 
RUP (Rational Unified Process)
RUP (Rational Unified Process)RUP (Rational Unified Process)
RUP (Rational Unified Process)
 
Introduction to Kaa IoT platform
Introduction to Kaa IoT platformIntroduction to Kaa IoT platform
Introduction to Kaa IoT platform
 
A Novel Aprroach for smart contract audit.pdf
A Novel Aprroach for smart contract audit.pdfA Novel Aprroach for smart contract audit.pdf
A Novel Aprroach for smart contract audit.pdf
 
resume Ali Valimohammadi(N41)
resume Ali Valimohammadi(N41)resume Ali Valimohammadi(N41)
resume Ali Valimohammadi(N41)
 
Big data ppt
Big data  pptBig data  ppt
Big data ppt
 
مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری نویسنده ناص...
مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری   نویسنده ناص...مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری   نویسنده ناص...
مقاله بررسی مدل های ارزیابی ریسک امنیت اطلاعات برای رایانش ابری نویسنده ناص...
 
13940305-SharePoint-Ver3.51-forStudent
13940305-SharePoint-Ver3.51-forStudent13940305-SharePoint-Ver3.51-forStudent
13940305-SharePoint-Ver3.51-forStudent
 
مقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعاتمقدمه ای بر جمع آوری اطلاعات
مقدمه ای بر جمع آوری اطلاعات
 
Persian Document ITBSC
Persian Document   ITBSCPersian Document   ITBSC
Persian Document ITBSC
 
Oracle Data Integrator (persian)
Oracle Data Integrator (persian)Oracle Data Integrator (persian)
Oracle Data Integrator (persian)
 
ISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعات
ISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعاتISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعات
ISO/IEC 15408-Common Criteria: ارزیابی امنیتی محصولات فناوری اطلاعات
 
Introduction to database
Introduction to databaseIntroduction to database
Introduction to database
 
موتور جستجوی درون سازمانی
موتور جستجوی درون سازمانیموتور جستجوی درون سازمانی
موتور جستجوی درون سازمانی
 

ِData Fusion and Log correlation tools & case-studies

  • 1. Fusion and Correlation Tools & Case-studies Iran Telecommunication Research Center(ITRC) Communication Technology Department Web ranking project By: Mahdi Sayyad November, 2017
  • 2. Outline  Who we are?  Our Work Process  Applied researches on Fusion  Applied researches on Correlation  Data Fusion Tools  Log/event Correlation Tools  Conclusions
  • 3. Our Team Mahdi Sayyad MS in Computer Engineering ,CEH ,CCNA, ISMS Lead Auditor, Cybersecurity Researcher, Co-Founder of ICSGROUP. 7+ year experience in InfoSec and Cybersecurity analysis Mohammad H. Bazrafkan MS in Information Security, CEH, OSCP, Co- Founder ARTINERTEBAT. 6+ year experience in InfoSec and Cybersecurity analysis
  • 4. Our Research Process Requirements analysis •Problem Definition •Requirement Skills •Scope Determination •Team Selection and acquisition Information Gathering and Resource Selection •Papers(journals and Conferences) •Books(handbooks and proceeding studies) •Thesis •Technical reports •Workshop presentation •Main Keywords: Data Fusion/Log Correlation/web log Analytics Review and Study •Fundamentals and scope define •Models and Architectures •Tools and Techniques Feasibility Analysis and Proposed solutions •Leveraging tools and techniques for use case •Selection and Developing proposed solution Reporting • Phase 1  • Phase 2  • Phase 3
  • 5. Case-Study Review  Applied researches on Fusion  Applied researches on Correlation
  • 6. Case-study structure 9 36 42Cases Correlation Papers(18) 4 Fusion Papers(18) 5 ‫الگ‬ ‫نوع‬:‫پژوهش‬ ‫در‬ ‫استفاده‬ ‫مورد‬ ‫های‬ ‫الگ‬ ‫ویژگی‬ ‫و‬ ‫فرمت‬ ‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬:‫ادغام‬ ‫فرآیند‬ ‫انجام‬ ‫از‬ ‫هدف‬/‫در‬ ‫ها‬ ‫داده‬ ‫همبستگی‬ ‫پژوهش‬ ‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬:‫ها‬ ‫مدل‬ ‫اساس‬ ‫بر‬ ‫شده‬ ‫استفاده‬ ‫معماری‬ ‫یا‬ ‫مدل‬ ‫ادغام‬ ‫های‬ ‫معماری‬ ‫یا‬/‫پژوهش‬ ‫در‬ ‫ها‬ ‫داده‬ ‫همبستگی‬ ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬:‫شده‬ ‫استفاده‬ ‫پردازشی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬‫فرآیند‬ ‫در‬ ‫پژوهش‬ ‫در‬ ‫ها‬ ‫داده‬ ‫ادغام‬ ‫شده‬ ‫استفاده‬ ‫ابزار‬:‫فرآی‬ ‫در‬ ‫شده‬ ‫استفاده‬ ‫پردازشی‬ ‫افزارهای‬ ‫نرم‬ ‫یا‬ ‫ابزار‬‫ند‬ ‫ادغام‬/‫پژوهش‬ ‫در‬ ‫ها‬ ‫داده‬ ‫همبستگی‬ ‫عملی‬ ‫آزمایش‬ ‫شرح‬:‫فرآیند‬ ‫انجام‬ ‫چگونگی‬ ‫از‬ ‫ای‬ ‫خالصه‬ ‫شرح‬ ‫ادغام‬/‫عملی‬ ‫آزمایش‬ ‫صورت‬ ‫به‬ ‫ها‬ ‫داده‬ ‫همبستگی‬ ‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬:‫ادغام‬ ‫فرآیند‬ ‫ارزیابی‬ ‫و‬ ‫تحلیل‬/‫ه‬‫مبستگی‬ ‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫های‬ ‫ویژگی‬ ‫و‬ ‫اهداف‬ ‫با‬ ‫پژوهش‬ ‫های‬ ‫داده‬
  • 7. Fusion case-study: article#1 WebWarehouse–ANewWebInformationFusionToolforWebMining,2006 ‫الگ‬ ‫نوع‬ •‫انواع‬‫الگ‬‫ها‬(‫الگ‬‫وب‬،‫سرور‬‫الگ‬‫اسکریپت‬‫های‬‫جاسازی‬،‫شده‬‫الگ‬‫اطالعات‬‫خزش‬‫شده‬‫و‬...) •‫برای‬‫مطالعه‬‫موردی‬:‫اطالعات‬‫وب‬‫سایت‬NYMEX(‫بورس‬‫کاالی‬‫نفتی‬‫نیویورک‬) ‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬ ‫ایجاد‬‫یک‬‫انباره‬‫داده‬‫ویژه‬‫داده‬‫های‬‫وب‬‫با‬‫جایگزینی‬‫فرآیند‬،‫استخراج‬‫تبدیل‬‫و‬‫بارگزاری‬(ETL)‫در‬‫انباره‬‫داده‬‫ها‬‫با‬‫فرآیند‬،‫استخراج‬،‫ادغام‬‫نگاشت‬‫و‬‫بارگزاری‬ (EFML)‫در‬‫انباره‬‫وب‬ ‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫معماری‬‫منبع‬‫داده‬: oComplementary Fusion(‫ادغام‬‫اطالعات‬‫چند‬‫موجودیت‬‫مرتبط‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬) oRedundant Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫یکسان‬) oCooperative Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫یکسان‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫مختلف‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫های‬‫متفاوت‬) ‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬: oMulti-Level Fusion(‫استخراج‬‫و‬‫ادغام‬‫داده‬‫ها‬،‫ویژگی‬‫ها‬‫و‬‫تصمیم‬‫ها‬‫در‬‫چند‬‫سطح‬) ‫فرآیند‬‫ادغام‬‫داده‬‫ها‬: oData In–Data Out (DAI-DAO)–‫ورودی‬‫داده‬‫های‬،‫خام‬‫خروجی‬‫داده‬‫های‬‫خام‬‫تجمیع‬‫شده‬ oData In–Feature Out (DAI-FEO)–‫ورودی‬‫داده‬‫های‬،‫خام‬‫خروجی‬‫ویژگی‬‫ها‬ oFeature In–Feature Out (FEI-FEO)-‫ورودی‬‫ویژگی‬،‫ها‬‫خروجی‬‫ویژگی‬‫های‬‫غنی‬‫شده‬ oFeature In–Decision Out (FEI-DEO)–‫ورودی‬‫ویژگی‬،‫ها‬‫خروجی‬‫تصمیم‬‫ها‬
  • 8. ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬ •‫راهکار‬‫اجرایی‬EFML(،‫استخراج‬،‫ادغام‬‫نگاشت‬‫و‬‫بارگزاری‬): •‫استخراج‬:‫استفاده‬‫از‬Object Exchange Model (OEM) •‫ادغام‬:‫استفاده‬‫از‬‫دو‬‫راهکار‬‫همگونی‬‫ساختار‬(‫تطابق‬‫ساختاری‬)‫و‬‫ناهمگونی‬‫ساختار‬(‫استنتاج‬‫هستان‬‫شناسی‬) •‫نگاشت‬:‫استفاده‬‫از‬‫توابع‬‫مرسوم‬‫انباره‬‫داده‬‫ها‬‫برای‬‫نگاشت‬‫ساختارها‬(‫روش‬‫های‬‫رابطه‬‫ای‬‫و‬‫غیر‬‫رابطه‬‫ای‬) •‫بارگزاری‬:‫ورود‬‫داده‬‫ها‬‫و‬‫پردازش‬‫آنها‬‫بر‬‫اساس‬‫مدل‬‫داده‬‫های‬‫طراحی‬‫شده‬‫در‬‫انباره‬‫وب‬ •‫پردازش‬‫داده‬‫ها‬‫توسط‬‫الگوریتم‬‫های‬‫داده‬‫کاوی‬(‫خوشه‬،‫بندی‬‫رده‬،‫بندی‬‫قوانین‬‫انجمنی‬)‫و‬OLAP ‫شده‬ ‫استفاده‬ ‫ابزار‬‫ابزار‬‫یا‬‫بستر‬‫فنی‬‫مشخصی‬‫در‬‫این‬‫پژوهش‬‫برای‬‫پیاده‬‫سازی‬‫مدل‬‫انباره‬‫وب‬‫ارائه‬‫نشده‬‫است‬. ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫در‬‫این‬‫مقاله‬‫به‬‫عنوان‬‫آزمایش‬،‫عملی‬‫داده‬‫های‬‫وب‬‫سایت‬‫بورس‬‫کاالی‬‫نفتی‬‫نیویورک‬(NYMEX)‫مورد‬‫استفاده‬‫قرار‬‫گرفته‬‫است‬.‫در‬‫آزمایش‬‫ارائه‬،‫شده‬ ‫محصوالت‬‫نفتی‬‫که‬‫در‬‫صفحات‬‫مختلف‬‫این‬‫وب‬‫سایت‬‫دارای‬‫اطالعات‬،‫فنی‬،‫نقدها‬‫قیمت‬‫و‬‫پیش‬‫بینی‬‫ها‬‫می‬‫باشد‬‫به‬‫عنوان‬‫موجودیت‬‫اطالعاتی‬‫در‬‫م‬‫دل‬‫انباره‬‫وب‬ ‫تحت‬‫فرآیند‬EFML‫جمع‬‫آوری‬‫و‬‫ذخیره‬‫می‬،‫گردد‬‫سپس‬‫جدول‬FACT‫بر‬‫اساس‬‫اطالعات‬‫و‬‫ویژگی‬‫های‬‫کاالهای‬‫بورسی‬‫مبتنی‬‫بر‬‫ابعاد‬(،‫زمان‬،‫میزان‬‫قیمت‬‫و‬ ‫محدوده‬‫تغییرات‬)‫را‬‫تشکیل‬‫می‬‫دهد‬.‫در‬‫نهایت‬‫بر‬‫اساس‬‫روش‬‫های‬‫داده‬‫کاوی‬‫و‬OLAP‫به‬‫تجزیه‬‫تحلیل‬‫اطالعات‬‫جدول‬FACT‫پرداخته‬‫شده‬‫و‬‫تصمیم‬ ‫پیشنهادی‬‫مبنی‬‫بر‬‫سودده‬‫یا‬‫ضررده‬‫بودن‬‫این‬‫کاالی‬‫بورسی‬‫مورد‬‫تحلیل‬‫و‬‫پیش‬‫بینی‬‫واقع‬‫می‬‫گردد‬. ‫ب‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ندی‬ ‫با‬‫توجه‬‫به‬‫مدل‬‫ارائه‬‫شده‬‫در‬‫پژوهش‬‫تحت‬‫عنوان‬‫مدل‬‫انباره‬‫وب‬‫با‬‫پشتیبانی‬‫از‬‫انواع‬‫الگ‬،‫ها‬‫معماری‬‫های‬‫و‬‫سطوح‬‫ادغام‬‫داده‬‫های‬‫این‬‫پژوهش‬‫و‬‫انواع‬‫روش‬‫ه‬‫ای‬ ‫تجزیه‬‫و‬،‫تحلیل‬‫می‬‫تواند‬‫به‬‫عنوان‬‫مدلی‬‫مناسب‬‫برای‬‫ذخیره‬‫سازی‬‫و‬‫تجمیع‬‫الگ‬‫های‬‫پروژه‬‫رتبه‬‫بندی‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫بکار‬‫گرفته‬‫شو‬‫د‬. Fusion case-study: article#1 WebWarehouse–ANewWebInformationFusionToolforWebMining,2006
  • 9. Fusion case-study: article#1 WebWarehouse–ANewWebInformationFusionToolforWebMining,2006 (1) Web Warehouse architecture in Article#1 (2) EFML in Article#1
  • 10. Fusion case-study: article#2 AResearchoftheInternetBasedonWebInformationExtractionandDataFusion,2011 ‫الگ‬ ‫نوع‬•‫به‬‫صورت‬‫آنالین‬(‫بدون‬‫ذخیره‬‫سازی‬‫داده‬)،‫بر‬‫اساس‬‫استخراج‬‫و‬‫پردازش‬‫در‬‫نتایج‬‫جستجوی‬‫گوگل‬ ‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬ •‫یک‬‫راهکار‬‫جستجوی‬‫شخصی‬‫سازی‬‫شده‬‫در‬‫اینترنت‬‫بر‬‫اساس‬،‫فیلتر‬‫استخراج‬‫و‬‫یکپارچه‬‫سازی‬‫اطالعات‬‫حجیم‬‫از‬‫وب‬‫با‬‫اعمال‬‫نیازمندی‬‫های‬‫کاربر‬ •‫تسهیل‬‫دستیابی‬‫به‬‫نتایج‬‫مطلوب‬‫بر‬‫اساس‬‫ترجیحات‬‫کاربران‬‫می‬‫باشد‬. •‫رویکرد‬‫ادغام‬‫داده‬‫ها‬‫در‬‫این‬،‫پژوهش‬‫صرفا‬‫ادعام‬‫نتایچ‬‫استخراج‬‫شده‬‫از‬‫موتور‬‫جستجوی‬‫گوگل‬‫بر‬‫اساس‬‫کلیدواژه‬‫های‬‫مورد‬‫جستجوی‬‫کاربر‬‫می‬‫باشد‬. ‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫استاندارد‬‫در‬‫این‬‫مقاله‬‫ارائه‬‫نشده‬‫است‬.‫اما‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1: ‫معماری‬‫منبع‬‫داده‬:Redundant Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫یکسان‬) ‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:Medium-Level Fusion(‫استخراج‬‫و‬‫ادغام‬‫ویژگی‬‫ها‬) ‫فرآیند‬‫ادغام‬‫داده‬‫ها‬:Data In–Feature Out (DAI-FEO)–‫ورود‬‫داده‬‫های‬،‫خام‬‫خروج‬‫ویژگی‬‫ها‬ ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬ ‫یک‬‫الگوریتم‬‫ابتکاری‬‫برای‬‫مقایسه‬‫کلیدواژه‬‫مورد‬‫جستجوی‬‫کاربر‬‫با‬‫کلیدواژه‬‫های‬‫نتایج‬‫موتور‬‫جستجو‬‫و‬‫استفاده‬‫از‬‫یک‬‫روش‬‫وزن‬‫دهی‬‫برای‬‫استخر‬‫اج‬‫نهایی‬‫ویژگی‬ ‫های‬‫مطلوب‬‫کاربر‬ ‫شده‬ ‫استفاده‬ ‫ابزار‬‫وب‬‫سرویس‬‫جستجوی‬‫گوگل‬‫با‬‫پروتکل‬SOAP(Google Search Soap API) ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫وب‬‫سرویس‬‫جستجوی‬‫گوگل‬‫با‬‫پروتکل‬SOAP‫در‬‫یک‬‫نرم‬‫افزار‬‫پیاده‬‫سازی‬‫شده‬‫و‬‫سپس‬‫عبارت‬"IBM ThinkPad T60 2007BT1 price"‫مورد‬‫جستجو‬‫واقع‬ ‫شده‬‫است‬.‫سپس‬‫نتایج‬‫بر‬‫اساس‬‫کلیدواژه‬‫های‬‫مورد‬،‫جستجو‬‫از‬‫گوگل‬‫استخراج‬‫شده‬‫و‬‫ویژگی‬‫های‬‫مشترک‬‫نتایج‬(‫نظیر‬‫مشخصات‬‫سخت‬‫افزاری‬‫و‬...‫لب‬‫ت‬‫اپ‬)‫به‬‫عنوان‬ ‫یک‬‫مجموعه‬‫داده‬‫تحت‬‫فرآیند‬‫ادغام‬‫اطالعات‬‫پردازش‬‫شده‬‫و‬‫پارامتر‬"‫قیمت‬"‫بر‬‫اساس‬‫روش‬‫وزن‬‫دهی‬‫مورد‬‫وزن‬‫دهی‬‫قرار‬‫گرفته‬‫و‬‫حد‬‫پایین‬‫و‬‫حد‬‫باالی‬‫مقادیر‬‫ای‬‫ن‬ ‫پارامتر‬‫به‬‫کاربر‬‫گزارش‬‫شده‬‫است‬. ‫بند‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ی‬‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫تناسبی‬‫با‬‫شرایط‬،‫الگ‬‫هدف‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫ن‬‫دارد‬.
  • 11. ‫الگ‬ ‫نوع‬‫بر‬‫روی‬‫فرمت‬‫مشخصی‬‫از‬‫الگ‬‫متمرکز‬‫نشده‬‫است‬‫و‬‫بحث‬‫استراتژی‬‫کلی‬‫روش‬‫های‬‫ادغام‬‫برای‬‫شاخص‬‫گذاری‬(Indexing)‫اطالعات‬‫وب‬‫مطرح‬‫شده‬‫است‬ ‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬‫بررسی‬‫سطوح‬‫و‬‫روش‬‫های‬‫ادغام‬‫داده‬‫ها‬‫با‬‫هدف‬‫شاخص‬‫گذاری‬(Indexing)‫موثر‬‫مستندات‬‫چند‬‫رسانه‬‫ای‬‫وب‬ ‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫های‬‫ارائه‬‫شده‬‫ادغام‬‫داده‬‫ها‬‫در‬‫حوزه‬‫وب‬‫را‬‫به‬‫صورت‬‫یک‬‫مقاله‬‫مروری‬‫بررسی‬‫نموده‬‫است‬.‫البته‬‫حوزه‬‫مدل‬‫ها‬‫و‬‫معماری‬‫ها‬‫را‬‫به‬‫صورت‬‫زیر‬‫متمرکز‬ ‫بررسی‬‫کرده‬‫است‬: ‫معماری‬‫منبع‬‫داده‬:Collaborative/Cooperative Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫یکسان‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫مختلف‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫های‬ ‫متفاوت‬) ‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:Multi-Level/Multi Modal Fusion(‫استخراج‬‫و‬‫ادغام‬‫داده‬،‫ها‬‫ویژگی‬‫ها‬‫و‬‫تصمیم‬‫ها‬‫در‬‫چند‬‫سطح‬) ‫فرآیند‬‫ادغام‬‫داده‬‫ها‬: oFeature In–Feature Out (FEI-FEO)–‫ورود‬‫ویژگی‬،‫ها‬‫خروج‬‫ویژگی‬‫های‬‫غنی‬‫شده‬ oFeature In–Decision Out (FEI-DEO)–‫ورودی‬‫ویژگی‬،‫ها‬‫خرجی‬‫تصمیم‬ oDecision In–Decision Out (DEI-DEO)–‫ورودی‬‫تصمیم‬،‫ها‬‫خروجی‬‫تصمیم‬‫های‬‫غنی‬‫شده‬ ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬ ‫برای‬‫هر‬‫یک‬‫از‬‫فرآیندهای‬‫ادغام‬‫داده‬‫های‬‫بررسی‬،‫شده‬‫یک‬‫یا‬‫چند‬‫الگوریتم‬‫یادگیری‬‫ماشین‬‫نظیر‬SVM،Multiple Kernel Learning (MKL)،Time Delay Neural Network (TDNN)،Bayesian Network‫و‬‫غیره‬‫را‬‫مورد‬‫بررسی‬‫قرار‬‫داده‬‫است‬. ‫شده‬ ‫استفاده‬ ‫ابزار‬‫با‬‫توجه‬‫به‬‫اینکه‬،‫مقاله‬‫یک‬‫مقاله‬‫مروری‬‫بر‬‫سایر‬‫مقاالت‬،‫است‬‫ابزار‬‫خاصی‬‫برای‬‫آزمایش‬‫مورد‬‫استفاده‬‫یا‬‫معرفی‬‫نشده‬‫است‬. ‫عملی‬ ‫آزمایش‬ ‫شرح‬‫با‬‫توجه‬‫به‬‫اینکه‬،‫مقاله‬‫یک‬‫مقاله‬‫مروری‬‫بر‬‫سایر‬‫مقاالت‬،‫است‬‫آزمایش‬‫عملی‬‫صورت‬‫نگرفته‬‫است‬. ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫بندی‬‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫تناسبی‬‫با‬‫شرایط‬،‫الگ‬‫هدف‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫ن‬‫دارد‬. Fusion case-study: article#3 FusionMethodsforMulti-ModalIndexingofWebData,2013
  • 12. ‫الگ‬ ‫نوع‬ ‫خزش‬‫اطالعات‬‫از‬‫منابع‬‫داده‬: IMDB(‫اطالعات‬‫کلی‬‫فیلم‬‫ها‬) Twitter(‫فیدبک‬‫ها‬‫و‬‫ترند‬‫نظرات‬‫کاربران‬‫در‬‫مورد‬‫فیلم‬‫ها‬) Metacritic(‫نقدها‬‫و‬‫امتیازبندی‬‫فیلم‬‫ها‬) Rotten Tomatoes(‫نقد‬‫ها‬‫و‬‫اخبار‬‫در‬‫مورد‬‫فیلم‬‫ها‬) ‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬‫ادغام‬‫داده‬‫های‬‫منابع‬‫مختلف‬‫برای‬‫تجمیع‬‫اطالعات‬‫در‬‫خصوص‬‫فیلم‬‫های‬‫سینمایی‬ ‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫استاندارد‬‫در‬‫این‬‫مقاله‬‫ارائه‬‫نشده‬‫است‬.‫اما‬‫می‬‫توان‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1: ‫معماری‬‫منبع‬‫داده‬:Complementary Fusion(‫ادغام‬‫اطالعات‬‫چند‬‫موجودیت‬‫مرتبط‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬)–‫برای‬‫ترکیب‬‫منابع‬‫داده‬‫ای‬‫مرتبط‬‫با‬‫فیلم‬‫ها‬ ‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:Medium-Level Fusion(‫استخراج‬‫و‬‫ادغام‬‫ویژگی‬‫ها‬) ‫فرآیند‬‫ادغام‬‫داده‬‫ها‬:Data In–Feature Out (DAI-FEO)–‫ورود‬‫داده‬‫های‬،‫خام‬‫خروج‬‫ویژگی‬‫ها‬ ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬‫استفاده‬‫از‬‫روش‬‫استنتاج‬‫پرس‬‫و‬‫جوهای‬‫معنایی‬‫مبتنی‬‫بر‬‫گراف‬Gremlin ‫شده‬ ‫استفاده‬ ‫ابزار‬ API‫های‬‫دریافت‬‫و‬‫استخراج‬‫اطالعات‬‫از‬‫وب‬(urllib،wget،cURL) ‫استفاده‬‫از‬‫دیکشنری‬OrderdDict.‫برای‬‫تبدیل‬‫منابع‬‫داده‬‫ای‬‫به‬‫فایل‬JSON ‫استفاده‬‫از‬HBase‫برای‬‫ذخیره‬‫سازی‬‫فایل‬‫های‬JSON TITAN(‫پایگاه‬‫داده‬‫مبتنی‬‫بر‬‫گراف‬‫با‬‫زبان‬‫پرس‬‫و‬‫جوی‬‫گراف‬Gremlin) ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫در‬‫این‬،‫آزمایش‬‫اطالعات‬250‫فیلم‬‫از‬‫منابع‬‫داده‬‫ای‬‫مذکور‬‫استخراج‬‫و‬‫ذخیره‬‫سازی‬‫گردیده‬،‫است‬‫اطالعات‬‫استخراج‬‫شده‬‫شامل‬‫اطالعات‬‫سازندگان‬‫و‬،‫بازیگران‬‫بودجه‬،‫فیلم‬‫تاریخ‬‫ساخت‬‫و‬‫ن‬،‫مایش‬ ‫ژانر‬‫فیلم‬(‫از‬IMDB)،‫نظرات‬‫کاربران‬(‫از‬Twitter)،‫نقدهای‬‫تخصصی‬‫و‬‫امتیازها‬(‫از‬Metacritic)،‫اخبار‬‫فیلم‬‫ها‬(Rotten Tomatoes)‫می‬‫باشد‬. ‫سپس‬‫اطالعات‬‫تجمیع‬‫شده‬‫برای‬‫یک‬‫پرس‬‫و‬‫جوی‬‫نمونه‬(‫فیلم‬The Dark Knight Rises)‫پردازش‬‫و‬‫نمایش‬‫شده‬‫است‬. ‫ب‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ندی‬‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫تناسبی‬‫با‬‫شرایط‬،‫الگ‬‫هدف‬‫و‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫ندارد‬. Fusion case-study: article#4 InformationIntegrationforMoviesDataUsingGraphDatabase,2015
  • 13. ‫الگ‬ ‫نوع‬‫الگ‬‫وب‬،‫سرور‬‫الگ‬‫اسکریپت‬Google Analytics‫و‬‫الگ‬‫خزش‬‫شده‬‫از‬‫وب‬ ‫داده‬ ‫ادغام‬ ‫از‬ ‫هدف‬‫ها‬ ‫ترکیب‬‫چند‬‫نوع‬‫الگ‬‫از‬‫بازدیدهای‬‫یک‬‫وب‬‫سایت‬‫تجارت‬‫الکترونیک‬(‫الگ‬‫وب‬‫سرور‬‫و‬‫الگ‬‫اسکریپت‬Google Analytics‫آن‬‫وب‬‫سایت‬)‫و‬‫استخراج‬‫اقالم‬‫اطالعاتی‬‫مشابه‬‫آن‬‫وب‬‫سایت‬(‫محصوالت‬‫و‬‫قیمت‬‫ها‬)‫از‬‫سایت‬‫های‬‫دیگر‬ (‫رقبای‬‫آن‬‫وب‬‫سایت‬)‫به‬‫جهت‬‫انجام‬‫فرآیند‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫با‬‫استفاده‬‫از‬‫روش‬‫های‬‫داده‬‫کاوی‬‫می‬‫باشد‬. ‫ها‬‫داده‬ ‫ادغام‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫ارائه‬‫شده‬‫در‬‫این‬‫مقاله‬‫در‬‫شکل‬(3)‫ارائه‬‫شده‬‫است‬.‫می‬‫توان‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1،‫مدل‬‫و‬‫معماری‬‫ادغام‬‫داده‬‫های‬‫بکار‬‫گرفته‬‫شده‬‫در‬‫این‬‫پژوهش‬‫را‬‫به‬‫صورت‬‫ذیل‬‫بیان‬‫نمود‬: ‫معماری‬‫منبع‬‫داده‬: oCooperative Fusion(‫ادغام‬‫اطالعات‬‫یک‬‫موجودیت‬‫یکسان‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫مختلف‬‫با‬‫جنبه‬‫یا‬‫دیدگاه‬‫های‬‫متفاوت‬):‫برای‬‫ترکیب‬‫الگ‬‫وب‬‫سرور‬‫و‬‫الگ‬Google Analytics oComplementary Fusion(‫ادغام‬‫اطالعات‬‫چند‬‫موجودیت‬‫مرتبط‬‫از‬‫دو‬‫یا‬‫چند‬‫منبع‬‫متفاوت‬)-‫برای‬‫ترکیب‬‫اطالعات‬‫خزش‬‫شده‬‫رقبا‬ •‫سطح‬‫انتزاع‬‫از‬‫ادغام‬‫داده‬‫ها‬:MultiLevel Fusion(‫استخراج‬‫ویژگی‬‫ها‬‫و‬‫تصمیم‬‫ها‬–‫ادغام‬‫داده‬‫ها‬‫و‬‫ویژگی‬‫ها‬) ‫فرآیند‬‫ادغام‬‫داده‬‫ها‬: oData In–Feature Out (DAI-FEO):‫ورود‬‫داده‬‫های‬،‫خام‬‫خروج‬‫ویژگی‬‫ها‬ oFeature In–Decision Out (FEI-DEO):‫ورود‬‫ویژگی‬،‫ها‬‫خروج‬‫تصمیم‬‫ها‬ ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬‫استفاده‬‫از‬‫روش‬‫استنتاج‬‫پرس‬‫و‬‫جوهای‬‫معنایی‬SPARQL‫و‬‫تحلیل‬‫نتایج‬‫پرس‬‫و‬‫جو‬‫شده‬‫با‬‫استفاده‬‫از‬‫روش‬‫های‬‫الگویابی‬‫داده‬‫کاوی‬(‫نام‬‫دقیق‬‫روش‬‫ذکر‬‫نشده‬‫است‬) ‫شده‬ ‫استفاده‬ ‫ابزار‬ Piwik(‫ابزار‬‫تجزیه‬‫و‬‫تحلیل‬‫بازدید‬‫ها‬‫از‬‫الگ‬‫وب‬‫سرور‬) Google Analyitcs API(‫وب‬‫سرویس‬‫دریافت‬‫اطالعات‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫توسط‬‫اسکریپت‬Google Analytics) ‫هستان‬‫شناسی‬‫استاندارد‬Open Linked Data(‫پردازش‬‫معنایی‬‫اطالعات‬) SPARQL‫برای‬‫پردازش‬‫پرس‬‫و‬‫جوهای‬‫معنایی‬‫هستان‬‫شناسی‬ ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫آزمایش‬‫عملی‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫الگ‬‫های‬‫استخراج‬‫شده‬‫از‬‫وب‬‫سرورها‬‫و‬‫الگ‬‫اسکریپت‬Google Analytics‫از‬15‫وب‬‫سایت‬‫تجارت‬‫الکترونیک‬‫در‬‫کشورهای‬(،‫انگلیس‬،‫اسپانیا‬‫یونان‬‫و‬‫آلمان‬)‫می‬‫باشد‬. ‫در‬‫این‬،‫آزمایش‬‫الگ‬‫های‬‫وب‬‫سرور‬،‫ها‬‫الگ‬‫اسکریپت‬Google Analytics‫و‬‫اطالعات‬‫خزش‬‫شده‬‫از‬،‫وب‬‫به‬‫صورت‬‫یک‬‫فرمت‬‫داده‬‫های‬RDF‫توسط‬‫توابع‬‫نگاشت‬‫در‬‫قالب‬‫یک‬‫مجموعه‬‫داده‬‫با‬‫عنوان‬‫مخزن‬RDF‫ادغام‬‫و‬‫ذخیره‬‫می‬ ‫گردند‬.‫سپس‬‫این‬RDF‫در‬‫قالب‬‫هستان‬‫شناسی‬‫ابتکاری‬‫مقاله‬‫تحت‬‫عنوان‬WAO (Web Analytics Ontology)‫بازنمایی‬‫شده‬‫و‬‫با‬‫هستان‬‫شناسی‬‫استاندارد‬Open Linked Data‫استنتاج‬‫می‬‫گردد‬. ‫پس‬‫از‬،‫آن‬‫اطالعات‬‫مخزن‬RDF،‫توسط‬‫زبان‬‫پرس‬‫و‬‫جوی‬‫معنایی‬SPARQL‫مورد‬‫پردازش‬‫قرار‬‫گرفته‬‫و‬‫به‬‫عنوان‬‫ورودی‬‫الگوریتم‬‫های‬‫تحلیلی‬‫داده‬‫کاوی‬‫مورد‬‫استفاده‬‫قرار‬‫می‬‫گیرند‬. ‫در‬‫آزمایش‬‫انجام‬،‫شده‬‫دو‬‫مطالعه‬‫موردی‬‫به‬‫عنوان‬‫نتایج‬‫تحلیلی‬‫فرآیند‬‫مذکور‬‫ارائه‬‫شده‬،‫است‬‫مطالعه‬‫موردی‬،‫اول‬‫در‬‫خصوص‬‫الگویابی‬‫رفتار‬‫بازدیدکنندگان‬‫و‬‫مطالعه‬‫موردی‬،‫دوم‬‫در‬‫خصوص‬‫تحلیل‬‫پروفایل‬‫محصو‬‫الت‬‫و‬ ‫بازدیدکنندگان‬‫می‬‫باشد‬. ‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬ ‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫ادغام‬‫داده‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫با‬‫پروژه‬‫رتبه‬‫بندی‬‫تطابق‬‫دارد‬‫و‬‫راهکار‬‫ارائه‬‫شده‬،‫آن‬‫می‬‫تواند‬‫برای‬‫حل‬‫چالش‬‫های‬‫مو‬‫رد‬‫نیاز‬ ‫پروژه‬‫رتبه‬‫بندی‬‫بکار‬‫گرفته‬‫شود‬. Fusion case-study: article#5 Anontology-baseddataintegrationapproachforwebanalyticsine-commerce,2016
  • 15. ‫الگ‬ ‫نوع‬‫انواع‬‫الگ‬‫ها‬‫به‬‫ویژه‬‫الگ‬‫های‬Event‫در‬‫سیستم‬‫عامل‬‫ها‬ ‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫ارائه‬‫یک‬‫نرم‬‫افزار‬‫به‬‫نام‬LEC‫یا‬‫همبسته‬‫سازی‬‫رویداد‬‫الگ‬‫ها‬‫بر‬‫اساس‬‫معماری‬‫پرس‬‫و‬‫جوهای‬‫مستمر‬(Continuous Query) ‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫در‬‫شکل‬(4)‫ارائه‬‫شده‬،‫است‬‫جزئیات‬‫معماری‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬: ‫مدل‬‫باال‬‫به‬‫پایین‬(‫تعیین‬‫اهداف‬‫و‬‫تحلیل‬،‫ها‬‫سپس‬‫همبستگی‬‫الگ‬‫ها‬‫بر‬‫ا‬‫ساس‬‫اهداف‬‫و‬‫تحلیل‬‫ها‬) ‫معماری‬Mirco-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫یک‬‫نوع‬‫الگ‬):‫تکنیک‬‫های‬‫استفاده‬‫شده‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬: oField-based correlation(‫همبستگی‬‫بر‬‫اساس‬‫فیلدها‬) oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬) ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬ ‫هر‬‫یک‬‫از‬‫مولفه‬‫های‬‫معماری‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشند‬(‫شکل‬4): ‫موتور‬‫شاخص‬‫گذاری‬(Indexing engine):‫در‬‫این‬،‫مولفه‬‫فایل‬‫های‬‫الگ‬‫به‬‫صورت‬‫الگ‬‫های‬‫معکوس‬IFL‫تبدیل‬‫می‬‫شوند‬. ‫پوشه‬‫بندها‬(Wrappers):‫در‬‫این‬،‫مولفه‬‫فایل‬‫هایی‬‫که‬‫دارای‬‫ساختار‬‫عمومی‬‫و‬‫شناخته‬‫شده‬‫و‬‫همگون‬‫هستند‬‫با‬‫الگ‬‫هایی‬‫که‬‫ناشناخته‬‫یا‬‫ساختار‬‫ناهمگ‬‫ونی‬ ‫دارند‬‫تفکیک‬‫و‬‫دسته‬‫بندی‬‫می‬‫گردند‬. ‫مدیریت‬‫پاالیش‬(Filtration manager):‫در‬‫این‬،‫مولفه‬‫قبل‬‫از‬‫اجرای‬‫پرس‬‫و‬،‫جوها‬‫داده‬‫های‬‫جریانی‬(stream)‫مورد‬‫پاالیش‬‫واقع‬‫می‬‫شوند‬. ‫موتور‬‫پرس‬‫و‬‫جو‬(Query Engine):‫در‬‫این‬‫مولفه‬‫تاریخچه‬‫و‬‫اطالعات‬‫الگ‬‫ها‬‫برای‬‫فرآیند‬‫همبسته‬‫سازی‬‫از‬‫الگ‬‫های‬‫خام‬‫و‬‫معکوس‬‫مورد‬‫پرس‬‫و‬‫جو‬‫واقع‬ ‫می‬‫شوند‬. ‫موتور‬‫همبسته‬‫ساز‬(Correlation engine):‫در‬‫این‬‫مولفه‬‫بر‬‫اساس‬‫قواعد‬‫تعریف‬‫شده‬‫همبسته‬،‫سازی‬‫الگ‬‫ها‬‫مورد‬‫تجزیه‬‫و‬‫تحلیل‬‫قرار‬‫گرفته‬‫و‬‫همبست‬‫ه‬‫می‬ ‫گردند‬. Correlation case-study: article#1 LECLogEventCorrelationArchitectureBasedonContinuousQuery,2009
  • 16. Correlation case-study: article#1 LECLogEventCorrelationArchitectureBasedonContinuousQuery,2009 ‫شده‬ ‫استفاده‬ ‫ابزار‬ ‫زبان‬‫پرس‬‫و‬‫جوی‬‫مستمر‬CQL(Continuous Query Language) ‫سیستم‬‫مدیریت‬‫جریان‬‫داده‬(STREAM DSMS) ‫پیاده‬‫سازی‬‫نرم‬‫افزار‬‫در‬Lucene Framework ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫در‬‫آزمایش‬‫عملی‬‫این‬،‫مقاله‬‫توسط‬‫یک‬‫برنامه‬‫به‬‫نام‬LogGenerator‫که‬‫با‬‫زبان‬Java‫توسط‬‫نگارندگان‬‫مقاله‬‫پیاده‬‫سازی‬‫شده‬،‫است‬‫اقدام‬ ‫به‬‫تولید‬‫الگ‬‫های‬‫مورد‬‫نظر‬‫از‬‫رویدادهای‬‫ماشین‬‫می‬‫نماید‬.‫این‬‫الگ‬‫ها‬‫در‬‫قالب‬‫رویدادهای‬‫سرویس‬‫های‬Client/Server‫ایجاد‬‫شده‬‫اند‬. ‫همچنین‬‫نرم‬‫افزار‬LEC‫بر‬‫اساس‬‫معماری‬‫مورد‬‫نظر‬،‫آن‬‫توسط‬‫چهارچوب‬Lucene Framework‫پیاده‬‫سازی‬‫شده‬‫است‬‫و‬‫فرمت‬‫الگ‬‫ها‬ ‫در‬‫مرحله‬‫پوشه‬‫بندی‬‫تبدیل‬‫به‬XML‫می‬‫گردند‬.‫در‬‫نهایت‬‫نمونه‬‫الگ‬‫های‬‫تولیدی‬‫بر‬‫اساس‬‫قواعد‬‫مشخص‬‫مورد‬‫همبسته‬‫سازی‬‫و‬‫تحلیل‬ ‫واقع‬‫شده‬‫اند‬. ‫ب‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ندی‬ ‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫ت‬‫حلیل‬ ‫با‬‫پروژه‬‫رتبه‬‫بندی‬‫به‬‫طور‬‫کامل‬‫تطبیق‬‫ندارد‬‫اما‬‫از‬‫الگوریتم‬‫بررسی‬‫شده‬‫در‬‫آن‬‫می‬‫توان‬‫برای‬‫حل‬‫چالش‬‫های‬‫پروژه‬‫رتبه‬‫بندی‬‫استفاده‬ ‫نمود‬.
  • 18. ‫الگ‬ ‫نوع‬‫استفاده‬‫از‬‫الگ‬‫های‬‫دسترسی‬‫کاربران‬‫به‬‫وب‬‫سرور‬ ‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫انجام‬‫فرآیند‬‫همبستگی‬‫الگ‬‫های‬‫وب‬‫سرور‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫الگوی‬‫بازدیدکنندگان‬ ‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1،‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬: ‫مدل‬‫پایین‬‫به‬‫باال‬(‫همبستگی‬‫الگ‬‫ها‬‫سپس‬‫کشف‬‫دانش‬‫از‬‫روی‬‫تحلیل‬) ‫معماری‬Micro-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫یک‬‫نوع‬‫الگ‬): oField-based correlation(‫همبستگی‬‫بر‬‫اساس‬‫فیلدها‬) oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬) ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬ ‫الگوریتم‬‫خاصی‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫استفاده‬‫نشده‬‫است‬‫و‬‫راهکارها‬‫ی‬‫کلی‬Web Usage Mining‫نظیر‬‫تحلیل‬‫های‬،‫آماری‬‫خوشه‬،‫بندی‬‫قوانین‬،‫انجمنی‬‫رده‬‫بندی‬‫و‬‫درخت‬،‫تصمیم‬‫الگوهای‬ ‫متوالی‬‫و‬‫شناسایی‬‫الگو‬‫برای‬‫تحلیل‬‫الگوی‬‫کاربران‬‫مورد‬‫بررسی‬‫واقع‬‫شده‬‫اند‬. ‫شده‬ ‫استفاده‬ ‫ابزار‬‫ابزار‬‫یا‬‫نرم‬‫افزار‬‫خاصی‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫استفاده‬‫نشده‬‫است‬. ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫در‬‫این‬‫مقاله‬‫به‬‫عنوان‬‫یک‬‫مقاله‬‫مبتنی‬‫بر‬‫ارائه‬،‫راهکار‬‫به‬‫مراحل‬‫یک‬‫راهکار‬‫اجرایی‬‫از‬‫مرحله‬‫منبع‬‫داده‬‫های‬‫خام‬(‫الگ‬‫وب‬‫سرور‬)،‫نحوه‬‫پاک‬‫سازی‬‫و‬‫نرمال‬‫سازی‬‫داده‬،‫ها‬‫کشف‬‫الگوها‬‫و‬‫تحل‬‫یل‬ ‫الگوها‬‫می‬‫پردازد‬.‫هر‬‫یک‬‫از‬‫مراحل‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشند‬: o‫پاک‬‫سازی‬‫و‬‫نرمال‬‫سازی‬‫داده‬‫ها‬:‫حذف‬‫رکوردهایی‬‫که‬‫دارای‬‫متد‬GET‫نباشند‬‫یا‬‫کد‬‫وضعیت‬‫پاسخ‬‫به‬‫صورت‬‫خطا‬‫بوده‬‫باشد‬‫یا‬‫فایل‬‫های‬‫استاتیک‬‫نظیر‬JPG،CSS‫و‬‫غیره‬. o‫کشف‬‫الگوها‬:‫در‬‫این‬‫مرحله‬‫به‬‫شناسایی‬‫کاربران‬‫منحصربفرد‬‫و‬‫نشست‬‫های‬‫کاربران‬(Sessions)‫پرداخته‬‫می‬‫شود‬.‫کاربران‬‫منحصربفرد‬‫بر‬‫اساس‬‫ترکیب‬‫آدرس‬IP‫منحصربفرد‬‫و‬‫اطالعات‬ ‫عامل‬‫کاربری‬(User_agent)‫تفکیک‬‫می‬‫شوند‬‫و‬‫نشست‬‫های‬‫کاربران‬‫بر‬‫اساس‬‫وقفه‬30‫دقیقه‬‫ای‬‫بین‬‫آخرین‬‫درخواست‬‫هر‬‫کاربر‬‫با‬‫درخواست‬‫بعدی‬‫آن‬‫تفکیک‬‫می‬‫شوند‬. o‫تحلیل‬‫الگوها‬:‫در‬‫این‬‫مرحله‬‫با‬‫استفاده‬‫از‬‫روش‬‫های‬‫داده‬‫کاوی‬‫و‬‫آماری‬‫به‬‫تحلیل‬‫الگوها‬‫پرداخته‬‫می‬‫شود‬. ‫بن‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫دی‬ ‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫با‬‫پروژه‬‫رتبه‬‫بندی‬‫به‬‫طور‬‫کامل‬‫تطبیق‬‫ن‬‫دارد‬‫اما‬‫از‬ ‫راهکارهای‬‫تحلیل‬‫الگوی‬‫بررسی‬‫شده‬‫در‬‫آن‬‫می‬‫توان‬‫برای‬‫حل‬‫چالش‬‫های‬‫پروژه‬‫رتبه‬‫بندی‬‫استفاده‬‫نمود‬. Correlation case-study: article#2 AccessPatternsinWebLogData-AReview,2013
  • 19. ‫الگ‬ ‫نوع‬‫الگ‬‫های‬‫وب‬‫سرور‬‫شامل‬‫الگ‬‫دسترسی‬‫کاربران‬‫و‬‫الگ‬‫خطاها‬(‫استفاده‬‫از‬‫الگ‬‫وب‬‫سایت‬‫موسسه‬‫آموزشی‬davkota.org‫به‬‫عنوان‬‫مطالعه‬‫موردی‬) ‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫انجام‬‫فرآیند‬‫همبستگی‬‫الگ‬‫های‬‫وب‬‫سرور‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫الگوی‬‫بازدیدکنندگان‬‫و‬‫نوع‬‫خطاهای‬‫وب‬‫سرور‬ ‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1: ‫مدل‬‫پایین‬‫به‬‫باال‬(‫همبستگی‬‫الگ‬‫ها‬‫سپس‬‫کشف‬‫دانش‬‫از‬‫روی‬‫تحلیل‬) ‫معماری‬Macro-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫چند‬‫نوع‬‫الگ‬‫مختلف‬):‫تکنیک‬‫های‬‫استفاده‬‫شده‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬: oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬) ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬ ‫در‬‫این‬‫مقاله‬‫از‬‫الگوریتم‬‫خاصی‬‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫استفاده‬‫نشده‬‫است‬‫و‬‫راهکارهای‬‫اجرایی‬‫نرم‬‫افزار‬‫تجزیه‬‫و‬‫تحلیل‬‫الگ‬‫های‬‫وب‬‫سرور‬(WebLog Expert)‫در‬ ‫انجام‬‫تحلیل‬‫ها‬‫بکار‬‫گرفته‬‫شده‬‫اند‬.‫که‬‫روش‬‫های‬‫این‬‫ابزار‬‫به‬‫شیوه‬‫های‬‫مبتنی‬‫بر‬‫قواعد‬‫می‬‫باشد‬. ‫شده‬ ‫استفاده‬ ‫ابزار‬‫استفاده‬‫از‬‫ابزار‬‫تجزیه‬‫و‬‫تحلیل‬‫الگ‬‫های‬‫وب‬‫سرور‬(WebLog Expert) ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫در‬‫این‬‫مقاله‬‫به‬‫عنوان‬‫آزمایش‬،‫عملی‬‫الگ‬‫های‬‫وب‬‫سرور‬‫موسسه‬‫آموزشی‬davkota.org‫به‬‫عنوان‬‫مطالعه‬‫موردی‬‫از‬‫تاریخ‬8‫اکتبر‬2012‫الی‬14‫اکتبر‬2012‫مورد‬ ‫استفاده‬‫قرار‬‫گرفته‬‫است‬. ‫سپس‬‫الگ‬‫های‬‫دسترسی‬‫و‬‫خطای‬‫وب‬‫سرور‬‫این‬‫وب‬‫سایت‬‫با‬‫استفاده‬‫از‬‫ابزار‬WebLog Expert‫مورد‬‫تجزیه‬‫و‬‫تحلیل‬‫قرار‬‫گرفته‬‫است‬.‫در‬‫نهایت‬‫بر‬‫اساس‬‫خروجی‬ ‫تحلیل‬‫های‬‫این‬‫نرم‬‫افزار‬‫مبنی‬‫بر‬‫الگوی‬‫بازدیدکنندگان‬(‫پردازش‬‫پارامترهای‬‫تجزیه‬‫و‬‫تحلیل‬‫وب‬‫نظیر‬‫میزان‬‫بازدیدکنندگان‬،‫منحصربفرد‬‫نشست‬،‫ها‬‫اطالعات‬‫عامل‬ ‫های‬‫کاربری‬‫مانند‬‫سیستم‬،‫عامل‬‫مروگر‬‫و‬...)‫و‬‫الگوی‬‫خطاهای‬‫رخ‬‫داده‬(‫بررسی‬‫انواع‬‫کدهای‬‫وضعیت‬HTTP)‫به‬‫تحلیل‬‫ارتباط‬‫آنها‬‫با‬‫یکدیگر‬‫پرداخته‬‫است‬. ‫بند‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬‫ی‬ ‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫با‬‫پروژه‬‫رتبه‬‫بن‬‫دی‬‫تطابق‬ ‫ندارد‬‫و‬‫راهکار‬‫ارائه‬‫شده‬،‫آن‬‫نمی‬‫تواند‬‫برای‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫بکار‬‫گرفته‬‫شود‬. Correlation case-study: article#3 AnalysisofWebServerLogFilestoIncreaseTheEffectivenessofTheWebsiteUsingWebMiningTool,2013
  • 20. ‫الگ‬ ‫نوع‬‫الگ‬IaaS(‫ارائه‬‫بستر‬‫به‬‫صورت‬‫سرویس‬)‫از‬‫سیستم‬‫مدیریت‬‫ابری‬OpenStack ‫ها‬‫الگ‬ ‫همبستگی‬ ‫از‬ ‫هدف‬‫انجام‬‫فرآیند‬‫همبستگی‬‫الگ‬‫های‬‫بستر‬‫ابری‬OpenStack‫برای‬‫تجزیه‬‫و‬‫تحلیل‬‫رفتارها‬‫و‬‫سرویس‬‫های‬‫مستاجران‬‫ابری‬ ‫ها‬‫الگ‬ ‫همبستگی‬ ‫معماری‬ ‫و‬ ‫مدل‬ ‫مدل‬‫و‬‫معماری‬‫استفاده‬‫شده‬‫در‬‫این‬‫مقاله‬‫بر‬‫اساس‬‫مباحث‬‫فصل‬1: ‫مدل‬‫پایین‬‫به‬‫باال‬(‫همبستگی‬‫الگ‬‫ها‬‫سپس‬‫کشف‬‫دانش‬‫از‬‫روی‬‫تحلیل‬) ‫معماری‬Micro-Level Correlation(‫مدل‬‫همبسته‬‫سازی‬‫یک‬‫نوع‬‫الگ‬):‫تکنیک‬‫های‬‫استفاده‬‫شده‬‫به‬‫شرح‬‫ذیل‬‫می‬‫باشد‬: oField-based correlation(‫همبستگی‬‫بر‬‫اساس‬‫فیلدها‬)-‫در‬‫این‬‫مقاله‬‫از‬‫عبارت‬Attribute-based correlation‫استفاده‬‫شده‬ oRule/Pattern Correlation(‫همبستگی‬‫بر‬‫اساس‬‫قوانین‬‫پیش‬‫نیاز‬/‫پس‬‫نیاز‬‫رویدادها‬‫یا‬‫الگوی‬‫مشخص‬)-‫در‬‫این‬‫مقاله‬‫از‬‫عبارت‬ Conjunctive/Disjunctive correlation‫استفاده‬‫شده‬ ‫اجرایی‬ ‫راهکار‬ ‫یا‬ ‫الگوریتم‬ ‫استفاده‬‫از‬‫یک‬‫الگوریتم‬‫ابتکاری‬‫با‬‫تجزیه‬‫و‬‫تحلیل‬‫شاخص‬‫های‬‫الگ‬‫نظیر‬: ‫تعداد‬‫کاربران‬‫منحصربفرد‬‫ابر‬ ‫تعداد‬‫ماشین‬‫های‬‫مجازی‬‫منحصربفرد‬‫ابر‬ ‫تعداد‬‫دسترسی‬‫به‬‫سیستم‬‫عامل‬‫های‬‫منحصربفرد‬‫قابل‬‫نصب‬ ‫تعداد‬IP‫آدرس‬‫های‬‫منحصربفرد‬‫ماشین‬‫مجازی‬‫های‬‫مجازی‬‫ابر‬ ‫تعداد‬‫مستاجران‬‫منحصربفرد‬‫ابر‬ ‫شده‬ ‫استفاده‬ ‫ابزار‬‫استفاده‬‫از‬‫بستر‬‫مدیریت‬‫ابری‬OpenStack‫برای‬‫ایجاد‬‫شرایط‬‫آزمایش‬‫و‬‫استفاده‬‫از‬‫الگ‬‫های‬‫آن‬ Correlation case-study: article#4 EventCorrelationforLogAnalysisintheCloud,2016
  • 21. Correlation case-study: article#4 EventCorrelationforLogAnalysisintheCloud,2016 ‫عملی‬ ‫آزمایش‬ ‫شرح‬ ‫در‬‫این‬،‫مقاله‬‫محیط‬‫آزمایش‬‫در‬‫بستر‬‫مدیریت‬‫ابری‬OpenStack‫پیاده‬‫سازی‬‫شده‬‫است‬.‫سپس‬‫تعدادی‬‫مستاجر‬،‫ابر‬‫کاربران‬‫استفاده‬‫کننده‬‫از‬‫هر‬‫ابر‬‫و‬‫سای‬‫ر‬ ‫شرایط‬‫داده‬‫ای‬‫مورد‬‫نیاز‬‫آزمایش‬‫الگ‬‫گردیده‬‫است‬.‫با‬‫استفاده‬‫از‬‫الگوریتم‬‫ابتکاری‬‫همبستگی‬‫الگ‬،‫ها‬‫اقدام‬‫به‬‫تجزیه‬‫و‬‫تحلیل‬‫و‬‫همبسته‬‫س‬‫ازی‬‫الگ‬‫های‬ OpenStack‫نموده‬‫است‬.‫در‬‫نهایت‬‫خروجی‬‫همبسته‬‫سازی‬‫الگ‬‫ها‬‫را‬‫از‬‫نظر‬‫الگوی‬‫استفاده‬‫کنندگان‬‫از‬‫ابر‬‫مورد‬‫تجزیه‬‫و‬‫تحلیل‬‫قرار‬‫داده‬‫است‬‫و‬‫نت‬‫ایج‬‫را‬‫با‬ ‫سایر‬‫شیوه‬‫های‬‫تجزیه‬‫و‬‫تحلیل‬‫الگ‬‫نظیر‬‫روش‬‫های‬‫خوشه‬،‫بندی‬‫رده‬‫بندی‬‫و‬‫قوانین‬‫انجمنی‬‫در‬‫داده‬‫کاوی‬‫مورد‬‫مقایسه‬‫و‬‫بحث‬‫قرار‬‫داده‬‫است‬. ‫بندی‬ ‫رتبه‬ ‫پروژه‬ ‫با‬ ‫تناسب‬ ‫ارزیابی‬ ‫با‬‫توجه‬‫به‬‫نوع‬،‫الگ‬‫هدف‬‫و‬‫الگوریتم‬‫یا‬‫راهکار‬‫اجرایی‬‫همبسته‬‫سازی‬‫الگ‬‫های‬‫این‬،‫پژوهش‬‫از‬‫نظر‬‫شرایط‬‫الگ‬،‫ها‬‫و‬‫هدف‬‫تجزیه‬‫و‬‫تحلیل‬‫با‬‫پروژه‬‫ر‬‫تبه‬‫بندی‬ ‫تطابق‬‫ندارد‬‫و‬‫راهکار‬‫ارائه‬‫شده‬،‫آن‬‫نمی‬‫تواند‬‫برای‬‫حل‬‫چالش‬‫های‬‫مورد‬‫نیاز‬‫پروژه‬‫رتبه‬‫بندی‬‫بکار‬‫گرفته‬‫شود‬.
  • 22. Fusion Tools  OracleFusionDevelopment  Logfusion  Lumify  Lucidworks fusion
  • 23. Oracle FusionDevelopment: Intro& features  A fundamental approach based on assembled solutions, not written. Solutions are built by assembling services together and in the process transcending disparate technology boundaries. Fusion applications and services are built on Fusion Development is very similar to Extreme Programming and Iterative development, and is heavily influenced by SOA. The focus is on applications that can be quickly built and easily managed.  Features  Fusion Development enables rapid application development through composition instead of coding  barriers for an enterprise to make changes are lowered  Rapid application development and changes can incent rapid decision-making
  • 24. Oracle FusionDevelopment: Architectureandcomponents Oracle Fusion Composed of two parts:  Fusion Middleware(FMW): Comprises of Oracle Application Server and other stack components that Oracle has acquired in past few years. o Fusion Middleware products covering areas like: Oracle business Intelligence(BI), Oracle Identify manager, Content manager, Service-Oriented Architecture(SOA)  Fusion Application(OFA): Is next generation suite of applications that replace E-Bussiness Suite. It will assimilate best of features from: o E-business Suite o JD Edwards o PoepleSoft o Siebel  Fusion Applications is build on top of Oracle Fusion Middleware Technology stack using Oracle Fusion Architecture as blueprint.
  • 25. Oracle Fusion Development: Architectureand components Oracle Fusion Apps Architecture – source: oracle .com
  • 26. Oracle FusionDevelopment: Price& Licensing ….Varies according to configuration and use case
  • 27. Logfusion: Intro& features  LogFusion is a powerful real-time log monitoring application designed for system administrators and developers! Use custom highlighting rules, filtering and more. You can even sync your LogFusion settings between computers.  Main Features: oSupports Many Log Types and create log categories oRow Highlighting, Advanced Text Filtering oWatched Folders oCustom Columns oSync Highlight Rules oAuto-Scroll (like 'tail') oScrollbar Highlight Markings
  • 29. AltamiracorpLumify: Intro & features Altamira LUMIFY an open source big data fusion, analysis, and visualization platform that supports the development of actionable intelligence. Includes concepts:  Ontology: structure for organizing information(i.e., your data model)  Entities: any “thing” you want to represent(e.g., person, place, event)  Relationships: a link between two entities(e.g., leader-of, work-for, sibling-of)  Properties: data about an entity(e.g., first name, last name, date of birth)  Graph: collection of entities and relationships between them  Main Features: o Speed and Scale o Open Data. Your Data. Any Data. o Bring Your Own Analytics o Browser Based o Collaborate in Real Time o Better Decisions from your Data By visually linking data points What can Do: o Search o Link analysis o Knowledge Building o Graph Visualization o Multimedia analysis o Geospatial analysis
  • 31. It’s free and open source… AltamiracorpLumify:Price& Licensing
  • 32.  Lucidworks Fusion is the platform for intelligent search and search analytics. Fusion leverages Apache Solr, the open source search engine, and Apache Spark, the open source cluster computing framework, to give you fast, scalable, proven, and reliable processing for customized search and analytics over all of your data.  Features:  Simplified Development  Robust Deployment Platform  Enterprise Features OOTB  AI-Driven Relevance  Data That Is Accessed Your Way  Data Analytics  Analytics Dashboards Lucidworks Fusion:Intro& features
  • 35. Lucidworks Fusion:Architectureandcomponents • Fusion UI • UI Service • Connectors • REST API Services • Solr • Spark • ZooKeeper • bin/fusion
  • 36. 15 Day Free Trial Available Lucidworks Fusion:Price&Licensing
  • 37. Correlation Tools  Solarwinds Log Event Manager(LEM)  Logrythm  Splunk  ManageEngine EventLog Analyzer  Logalyze  ELK Stack  Graylog
  • 38. Solarwinds LogEvent Manager(LEM): Intro &features  Powerful log analysis, true real-tie event correlation & advanced IT search.  Main Features: o Real-time log analysis – in-memory processing o Event Correlation - giving “context” to disparate events from different manufacturers o Active Response – proactively defend your network o Compliance – PCI, SOX, GLBA, HIPAA, NERC CIP and more o Correlation rules – over 700 out-of-box network and security monitoring rules, a flexible and powerful rule builder, behavior detection o Node-based licensing mode o Virtual Appliance(.OVA) ready to deploy with VMWare ESX, Microsoft Hyper-V
  • 39. Solarwinds LogEvent Manager(LEM): Architectureand Components • LEM Manager: o Syslog server o Database o Webserver o Correlation Engine • LEM Agent(Win&Lin) • LEM Reports Console
  • 41. Logrythm: Intro & features The LogRhythm Security Intelligence Platform is a highly configurable, cross-platform log management and security information and event management (founded in 2003). Markets and use cases: As well as large enterprises, plays well in government agencies, MSSPs and mid-sized businesses. Metrics: LogRhythm’s decentralized architecture is said to make it highly scalable.  Security qualifications: FISMA, GPG13, PCI DSS, HIPAA, NERC CIP, SOX and ISO 27001.  Intelligence: Machine analytics to surface advanced threats. Its risk-based priority algorithm applies risk and threat factors to automatically qualify alarms based on highest risk  Delivery: Can be deployed as an appliance, software or virtual instance.
  • 42. Logrythm: Intro& features Agents: LogRhythm can collect all types of Windows Event Logs with or without the use of an agent. Its agent technology facilitates the aggregation of log data, security events and other machine data. Data Collectors can operate locally or remotely.  Pricing: Subscription pricing is tied to volume consumption. Licensing is also based on a daily (rather than hourly) average of messages per second (MPS).  LogRhythm held a consistent processing, analysis and indexing rate of 300,000 messages per second (MPS)
  • 43. Logrythm: ArchitectureandComponents • Main Components: o Platform Manager o Data Collector o System Monitor Agent o Network Monitor o Data Processor o AI Engine o Data Indexer • Scalability and performance at several tiers:  Collection  Processing  Machine analytics  Persistence  Search analytics
  • 44. Logrythm: Price & Licensing  Starting at US $35,000 / UK £27,000, plus 20 percent for annual maintenance.
  • 45. Splunk: Intro & features It's a powerful software/Engine which can be used to search,investigate, troubleshoot, monitor, visualize,alert, and report on everything that's happening in your entire IT infrastructure from one location in real time. Features: o Splunk will search logs of all machines/Servers /Network devices from your enterprise and will present available info as result just like Google o you don't need to login to multiple servers and dig for all logs for particular event .Splunk will do it for you in smarter way. o You can even monitor your twitter feeds, gmail, mailbox etc using splunk. o Splunk do not require any database like Oracle or MS SQL to store its data.It stores it's data in indexes.so no additional cost for DB o Its a data mining tool for Big Data.Built in to handle Big/large data without affecting performance o It can work as monitoring tool,SIEM,reporting tool,analysys tool, root cause analysis....and much more
  • 46. Splunk: ArchitectureandComponents  Splunk Consist of: o Search Head o Splunk forwarder o Indexer o Deployment Server
  • 47. Splunk: Price &Licensing It all depends on the volume that you're indexing daily i.e. how much log data you are sending to splunk to process/store.
  • 48. ManageEngine EventLogAnalyzer: Intro& features a web-based tool provides end-to-end log management, with agent and agentless methods of log collection, custom log parsing, complete log analysis with reports and alerts, a powerful log search engine, and flexible log archiving options. Features: o Multiple log format support: Correlation is carried out across multiple log formats(Real-time event correlation), enabling you to correlate logs from Windows and Unix systems, network devices, and more. o Enhanced field-level correlation: Correlation can be done based on multiple log field values to provide fine- grained attack detection. o Predefined rules: The module is packaged with 25 predefined complex attack patterns. o Custom rule builder: The custom correlation rule builder has been upgraded to include over 250 predefined network actions and advanced filters.  Check for unique, constant, or shared field values among the actions that make up a rule.  Use multiple comparison conditions for fields, namely 'equals', 'not equal to', 'starts with', or 'ends with'.  Create rules for individual log types using specific network actions, or rules common to all log types with generic network actions. o Incident management integration: All correlation alerts can be viewed and managed with the in-built incident management console.
  • 49. ManageEngine EventLogAnalyzer: Architectureand Components  EventLog Analyzer components: o EventLog Analyzer Server o EventLog Analyzer database(PostgreSQL, also My SQL or MS SQL ) o User web console
  • 50. ManageEngine EventLogAnalyzer: Distributed Architecture • 1 Admin Server • N Managed Server
  • 51. ManageEngine EventLogAnalyzer: Price& Licensing Free Edition Premium Edition Distributed Edition Starts at $495 Starts at $1,995 Centralized collection and archival ✓ ✓ ✓ Universal Log Parsing and indexing ✗ ✓ ✓ File Integrity Monitoring ✗ ✓ ✓ Real-time event correlation and alerts ✗ ✓ ✓ Compliance reporting ✓ ✓ ✓ Log forensics ✓ ✓ ✓ Scalable architecture ✗ ✗ ✓ Multi-geographical location monitoring with distributed central-collector ✗ ✗ ✓ Site specific reports ✗ ✗ ✓ Rebranding and client specific views ✗ ✗ ✓
  • 52. Logalyze: Intro& features  a free, open-source, java-based log management tool to collects, parses, indexes and stores log data from any device, OS or application. Features: o Process log data at a high rate o Parse any log row with built in or custom made Log Templates o Ability to analyze custom business application logs o Browse or search logs with a web based administration GUI like with Google o Create multi dimensional statistics real-time based on individual fields of log o Securely transport log data to other LOGalyze o engines or syslog devices o Compatible with rsyslog, syslog-ng, Lasso, Snare o Connect remotely to SOAP API service o The AHR ticketing system provides powerful tool closing your open incidents more quickly.
  • 53. Logalyze: Architectureand Components contains two main component: LOGalyze Engine is a standalone log analyzer engine. It runs as a service, collects or receives log data, analyze them and provide automated reports, synthetic events, alerts. LOGalyze Admin is a RIA web interface for managing the Engine, search log data and display reports, alerts Engine offers a SOAP Web Services interface, so any SOAP client can connect to it
  • 54. Logalyze: Price & Licensing It’s totally Free…
  • 55. ELK Stack: Intro& features  ELK stands for Elasticsearch, Logstash and Kibana. The trio, joined together to give users the ability to run log analysis on top of open sourced software that everyone can run for free.  Features: o Real-time data and real-time analytics. o Scalable, high-availability, multi-tenant. o Full text search. o Document orientation o Simple to use and DevOps friendly(Elasticsearch rest API) o price!- free and open source
  • 56. ELK Stack: Architectureand Components  Main Components: o Elasticsearch: Store o Logstash: Filtering/parsing o Kibana: Visualize
  • 58. Graylog: Intro & features  Graylog (formerly known as Graylog2) is an open source syslog management platform, helps you to collect, index and analyze syslog on a centralized location.  Features: o Collect and parse: Parse and enrich logs, wire data, and event data from any data source. (3rd party collectors such as beats, fluentd and nxlog) o Analyze and Search: Search through terabytes of log data to discover and analyze important information. Use the powerful search syntax to find exactly what you are looking for. Save search queries to share o Drill-Down and Visualize: Create dashboards to visualize metrics and observe trends in one central location. Use field statistics, quick values, and charts from the search results page to dive in for deeper analysis of your data. o Alert and Trigger: Trigger actions or get notified when something needs attention, such as failed login attempts, exceptions or performance degradation o Enterprise Ready: Extend the functionality of Graylog o REST API: Both configuration settings and log data are available through the Graylog REST API  Graylog has been successful in providing log management software because it was built for log management from the beginning.
  • 59. Graylog: ArchitectureandComponents  Main components: o Elasticsearch o Mongodb: storing meta information and configuration data o Graylog: focus on CPU Power  Graylog-Server  Graylog-web-interface
  • 61.  has several Graylog nodes behind a load balancer distributing the processing load.  The load balancer can ping the Graylog nodes via HTTP on the Graylog REST API to check if they are alive and take dead nodes out of the cluster. Graylog: big environments
  • 62. Graylog: Price and licensing Enterprise PlatinumEnterprise GoldGraylog SilverOpen Source Graylog Enterprise for users with data > 200 GB/day Graylog Enterprise for users with data up to 200 GB/day Reduce risk with 10 support requests per year on Graylog Open Source. Graylog is open source and will always be free to use Contact us for custom pricing $9,000 per node/year $6,000 per node/year Free Forever Graylog Enterprise Features for > 200 GB/day:  Audit Log  Archiving Platinum Support Graylog Enterprise Features for up to 200 GB/day:  Audit Log  Archiving Gold Support Open Source Features Plus: • Personalized Engineer Support Silver Support Open Source Features Include: • LDAP Role-based access control • Configurable data retention policy • Alerting • Encrypted Communication • API Access • Custom alerting • Online community Support
  • 64. Conclusion Highlighted approach • An ontology-based data integration approach for web analytics in e-commerce,2015 • Web Warehouse – A New Web Information Fusion Tool for Web Mining, 2006 • LEC Log Event Correlation Architecture Based on Continuous Query,2009 Fusion Tool • Lumify (stream) • Lucidwork fusion (batch) Log Correlation Tool • Splunk