Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Бямбатогтохын Ууганцэцэг-Өгөгдлийн тандалтын зарим аргыг судлах нь

Бямбатогтохын Ууганцэцэг-Өгөгдлийн тандалтын зарим аргыг судлах нь

Related Books

Free with a 30 day trial from Scribd

See all
  • Login to see the comments

  • Be the first to like this

Бямбатогтохын Ууганцэцэг-Өгөгдлийн тандалтын зарим аргыг судлах нь

  1. 1. Өгөгдлийн тандалтын зарим аргыг судлах нь Бямбатогтохын Ууганцэцэг ШУТИС, БуХС, Мэдээллийн системийн менежментийн оюутан Email: uugana0102@gmail.com Хураангуй Өгөгдлийн тандалт нь үүсэд удаагүй байгаа бөгөөд улам боловсронгуй болж хөгжсөөр хамрах хүрээ нь нэмэгдсээр байгаа бөгөөд одоогоор ихэвчлэн харилцаа холбооо, маркетингийн салбар, санхүү, жижиглэн худалдаанд ашиглагдаж байгаа билээ. Эмх цэгцгүй, зохион байгуулалтанд ороогүй, холилдсон, давхардсан, дутуу асар их мэдээллээс өөрийн хүссэн ямар нэгэн үр дүнг гаргаж авна гэдэг цаг хугацаа болоод хөдөлмөр их шаардах хэцүү зүйл. Иймээс энэхүү асар их хэмжээний өгөгдлийг эмх цэгцтэй, зөв зохион байгуулж байх шаардлага зайлшгүй гардаг билээ. Энэхүү өгөгдлийг зөв зохион байгуулж эмх цэгцтэй болгох зүйл бол “Өгөгдлийн тандалт” гэсэн ойлголт юм. Өгөгдлийн тандалт нь ганц аргачлалыг ярьдаггүй бөгөөд нилээн олон аргачлалуудтай байдаг. Яг аль салбарт ашиглахаас шалтгаалж тохирсон тандалтын аргачлалыг сонгох нь чухал. Түлхүүр үг: Шийдвэрийн мод, Байесийн сүлжээ, Холбоо хамаарлын дүрэм, Өгөгдөл урьдчилан боловсруулах Удиртгал: Одоогийн нийгэмд оршин байгаа бүх л салбар байгууллагууд өөрийн үйл ажиллагаанд тус дөхөм болж үйл ажиллагааг хөнгөвчлөх, цаг хэмнэх, ашиг авчрах, зардал бага зарцуулах бүхий л зүйлийг ирэлхийлдэг болсон байна. Өөрийн ашиглаж буй тухайн програм хангамж, системээс тухайн үед хэрэгтэй мэдээ мэдээллийг олж харан өөрийн үйл ажиллагаанд цаг алдалгүй боломжийг олж харахыг зоридог. Аливаа байгууллагад цагийн аясаар асар их хэмжээний өгөгдөл хуримтлагдан бий болдог. Өмнөх үеийн мэдээ мэдээлэл нь дүн шинжилгээ, анализ хийх, санаа авах, таамаглал дэвшүүлэх гээд олон зүйлд хэрэг болдог. Эмх цэгцгүй, зохион байгуулалтанд ороогүй, холилдсон, давхардсан, дутуу асар их мэдээллээс өөрийн хүссэн ямар нэгэн үр дүнг гаргаж авна гэдэг цаг хугацаа болоод хөдөлмөр их шаардах хэцүү зүйл. Өгөгдлийн тандалт гэдэг бол асар их хэмжээний өгөгдөл дээр үндэслэн ажилладаг тул байнга асар их хэмжээний өгөгдөл цуглуулагдаж байдаг бүхий л салбарын байгууллагууд хэрэглэхэд нэн тохиромжтой юм. Одоо дэлхий дахины томоохон салбаруудад хэрэглэгдэж эхлээд байгаа бөгөөд манай улс ч мөн адил хэрэглэх цаг үе нь болсон учраас энэхүү сэдвийг сонгох болсон юм.
  2. 2. 1. ОНОЛЫН ХЭСЭГ 1.1 Өгөгдлийн тандалт Шинжлэх ухаан, эрүүл мэнд, санхүү, маркетинг гээд олон салбарт тухайн салбарын үнэт нөөц болсон их хэмжээний анхдагч өгөгдлийг автоматаар шинжлэх, ангилах, дүгнэх, загварчлах, алдаа зүй тогтолыг илрүүлэх, үр өгөөжтэй ашиглах дэвшилтэт арга технологи, хэрэгслийг хөгжүүлэхэд судлаачид ихээхэн анхаарч байна. Энэ талын судалгааны нэг чиглэл бол Өгөгдлийн тандалт (Data Mining) юм. Өгөгдлийн тандалт гэдэг нэр томъёоны тухайд судлаачид өөр өөр байр суурьтай байдаг. Зарим судлаачид “Өгөгдлийн олборлолт” гэж шууд орчуулгыг илүүд үздэг. Гэвч Data Mining нь их хэмжээний өгөгдлийн сан, өгөгдлийн агуулах, вэб, өгөгдлийн урсгал – түүхий өгөгдлийн мэдлэг болгон ухаалгаар хувиргах технологийн шинэ шийдэл, арга хэрэгслийн судалдаг мөн чанараас нь харвал Өгөгдлийн тандалт гэдэг нэр томъёог хэрэглэх оновчтой гэж манай хэл шинэчлэлийн судлаачид үздэг. Өгөгдлийн тандалт нь том хэмжээний өгөгдлийн сан, өгөгдлийн агуулах, вэб, өгөгдлийн урсгалын өгөгдлүүдийг хэрэгцээт мэдээлэл, мэдлэг болгон ухаалгаар хувиргах автомат шинэ арга хэрэгслийг судалдаг. Өгөгдлийн тандалт нь өгөгдлийн сангийн технологи, машины сургалт (machine learning), статистик, загварыг үнэлэх (pattern recognition), мэдээлэл сэргээх (information retrieval), эксперт систем, хиймэл оюун, өндөр гүйцэтгэл бүхий тооцоолол (high performance computing), өгөгдлийн дүрслэл (data visualization) зэргийг багтаасан олон талт салбар ухаан бөгөөд бизнес, эдийн засаг, биоинформатикт маш өргөн ашиглагдаж байна. Бидний мэдэх Байесийн теором (1700аад он), Регрессийн шинжилгээ (1800-д он) ч өгөгдлийн тандалтын аргад хамаардаг бөгөөд өгөгдлийн тандалт нэр томъёог Грегори Пиатетски – Шапиро хэрэглээнд оруулахад “Knowledge Discovery in Databases (1980)” гэсэн хурал чухал үүрэг гүйцэтгэсэн байдаг. Өгөгдлийн тандалт хийхийн тулд дараах алхмыг хийж гүйцэтгэдэг. 1. Өгөгдлийг цэвэрлэх - Алдаатай буруу өгөгдлүүдийг устгах, нийцгүй өгөгдлүүдийг засах 2. Өгөгдлийг нэгтгэх - Янз бүрийн олон эх үүсвэрүүдийн өгөгдлүүдийг нэгтгэх 3. Өгөгдлийг сонгох – Өгөгдлийн сангаас бодлогын тавилтай холбоотой шинжилгээ хийх өгөгдлүүдийг сонгож авах 4. Өгөгдлийг хувиргах – Сонгосон өгөгдлүүдийг хувиргах 5. Өгөгдлийн тандалтын хийх – Шинэ мэдлэг олох/Загвар тодорхойлох 6. Загварыг үнэлэх – Олсон шинэ мэдлэг/Тодорхойлсон загварыг үнэлэх 7. Мэдлэгийг дүрслэн илэрхийлэх – Олсон шинэ мэдээллийг дүрслэн харуулах Энгийн өгөгдлийн тандалтын архитектур бүтэц нь дараах хэдэн бүрдэл хэсгүүдээс бүрдэнэ.  Өгөгдлийн сан, өгөгдлийн агуулах, дэлхийд өргөн тархсан тор (WWW – World Wide Web) болон бусад мэдээлэл тээгчид – энэ нь өгөгдлийн сангийн, өгөгдлийн агуулахын, бусад төрлийн мэдээлэл тээгчдийн нэг болон хэд хэдэн олонлог. Өгөгдлийг цэвэрлэх, нэгтгэх, сонгох арга багтдаг.  Өгөгдлийн сан болон өгөгдлийн агуулахын сервер – энэ нь хэрэглэгчийн өгөгдлийн тандалтын хүсэлтийн дагуу авчрах боломжтой, түүнд хамаатай өгөгдөл. Өгөгдлийн тандалтын аргууд нь өгөгдлүүдийн ерөнхий шинжийг тодорхойлох, өгөгдлүүдийн холбоо, хамааралд дүн шинжилгээ хийх, өгөгдлүүдийг нийтлэг шинжүүдээр нь бүлэг болгон ангилах тодорхой үзүүлэлтүүдийн тусламжтай урьдчилан таамаглах, өгөгдлүүдийг нийтлэг шинжүүдээр нь кластер болгон хуваах, хэт ялгаатай өгөгдлүүдийг ялгах дараах хоёр үүргийг гүйцэтгэдэг:
  3. 3. o Тайлбарлах – Өгөгдлийн сан дахь өгөгдлийн ерөнхий шинжийг тодорхойлох o Таамаглах – Өгөгдлийн тусламжтай урьдчилсан дүгнэлт гаргах 2. СУДАЛГААНЫ ХЭСЭГ 2.1 Өгөгдлийн тандалтын аргууд Өгөгдөл урьдчилан боловсруулах/ӨУБ-Data Preprocessing/ Өгөгдөл урьдчилан боловсруулах гэдэг нь замбараагүй байгаа өгөгдлүүдийг ойлгомжтой хэлбэрт оруулахыг хэлнэ. Одооны өгөгдлүүд бүрэн биш, дэс дараалалгүй ямар нэг шинж чанаргүй, их алдаанууд байдаг байна. ӨУБ нь иймэрхүү асуудлуудыг шийдвэрлэх аргачлалтай бөгөөд цаашдын үйл явцад бэлэн болох юм. Өгөгдөл урьдчилан боловсруулах үед дараах шатуудыг дамждаг: 1. Өгөгдөл цэвэрлэгээ (Data cleaning) - Нийцгүй, тохиромжгүй, илүүдэл, давтагдсан өгөгдлийг хасах, алдаатай өгөгдлийг засах, дутуу өгөгдлийг нөхөх 2. Өгөгдөл нэгтгэх (Data integration) – Олон өгөгдлийн сангаас авч буй мэдээлэлд нэг ижил утга санаа агуулж байвал тэдгээрийг нэгтгэх 3. Өгөгдөл өөрчлөх (Data transformation) – Сонгосон өгөгдлүүдийг хувиргах, өгөгдлийг ямар байх ёстой тэр хэлбэрт оруулах буюу энгийн хэлбэрт оруулах 4. Өгөгдөл багасгах (Data Reduction) – Өгөгдлийг зөв цэгцтэй, хялбаршуулсан хэлбэрт оруулахыг хэлнэ. Өгөгдөл багасгах Үүнд дараах аргачлалуудыг ашигладаг: 1. Үндсэн бүрэлдэхүүний шинжилгээ (Principal Component Analysis-PCA) 2. Сингуляр утгын задаргаа (Singular Value Decomposition) Үндсэн бүрэлдэхүүний шинжилгээ (Principal Component Analysis-PCA) Энэ нь өгөгдлийг шахаж багасгах мөн ангилахад ашигладаг аргачлал юм. Өөрөөр хэлбэл товч тодорхой мэдээллийг авах юм. Зорилго:  Өгөгдлийн багцын хүрээг багасгаж одооны өгөгдлийн хувьсагчаас бага хувьсагчтайг олно.  Өмнөх Хувьсагчтай харьцуулж хоорондын хамаарлыг харуулна гэсэн үг юм.  Статистикийн нэгж дундаас хоорондоо ижилхэн утгыг олох Дүн шинжилгээ Үүнд хоёр гол загвар гаргаж болдог. 1. Таамаглах(Predictive) 2. Дүрслэх(Descriptive) Таамаглах нь өгөгдлүүдийн тусламжтай урьдчилсан дүгнэлт гаргах, таамаглал дэвшүүлж үр дүн гаргах
  4. 4. Дүрслэх нь өгөгдлийн сан дахь өгөгдлүүдийн ерөнхий шинжийг тодорхойлох, тайлбарлах, анализ дүн шинжилгээ хийх Таамаглах(Predictive) Ангилал хийх (Classification) – энэ нь таамаглах загвар бөгөөд өгөгдлүүдийг нийтлэг шинжүүдээр нь бүлэг болгон ангиладаг. Өгөгдөлд ангилал хийх 2 үндсэн процесс байдаг. Нэгдүгээрт, одоо бэлэн байгаа туршилтын өгөгдөлдөө дүн шинжилгээ хийнэ. Үүнд доорх загваруудыг ангилал хийхэд авч үзнэ:  К-хамгийн ойр хөршүүд (k-nearest neighbours – kNN)  Шийдвэрийн мод (Decision tree)  Ангиллын Дүрмүүд (Rule based classification)  Байесийн сүлжээ (Bayesian network)  Туслах вектор машин (Support vector machine)  Хиймэл оюуны сүлжээ (Artificial Neural Networks) аль нэгийг гаргаж авна Хоёрдугаарт, загвараа ашиглан эцсийн үр дүнгээ гаргана. Шинээр орж ирэх өгөгдөл болон сургалтын өгөгдөлөө дээр гаргасан байгаа ангиллын дүрэм, шийдвэрийн мод юм уу математик томъёоллоо ашиглан эцсийн үр дүнгээ гаргана гэсэн үг юм. К-хамгийн ойр хөршүүд (k-nearest neighbors-KNN) Хамгийн хялбар алгоритм бөгөөд өгөгдлүүдийг ангилан салгаж векторт цэгүүдийг орон хэмжигдэхүүнээр тэмдгэлэх юм. Зураг1 К-хамгийн ойр хөршүүд N зурж харуулжээ Энэ зурагт харуулснаар “с” нь “о” –той төстэй шинж чанартай гэсэн үг юм Дүрэмд тулгуурласан ангилал (Rule Based Classification) IF-THEN Дүрмүүд Ангилал хийхэд IF-THEN дүрмийг ашиглана. Тухайн дүрмийг дараах нөхцөл шалгах байдлаар илэрхийлнэ. IF нөхцөл(condition) THEN дүгнэлт Жишээ дүрэм: IF age=youth AND student=yes THEN buy_computer Уг дүрмийн шалгуур нь хэрэв та залуу тэгээд оюутан бол компьютер худалдаж авна гэсэн үг юм.
  5. 5. Шийдвэр модны давуу тал  Ямар нэгэн мэдлэг шаарддаггүй.  Энэ нь хүний үйл ажиллагааны улмаас хялбар байдаг.  Шийдвэрийн модны ангилал хийх, ойлгоход энгийн хурдан байдаг Шийдвэрийн мод (Decision Trees) Шийдвэрийн мод нь энгийн модны бүтэцтэй адил үндэс, мөчир, навчтай байдаг. Өөрөөр хэлбэл модны оронд диаграм байна гэсэн үг. Энэ диаграмыг модтой адилхан салбарласан байдлаар дүрсэлдэг. Энэ диаграмын дагуу үр дүнгийн хүснэгт гаргах бөгөөд тэдгээр нь шийдвэрийн дэс дараалалтай холбоотой нөхцөлүүдийг шинжлэхэд хэрэглэддэг. Энэхүү шийдвэрийн модыг бага хэмжээний өгөгдөлтөй ажиллаж байх үед ашиглавал тохиромжтой. Шийдвэрийн модыг ангилах дүрэм (IF-THEN) рүү хөрвүүлэхэд хялбар байдаг. Шийдвэрийн мод нь ангиллын дүрэм рүү хялбар хөрвөдөг Зураг2 Дүрэмд тулгуурласан ангилалын шийдвэрийн мод Байесийн сүлжээ (Bayesian Network) Байесийн ангилал нь байесийн теором дээр суурилсан бөгөөд статистикийн ангилал юм. Мөн гишүүн классуудын холбоо хаамарлын шалтгаадах магадлалыг таамагладаг Байесийн теором Уг теором 2 төрлийн магадлал авч үздэг  P(B) = B үзэгдэл явагдах магадлал (prior probability)  P(B|A) = A үзэгдэл явагдсаны дараа B үзэгдэл явагдах магадлал (нөхцөлт магадлал, posterior probability) гэе. Тэгвэл Байесын теорем ёсоор P(A) > 0 бол P(B|A)=P(A|B) * P(B) / P(A) Байесын теорем нь ямар нэгэн үр дүн мэдэгдсэний дараа, түүнийг тусгасан нөхцөлт магадлалыг бодож олоход хэрэглэгддэг. Байесийн сүлжээ бол эмх цэгцгүй хувьсагчдын холбоо хамааралыг ацикликт чиглэсэн загвараар (directed acyclic graph) гаргадаг магадлалын график загвар(статистикийн) юм. Ацикликт чиглэсэн загвар (Directed acyclic graph)  Хувьсагч бүр салангид эсвэл хоорондоо залгаатай байна  Хувьсагч нь өгөгдлийн ямар нэг атрибуттай холбогддог байна
  6. 6. Жишээ Зураг3 Байесийн сүлжээний таван нотолгоот хувьсагчтай. Дискриптив (Descriptive) Холбоо хамаарлын дүрэм (Association Rule Mining) Ихэнх бизнесийн аж ахуйн нэгжүүдэд өдөр тутмын үйл ажиллагаанаас болон их хэмжээний өгөгдлүүд хуримтлагддаг. Жишээ нь ямар нэг худалдааны төвд үйлчлүүлэгч худалдан авалт хийснээр тодорхой өгөгдөл бий болдог. Дараах хүснэгтэнд борлуулсан барааны сагс бүрийг жагсаан харуулжээ. Хүснэгт 1 Борлуулсан барааны сагс Бараа 1 2 3 4 5 {Талх, Сүү} {Талх, Живх, Пиво,Өндөг} {Сүү, Живх, Пиво, Кола} {Талх, Сүү, Живх, Пиво} {Талх, Сүү, Живх, Кола} Тухайн хүснэгтийн мөр болгон үйлчлүүлгчдийн худалдан авалтын гүйлгээг харуулсан байна. Борлуулагч уг өгөгдлийн тусламжтай худалдан авагчдын зан байдлыг шинжилдэг. Ийм мэдээлэл нь маркетингийн урамуулал, барааны нөөцийн менежмент, хэрэглэгчидтэй харилцах менежментэд тусламж үзүүлэх маягаар ашигладаг. Уг шинжилгээ нь их хэмжээний өгөгдлүүдийн харилцан хамаарлыг олдог. Уг харилцан хамаарал нь холбоо хамарлын дүрэм эсвэл худалдан авагчдын барааны багцаас шалтгаалдаг. Холбоо хамаарлын төрлүүд:  Үр дүнтэй дүрэм (Actionable Rules) –, боловсруулалт хийхэд бэлэн чанартай мэдээллүүд  Энгийн дүрэм (Trivial Rules) – Бизнест илэрхий болсон мэдээллүүд  Тайлбарлах боломжгүй дүрмүүд (Inexplicable Rules) – Тайлбарлах боломжгүй үр дүн гарахгүй Жишээ нь: {Талх}{Масло}
  7. 7. Талх худалдан авсан үйлчлүүлэгч ихэвчлэн масло худалдан авдаг бөгөөд уг холбоо хамаарал дүрэм болж байгаа гэсэн үг. Эсвэл талх эсгэгч авсан худалдан гурил авах магадлалтай. Холбоо хамаарлын дүрэм нь AB хоёр хамаатай эсэх, эсвэл энэ салангид бол A∩B=Ø тус тус илэрхийлнэ. Холбоо хамаарлын үр дүнг хоёр нөхцлөөр хэмждэг:  Түүвэрийн хувь (Support)  Түүврийн хамаарал (Confidence) Түүвэрийн хувь (Support): Өгөгдлүүдээс дүрэмд нийцэж байгаа төрөл зүйлсийн давтамжийг харуулна. Бүх худалдан авалтаас A болон B хамт авсан давтамжийг гаргана. Гүйлгээ бүрээс нийт худалдан авсан нийт талхны эрэлтийн хэмжээ, нийт сүүний эрэлтийн хэмжээ. Мөн энэ хоёр барааг хамтад нь авсан эрэлтийн хэмжээг харуулна. 𝑁талх 𝑁нийт 𝑁масло 𝑁нийт 𝑁талх∩масло 𝑁нийт support(AB[s,c])= p(AB) N-тоо хэмжээ Түүврийн хамаарал (Confidence): A болон B нь хамт оршин байгаа хэмжээг хувиар харуулах. Өөрөөр хэлбэл нийт талхны эрэлтийг масло талх хамт авсантай харьцуулах, мөн нийт маслоны эрэлтийг талх маслог хамт авсантай харьцуулах 𝑁талх 𝑁талх∩масло 𝑁масло 𝑁талх∩масло confidence(AB[s,c])= p(B|A) =sup(A,B)/sup(A). Үр дүнг боловсруулах процесс Хүснэгт 2 Нийт талхны эрэлт 100 Нийт маслоны эрэлт 400 Талх масло хамт авсан тоо 50 Нийт барааны эрэлт 1000 Хэмжих Тодорхойлох Талхны эрэлтийн хувь(Support of a bread) 100/1000=0.1 Маслоны эрэлтийн хувь(Support of a butter) 400/1000=0.4 Талх болон масло хамтад нь авсан нийт хувь 50/1000=0.05 Нийт авсан талханаас хэдэн хувь нь маслотой хамт худалдан авсан (Confidence of Bread) 0.05/0.1=0.5 Нийт авсан маслоноос хэдэн хувь нь талхтай хамт хулалдан авсан(Confidence of Butter) 0.05/0.4=0.125
  8. 8. Кластер анализ (Cluster analysis) Кластер анализ нь олон хэмжээст ажиглалтыг ангилах аргууд юм. Зорилго нь кластер гэж нэрлэгдэх хоорондоо төстэй объектуудын бүлгүүдийг үүсгэхэд оршино. Кластер ангилалыг тоо өгөгдөлд, маркатенгийн судалгаа, дүрс таних, газарзүйн байрлалтай холбоотой өгөгдөлд шинжилгээ хийх зэрэгт маш өргөн ашигладаг. Бизнест, кластер нь маркетеруудад өөрсдийн хэрэглэгчдээс онцгой бүлгийг мэдэж авахад болон худалдан авах зан төлөв дээр нь үндэслэсэн хэрэглэгчийн бүлгээ тодорхойлоход их тусладаг. Кластерийг зарим хэрэглээнд өгөгдлийн сегментчилэл гэж дууддаг, яагаад гэвэл, кластер нь маш их хэмжээний өгөгдлийн олонлогийг тэдгээрийн ижил төстэй шинж чанарын дагуу бүлгүүдэд хуваадаг. Кластерийг мөн хэт ялгаатай өгөгдлийг илрүүлэхэд хэрэглэдэг. Хэт ялгаатай өгөгдөл илрүүлэхэд зээлийн картын залиланг илрүүлэх, электрон худалдаанд гэмт хэргийн үйл ажиллагааг хянаж байх зэрэг багтдаг. Ерөнхий дүгнэлт Байгууллагын ухаалаг мэдээллийг бий болгоход өгөглийн тандалт нь чухал үүрэг гүйцэтгэдэг бөгөөд уг хэрэгслийг оновчтой менежментээр удирдах ёстой. Үүний тулд тохирсон тандалтын системийг сонгох хэрэгтэй. Том байгууллагуудад их хэмжээний өгөгдлийн сан дээр ажилладаг бөгөөд өгөгдлийнхөө дагуу тохирсон аргыг ашиглан хэрэглэхэд тохиромжтой. Байгууллагын эмх замбараагүй мэдээллийг эмх цэгцэндэн оруулахад хамгийн тохиромжтой. Ашигласан материал  Mohammed Zaki and Wagner Meira JrData - Mining and Analysis: Fundamental Concepts and Algorithms  http://www.statsoft.com/Solutions/Cross-Industry/Data-Mining  http://www.microsoft.com/nl/search/results.aspx?q=sql%20server%202012%20express

×