Kubernetes Resource Mis-management - What not to doNatan Yellin
Video recording of the talk at https://www.youtube.com/watch?v=EVr-FK2Kmj0
What are common misconceptions about Kubernetes resource management? What happens if you get them wrong? In this presentation, Natan covers common mistakes and antipatterns like:
1. How to destroy latency with CPU limits
2. How to kill pods randomly without realizing it
3. How to brick a node
■ 일시 및 장소
2023년 6월 22일 목요일 19:00 ~
■ 아젠다
트위터의 추천 시스템 파헤치기
2023년 4월 5일 오픈소스로 공개된 트위터의 추천 시스템에 대해서 살펴봅니다.
트위터의 개인화/랭킹 후보군을 만들어내는 추천 알고리즘부터, 이를 지탱하는 파이프라인까지 모두 소개합니다.
■ 발표자
카카오스타일 데이터사이언티스트 이명휘
김상균(curt.k) / kakaomobility corp.(데이터랩)
---
맵매칭은 도로 네트워크에 차량의 위치 측정치를 매핑하여 정확한 모빌리티 사용자의 위치와 이동경로를 추정하는 과정으로, 내비게이션 길안내, 택시/대리 등의 이동경로 기반한 요금 산정, 교통흐름 분석, 이동 방향 결정 등에 활용된다.
GPS 위치가 정확하고 업데이트 주기가 빠른 경우 GPS를 가까운 도로 네트워크 상에 매핑만 하면 되지만, 실 서비스에서는 실내, 도심, 터널 등의 환경에서 GPS 위치가 부정확하고, 수 십 초 이상 수신기 되지 않는 상황이 빈번하게 발생되어 확률 모델 적용이 필요하다.
발표에서는 위 같은 상황에 대응 가능하도록 자체 개발된 Hidden Markov Model(HMM) 기반 맵매칭 알고리즘과 일평균 수백만 이동 경로에 적용된 서비스 시스템에 대해 설명하고, 실 데이터 처리 분석 결과를 공유한다.
커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...Amazon Web Services Korea
스타트업에서 빠르게 분석 서비스를 구성하기 위한 AWS 분석 서비스를 활용하고 있습니다. 본 세션에서는 커머스 서비스의 대용량 데이터를 Amazon Kinesis Firehose를 이용하여 실시간으로 사내에 흐르는 중요 데이터를 캡쳐하여 다양한 용도로 사용하는 방법을 알아봅니다. 매달 수백억 건의 사용자 행동 로그를 안정적이고 견고하게 수집하여 인하우스 데이터 분석 방법을 소개합니다. 또한, Amazon Personalize를 통한 개인화 추천 및 Amazon SageMaker를 이용한 이미지분류 등 기계 학습 활용 사례도 공유합니다.
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
The document contains log data from user activities on a platform. There are three columns - user_id, event, and event_date. It logs the activities of 5 users over several days, including events like logins, posts, comments, views. It also includes some aggregated data on unique events and totals by user.
Kubernetes Resource Mis-management - What not to doNatan Yellin
Video recording of the talk at https://www.youtube.com/watch?v=EVr-FK2Kmj0
What are common misconceptions about Kubernetes resource management? What happens if you get them wrong? In this presentation, Natan covers common mistakes and antipatterns like:
1. How to destroy latency with CPU limits
2. How to kill pods randomly without realizing it
3. How to brick a node
■ 일시 및 장소
2023년 6월 22일 목요일 19:00 ~
■ 아젠다
트위터의 추천 시스템 파헤치기
2023년 4월 5일 오픈소스로 공개된 트위터의 추천 시스템에 대해서 살펴봅니다.
트위터의 개인화/랭킹 후보군을 만들어내는 추천 알고리즘부터, 이를 지탱하는 파이프라인까지 모두 소개합니다.
■ 발표자
카카오스타일 데이터사이언티스트 이명휘
김상균(curt.k) / kakaomobility corp.(데이터랩)
---
맵매칭은 도로 네트워크에 차량의 위치 측정치를 매핑하여 정확한 모빌리티 사용자의 위치와 이동경로를 추정하는 과정으로, 내비게이션 길안내, 택시/대리 등의 이동경로 기반한 요금 산정, 교통흐름 분석, 이동 방향 결정 등에 활용된다.
GPS 위치가 정확하고 업데이트 주기가 빠른 경우 GPS를 가까운 도로 네트워크 상에 매핑만 하면 되지만, 실 서비스에서는 실내, 도심, 터널 등의 환경에서 GPS 위치가 부정확하고, 수 십 초 이상 수신기 되지 않는 상황이 빈번하게 발생되어 확률 모델 적용이 필요하다.
발표에서는 위 같은 상황에 대응 가능하도록 자체 개발된 Hidden Markov Model(HMM) 기반 맵매칭 알고리즘과 일평균 수백만 이동 경로에 적용된 서비스 시스템에 대해 설명하고, 실 데이터 처리 분석 결과를 공유한다.
커머스 스타트업의 효율적인 데이터 분석 플랫폼 구축기 - 하지양 데이터 엔지니어, 발란 / 강웅석 데이터 엔지니어, 크로키닷컴 :: AWS...Amazon Web Services Korea
스타트업에서 빠르게 분석 서비스를 구성하기 위한 AWS 분석 서비스를 활용하고 있습니다. 본 세션에서는 커머스 서비스의 대용량 데이터를 Amazon Kinesis Firehose를 이용하여 실시간으로 사내에 흐르는 중요 데이터를 캡쳐하여 다양한 용도로 사용하는 방법을 알아봅니다. 매달 수백억 건의 사용자 행동 로그를 안정적이고 견고하게 수집하여 인하우스 데이터 분석 방법을 소개합니다. 또한, Amazon Personalize를 통한 개인화 추천 및 Amazon SageMaker를 이용한 이미지분류 등 기계 학습 활용 사례도 공유합니다.
BigQuery의 모든 것(기획자, 마케터, 신입 데이터 분석가를 위한) 입문편Seongyun Byeon
The document contains log data from user activities on a platform. There are three columns - user_id, event, and event_date. It logs the activities of 5 users over several days, including events like logins, posts, comments, views. It also includes some aggregated data on unique events and totals by user.
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon
NDC18에서 발표하였습니다. 현재 보고 계신 슬라이드는 1부 입니다.(총 2부)
- 1부 링크: https://goo.gl/3v4DAa
- 2부 링크: https://goo.gl/wpoZpY
(SlideShare에 슬라이드 300장 제한으로 2부로 나누어 올렸습니다. 불편하시더라도 양해 부탁드립니다.)
발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
우리는 지금 무엇을 하고있는지를 고민하나요? 아니면 무엇이 되어가고 있는지를 고민하나요? 네 맞습니다. 우리는 매년 무엇을 할지 고민합니다. 그런데 중요한것은 방향 즉 어디를 가고 있는지 입니다.
그래서 넷플릭스의 추천 시스템이 어디를 향해 가고 있는지를 살펴보고 추천시스템의 향해 가야할 Goal에 대하여 같이 이야기를 해보고자 합니다
데이터를 둘러싼 정책과, 기업과 기술의 진화는 빠르게 변화하고 있으며, 모든 지향점은 기업들이 다양한 데이터를 활용하여 경쟁력을 확보하고 이를 통해 AI기반의 혁신을 하고자 하는데 있다.
이 과정에서 수 많은 기업의 업무 전무가, 데이터 사이언티스트 등이 다양한 기업의 혁신을 지원할 수 있는 AI 모델을 검증하는 과정을 거치게 됩니다.
하지만, 이렇게 수 많은 AI 모델이 실제 비즈니스에 적용되기 위해서는 인프라, 및 서비스 관점의 기술이 반드시 필요하게 됩니다.
MLOps는 기업에 필요한 혁신적인 아이디어(AI Model)을 적시에 비즈니스 환경에 적용할 수 있도록 지원하는 기술 및 트렌드 입니다.
주요 내용은
- 데이터를 둘러싼 환경의 변화
- 기업의 AI Model 적용시 마주하는 현실
- MLOps가 해결 가능한 문제들
- MLOps의 영역별 주요 기술들
- MLOps 도입 시 기업의 AI 환경은 어떻게 변할까?
- AI 모델을 비즈니스 환경에 적용(배포)한다는 것은?
2021년 12월 코리아 데이터 비즈니스 트렌드(데이터산업진흥원 주최)에서 발표한 내용을 공유 가능한 부분만 정리함.
발표 영상 참고 : https://www.youtube.com/watch?v=lL-QtEzJ3WY
This document provides instructions for installing and using Embulk and Airflow. It explains how to install Embulk and common Embulk plugins, run Embulk tasks to load data from MySQL to BigQuery, and configure an Embulk config file to specify the input, output, and load options. It also explains how to install Airflow, initialize the metadata database, run the Airflow web server, list and test DAGs and tasks, and write a simple DAG with BashOperator tasks to print the date and sleep for demonstration purposes.
This document discusses techniques for music recommendation including matrix factorization, word2vec, and deep learning on audio data. It describes analyzing a dataset of 5 million songs classified by genre and segmented by attributes like popularity, loudness, and whether they are from the top 1000 songs. Models like matrix factorization and word2vec are used to generate song vectors and map songs in low dimensional space to power music recommendations.
This document discusses using BigQuery and Dataflow for ETL processes. It explains loading raw data from databases into BigQuery, transforming the data with Dataflow, and writing the results. It also mentions pricing of $5 per terabyte for BigQuery storage and notes that Dataflow provides virtual CPUs and RAM. Finally, it includes a link about performing ETL from relational databases to BigQuery.
Neural Language Generation Head to Toe Hady Elsahar
This is a gentle introduction to Natural language Generation (NLG) using deep learning. If you are a computer science practitioner with basic knowledge about Machine learning. This is a gentle intuitive introduction to Language Generation using Neural Networks. It takes you in a journey from the basic intuitions behind modeling language and how to model probabilities of sequences to recurrent neural networks to large Transformers models that you have seen in the news like GPT2/GPT3. The tutorial wraps up with a summary on the ethical implications of training such large language models on uncurated text from the internet.
황은경(violet.blue) / kakao corp.(OSA)
---
오픈소스를 사용하면서 오픈소스 라이선스 의무사항을 지키고 있나요?
오픈소스를 준비하면서 (여러분의 프로젝트를 Github으로 오픈하기 위해) 어떤 오픈소스 라이선스로 배포해야 할지 알고 있나요?
오픈소스를 사용한다면 오픈소스 라이선스 의무사항을 준수하고,
오픈소스로 공개한다면 여러분의 코드를 보호하고 올바르게 사용되도록 하기 위해서 오픈소스 라이선스에 대한 이해가 필요합니다.
이 세션에서는 Apache, MIT, GPL 등의 오픈소스 라이선스 의무사항을 살펴보고, 오픈소스 분쟁사례를 통해 관련 리스크를 파악합니다. 더불어, 코드 공개 및 배포를 위한 오픈소스 라이선스의 양립성 및 주의사항을 확인하고, 카카오의 오픈소스 Guidance에 대해 소개합니다.
[NDC18] 야생의 땅 듀랑고의 데이터 엔지니어링 이야기: 로그 시스템 구축 경험 공유Hyojun Jeon
NDC18에서 발표하였습니다. 현재 보고 계신 슬라이드는 1부 입니다.(총 2부)
- 1부 링크: https://goo.gl/3v4DAa
- 2부 링크: https://goo.gl/wpoZpY
(SlideShare에 슬라이드 300장 제한으로 2부로 나누어 올렸습니다. 불편하시더라도 양해 부탁드립니다.)
발표 영상: https://www.youtube.com/watch?v=Se62pRpk9A0
PDF로 받아서 보시면 더 깨끗하게 보실 수 있습니다.
지난 6개월 간 Diffusion model로 MVP를 만들면서 했던 최적화에 대한 고민과 MLops 경험을 공유합니다. 어제 DEVIEW에서 발표한 내용을 좀 더 이해하기 쉽게 수정했고, Diffusion model에 익숙치 않은 분들을 위해 전반부에 간략한 소개와 발전 과정을 정리했습니다.
최근에 Generative AI로 멋진 제품을 만들고자 하는 분들이 많아진 것 같습니다. 모두가 같은 기술에 접근할 수 있는 상황인 만큼 어떻게 다른 가치를 세상에 설득할 것인가 고민을 더 하게 되네요.
저희가 해왔던 시행 착오가 누군가에겐 도움이 되길 바랍니다!
https://symbiote-ai.com/
우리는 지금 무엇을 하고있는지를 고민하나요? 아니면 무엇이 되어가고 있는지를 고민하나요? 네 맞습니다. 우리는 매년 무엇을 할지 고민합니다. 그런데 중요한것은 방향 즉 어디를 가고 있는지 입니다.
그래서 넷플릭스의 추천 시스템이 어디를 향해 가고 있는지를 살펴보고 추천시스템의 향해 가야할 Goal에 대하여 같이 이야기를 해보고자 합니다
데이터를 둘러싼 정책과, 기업과 기술의 진화는 빠르게 변화하고 있으며, 모든 지향점은 기업들이 다양한 데이터를 활용하여 경쟁력을 확보하고 이를 통해 AI기반의 혁신을 하고자 하는데 있다.
이 과정에서 수 많은 기업의 업무 전무가, 데이터 사이언티스트 등이 다양한 기업의 혁신을 지원할 수 있는 AI 모델을 검증하는 과정을 거치게 됩니다.
하지만, 이렇게 수 많은 AI 모델이 실제 비즈니스에 적용되기 위해서는 인프라, 및 서비스 관점의 기술이 반드시 필요하게 됩니다.
MLOps는 기업에 필요한 혁신적인 아이디어(AI Model)을 적시에 비즈니스 환경에 적용할 수 있도록 지원하는 기술 및 트렌드 입니다.
주요 내용은
- 데이터를 둘러싼 환경의 변화
- 기업의 AI Model 적용시 마주하는 현실
- MLOps가 해결 가능한 문제들
- MLOps의 영역별 주요 기술들
- MLOps 도입 시 기업의 AI 환경은 어떻게 변할까?
- AI 모델을 비즈니스 환경에 적용(배포)한다는 것은?
2021년 12월 코리아 데이터 비즈니스 트렌드(데이터산업진흥원 주최)에서 발표한 내용을 공유 가능한 부분만 정리함.
발표 영상 참고 : https://www.youtube.com/watch?v=lL-QtEzJ3WY
This document provides instructions for installing and using Embulk and Airflow. It explains how to install Embulk and common Embulk plugins, run Embulk tasks to load data from MySQL to BigQuery, and configure an Embulk config file to specify the input, output, and load options. It also explains how to install Airflow, initialize the metadata database, run the Airflow web server, list and test DAGs and tasks, and write a simple DAG with BashOperator tasks to print the date and sleep for demonstration purposes.
This document discusses techniques for music recommendation including matrix factorization, word2vec, and deep learning on audio data. It describes analyzing a dataset of 5 million songs classified by genre and segmented by attributes like popularity, loudness, and whether they are from the top 1000 songs. Models like matrix factorization and word2vec are used to generate song vectors and map songs in low dimensional space to power music recommendations.
This document discusses using BigQuery and Dataflow for ETL processes. It explains loading raw data from databases into BigQuery, transforming the data with Dataflow, and writing the results. It also mentions pricing of $5 per terabyte for BigQuery storage and notes that Dataflow provides virtual CPUs and RAM. Finally, it includes a link about performing ETL from relational databases to BigQuery.
Neural Language Generation Head to Toe Hady Elsahar
This is a gentle introduction to Natural language Generation (NLG) using deep learning. If you are a computer science practitioner with basic knowledge about Machine learning. This is a gentle intuitive introduction to Language Generation using Neural Networks. It takes you in a journey from the basic intuitions behind modeling language and how to model probabilities of sequences to recurrent neural networks to large Transformers models that you have seen in the news like GPT2/GPT3. The tutorial wraps up with a summary on the ethical implications of training such large language models on uncurated text from the internet.
황은경(violet.blue) / kakao corp.(OSA)
---
오픈소스를 사용하면서 오픈소스 라이선스 의무사항을 지키고 있나요?
오픈소스를 준비하면서 (여러분의 프로젝트를 Github으로 오픈하기 위해) 어떤 오픈소스 라이선스로 배포해야 할지 알고 있나요?
오픈소스를 사용한다면 오픈소스 라이선스 의무사항을 준수하고,
오픈소스로 공개한다면 여러분의 코드를 보호하고 올바르게 사용되도록 하기 위해서 오픈소스 라이선스에 대한 이해가 필요합니다.
이 세션에서는 Apache, MIT, GPL 등의 오픈소스 라이선스 의무사항을 살펴보고, 오픈소스 분쟁사례를 통해 관련 리스크를 파악합니다. 더불어, 코드 공개 및 배포를 위한 오픈소스 라이선스의 양립성 및 주의사항을 확인하고, 카카오의 오픈소스 Guidance에 대해 소개합니다.
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)Sangsu Song
[메일 주소 변경되었습니다.]
송상수 sssong@swedunet.org / https://www.facebook.com/gi.sik.in / swedunet.org
교육부에서 연구학교 교원 전체를 대상으로한
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing) 강의내용입니다.
언플러그드 컴퓨팅의 개론과 활동 사례가 제시되어 있습니다.
사내 스터디용으로 공부하며 만든 발표 자료입니다. 부족한 부분이 있을 수도 있으니 알려주시면 정정하도록 하겠습니다.
*슬라이드 6에 나오는 classical CNN architecture(뒤에도 계속 나옴)에서 ReLU - Pool - ReLu에서 뒤에 나오는 ReLU는 잘못된 표현입니다. ReLU - Pool에서 ReLU 계산을 또 하는 건 redundant 하기 때문입니다(Kyung Mo Kweon 피드백 감사합니다)
Similar to Chapter 15 Representation learning - 1 (20)
Photo wake up - 3d character animation from a single photoKyeongUkJang
The document describes the steps involved in animating a 3D character model from a single photo. It involves detecting the person in the photo using Faster R-CNN, estimating their 2D pose, segmenting the person from the background, fitting the SMPL body model to generate a rigged 3D mesh, correcting head pose and texturing the mesh to create a 3D animated character. The method aims to overcome limitations of prior work and produce more accurate 3D character animations from just a single image.
This document summarizes the t-SNE technique for visualizing high-dimensional data in two or three dimensions. It explains that t-SNE is an advanced version of Stochastic Neighbor Embedding (SNE) that can better preserve local and global data structures compared to linear dimensionality reduction methods. The document outlines how t-SNE converts Euclidean distances between data points in high-dimensions to conditional probabilities representing similarity. It also discusses the "crowding problem" that occurs when mapping high-dimensional data to low-dimensions, and how t-SNE addresses this issue.
21. 15.1 탐욕적 층별 비지도 사전훈련
3. fine tuning
Fixed 𝑊2Fixed 𝑊1
Forward propagation
𝑊3 랜덤 초기화
Input : 𝑋 label : Y
𝐿(𝑋, 𝑌)를 cost function으로 fully connected network 학습
Back propagation
22. 15.1 탐욕적 층별 비지도 사전훈련
Greedy layer-wise unsupervised pre-training
탐욕적 층별 비지도 사전훈련
Layer별로 weight를 학습, 다른 layer는 생각하지 않고 greedy하게 학습
23. 15.1 탐욕적 층별 비지도 사전훈련
그런데 비지도 사전훈련을 하면 무조건 좋아지는 건가?
ㄴㄴ. 좋아지기는 커녕 해가 되는 task들도 있음
그렇기 때문에 비지도 사전훈련을 할지 말지 결정하려면
언제, 왜 효과를 내는지를 알아야함!
24. 15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가
이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것
왜 효과가 있는가?
1. 비지도 사전훈련은 심층 신경망 매개변수들의 초기치를 잘 선택하면
모델에 현저한 정칙화 효과가 생길 수 있다.
2. 비지도 사전훈련은 입력 분포에 관한 학습이
입력에서 출력으로의 mapping에 관한 학습에 도움이 될 수 있다.
제대로 파악되지 않은 상태
1번보단 잘 파악된 상태이지만 수학적 이론적으로 파악 no
25. 15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가
이 논의의 대부분은 탐욕적 비지도 사전훈련에 국한 된 것
뇌피셜 : Pre-training을 통해서 manifold를 찾는다
팩트 : pre-training이 추정 과정의 분산을 줄여준다
>> 매개변수들을 어떤 특정 영역으로 초기화해줘서 훈련 결과를 일관되게 해준다.
26. 15.1.1 비지도 사전훈련은 언제, 왜 효과가 있는가
언제 효과가 있는가?
Pre-training을 더 깊은 신경망에 적용하면 test error의 평균과 분산이 가장 크게 줄었다.
하지만
위의 실험은 현대적인 기법들(ReLU, dropout, batch normalization 등)이 나오기 전에 행해진 것
현대적인 기법들에 대한 비지도 사전훈련의 효과는 파악이 덜된 상태
그리고 지금은 NLP쪽 제외하고는 거의 버려진 상태랍니다…
27. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
고양이를 인식하는 신경망 X-ray를 인식하는 신경망
여기서 얻은 지식을 여기에 써먹을 수 있다
기본 컨셉
28. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
신경망 학습
고양이 사진 10만개
X-ray 사진 100개
그대로 그대로
얘는 랜덤 초기화
29. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
X-ray 사진 100개
얘는 랜덤 초기화
X-ray 사진이 많은 경우 모든 layer를 다시 training
X-ray 사진이 적은 경우 마지막 layer만 training
Pre-training
30. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
X-ray 사진 100개
이렇게 layer를 늘려서 학습도 가능!
31. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
주식회사 빅리더에 취업을 하게 된 네 사람
전종식 대표님께서 출입문에 얼굴인식 시스템을 만들고 싶다고 업무를 내려주셨다.
32. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
우리의 교재에 따르면
‘label당 대략 5000개 정도의 학습 데이터가 있어야 허용 성능을 보인다.’
라고 하였다.
근데 모든 직원들에게 본인 사진을 5000개씩 제출하라고 할 수는 없는 상황…
이럴 때 one-shot learning을 사용한다
33. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
사람 얼굴
이미지
훈련데이터
전이하려고 하는 task와 비슷한 도메인의 데이터로
파라미터 훈련
최종 분류층
34. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
단발 학습(one-shot learning) : Labeled data를 하나만 사용
전이할 내 얼굴
파라미터 그대로 적용
출입구에 인식된 내 얼굴 두 벡터의 유사도를 계산해서 특정 임계값보다 크면 Ok. 작으면 no
분류보다는 구분에 가깝다
35. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
전이되는 하는 task의 데이터가 많고
전이하려고 하는 task의 데이터가 적을 때
잘 작동
즉, 고양이 사진이 많고 X-ray 사진이 적을 때
X-ray 사진 100개
고양이 사진 10만개
그럼 언제 전이학습이 잘 적용될까?
36. 15.2 전이 학습과 영역 적응(transfer learning and domain adaptation)
왜 잘 작동?
많은 양의 고양이 사진을 학습함으로써
Low level feature을 학습할 수 있음
Low level feature : 윤곽, 커브, 물체의 일부분