[아이폰 주간 인기 앱]
“Member (동창 주소록, 멤버, 친구 찾기)”가 지난주와 변동 없이 또 아이폰 무료 앱 부분에서 1위를 차지했습니다. “iCleaner - iPhone/iPad/iPod용 청소도구(개발사 Jinpyo Hong $0.99)”은 지난주에 이어iPhone 유료 앱 부문 1위를 차지했습니다.
[아이패드 앱 주간 인기 앱]
“골프스타 (개발사: Com2uS USA, Inc.)”가 새롭게 아이패드 무료 앱 부분에서 1위를 차지했으며, “iCleaner - iPhone/iPad/iPod용 청소도구(개발사 Jinpyo Hong $0.99)”도 다시 아이패드 유료 앱 부문 1위를 차지했습니다.
- [게임] 골프스타
- [교육] [극장판]뽀로로의 대모험
- [도서] 빨간책방
- [게임] 손톱화장 – 여자 게임
- [생산성] Tayasui Sketches
본 발표에 사용된 데이타는 모두 캘커타랭크에서 직접 구축한 글로벌 앱랭킹정보시스템입니다.
아이폰앱 아이패드앱으로 직접 원하는 앱의 국내외 정보를 확인 할 수 있습니다.
안드로이드앱 데이타는 별도 문의주세요.
매주 주간리포트를 발행합니다^^ 앱정보가 도움이 되면 좋겠습니다.
해외 마켓용 동향은 문의주세요^^
Contact us. calcutta@calcutta.co.kr
[아이폰 주간 인기 앱]
“Member (동창 주소록, 멤버, 친구 찾기)”가 지난주와 변동 없이 또 아이폰 무료 앱 부분에서 1위를 차지했습니다. “iCleaner - iPhone/iPad/iPod용 청소도구(개발사 Jinpyo Hong $0.99)”은 지난주에 이어iPhone 유료 앱 부문 1위를 차지했습니다.
[아이패드 앱 주간 인기 앱]
“골프스타 (개발사: Com2uS USA, Inc.)”가 새롭게 아이패드 무료 앱 부분에서 1위를 차지했으며, “iCleaner - iPhone/iPad/iPod용 청소도구(개발사 Jinpyo Hong $0.99)”도 다시 아이패드 유료 앱 부문 1위를 차지했습니다.
- [게임] 골프스타
- [교육] [극장판]뽀로로의 대모험
- [도서] 빨간책방
- [게임] 손톱화장 – 여자 게임
- [생산성] Tayasui Sketches
본 발표에 사용된 데이타는 모두 캘커타랭크에서 직접 구축한 글로벌 앱랭킹정보시스템입니다.
아이폰앱 아이패드앱으로 직접 원하는 앱의 국내외 정보를 확인 할 수 있습니다.
안드로이드앱 데이타는 별도 문의주세요.
매주 주간리포트를 발행합니다^^ 앱정보가 도움이 되면 좋겠습니다.
해외 마켓용 동향은 문의주세요^^
Contact us. calcutta@calcutta.co.kr
This is my power point presentation about South Korea for LIT 002 / World Literature.
Contents:
*geography
* brief history
* culture
* traditions
* literature
* landmarks
* economic
* others
An overview of South Korea. It's history and economy. Definitely useful for anyone wanting a quick understanding with some good leads to other sources. Written for a presentation for a position with a travel company.
trendwatching.com’s 10 CRUCIAL CONSUMER TRENDS FOR 2013TrendWatching
2013 will be the perfect storm of necessity and opportunity: some economies will do OK(-ish), others will be shaky, but in whatever market or industry you're in, those who understand & cater to changing consumer needs, desires and expectations will forever have plenty of opportunity to profit. A remapped global economy, new technologies (or 'old' technologies applied in new ways), new business models... hey, what's not to like?
Hence this overview of 10 crucial consumer trends (in random order) for you to run with in the next 12 months. Onwards and upwards:
How to Make Awesome SlideShares: Tips & TricksSlideShare
Turbocharge your online presence with SlideShare. We provide the best tips and tricks for succeeding on SlideShare. Get ideas for what to upload, tips for designing your deck and more.
안녕하세요 딥논읽 입니다 오늘 소개드릴 논문은 'LayoutLM'입니다 !
여러 회사에서 스캔 된 문서의 텍스트를 추출하여 이해하는 기술에 대한 수요가 증가하고 있습니다. 하지만 뒷받침할 모델들이 많이 학습이 되지 않고 있는 상황입니다
문제는 이제 Label된 Dataset이 극도로 부족한데 이런 문제를 해결하기 위해서
Unlabel Dataset을 활용을 해야 하지만 연구가 충분히 이루어지지 못하고 있습니다
기존의 모델들은 OCR같은 사전에 학습된 CV모델만을 활용하거나 반대로 NLP 모델만 활용을 하고 있고 이 두 개 모델을 같이 활용된 pre-training 모델이 존재하지 않습니다
그래서 이 논문에서는 컴퓨터 비전과 NLP 를 동시에 사용하는 pre-training 모델을 사용하는 LayoutLM에 대해 제안합니다!
오늘 논문 리뷰는 딥논읽 자연어 처리팀 박희수 님이 자세한 리뷰 도와주셨습니다.
오늘도 많은 관심 미리 감사드립니다!
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기Joeun Park
서울 코엑스에서 진행된 파이콘 한국 2018에서 8월 19일에 발표한 내용입니다.
데이터 전처리와 Feature Engineering에 대해 다룹니다.
[파이콘 한국 2018 프로그램 | 땀내를 줄이는 Data와 Feature 다루기](https://www.pycon.kr/2018/program/47)
이 발표내용은 8월 17일 금요일에 진행되었던 다음 2개의 튜토리얼을 바탕으로 작성되었습니다.
* [공공데이터로 파이썬 데이터 분석 입문하기(3시간) — 파이콘 한국 2018](https://www.pycon.kr/2018/program/tutorial/6)
* [청와대 국민청원 데이터로 파이썬 자연어처리 입문하기(3시간) — 파이콘 한국 2018](https://www.pycon.kr/2018/program/tutorial/7)
This is my power point presentation about South Korea for LIT 002 / World Literature.
Contents:
*geography
* brief history
* culture
* traditions
* literature
* landmarks
* economic
* others
An overview of South Korea. It's history and economy. Definitely useful for anyone wanting a quick understanding with some good leads to other sources. Written for a presentation for a position with a travel company.
trendwatching.com’s 10 CRUCIAL CONSUMER TRENDS FOR 2013TrendWatching
2013 will be the perfect storm of necessity and opportunity: some economies will do OK(-ish), others will be shaky, but in whatever market or industry you're in, those who understand & cater to changing consumer needs, desires and expectations will forever have plenty of opportunity to profit. A remapped global economy, new technologies (or 'old' technologies applied in new ways), new business models... hey, what's not to like?
Hence this overview of 10 crucial consumer trends (in random order) for you to run with in the next 12 months. Onwards and upwards:
How to Make Awesome SlideShares: Tips & TricksSlideShare
Turbocharge your online presence with SlideShare. We provide the best tips and tricks for succeeding on SlideShare. Get ideas for what to upload, tips for designing your deck and more.
안녕하세요 딥논읽 입니다 오늘 소개드릴 논문은 'LayoutLM'입니다 !
여러 회사에서 스캔 된 문서의 텍스트를 추출하여 이해하는 기술에 대한 수요가 증가하고 있습니다. 하지만 뒷받침할 모델들이 많이 학습이 되지 않고 있는 상황입니다
문제는 이제 Label된 Dataset이 극도로 부족한데 이런 문제를 해결하기 위해서
Unlabel Dataset을 활용을 해야 하지만 연구가 충분히 이루어지지 못하고 있습니다
기존의 모델들은 OCR같은 사전에 학습된 CV모델만을 활용하거나 반대로 NLP 모델만 활용을 하고 있고 이 두 개 모델을 같이 활용된 pre-training 모델이 존재하지 않습니다
그래서 이 논문에서는 컴퓨터 비전과 NLP 를 동시에 사용하는 pre-training 모델을 사용하는 LayoutLM에 대해 제안합니다!
오늘 논문 리뷰는 딥논읽 자연어 처리팀 박희수 님이 자세한 리뷰 도와주셨습니다.
오늘도 많은 관심 미리 감사드립니다!
[PyCon KR 2018] 땀내를 줄이는 Data와 Feature 다루기Joeun Park
서울 코엑스에서 진행된 파이콘 한국 2018에서 8월 19일에 발표한 내용입니다.
데이터 전처리와 Feature Engineering에 대해 다룹니다.
[파이콘 한국 2018 프로그램 | 땀내를 줄이는 Data와 Feature 다루기](https://www.pycon.kr/2018/program/47)
이 발표내용은 8월 17일 금요일에 진행되었던 다음 2개의 튜토리얼을 바탕으로 작성되었습니다.
* [공공데이터로 파이썬 데이터 분석 입문하기(3시간) — 파이콘 한국 2018](https://www.pycon.kr/2018/program/tutorial/6)
* [청와대 국민청원 데이터로 파이썬 자연어처리 입문하기(3시간) — 파이콘 한국 2018](https://www.pycon.kr/2018/program/tutorial/7)
[2021 Google I/O] LaMDA : Language Models for DialogApplicationstaeseon ryu
오늘 소개드릴 논문은 단어의 시퀀스의 확률을 할당하는
Large scale LM 모델 방법과 직접 레이블링한 데이터로
파인튜닝한 트랜스포머 계열의 대화테스크를 위한
언어 모델이라고 이해해주시면 될 것 같습니다
그래서 Google CEO가 직접 2021년에 발표를 했고
영상에서는 LaMDA가 이렇게 행성으로
이제 페르소나를 가지고 서로 대화하는 모습을 Google I/O 에서 보여주셨습니다
오늘 소개드릴 논문은 단어의 시퀀스의 확률을 할당하는
Large scale LM 모델 방법과 직접 레이블링한 데이터로
파인튜닝한 트랜스포머 계열의 대화테스크를 위한
언어 모델이라고 이해해주시면 될 것 같습니다
그래서 Google CEO가 직접 2021년에 발표를 했고
영상에서는 LaMDA가 이렇게 행성으로
이제 페르소나를 가지고 서로 대화하는 모습을 Google I/O 에서 보여주셨습니다
4. 탐색적 자료분석
(EDA, Exploratory Data Analysis) :
- 데이터를 탐색하는 과정.
- 일반적으로 구조와 요소들을 살펴봄.
- 이걸 어떻게..?
Exploratory Data Analysis
5. Data visualization
- 데이터를 시각적으로 표현.
- EDA에서 가장 중요한 도구(Tool)
- 왜?!
데이터 시각화(Data visualization)
1. 시각화된 정보는 빨리 흡수됨. (Bar chart, Line chart, …)
2. 패턴을 쉽게 인식할 수 있음. (Heatmap, Wordcloud)
10. Check list for EDA
1. Formulate your question
2. Read in your data
3. Check the packaging
4. Look at the top and the bottom of your data
5. Check your “n”s
6. Validate with at least one external data source
7. Make a plot
8. Try the easy solution first
9. Follow up
11. 1. Formulate your question
- 질문을 고안(Formulate)해내는것은 EDA에서 효과적.
- Sharp한 질문이나 가설일수록 변수가 적게 필요. (차원 축소의 효과)
- ‘동부와 서부는 어떻게 다를까?’ 보다는 ‘뉴욕과 LA는 어떻게 다를
까?’가 좀더 샤프한 질문.
- 이 때 고려해야할것:
“내가 가지고 있는 데이터가 이 질문에 대한 답을 찾기 위한 옳은 데이
터일까?”
12. 2. Read in your data
1. 실습 데이터 : 미국 EPA의 시간당 오존 측정량 (2014년)
[http://aqsdr1.epa.gov/aqsweb/aqstmp/airdata/download_files.html]
2. R로 데이터 불러오기
- readr 패키지 : Hadley Wichham이 만든 패키지로 기본 Built-in 함수보다 빠
르게 데이터를 불러올수 있음.
- col_types 속성 : 데이터셋의 각 컬럼의 클래스 지정.
(c : character / i: integer / n: numeric)
13. 2. Read in your data
1. 컬럼명 공백없도록 보정.
Ex) “speed of car” -> “speed.of.car”
14. 3. Check the Packaging
당신에게 아직 열지 못하게 하는 선물이 있다면?
- 박스를 흔들어봄.
- 두드려봄.
- 무게를 재봄.
실제로 데이터 분석을 시작하기 전에 데이터에 접근할 때에도 마찬가지!
16. 3. Check the Packaging
3. 전체적인 구조(structure)를 봄.
- row/col 정보를 포함하고 있음.
- Read_csv()에서 지정한 class대로
col이 제대로 불러와졌는지 확인!
- 가끔 쉽게 잠재적인 문제를 확인할 수
있음.
17. 4. Look at the Top and the Bottom of your Data
- 데이터의 시작과 끝을 봄.
- 데이터가 적절한 포맷인지, 제대로 읽혔는지 확인하는 과정.
- 특히, 데이터의 끝에 코멘트를 달아놓는 경우도 있기 때문에
tail()은 유용.
18. 5. ABC: Always be Checking Your “n”s
- 일반적으로 카운팅은 잘못된 것을 알아차리는 좋은 방법.
- 이를 적절하게 하기 위하여 데이터를 체크하는데 사용되는 몇가지 landmark
를 확인해야함.
- 실습 데이터셋에서 landmark는 “시간당(hourly)”와 “전체 카운티(entire
county)”.
- 문제점 : 대부분은 정시에 측정되었지만, 약간 아닌 것들이 있음. -> 체크해봐야함!
19. 5. ABC: Always be Checking Your “n”s
- 시간이 “13:14”일때 측정된 데이터를 확인해봄.
- 두개다 Franklin에서 9월30일에 측정. -> 그 때의 다른 데이터들은 어떨까?
20. 5. ABC: Always be Checking Your “n”s
- 뉴욕 프랭클린의 9월30일에 측정된 데이터 확인.
- 시간 데이터가 이상하게 되어있음.
- 여기에서만 그렇기 때문에 크게 걱
정안해도 됨.
21. 5. ABC: Always be Checking Your “n”s
- 주(state)가 얼마나 있는지 탐색.
- 52개.. 하지만 미국은 주가 50개 있음! -> 잘못된 부분 찾아야함.
이러한 문제를 해결하고 입증
하기 위해 외부의 데이터가
필요하기도 함!
22. 6. Validate with at least One External Data Source
- External validation을 할 경우, 데이터셋의 문제점을 찾을 수도 있음.
- 오존의 경우, 8시간 평균 측정치가 0.075ppm을 많이 초과하면 안된다는 기
준이 있음.
- 최대값이 349로 굉장히 높지만, 대부분이 기준인 0.075 이하.
23. 6. Validate with at least One External Data Source
- 해석:
- 데이터가 옳은 규모이고, 단위도 맞다.
- 분포의 범위가 대충 예상한 대로임.
- 몇몇 측정치(10%이내)는 기준을 초과하지만 괜찮다..?
(Some hourly levels (less than 10%) are above 0.075 but this may be
reasonable given the wording of the standard and the averaging involved. )
24. 7. Make a Plot
- 데이터를 시각화할 플롯을 만드는 것은 질문과 데이터를 더 깊이 이해하는데
있어서 좋은 방법.
- 플롯의 두가지 주요인:
- 1. 기대 만들기. (creating expectations)
- 2. 기대를 벗어나는 것 체크.
- 데이터에 대해 이해도가 높다면(좋은 질문과 가설 수립), 플롯을 만드는 것은
효율적인 도구로써 사용할 수 있음.
25. 7. Make a Plot
- 대부분의 데이터는 0.05ppm아
래에서 아주 좁게 분포.
- 푸에르토 리코는 아주 낮지만, 가
끔 극단적으로 높은 값이 있음.
- 조지아와 하와이는 때때로 높음.
26. 8. Try the Easy Solution First
- 가장 처음 질문을 상기해보면,,
“미국 동부의 카운티가 서부의 카운티보다 오존 레벨이 높을까?”
- 정확한 답변을 찾기보다는 가설이나 질문에 대한 prima facie evidence를
찾는것이 중요!
- 미국의 동부, 서부를 나눠야함. -> longitude 데이터를 이용.
27. 8. Try the Easy Solution First
- 데이터셋에 경도 -100을 기준으로 west/east로 나누는 region 열 추가.
- west/east 별로 간단한 오존 요약통계량 경향 확인.
- West가 중앙값,평균값 둘다 조금 더 높음.
-> 분포는 어떨까?
29. 9. Follow-up Questions
- EDA는 다음 질문들을 검토하는데 효과적.
1. 정확한 데이터를 가지고 있는가? (잘못된 데이터가 없나?)
2. 다른 데이터가 필요한가? (다른 년도 등..)
3. 정확한 질문을 가졌는가? (동서로 나누어 생각하는게 맞나? 등..)
The goal of exploratory data analysis is to get you thinking about
your data and reasoning about your question. At this point, we can
refine our question or collect new data, all in an iterative process to
get at the truth.