Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
Variational Autoencoder를 여러 가지 각도에서 이해하기 (Understanding Variational Autoencod...Haezoom Inc.
인공신경망을 이용한 generative model로서 많은 관심을 받고 있는 Variational Autoencoder (VAE)를 보다 잘 이해하기 위해서, 여러 가지 재미있는 관점에서 바라봅니다. VAE 및 머신러닝 일반에 지식을 가지고 있는 청중을 대상으로 진행된 세미나 자료입니다. 현장에서 구두로 설명된 부분은 슬라이드의 회색 박스에 보충설명을 적어두었습니다.
Language support and linguistics in lucene solr & its eco systemlucenerevolution
Presented by Christian Moen, Software Engineer, Atilika Inc.
In search, language handling is often key to getting a good search experience. This talk gives an overview of language handling and linguistics functionality in Lucene/Solr and best-practices for using them to handle Western, Asian and multi-language deployments. Pointers and references within the open source and commercial eco-systems for more advanced linguistics and their applications are also discussed.
The presentation is mix of overview and hands-on best-practices the audience can benefit immediately from in their Lucene/Solr deployments. The eco-system part is meant to inspire how more advanced functionality can be developed by means of the available open source technologies within the Apache eco-system (predominantly) while also highlighting some of the commercial options available.
How to write multi-language documentation? What tools can you use? What mistakes should you avoid?
This talk is based on the experiences I gathered while working on several multi-language documentation projects using Sphinx. I will talk about how Sphinx internationalization support works, which tools and services I use and how to organize the translation workflow. Finally I will have a look at what the future of internationalization in Sphinx might bring.
De text a deep text ranking framework with berttaeseon ryu
링크드인에서 발표한 논문으로, 제목에서 유추하실수 있듯, 검색 시스템에서 일하시고, 연구하시는 분들이 참고하시면 좋을 논문입니다!
BERT는 분명 NLP에서 뛰어난 성과를 보이고 있지만, 하루에 수천만번 검색이 이루어지는 대형 포털 사이트에서는 검색시스템에 직접적용하기에는 매우 큰 부담입니다. 그렇기에 링크드인에서 직접 다양한 사례를 연구해보며, BERT를 기반으로 모델을 구축하는 Ranking 시스템 프레임 워크 DeTEXT를 소개하며, 오프라인 및 온라인 실험에서도 많은 성능 개선을 이루어 냈습니다!
Amazon SageMaker와 Athena를 활용한 대용량 자연어 처리 및 머신러닝 기법 (김필호, AWS AI Specialist 솔루...Amazon Web Services Korea
Amazon SageMaker와 Athena를 활용한 대용량 자연어 처리 및 머신러닝 기법
머신러닝에 활용하고자 하는 빅데이터가 있을 때 실무에서 활용할 수 있는 S3와 Athena를 이용한 데이터 분류 및 전처리 기법과 SageMaker가 제공하는 다양한 1st-party 알고리즘들을 활용하여 데이터에 대한 통찰 및 가치를 창출하는 예를 소개합니다. 실제 적용 데모에서는 Amazon이 공개적으로 제공하는 1억 3천만건 이상의 상품 리뷰 데이터 셋에 대해 SageMaker의Notebook 상에서 AWS SDK를 이용한 Athena 서비스 연결 방법, 자연어 처리 및 머신 러닝 적용 방법 등을 살펴 봅니다.
The Data tech for AI based innovation(기업의 AI기반 혁신을 지원하는 데이터 기술)SANG WON PARK
2020년 데이터산업진흥원에서 발표한 자료를 일부 편집하여 공유함.
2020년 당시에 Data Platform에서 AI lifecycle를 효율적으로 지원하는 platform을 적극적으로 검토 및 설계하는 작업을 진행하였고, 이 때 검토 및 활용했던 기술들을 기업 관점에서 필요한 내용을 기준으로 정리하였다.
기업들은 전통적인 방식으로의 혁신에 한계를 체감하고 있으며, 최근 AI기반으로 성공적인 혁신(비즈니스 강화, 새로운 비즈니스로 전환 등)에 성공한 기업들을 빠르게 벤치마크 하고 있다.
이렇게 AI 기반으로 기업을 혁신하는 것은 고도화된 AI 모델의 도입으로 해결되지 않으며, 수많은 기술들의 최적화된 조합 및 활용이 필요하다.
이 자료에서는 그 중 AI모델에 핵심적인 데이터를 적시에, 고품질의 형태로, 빠르고 안정적으로 제공할 수 기술 트렌드를 소개한다.
전체 내용은
- AI기반 혁신이란?
- 혁신을 위해서는 어떤 점이 어려운가?
- 고품질 데이터 확보 기술
- 빠르게 AI 모델을 학습하는 기술
- 적시에 다양한 AI 모델을 비즈니스에 적용하는 기술
2020년 기준으로 작성된 자료라, 일부 기술 트렌드가 반영되지 않을 수 있으나 아직까지 많은 기업들이 고민하고 해결하고자 하는 영역이라 참고할 수 있을 것 같다.
이 내용을 기준으로 발표한 영상 링크 : https://www.youtube.com/watch?v=OVm4-uk59ZA
Suggested platform provides a contactless microservices / cloud native application design learning and development using online tools including Cloud-ide and Event-storming tool, kafka, Spring-boot and kubernetes without any installation
– Elastic stack과 Data pipeline의 개념
– 데이터의 종류와 형태 / Document 데이터 모델링 (mapping, data type)
– 분산 데이터 저장소 관점에서의 Elasticsearch (index, shard & replica, segment)
https://learningspoons.com/course/detail/elastic-stack/
2021년 12월 3일 개최된 (국립전파연구원 주최) ISO/IEC JTC1 표준 전문가 세미나 발표자료.
디지털 전환과 에듀테크의 성장을 촉진하기 위해 표준화를 고려해야 할 부분도 적지 않다. 먼저 에듀테크 국제 표준화가 지난 20년간 어떤 큰 흐름으로 전개되어 왔는지, 지금은 어떤 방향성을 가지고 표준화가 추진되고 있는지를 설명한다. 에듀테크 분야도 공적 표준(de-jure) 영역과 사실상 표준(de-facto) 영역이 존재하는데, 공적 표준화 기구로는 JTC1 산하의 SC36(Information Technology for Learning, Education, and Training)이 있고, 사실상 표준화 기구 중에는 IMS Global Learning Consortium과 IEEE 산하의 LTSC가 있다.
요즘 많은 관심과 빠른 성장을 거듭하고 있는 학습 분석 관련 표준화 동향과 특히 학습분석이 인공지능 기술과의 융합을 통해 어떤 사례들이 시도되고 있는지를 설명한다. 그 밖에 메타데이터 표준, e포트폴리오 표준, 접근성 표준들의 특성도 짧게 설명한다.
■ 일시 및 장소
2023년 6월 22일 목요일 19:00 ~
■ 아젠다
트위터의 추천 시스템 파헤치기
2023년 4월 5일 오픈소스로 공개된 트위터의 추천 시스템에 대해서 살펴봅니다.
트위터의 개인화/랭킹 후보군을 만들어내는 추천 알고리즘부터, 이를 지탱하는 파이프라인까지 모두 소개합니다.
■ 발표자
카카오스타일 데이터사이언티스트 이명휘
AWS 비용, 어떻게 사용하고 계신가요? - 최적화 된 AWS 비용 구조 만들기 – 곽내인 :: AWS Builders Online SeriesAmazon Web Services Korea
* 발표 동영상: https://youtu.be/HIyfpXmRpUQ
기존 온프레미스 서버 환경에 비해 저렴한 클라우드 비용은 많은 분들께서 클라우드를 사용하시는 가장 큰 이유이며, 동시에 풀리지 않는 가장 어려운 과제이기도 합니다. 본 웨비나를 통해 쉽게 실천해볼 수 있는 AWS 비용 최적화 방안을 안내 드리겠습니다.
2. 목차
• 용어 설명
• 서비스 예시
• 시스템 구조
• 이론 배경
• 주요 난제
• 프로젝트 추구 방향
• 적용 현황
• Q&A
3. Context(문맥이란?)
Context(circumstances)
•유비쿼터스 컴퓨팅과 관련하여 사용자와 다른 사용자, 시스템, 혹은 디바이스의 애
.
플리케이션 간 상호 작용에 영향을 미치는 사람, 장소, 사물, 개체, 시간 등 상황
(situation)의 특징을 규정하는 정보
Context(surrounding words)
• 누군가에 의해 저작된 텍스트 (단어군집, 문장, 문단, 문서) 단위의 정보
• 문맥, 맥락, 행간, 문장의 젂후관계
4. Data Mining이란?
predictive tasks : classification
descriptive tasks : clustering
Artificial Intelligence
Statistics Data Mining Machine Learning
Pattern Recognition
Database Technology, Parallel Computing, Distributed Computing
출처:Introduction to Data Mining
(PANG-NING TAN etc.)
5. 문맥 인식(Context Awareness) 시스템
관렦
학습 대상 문맥 인식 문서
문서 Learner 시스템
학습
태그
그
Query 문맥 인식
문서 추론 Matcher 시스템 카테고리
중복 문서
• Machine Learning 과 통계적 기법을 이용
• Query문서의 문맥(Context)를 분석해 연관성(relevance)이 높은 컨텐츠,
태그를 추천하는 시스템
7. 시스템 Flow
Learner Matcher
학습 대상 Query 문서
문서
Feature Service Server
Preprocessing Extraction ServiceServer
Service Server
WEB API/XML
Feature
Extraction Matching
Learning
관렦문서
태그
Learned Data
9. 학습 덤프 저장 및 검색 - 역색인 (inverted index)
Inverted Index
term document
Deview 1 30
학습 Term
문서 Extraction
개발자 1 15 30
화이팅 15
10. 주요 난제
품질 처리속도
• 학습 결과에 따라 품질 • 실제 서비스 적용하기
차이가 발생 위해서는 처리 속도가
(Garbage in , Garbage out) 중요
• 자연어 처리 기술의 Trade Off • 빠른 시간 내에 많은
핚계 문서 처리 필요
• 서비스 별로 품질
튜닝 포인트가 다름
11. 프로젝트의 추구방향
Text Mining Development
속도를 고려핚 Main Memory
학습 문서 정제, 선별 기반의 자료구조
단어 정제 다양핚 알고리즘을 적용하기
서비스 고려핚 품질 튜닝 위핚 설계 (디자인 패턴)
관렦 자연어처리 기술 확보 다양핚 적용 서비스 위핚 유연핚
구조(공통 프레임웍 사용)
12. 적용 서비스
서비스 기능
관련글 추천
관련동영상 추천
관련글 추천
태그 추천
관련글 추천
관련글 추천
13. 적용현황 – 판 관렦 동영상 추천
원본 동영상의 제목과
본문 내용을 이용하여,
동일 프로그램의 다른
회차 방송을 추천