Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
EN
Uploaded by
Yuichi Inagaki
PPTX, PDF
24 views
Kearch: distributed search engine
https://github.com/kearch/kearch
Technology
◦
Related topics:
SEO and Search Engines
•
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 35
2
/ 35
3
/ 35
4
/ 35
5
/ 35
6
/ 35
7
/ 35
8
/ 35
9
/ 35
10
/ 35
11
/ 35
12
/ 35
13
/ 35
14
/ 35
15
/ 35
16
/ 35
17
/ 35
18
/ 35
19
/ 35
20
/ 35
21
/ 35
22
/ 35
23
/ 35
24
/ 35
25
/ 35
26
/ 35
27
/ 35
28
/ 35
29
/ 35
30
/ 35
31
/ 35
32
/ 35
33
/ 35
34
/ 35
35
/ 35
More Related Content
PDF
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
by
OECD Directorate for Financial and Enterprise Affairs
PDF
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
by
SocialHRCamp
PDF
Storytelling For The Web: Integrate Storytelling in your Design Process
by
Chiara Aliotta
PDF
2024 State of Marketing Report – by Hubspot
by
Marius Sescu
PDF
2024 Trend Updates: What Really Works In SEO & Content Marketing
by
Search Engine Journal
PDF
Everything You Need To Know About ChatGPT
by
Expeed Software
PDF
青木和人,「市民参加型の地域情報オープンデータ作成活動」,越境地域政策研究フォーラム シンポジウム「地方創生に向けた地域情報の活用とは」
by
和人 青木
PDF
20180210 aichiunivekyoforumaoki
by
和人 青木
Artificial Intelligence, Data and Competition – SCHREPEL – June 2024 OECD dis...
by
OECD Directorate for Financial and Enterprise Affairs
How to Leverage AI to Boost Employee Wellness - Lydia Di Francesco - SocialHR...
by
SocialHRCamp
Storytelling For The Web: Integrate Storytelling in your Design Process
by
Chiara Aliotta
2024 State of Marketing Report – by Hubspot
by
Marius Sescu
2024 Trend Updates: What Really Works In SEO & Content Marketing
by
Search Engine Journal
Everything You Need To Know About ChatGPT
by
Expeed Software
青木和人,「市民参加型の地域情報オープンデータ作成活動」,越境地域政策研究フォーラム シンポジウム「地方創生に向けた地域情報の活用とは」
by
和人 青木
20180210 aichiunivekyoforumaoki
by
和人 青木
Featured
PDF
Product Design Trends in 2024 | Teenage Engineerings
by
Pixeldarts
PDF
How Race, Age and Gender Shape Attitudes Towards Mental Health
by
ThinkNow
PDF
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
by
marketingartwork
PDF
Skeleton Culture Code
by
Skeleton Technologies
PDF
PEPSICO Presentation to CAGNY Conference Feb 2024
by
Neil Kimberley
PDF
Content Methodology: A Best Practices Report (Webinar)
by
contently
PPTX
How to Prepare For a Successful Job Search for 2024
by
Albert Qian
PDF
Social Media Marketing Trends 2024 // The Global Indie Insights
by
Kurio // The Social Media Age(ncy)
PDF
Trends In Paid Search: Navigating The Digital Landscape In 2024
by
Search Engine Journal
PDF
5 Public speaking tips from TED - Visualized summary
by
SpeakerHub
PDF
ChatGPT and the Future of Work - Clark Boyd
by
Clark Boyd
PDF
Getting into the tech field. what next
by
Tessa Mero
PDF
Google's Just Not That Into You: Understanding Core Updates & Search Intent
by
Lily Ray
PDF
How to have difficult conversations
by
Rajiv Jayarajah, MAppComm, ACC
PDF
Introduction to Data Science
by
Christy Abraham Joy
PDF
Time Management & Productivity - Best Practices
by
Vit Horky
PDF
The six step guide to practical project management
by
MindGenius
PDF
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
by
RachelPearson36
PDF
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
by
Applitools
PDF
12 Ways to Increase Your Influence at Work
by
GetSmarter
Product Design Trends in 2024 | Teenage Engineerings
by
Pixeldarts
How Race, Age and Gender Shape Attitudes Towards Mental Health
by
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
by
marketingartwork
Skeleton Culture Code
by
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
by
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
by
contently
How to Prepare For a Successful Job Search for 2024
by
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
by
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
by
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
by
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
by
Clark Boyd
Getting into the tech field. what next
by
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
by
Lily Ray
How to have difficult conversations
by
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
by
Christy Abraham Joy
Time Management & Productivity - Best Practices
by
Vit Horky
The six step guide to practical project management
by
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
by
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
by
Applitools
12 Ways to Increase Your Influence at Work
by
GetSmarter
Kearch: distributed search engine
1.
/ 34 分野限定型検索エンジンを 複数組み合わせた分散型検索エンジン 河田旺 稲垣悠一 https://kearch.info
2.
/ 34 河田 旺 @a_kawashiro 全体設計 自然言語処理 稲垣
悠一 @gky360 kubernetes関係 フロントエンド 2
3.
/ 343
4.
/ 34 やっぱり検索エンジンは重要 日常生活における調べ物の約70%が検索エンジン経由 ※総務省「社会課題解決のための新たなICTサービス・技術への人々の意識に関する調査研究」(平成27年) 4 検索エンジンの現状
5.
/ 34 世の中の検索エンジンへの不満 • 検索エンジンの不透明性 o
民間企業による非公開のアルゴリズム o 国家権力による検閲の可能性※1 ※1 China: World Leader of Internet Censorship, https://www.hrw.org/news/2011/06/03/china-world-leader-internet-censorship, (2019/02/11) ※2 Search Engine Market Share, https://www.netmarketshare.com/search-engine-market-share, (2019/02/11) • 一部の企業しか公開できない o Google, Baidu, Microsoftをあわせた世界シェアは94%※2 o 莫大なリソースが必要 5
6.
/ 34 プロジェクトの目的 自由な検索エンジンを作る • 省リソースで誰でもデプロイ可能 •
ランキングアルゴリズムが公開 • 検閲が困難 6
7.
/ 34 イントロ 検索エンジンプラットフォーム kearch デプロイの流れ デモ 技術詳細 7
8.
/ 348 https://github.com/kearch/kearch https://kearch.info
9.
/ 34 a. 分野を限定した検索エンジンを b.
複数つなぎ合わせる ことで、 ボトムアップに検索エンジンを 実現する kearch: 自由な検索エンジンプラットフォーム 9
10.
/ 34 専門検索エンジン • Focused
crawling ※ • 分野を限定してクローリング • 分野を限定することによる リソースの節約、精度の向上 • 分野の定義方法 ▪ URLリスト ▪ 単語 ※ Chakrabarti, Soumen, Martin Van den Berg, and Byron Dom. "Focused crawling: a new approach to topic-specific Web resource discovery." Computer networks 31.11-16 (1999): 1623-1640. 10
11.
/ 34 メタ検索エンジン • Federated
search ※ • 専門検索エンジンを複数つなぎ合わせる • 複数分野の接続による広い分野のカバー • ユーザーからのクエリを最適な 専門検索エンジンに分配 11※ "Distributed information retrieval." Advances in information retrieval. Springer, 2002. 127-150.
12.
/ 34 kearchの特長 • コマンド一つでデプロイ可能 ○
ansible-playbookだけでデプロイできる • 検索エンジンを構成する各サーバは省リソース ○ CPU: 4core/メモリ: 8GB/ストレージ: 100GB • オープンソースでアルゴリズムが公開 ○ GitHub上で公開 12
13.
/ 34 イントロ 検索エンジンプラットフォーム kearch デプロイの流れ デモ 技術詳細 13
14.
/ 34 デプロイの流れ 1. 専門検索エンジンのデプロイ 2.
専門分野設定 3. クロール開始 4. メタ検索エンジンのデプロイ 5. メタ ←→ 専門の接続 6. 検索 14
15.
/ 34 1. 専門検索エンジンのデプロイ $
git clone https://github.com/kearch/kearch.git $ cd kearch $ ansible-playbook sp-playbook.yml -i <HOSTNAME>, -u <USERNAME> --ask-become-pass -vvv 15 kubernetesクラスタの構築 コンテナビルド クラスタへのデプロイ
16.
/ 34 2. 専門分野設定 16 専門検索エンジン 管理画面
17.
/ 34 3. クロール開始 17 専門検索エンジン 管理画面
18.
/ 34 4. メタ検索エンジンのデプロイ $
git clone https://github.com/kearch/kearch.git $ cd kearch $ ansible-playbook me-playbook.yml -i <HOSTNAME>, -u <USERNAME> --ask-become-pass -vvv 18 kubernetesクラスタの構築 コンテナビルド クラスタへのデプロイ
19.
/ 34 メタ ↔
専門の接続モード 19 メタ → 専門 に接続要求 メタ ← 専門 に接続要求 相手が public 相手が protected リクエスト 承認 protected protected public public リクエスト リクエスト 承認 リクエスト
20.
/ 34 5. メタ↔
専門の接続 20
21.
/ 34 6. 検索 21 検索結果を返した 専門検索エンジン メタ検索エンジン 検索画面
22.
/ 34 おまけ: 既存検索エンジンとの接続 22
23.
/ 34 イントロ 検索エンジンプラットフォーム kearch デプロイの流れ デモ 技術詳細 23
24.
/ 34 イントロ 検索エンジンプラットフォーム kearch デプロイの流れ デモ 技術詳細 24
25.
/ 34 全体構成 25 on
26.
/ 34 専門検索エンジンの動作: 分野の学習 分野をBag
of Words (BoW)表現に変換し、 ナイーブベイズ分類器を学習 26 URLリストから学習単語頻度から学習
27.
/ 34 専門検索エンジンの動作: 文書のクロール 分野外の文書からはリンクを辿らないようにクロール 27
28.
/ 34 メタ検索エンジンの動作: サマリ収集 専門検索エンジンがクロールした文書の単語出現頻度を 分野のサマリとして収集 28
29.
/ 34 メタ検索エンジンの動作: クエリ分類器の学習 各分野のサマリをBoW表現に変換し、 ナイーブベイズ分類器を学習 29
30.
/ 34 メタ検索エンジンの動作: クエリの分類 クエリをBoW表現に変換し、 各分野に分類される確率を計算 30
31.
/ 34 メタ検索エンジンの動作: 検索 上位3分野の専門検索エンジンでの検索結果を 統合して返す 31
32.
/ 34 a. 分野を限定した検索エンジンを b.
複数つなぎ合わせて 自由な検索エンジンを 作った まとめ 32
33.
/ 34 謝辞 • さくらインターネット
様 o さくらのクラウド • 石田一帆 様 o ロゴデザイン • Adam Jatowt 先生 o 技術的なアドバイス • コメント・フィードバックをくださった皆さま 33
34.
/ 3434 https://github.com/kearch/kearch https://kearch.info
35.
/ 3435
Download