SlideShare a Scribd company logo
1 of 14
Download to read offline
YANS2022 ハッカソン
説明スライド
ハッカソンスポンサー
アマゾン ウェブ サービス ジャパン合同会社様
1
ハッカソン運営委員
YANS2022ハッカソン
人見 雄太
(Insight Edge)
高山 隼矢
(ヤフー)
山田 康輔
(名大 武田笹野研 D2)
• 特定の評価指標を用いたコンペティション
- スコアの高かったチームに表彰 🎉
- システムの実装と発表内容に基づきスポンサーからの表彰 🎉
• ハッカソンテーマ
- 商品レビューの役に立つ投票数ランキングタスク
§ 有用なレビュー予測に貢献
2
ハッカソン概要
YANS2022ハッカソン
• 商品ごとで、レビューの役に立つ投票数が多い順にランキング
3
商品レビューの役に立つ投票数ランキングタスク
YANS2022ハッカソン
商品1
レビュー 1
役に立つ投票数
10
レビュー 3
レビュー 2
8
3
商品2
レビュー 6
レビュー 4
レビュー 5
20
3
0
…
…
…
…
• 商品レビューの例
- product_idx: 商品インデックス
- review_idx: レビューインデックス
- helpful_votes: 役に立つ投票数
4
商品レビュー
YANS2022ハッカソン
• NDCG@5 (k=5のNormalized Discounted Cumulative Gain)
5
評価指標 (NDCG@5)
YANS2022ハッカソン
予測スコアに基づくランキング 実際の役に立つ数 予測スコア
1 20 11.1
2 10 10.2
3 30 9.3
4 3 6.5
5 1 4.1
6 8 2.0
𝐷𝐶𝐺@𝑁 = 𝑟! + )
"#$
%&!
𝑟"
log$ 𝑖
𝑁𝐷𝐶𝐺@𝑁 =
𝐷𝐶𝐺@𝑁
𝐷𝐶𝐺@𝑁'()(*+
𝐷𝐶𝐺@5 = 20 +
10
log$ 2
+
30
log$ 3
+
3
log$ 4
+
1
log$ 5
𝑁𝐷𝐶𝐺@5 =
𝐷𝐶𝐺@5
𝐷𝐶𝐺@5'()(*+
=
50.86
61.60
= 0.83
𝐷𝐶𝐺@5'()(*+ = 30 +
20
log$ 2
+
10
log$ 3
+
8
log$ 4
+
3
log$ 5
• Amazon Customer Review Dataset
- 10件以上レビューのある商品のレビューを利用
• 学習セットとリーダーボードセットはガイダンス (8/16火) で配布
- リーダーボードセットでは、対象データと役に立つ数は非公開
- リーダーボードセットにおけるスコアのランキングを掲載
• 最終評価セットは 8/26 (金) に配布予定
- 最終評価セットでの推定結果を提出してもらい、順位を決定
6
データセット
YANS2022ハッカソン
商品数 レビュー数
商品ごとの
平均レビュー数
学習セット 5323 148247 27.8
リーダーボードセット 500 14597 29.2
最終評価セット 500 12314 24.6
• 役に立つ投票数の回帰予測モデル
- 日本語東北大BERTをファインチューニング
- 入力をレビュー本文、正解ラベルを対数変換された役に立つ投票数
- 予測された役に立つ投票数を基にランキング
• 提出フォーマットはgithubリポジトリ内で説明
7
ベースラインシステム、提出フォーマット
YANS2022ハッカソン
https://github.com/Kosuke-Yamada/yans2022-hackathon-baseline
1. 配布データをダウンロード
2. 学習セットを利用して、ランキングシステムを開発
3. リーダーボードに、リーダーボードセットの全てのレ
ビューに対する出力結果を提出してスコアを確認
4. 最終評価セットの全てのレビューに対する出力結果を提出
5. ソースコードと、開発したシステムの概要や評価結果の分
析結果をスライドにまとめて提出
6. シンポジウムにて作成したスライドを基に発表
- 1チームあたり3分程度
8
ハッカソン手順まとめ
YANS2022ハッカソン
• 最終評価セットにてスコアの高かったチームに表彰
• システムの実装と発表内容に基づきスポンサーからの表彰
- アマゾンウェブサービスジャパン合同会社様「Applied Scientist賞」
§ アプローチの新規性: 既存の手法を拡張、応用することで新規・創造性の
ある手法で解決しているか
§ 実装の実現性: 現実の問題に適用可能な効率的かつスケールする実装を行
えているか
§ 背景知識の豊富さ: 先進的な原理と手法を理解し利用できているか
9
表彰について
YANS2022ハッカソン
• Amazon SageMaker Studio Lab (https://studiolab.sagemaker.aws/)
- リファラルコードの発行およびチュートリアルを実施
- 原則,この環境で動く範囲のシステムを開発してください
• Google colab pro+ (https://colab.research.google.com/signup)
- Google colab pro+の請求書をYANSのアドレスに送っていただいた
方は,2022年8月分を全額補助 (5,243円/月,2022/8/15現在)
- 請求書のテンプレートはslackに記載
10
計算機環境について
YANS2022ハッカソン
• 登録されたメールアドレスに参加同意書を送信済み
• ご提出いただいた方から,ガイダンス以降,チームを発表
• まだ提出されていない方は早急にご提出ください
• 参加同意書を提出いただけない場合は参加を受け付けません
- チームも発表されません
• 提出方法はメールをご確認ください
• メールが届いていない方がいれば,至急お知らせください
11
参加同意書について
YANS2022ハッカソン
• ハッカソンガイダンス (zoomにて開催)
- 2022/8/16 (火) 13:00 ~ 14:00
- ハッカソンの説明とAmazon SageMaker Studio Labのチュートリア
ルを実施します (ハッカソンで使用する計算機環境)
• コンペ開催期間 (2022/8/16 (火) 14:00 ~ 2022/8/28 (日) 17:00)
- Amazon SageMaker Studio Labのアカウント登録
§ 2022/8/16 (火) 14:00 ~ 2022/8/17 (水) 13:00
- リーダーボードに少なくとも1回提出
§ ~ 2022/8/21 (日) 12:00
- 最終評価セットに対する出力結果の提出
§ ~ 2022/8/28 (日) 12:00 (時間に注意!)
- 発表スライドとソースコードの提出
§ ~ 2022/8/28 (日) 17:00
• 成果報告会
- 2022/8/30 (火) YANSシンポジウム2日目のクロージング
12
重要日程について
YANS2022ハッカソン
• 利用可能なデータ
- 一般に無償公開されているデータのみ使用してください
§ 他チームが再現できるかを基準に判断してください
§ 独自に作成したデータであっても、無償公開すれば利用可能です
- 人力での解答は禁止とします
- Amazonレビューデータセットは利用しないでください
§ Amazon Review Customer DatasetやHuggingFaceのamazon_review_multiなどが
公開されていますが本データセットと関連するため、使用しないでください
§ AmazonのWebサイトのクロールもしないでください
• コミュニケーションツール
- YANS2022のslackを提供します
- それ以外のツールは各チームにお任せします
13
注意事項
YANS2022ハッカソン

More Related Content

What's hot

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3までYahoo!デベロッパーネットワーク
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...joisino
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点Ichigaku Takigawa
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
adversarial training.pptx
adversarial training.pptxadversarial training.pptx
adversarial training.pptxssuserc45ddf
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有Naoaki Okazaki
 
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料洋資 堅田
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだことnishio
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門Yuya Unno
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic DatasetsDeep Learning JP
 
ICML2021の連合学習の論文
ICML2021の連合学習の論文ICML2021の連合学習の論文
ICML2021の連合学習の論文Katsuya Ito
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPTnlab_utokyo
 
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47horihorio
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...Deep Learning JP
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 

What's hot (20)

深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
 
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点合成変量とアンサンブル:回帰森と加法モデルの要点
合成変量とアンサンブル:回帰森と加法モデルの要点
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
adversarial training.pptx
adversarial training.pptxadversarial training.pptx
adversarial training.pptx
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料クラスタリングとレコメンデーション資料
クラスタリングとレコメンデーション資料
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
ICML2021の連合学習の論文
ICML2021の連合学習の論文ICML2021の連合学習の論文
ICML2021の連合学習の論文
 
大規模言語モデルとChatGPT
大規模言語モデルとChatGPT大規模言語モデルとChatGPT
大規模言語モデルとChatGPT
 
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 

yans2022_hackathon.pdf

  • 2. 1 ハッカソン運営委員 YANS2022ハッカソン 人見 雄太 (Insight Edge) 高山 隼矢 (ヤフー) 山田 康輔 (名大 武田笹野研 D2)
  • 3. • 特定の評価指標を用いたコンペティション - スコアの高かったチームに表彰 🎉 - システムの実装と発表内容に基づきスポンサーからの表彰 🎉 • ハッカソンテーマ - 商品レビューの役に立つ投票数ランキングタスク § 有用なレビュー予測に貢献 2 ハッカソン概要 YANS2022ハッカソン
  • 5. • 商品レビューの例 - product_idx: 商品インデックス - review_idx: レビューインデックス - helpful_votes: 役に立つ投票数 4 商品レビュー YANS2022ハッカソン
  • 6. • NDCG@5 (k=5のNormalized Discounted Cumulative Gain) 5 評価指標 (NDCG@5) YANS2022ハッカソン 予測スコアに基づくランキング 実際の役に立つ数 予測スコア 1 20 11.1 2 10 10.2 3 30 9.3 4 3 6.5 5 1 4.1 6 8 2.0 𝐷𝐶𝐺@𝑁 = 𝑟! + ) "#$ %&! 𝑟" log$ 𝑖 𝑁𝐷𝐶𝐺@𝑁 = 𝐷𝐶𝐺@𝑁 𝐷𝐶𝐺@𝑁'()(*+ 𝐷𝐶𝐺@5 = 20 + 10 log$ 2 + 30 log$ 3 + 3 log$ 4 + 1 log$ 5 𝑁𝐷𝐶𝐺@5 = 𝐷𝐶𝐺@5 𝐷𝐶𝐺@5'()(*+ = 50.86 61.60 = 0.83 𝐷𝐶𝐺@5'()(*+ = 30 + 20 log$ 2 + 10 log$ 3 + 8 log$ 4 + 3 log$ 5
  • 7. • Amazon Customer Review Dataset - 10件以上レビューのある商品のレビューを利用 • 学習セットとリーダーボードセットはガイダンス (8/16火) で配布 - リーダーボードセットでは、対象データと役に立つ数は非公開 - リーダーボードセットにおけるスコアのランキングを掲載 • 最終評価セットは 8/26 (金) に配布予定 - 最終評価セットでの推定結果を提出してもらい、順位を決定 6 データセット YANS2022ハッカソン 商品数 レビュー数 商品ごとの 平均レビュー数 学習セット 5323 148247 27.8 リーダーボードセット 500 14597 29.2 最終評価セット 500 12314 24.6
  • 8. • 役に立つ投票数の回帰予測モデル - 日本語東北大BERTをファインチューニング - 入力をレビュー本文、正解ラベルを対数変換された役に立つ投票数 - 予測された役に立つ投票数を基にランキング • 提出フォーマットはgithubリポジトリ内で説明 7 ベースラインシステム、提出フォーマット YANS2022ハッカソン https://github.com/Kosuke-Yamada/yans2022-hackathon-baseline
  • 9. 1. 配布データをダウンロード 2. 学習セットを利用して、ランキングシステムを開発 3. リーダーボードに、リーダーボードセットの全てのレ ビューに対する出力結果を提出してスコアを確認 4. 最終評価セットの全てのレビューに対する出力結果を提出 5. ソースコードと、開発したシステムの概要や評価結果の分 析結果をスライドにまとめて提出 6. シンポジウムにて作成したスライドを基に発表 - 1チームあたり3分程度 8 ハッカソン手順まとめ YANS2022ハッカソン
  • 10. • 最終評価セットにてスコアの高かったチームに表彰 • システムの実装と発表内容に基づきスポンサーからの表彰 - アマゾンウェブサービスジャパン合同会社様「Applied Scientist賞」 § アプローチの新規性: 既存の手法を拡張、応用することで新規・創造性の ある手法で解決しているか § 実装の実現性: 現実の問題に適用可能な効率的かつスケールする実装を行 えているか § 背景知識の豊富さ: 先進的な原理と手法を理解し利用できているか 9 表彰について YANS2022ハッカソン
  • 11. • Amazon SageMaker Studio Lab (https://studiolab.sagemaker.aws/) - リファラルコードの発行およびチュートリアルを実施 - 原則,この環境で動く範囲のシステムを開発してください • Google colab pro+ (https://colab.research.google.com/signup) - Google colab pro+の請求書をYANSのアドレスに送っていただいた 方は,2022年8月分を全額補助 (5,243円/月,2022/8/15現在) - 請求書のテンプレートはslackに記載 10 計算機環境について YANS2022ハッカソン
  • 12. • 登録されたメールアドレスに参加同意書を送信済み • ご提出いただいた方から,ガイダンス以降,チームを発表 • まだ提出されていない方は早急にご提出ください • 参加同意書を提出いただけない場合は参加を受け付けません - チームも発表されません • 提出方法はメールをご確認ください • メールが届いていない方がいれば,至急お知らせください 11 参加同意書について YANS2022ハッカソン
  • 13. • ハッカソンガイダンス (zoomにて開催) - 2022/8/16 (火) 13:00 ~ 14:00 - ハッカソンの説明とAmazon SageMaker Studio Labのチュートリア ルを実施します (ハッカソンで使用する計算機環境) • コンペ開催期間 (2022/8/16 (火) 14:00 ~ 2022/8/28 (日) 17:00) - Amazon SageMaker Studio Labのアカウント登録 § 2022/8/16 (火) 14:00 ~ 2022/8/17 (水) 13:00 - リーダーボードに少なくとも1回提出 § ~ 2022/8/21 (日) 12:00 - 最終評価セットに対する出力結果の提出 § ~ 2022/8/28 (日) 12:00 (時間に注意!) - 発表スライドとソースコードの提出 § ~ 2022/8/28 (日) 17:00 • 成果報告会 - 2022/8/30 (火) YANSシンポジウム2日目のクロージング 12 重要日程について YANS2022ハッカソン
  • 14. • 利用可能なデータ - 一般に無償公開されているデータのみ使用してください § 他チームが再現できるかを基準に判断してください § 独自に作成したデータであっても、無償公開すれば利用可能です - 人力での解答は禁止とします - Amazonレビューデータセットは利用しないでください § Amazon Review Customer DatasetやHuggingFaceのamazon_review_multiなどが 公開されていますが本データセットと関連するため、使用しないでください § AmazonのWebサイトのクロールもしないでください • コミュニケーションツール - YANS2022のslackを提供します - それ以外のツールは各チームにお任せします 13 注意事項 YANS2022ハッカソン