yans2022_hackathon.pdf

YANS2022 ハッカソン
説明スライド
ハッカソンスポンサー
アマゾンウェブサービスジャパン合同会社様

1
ハッカソン運営委員
YANS2022ハッカソン
人見雄太
(Insight Edge)
高山隼矢
(ヤフー)
山田康輔
(名大武田笹野研 D2)

• 特定の評価指標を用いたコンペティション
- スコアの高かったチームに表彰 🎉
- システムの実装と発表内容に基づきスポンサーからの表彰 🎉
• ハッカソンテーマ
- 商品レビューの役に立つ投票数ランキングタスク
§ 有用なレビュー予測に貢献
2
ハッカソン概要

• 商品ごとで、レビューの役に立つ投票数が多い順にランキング
3
商品レビューの役に立つ投票数ランキングタスク
商品1
レビュー 1
役に立つ投票数
10
レビュー 3
レビュー 2
8
3
商品2
レビュー 6
レビュー 4
レビュー 5
20
3
0
…
…
…
…

• 商品レビューの例
- product_idx: 商品インデックス
- review_idx: レビューインデックス
- helpful_votes: 役に立つ投票数
4
商品レビュー

• NDCG@5 (k=5のNormalized Discounted Cumulative Gain)
5
評価指標 (NDCG@5)
予測スコアに基づくランキング実際の役に立つ数予測スコア
1 20 11.1
2 10 10.2
3 30 9.3
4 3 6.5
5 1 4.1
6 8 2.0
𝐷𝐶𝐺@𝑁 = 𝑟! + )
"#$
%&!
𝑟"
log$ 𝑖
𝑁𝐷𝐶𝐺@𝑁 =
𝐷𝐶𝐺@𝑁
𝐷𝐶𝐺@𝑁'()(*+
𝐷𝐶𝐺@5 = 20 +
10
log$ 2
+
30
log$ 3
+
3
log$ 4
+
1
log$ 5
𝑁𝐷𝐶𝐺@5 =
𝐷𝐶𝐺@5
𝐷𝐶𝐺@5'()(*+
=
50.86
61.60
= 0.83
𝐷𝐶𝐺@5'()(*+ = 30 +
20
log$ 2
+
10
log$ 3
+
8
log$ 4
+
3
log$ 5

• Amazon Customer Review Dataset
- 10件以上レビューのある商品のレビューを利用
• 学習セットとリーダーボードセットはガイダンス (8/16火) で配布
- リーダーボードセットでは、対象データと役に立つ数は非公開
- リーダーボードセットにおけるスコアのランキングを掲載
• 最終評価セットは 8/26 (金) に配布予定
- 最終評価セットでの推定結果を提出してもらい、順位を決定
6
データセット
商品数レビュー数
商品ごとの
平均レビュー数
学習セット 5323 148247 27.8
リーダーボードセット 500 14597 29.2
最終評価セット 500 12314 24.6

• 役に立つ投票数の回帰予測モデル
- 日本語東北大BERTをファインチューニング
- 入力をレビュー本文、正解ラベルを対数変換された役に立つ投票数
- 予測された役に立つ投票数を基にランキング
• 提出フォーマットはgithubリポジトリ内で説明
7
ベースラインシステム、提出フォーマット
https://github.com/Kosuke-Yamada/yans2022-hackathon-baseline

1. 配布データをダウンロード
2. 学習セットを利用して、ランキングシステムを開発
3. リーダーボードに、リーダーボードセットの全てのレ
ビューに対する出力結果を提出してスコアを確認
4. 最終評価セットの全てのレビューに対する出力結果を提出
5. ソースコードと、開発したシステムの概要や評価結果の分
析結果をスライドにまとめて提出
6. シンポジウムにて作成したスライドを基に発表
- 1チームあたり3分程度
8
ハッカソン手順まとめ

• 最終評価セットにてスコアの高かったチームに表彰
• システムの実装と発表内容に基づきスポンサーからの表彰
- アマゾンウェブサービスジャパン合同会社様「Applied Scientist賞」
§ アプローチの新規性: 既存の手法を拡張、応用することで新規・創造性の
ある手法で解決しているか
§ 実装の実現性: 現実の問題に適用可能な効率的かつスケールする実装を行
えているか
§ 背景知識の豊富さ: 先進的な原理と手法を理解し利用できているか
9
表彰について

• Amazon SageMaker Studio Lab (https://studiolab.sagemaker.aws/)
- リファラルコードの発行およびチュートリアルを実施
- 原則，この環境で動く範囲のシステムを開発してください
• Google colab pro+ (https://colab.research.google.com/signup)
- Google colab pro+の請求書をYANSのアドレスに送っていただいた
方は，2022年8月分を全額補助 (5,243円/月，2022/8/15現在)
- 請求書のテンプレートはslackに記載
10
計算機環境について

• 登録されたメールアドレスに参加同意書を送信済み
• ご提出いただいた方から，ガイダンス以降，チームを発表
• まだ提出されていない方は早急にご提出ください
• 参加同意書を提出いただけない場合は参加を受け付けません
- チームも発表されません
• 提出方法はメールをご確認ください
• メールが届いていない方がいれば，至急お知らせください
11
参加同意書について

• ハッカソンガイダンス (zoomにて開催)
- 2022/8/16 (火) 13:00 ~ 14:00
- ハッカソンの説明とAmazon SageMaker Studio Labのチュートリア
ルを実施します (ハッカソンで使用する計算機環境)
• コンペ開催期間 (2022/8/16 (火) 14:00 ~ 2022/8/28 (日) 17:00)
- Amazon SageMaker Studio Labのアカウント登録
§ 2022/8/16 (火) 14:00 ~ 2022/8/17 (水) 13:00
- リーダーボードに少なくとも1回提出
§ ~ 2022/8/21 (日) 12:00
- 最終評価セットに対する出力結果の提出
§ ~ 2022/8/28 (日) 12:00 (時間に注意！)
- 発表スライドとソースコードの提出
§ ~ 2022/8/28 (日) 17:00
• 成果報告会
- 2022/8/30 (火) YANSシンポジウム2日目のクロージング
12
重要日程について

• 利用可能なデータ
- 一般に無償公開されているデータのみ使用してください
§ 他チームが再現できるかを基準に判断してください
§ 独自に作成したデータであっても、無償公開すれば利用可能です
- 人力での解答は禁止とします
- Amazonレビューデータセットは利用しないでください
§ Amazon Review Customer DatasetやHuggingFaceのamazon_review_multiなどが
公開されていますが本データセットと関連するため、使用しないでください
§ AmazonのWebサイトのクロールもしないでください
• コミュニケーションツール
- YANS2022のslackを提供します
- それ以外のツールは各チームにお任せします
13
注意事項

yans2022_hackathon.pdf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

yans2022_hackathon.pdf