Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
Teruyuki Sakaue
Globalinx Newsletter Winter 2012
GLOBALINX CORP
パーフェクト販促講座(売上アップ大学)
販促コンサルタントの渋谷雄大
140921_JSET30_口頭発表
Yoshikazu Asada
Rep0216slide
mokkle
メルカリのアナリストのスキルセットについて
shintaro matsuda
ACL2018の歩き方
Takahiro Kubo
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
資料作成トレーニング Rubato(ルバート)
1
of
18
Top clipped slide
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
Feb. 19, 2020
•
0 likes
2 likes
×
Be the first to like this
Show More
•
6,320 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Science
会社の昼休みに緩めの情報共有会を開催した際の資料です。
Teruyuki Sakaue
Follow
Data Analyst
Advertisement
Advertisement
Advertisement
Recommended
[第11回]データ分析ランチセッション - モダンな機械学習データパイプラインKedroを触ってみる
Teruyuki Sakaue
6.1K views
•
39 slides
HRビジネスにおけるデータサイエンスの適用 @ BIT VALLEY -INSIDE- Vol.1
Teruyuki Sakaue
14.8K views
•
35 slides
Marketing×Python/Rで頑張れる事例16本ノック
Teruyuki Sakaue
22.1K views
•
39 slides
[Music×Analytics]プロの音に近づくための研究と練習
Teruyuki Sakaue
3.3K views
•
43 slides
流行りの分散表現を用いた文書分類について Netadashi Meetup 7
Teruyuki Sakaue
23K views
•
34 slides
はじパタ2章
tetsuro ito
21.5K views
•
25 slides
More Related Content
Similar to [第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
(9)
[第1回]データ分析ランチセッション ~ Qiita Advent Calendar2019から得た情報10選
Teruyuki Sakaue
•
642 views
Globalinx Newsletter Winter 2012
GLOBALINX CORP
•
315 views
パーフェクト販促講座(売上アップ大学)
販促コンサルタントの渋谷雄大
•
291 views
140921_JSET30_口頭発表
Yoshikazu Asada
•
1.7K views
Rep0216slide
mokkle
•
287 views
メルカリのアナリストのスキルセットについて
shintaro matsuda
•
48.1K views
ACL2018の歩き方
Takahiro Kubo
•
6.7K views
元外資コンサルによる戦略的プレゼン資料作成講座〜二日間集中講義
資料作成トレーニング Rubato(ルバート)
•
37.8K views
第 11 回 最先端 NLP 勉強会
Yuko Fujiyama
•
897 views
More from Teruyuki Sakaue
(8)
実務と論文で学ぶジョブレコメンデーション最前線2022
Teruyuki Sakaue
•
1.3K views
警察庁オープンデータで交通事故の世界にDeepDive!
Teruyuki Sakaue
•
3.2K views
[丸ノ内アナリティクスバンビーノ#23]データドリブン施策によるサービス品質向上の取り組み
Teruyuki Sakaue
•
3.7K views
[DSO] Machine Learning Seminar Vol.8 Chapter 9
Teruyuki Sakaue
•
521 views
データ分析ランチセッション#24 OSSのAutoML~TPOTについて
Teruyuki Sakaue
•
5.3K views
[DSO] Machine Learning Seminar Vol.2 Chapter 3
Teruyuki Sakaue
•
6K views
[DSO] Machine Learning Seminar Vol.1 Chapter 1 and 2
Teruyuki Sakaue
•
5.9K views
地理データを集め、可視化し分析することが簡単にできるプログラミング言語について @ BIT VALLEY -INSIDE- Vol.16
Teruyuki Sakaue
•
6.1K views
Advertisement
Recently uploaded
(20)
本科/硕士《美国斯隆管理学院毕业证成绩单》
w4ca12
•
4 views
《马里兰大学帕克分校毕业证|学位证书校内仿真版本》
123shab123
•
4 views
①【魁北克大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
☀️《Sunderland毕业证仿真》
DAS54SA
•
2 views
留学生案例《皇家霍洛威学院学位毕业证书和学士文凭》
36dsahj
•
2 views
留学生案例《西伊利诺伊大学学位毕业证书和学士文凭》
uijn12a
•
2 views
留学学分不够办理《美国艾德菲大学假文凭毕业证》
250dsacd
•
2 views
☀️【威得恩大学毕业证成绩单留学生首选】
25mjhd12
•
2 views
国外学历【萨德伯里大学研究生文凭毕业证留学生首选】
ewq15a
•
2 views
在哪里可以做《林肯大学文凭证书|毕业证》
1232hdjk
•
3 views
★可查可存档〖制作东伦敦大学文凭证书毕业证〗
mmmm282537
•
3 views
☀️【杜克大学毕业证成绩单留学生首选】
25kihn123
•
2 views
在哪里可以做《怀俄明大学文凭证书|毕业证》
lobd15
•
2 views
留学生案例《犹他大学学位毕业证书和学士文凭》
uijn12a
•
2 views
《科罗拉多大学斯普林司分校毕业证|学位证书校内仿真版本》
w124dsa
•
2 views
Promotion of Migration from Urban to Local Areas in Mongolia
Kunio Minato
•
52 views
在哪里可以做《西雅图大学文凭证书|毕业证》
20das12
•
2 views
《威得恩大学毕业证|学位证书校内仿真版本》
w124dsa
•
3 views
在哪里可以做《田纳西大学文凭证书|毕业证》
20das12
•
2 views
①【汉堡大学毕业证文凭学位证书|工艺完美复刻】
vgh215w
•
2 views
[第6回]データ分析ランチセッション - Camphrでモダンな自然言語処理
Leverages Marketing Department データ分析ランチセッション#6 Camphrでモダンな自然言語処理 2020/02/19
渋谷スクランブルスクエア25F レバレジーズ株式会社 データ戦略室室長 阪上晃幸 1
Leverages Marketing Department ●
データ戦略室で隔週で行っている、書籍をベースにした勉強会の補講の位置付け。情報 の鮮度を意識した勉強会。 ● 扱うトピックは発表者が任意で決める。 ● 発表者以外は弁当を持参する。発表者は発表後に食事する。 ● 発表時間は10~15分。質疑応答が10~15分。 ランチセッションとは 2
Leverages Marketing Department 自己紹介 3 ●
阪上晃幸(@Mr_Sakaue) ● データアナリスト 兼 室長 ● 経歴 2012/2:レバレジーズでインターン 2012/3:一橋大学大学院経済学研究科 修士課程修了 2012/4〜:レバレジーズ入社 ● 趣味 料理、ブログ記事の作成 『かものはしの分析ブログ』で検索! 表参道のbillsからスクスク が見える
Leverages Marketing Department 今回はCamphrを紹介しますよ! 4
Leverages Marketing Department ●
PKSHA Technology Inc.が開発したNLPライブラリ パークシャ ● CamphrはspaCyのプラグイン ○ spaCyとは ■ 自然言語処理を行うためのオープンソースソフトウェア・ライブラリで Pythonなどで書かれている。 ■ 速い、易い、うまいの三拍子 ● 速い:Cythonで書かれており、処理が速い。state-of-the-art(SOTA)な処理速度。 ● 易い:シンプルなAPIで実装しやすい。 ● (連携が)うまい:TensorFlow, PyTorch, scikit-learn, Gensimなどのエコシステムを利用できる。 ■ 49以上の言語に対応 ● Transformers(転移学習)やUdify(75もの言語に対応した自然言語処理のモデル)な どの最先端の手法や、KNP(日本語構文・格・照応解析システム)などを扱うことができ る。 Camphrとは 5
Leverages Marketing Department ●
係り受け解析(新旧) ● ファインチューニング(今回はデモなし) ● 埋め込みベクトル ● テキスト分類 Camphrでできること 6
Leverages Marketing Department 1.
ColabをGPUモードで開く 2. !pip install camphr を実行 3. !pip install https://github.com/PKSHATechnology-Research/camphr_models/releases/dow nload/0.5/ja_mecab_udify-0.5.tar.gz を実行しモデルをダウンロード 4. Colabだとモデルは以下のパスとなる。尚、最後のディレクトリはファイル名。 /usr/local/lib/python3.6/dist-packages/ja_mecab_udify/ja_mecab_udify-0.5.0 5. !pip install mecab-python3 --only-binary :all: を実行しMeCabを使えるようにする。 Camphrを触ってみる 7
Leverages Marketing Department 係り受け(日本語) 8
Leverages Marketing Department 係り受け(英語) 9 一つのモデルで日 本語も英語も対応 している。
Leverages Marketing Department 係り受け(フランス語) 10 一つのモデルで日 本語も英語もフラ ンス語も対応して いる。
Leverages Marketing Department ●
学習済みのモデルを使って、入力したテキストの埋め込みベクトルを取得 Transformer(転移学習) 11 768次元の埋め込みベクトル
Leverages Marketing Department ●
埋め込みベクトル(768次元)同士でCOS類似度の計算 ○ 文書単位での類似度とトークン単位での類似度を計算 Transformer(転移学習) 12
Leverages Marketing Department ●
json形式でテキストとラベルをもたせたデータに対して文書分類が可能 ○ jsonでトレインデータとラベルデータを用意する。(今回は20件ほど) ● コマンドライン(CLI)で実行可能 ● Colabで実行可能。 文書分類 このような形式のデータをインプット テキスト ラベル ラベルデータ 13
Leverages Marketing Department ●
Colab上で、CLIでの文書分類の学習の実行 文書分類 14
Leverages Marketing Department ●
訓練が終わったモデルを読み込んでラベルの予測を行う。 文書分類 ポジティブに分類されて欲しいが、訓練デー タが20件ほどしかないので厳しいのかもしれ ない。 15
Leverages Marketing Department ●
様々な学習済みモデルを簡単に扱えるのは良い。 ● SpaCy自体にも興味を持てた。 ● 複数言語を一つのモデルで扱えるUDifyはすごいと思った。 ● 文書分類に関してもっと大きなデータセットを用意したり、日本語での文書分類を試して みたい。 所感 16
Leverages Marketing Department [1]
Camphr - spaCy plugin for Transformers, Udify, Elmo, etc. : GitHub [2] Camphr: spaCy plugin for Transformers, Udify, KNP : Qiita [3] spaCy [4] 日本語構文・格・照応解析システム KNP [5] yasuokaの日記: 多言語係り受け解析ツールとしてのCamphr-Udify [6] Displacy from spacy in google colab [7] UDify [8] Tutorial: Text Classification in Python Using spaCy [9] Fine tuning Transformers [10] Training spaCy’s Statistical Models 参考情報 17
Leverages Marketing Department ご静聴ありがとうございました! 18
Advertisement