Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

39th Tokyo.R "RStudioを日本語化してます、という話"

16,119 views

Published on

第39回Tokyo.Rで発表した資料です。

Published in: Data & Analytics
  • Be the first to comment

39th Tokyo.R "RStudioを日本語化してます、という話"

  1. 1. 39th Tokyo.R (1) RStudioを日本語化してます (2) データサイエンスの研修やってます という話 @data_sciesotist 2014/05/31 1
  2. 2. 1 まずは、自己紹介 • 社会人5年目の研修講師 (Linux、仮想化、ストレージ、 クラウド、ビッグデータ・データサイエンスなど担当) です • その前は長々と大学にいました (心理学、教育工学、障害者 支援などを研究) が、学位もポストも・・・だったので就職 • 2002年にLinuxにはじめて触れて以来、細々とOSS関係 の活動をしています • 主に組版ソフトTEXの周りでIDEの日本語化、ドキュメン トの翻訳、解説サイトの運営などをしています • データサイエ「ソ」ティストに悪意はありません 2
  3. 3. 2 本日のお題 1. RStudioのインターフェースを日本語化してい るので、手順と成果を紹介したい 2. Rとかデータサイエンス関係の研修を提供 しているので、「世間の『データサイエンス』に 対する捉え方とか反応」を紹介したい 3. その他おまけ 3
  4. 4. お題1 RStudioの 日本語化 4
  5. 5. 3 RStudioの概要 (1) まずは大前提 https://www.rstudio.com/ • RStudio — “Open source and enterprise-ready professional software for the R community” • デスクトップ版 (Win, Mac, Linux) とサーバー版 (Linux) • サーバー版には有償ライセンスあり • Rを用いたWebアプリ開発を容易にするShinyなども提供 • 最近はknitrやR Presentationなど「文書」の執筆環境と しても活用される 5
  6. 6. 4 RStudioの概要 (2) 6
  7. 7. 5 RStudioの課題 インターフェースが 英語*1 *1 もちろん、他にいろいろ改善して欲しいところはあると思いますが。 7
  8. 8. 6 日本語化に取り組むことに • 他の分野で経験はあるし、ソースがあるんだから できるんじゃないの、という軽い気持ち •「OSSに (ちょっと) 貢献する」ことを考えた時の 選択肢として、日本語化はわりと取っ付きやすい そして感謝を得やすいw 8
  9. 9. 7 どこをいじればよいのか • “File”   “ファイル” だとしても、ソースコード のどこに書いてあるのか • 最悪なのは、各ファイルに分散している場合      • grepさんに聞いてみる • $SRC DIR/src/gwt/src/org/rstudio/studio/client/ workbench/commands/Commands.cmd.xml らしい 9
  10. 10. 8 Commands.cmd.xmlの中身 <commands> <menu id="mainMenu" vertical="false"> <separator/> <menu label="_File"> <menu label="New _File"> </menu> <menu label="_Recent Files"> </menu> <menu label="Recent Pro_jects"> </menu> </menu> <menu label="_Edit"> <menu label="_Folding"> </menu> </menu> .......... • なんとなくメニュー 項目が書かれている • “ 英字” がショート カット設定っぽい • テキストファイル なので作業も楽そう • じゃあやるか • 全部で375個ほど のメッセージ 10
  11. 11. 9 やってみた結果wwwwwwwww • 見出しは草を生やしてみたかっただけ • そんなに厳密に動作検証してない “雰囲気訳” 11
  12. 12. 10 ちなみに、RStudioのビルド環境 https://github.com/rstudio/rstudio/tree/master/dependencies • 必要なのは、g++、JDK、Qt、boost、Ant、NSISなど • GitHub上の文書を読めば、準備は簡単 (ただしチョー時間がかかる) • WindowsではスムーズにビルドできるがLinuxだと・・・ 12
  13. 13. 11 RStudioのビルド • 2コア、4GBの仮想マシンで15分くらいかかる • Windowsでのビルドオプションは以下のような感じ cmake .. -G "MinGW Makefiles" -DRSTUDIO_TARGET=Desktop -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX="C:optRStudio" 13
  14. 14. 12 成果の公開と課題 http://datasciesotist.hatenablog.jp/ • 日本語化したRStudioをブログで配布する予定 • 忙しくて375個中112個までしか終わってない • しかし、この方法では日本語化 “しか” できない • 開発元に多言語化を提案するのがOSS的 (めんどい・・・) • 日本語化では「最新版への追従」がプレッシャー • 公開して、やりたい人に「はい、ヨロシクぅ!」としたい 14
  15. 15. お題2 データサイエンスの 研修 15
  16. 16. 13 宣伝かよチッうぜえなぁ • だがしかし。ここで宣伝して、論評されるリス クを侵す勇気がある非専門家がいるだろうか • いや、いない (反語)      • なので、「一般企業向けにこんなことをやって ると、こんなことが見えてきます」というのを 紹介しようと思ってます 16
  17. 17. 14 まず、世間一般におけるニーズ • 「データサイエンティスト」と「Data Scientist」の検索トレンド • 同じ時にもっと有名な方が取り上げたので、二番煎じにorz 2012 2013 2014 020406080100 「Data Scientist」と「データサイエンティスト」の検索数の推移 Google Trendsのデータを元に当社にて作成 検索数(比率) Data Scientist データサイエンティスト 17
  18. 18. 15 「本当の」ニーズかはさておき • 「データサイエンス」と「Data Science」の検索トレンド • ニーズがあればそれをコースにして商売するのが研修会社の仕事 2004 2006 2008 2010 2012 2014 020406080100 「Data Science」と「データサイエンス」の検索数の推移 Google Trendsのデータを元に当社にて作成 検索数(比率) Data Science データサイエンス 18
  19. 19. 16 研修ラインアップ 2011年からインフラ技術を中心にビッグデータ関連研修を提供開始 2012年ころからデータ活用、分析にテーマを広げ、続々と提供中 Rに関しては同業他社より1年早く提供を実現 2011年11月 「Hadoop入門」提供開始 2012年11月 「ビッグデータの基礎」提供開始 2013年4月 「R言語によるデータ分析入門」提供開始 2013年10月 「R言語によるデータ分析応用編」提供開始 2014年4月 「データサイエンスの基礎」提供開始 19
  20. 20. 17 申込者数の推移 • いろいろあるので縦軸はナシで……ただ、他の分野と比べても増加は顕著 • Rおよびデータサイエンスに関する (初歩的) 教育ニーズは高い • 弊社教室での研修以外に、お客様先での個別研修もたくさん 2012 2013 2014 ビッグデータ・データサイエンス研修の申込者数(累計) 申込者数 Hadoop ビッグデータ基礎 R入門 R応用 データサイエンス基礎 20
  21. 21. 18 お客様の声 ■受講のきっかけ • 「データはあるが使い方がわからない」という声が多数 • なんだかんだ、製造・販売の現場には大量のデータがある •「ビッグデータソリューションの営業を担当しているが、 自分が何を売っているのかわからない」なども •「Rの研修を検索したら見つかったから」という方も多い ■最近は…… •「社内におけるデータ活用の仕組みを作りたい」という方も • 技術は一段落して、これからは方法論に注目が集まりそう 21
  22. 22. 19 この分野を担当して思うこと • 思った以上に「データ分析カルチャー」を 根付かせるのは難しい • 多くの企業において「データサイエンス」は Data ScienceやQuantsではない • ごく基本的な「卒論の書き方」を忘れて いる・知らない人が多い • とはいえ、そこらへんを埋めるのが商売なの で、いろいろ葛藤しつつやってます 22
  23. 23. お題3 Sparkの 研修作ってます 23
  24. 24. 20 Apache Sparkの概要 (1) Hadoopよりも速い分散並列処理環境 http://spark.apache.org/ Java、Python、Scala(関数型言語)に対応、SQLなどにも対応可能 2014年3月にApache財団のトップレベルプロジェクトに昇格 Hadoopより100倍速い!(当社比) 24
  25. 25. 21 Apache Sparkの概要 (2) Sparkプロジェクトの目標は以下の2点  MapReduceモデルを拡張し、インタラクティブな分析ができる  Scala(関数型言語)の採用によるプログラミング可能性の向上 http://spark.apache.org/talks/overview.pdf より Scalaシェルからのインタラクティブな操作 機械学習のための アルゴリズムを 数多く提供 25
  26. 26. 22 Apache Sparkの概要 (3) 基本的にはHadoopと同様の大量データを分散並列処理する仕組み 複数台のコンピュータでクラスタを構成し、Scalaシェルによる インタラクティブ処理またはプログラムのバッチ実行が可能 クラスタマネージャMesosでリソース管理可能 http://spark.apache.org/talks/overview.pdf より http://spark.apache.org/ より Scala、Java、Pythonに対応 26
  27. 27. 23 Apache Sparkが来そう • 機械学習など「パラメータを変えて繰り返し同じ処理を適 用する」場合にインメモリコンピューティングが適する • Hadoopの機械学習ライブラリとして有名だったMahout も “Goodbye MapReduce”*2 とHadoopからSpark等へ の切り替えを表明している • Rとも連携できそう (SparkRパッケージがある) • まだよくわかってないですが9月に提供開始します *2 https://issues.apache.org/jira/browse/MAHOUT-1510 https://mahout.apache.org/ 27
  28. 28. 24 ちなみに、先日こんなことが 28

×