SlideShare a Scribd company logo
Submit Search
Upload
Login
Signup
あひるに焼かれた話と今後のおーぷん万葉について
Report
Masahiko Hashimoto
Follow
Sep. 5, 2016
•
0 likes
•
2,603 views
1
of
27
あひるに焼かれた話と今後のおーぷん万葉について
Sep. 5, 2016
•
0 likes
•
2,603 views
Download Now
Download to read offline
Report
Technology
東海道らぐサーバー更新と、かな漢字変換「Genji」の今後についてです。(2016・9・3)
Masahiko Hashimoto
Follow
Recommended
自作かな漢字変換「Genji」をつくったよ
Masahiko Hashimoto
1.6K views
•
18 slides
かな漢字変換ソフト「Genji」をつくってみた
Masahiko Hashimoto
8.2K views
•
24 slides
DeepLearning入門以前
Masahiko Hashimoto
654 views
•
21 slides
Nov 06-2010
PET HOTEL@B
181 views
•
4 slides
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
Masahiko Hashimoto
2.4K views
•
17 slides
おーぷん万葉プロジェクトの進捗とIzumoのその後
Masahiko Hashimoto
3.5K views
•
18 slides
More Related Content
Viewers also liked
最近やった事とこれからやりたい事 2016年度年末版
Netwalker lab kapper
2.9K views
•
25 slides
#GPD-Pocket にUbuntu17.04をインストール Install Ubuntu Linux 17.04 on GPD-Pocket
Netwalker lab kapper
6.5K views
•
17 slides
鹿児島らぐに初参加してみました I tried the paticipate Kagoshima Linux Users Group
Netwalker lab kapper
2.6K views
•
22 slides
OSC沖縄2017と沖縄観光 #osc17ok Opensource Conference Okinawa2017
Netwalker lab kapper
3.9K views
•
19 slides
Fireduck
wata2ki
3.1K views
•
15 slides
音ゲーコントローラとLinux Input Subsystem
monochrojazz
3.2K views
•
18 slides
Viewers also liked
(20)
最近やった事とこれからやりたい事 2016年度年末版
Netwalker lab kapper
•
2.9K views
#GPD-Pocket にUbuntu17.04をインストール Install Ubuntu Linux 17.04 on GPD-Pocket
Netwalker lab kapper
•
6.5K views
鹿児島らぐに初参加してみました I tried the paticipate Kagoshima Linux Users Group
Netwalker lab kapper
•
2.6K views
OSC沖縄2017と沖縄観光 #osc17ok Opensource Conference Okinawa2017
Netwalker lab kapper
•
3.9K views
Fireduck
wata2ki
•
3.1K views
音ゲーコントローラとLinux Input Subsystem
monochrojazz
•
3.2K views
lilo.linux.or.jp の話 (2017年8月)
Kazuhiro Nishiyama
•
2.3K views
XRDPで怠惰な日々を送る
monochrojazz
•
7.7K views
AllwinnerタブレットのOSを作ってみる(中編)
shimadah
•
5.3K views
「やりなおし方について」Linuxブート情報の消し方
Masataka Kondo
•
2.3K views
色々なコントローラでRaspberryPiを動かそう
monochrojazz
•
4.7K views
Debian Testing on Windows Tablet T100TA
Netwalker lab kapper
•
9.8K views
シンガポールFossasia2016に初参加してみた I tried the first time participate in the Singapor...
Netwalker lab kapper
•
3.7K views
lilo.linux.or.jp を wheezy から jessie にあげた話
Kazuhiro Nishiyama
•
2.2K views
Beginner for Power Control on Linux はじめてのLinuxバッテリー省エネ設定
Netwalker lab kapper
•
7K views
ret2libcとpopretで初等的BOF攻撃
monochrojazz
•
3.6K views
Windows10タブレットにUbuntu16.04を色々入れてみた 2016年度版 Install Ubuntu16.04 on Windows10 T...
Netwalker lab kapper
•
17.3K views
海外イベントの可能性を探ろう
Masataka Kondo
•
2K views
MSYS2使いはじめました
Hiro H.
•
2.9K views
openSUSE42.2 on Windows Tablet T100TA
Netwalker lab kapper
•
6.3K views
More from Masahiko Hashimoto
OSSかな漢字変換『Egoistic Lily』の紹介&今後の展望
Masahiko Hashimoto
1.7K views
•
24 slides
DNNを使用した新しいかな漢字変換『EgoisticLily』 その仕組みとは?
Masahiko Hashimoto
1.2K views
•
31 slides
Dockerいろいろ使って思うこと
Masahiko Hashimoto
1.1K views
•
24 slides
BrowserMob-Proxyのお話
Masahiko Hashimoto
1.7K views
•
15 slides
おーぷん万葉プロジェクトとは
Masahiko Hashimoto
2.8K views
•
18 slides
C++アプリをCmakeとEclipseで開発するお話
Masahiko Hashimoto
6.8K views
•
11 slides
More from Masahiko Hashimoto
(17)
OSSかな漢字変換『Egoistic Lily』の紹介&今後の展望
Masahiko Hashimoto
•
1.7K views
DNNを使用した新しいかな漢字変換『EgoisticLily』 その仕組みとは?
Masahiko Hashimoto
•
1.2K views
Dockerいろいろ使って思うこと
Masahiko Hashimoto
•
1.1K views
BrowserMob-Proxyのお話
Masahiko Hashimoto
•
1.7K views
おーぷん万葉プロジェクトとは
Masahiko Hashimoto
•
2.8K views
C++アプリをCmakeとEclipseで開発するお話
Masahiko Hashimoto
•
6.8K views
TrieとLOUDS??
Masahiko Hashimoto
•
3.3K views
C言語なWebSocketの遊び方。
Masahiko Hashimoto
•
9.8K views
アヒルヤキを変換してみよう
Masahiko Hashimoto
•
1.9K views
Nginxで日本語入力を遊んでみよう!
Masahiko Hashimoto
•
1.8K views
続・Cannaをフォークしてみた
Masahiko Hashimoto
•
710 views
Cannaをフォークしてみた
Masahiko Hashimoto
•
876 views
秘伝:クラウドに開発環境をえいっ!と構築する方法
Masahiko Hashimoto
•
6.5K views
AzureとSUSE Studioのあつ~い関係
Masahiko Hashimoto
•
642 views
X window managerで遊んでみた
Masahiko Hashimoto
•
1.9K views
オープンソースで始める「超」VPN 構築術
Masahiko Hashimoto
•
11.6K views
自分色のLinuxホームサーバーを作ってみよう
Masahiko Hashimoto
•
2.1K views
Recently uploaded
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
83 views
•
1 slide
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
93 views
•
1 slide
指側面を入力インタフェース化するリング型デバイス
sugiuralab
5 views
•
1 slide
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
93 views
•
24 slides
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB - 強化された時系列データ管理・検索機能について -
griddb
7 views
•
46 slides
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
73 views
•
18 slides
Recently uploaded
(11)
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
83 views
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
93 views
指側面を入力インタフェース化するリング型デバイス
sugiuralab
•
5 views
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
93 views
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB - 強化された時系列データ管理・検索機能について -
griddb
•
7 views
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
73 views
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
NTT DATA Technology & Innovation
•
39 views
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
250 views
画像生成AIの問題点
iPride Co., Ltd.
•
127 views
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
226 views
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
NTT DATA Technology & Innovation
•
442 views
あひるに焼かれた話と今後のおーぷん万葉について
1.
あひるに焼かれた話と 今後のおーぷん万葉について 2016/9/3 東海道らぐオフ@横浜 はしもとまさひこ
2.
今日は初の方もいらっしゃるので自己紹介 ● 東海道らぐ関東の案内人(元名古屋案内人) – 東海道らぐ5周年!!! – サーバー管理人…からは脱却する予定 ←今日のお題 ● ちびぎーこ保護者会(別名:日本openSUSEユーザ会)の人 –
こちらも最近は・・・^^;;; ● 最近は日本語入力についていろいろ勉強中。 – 今日のお題その2
3.
近況報告(1) ● 引っ越しました!!! – 引っ越し前: ● 2LDK
約45平米 ● 2階で目の前は家! ● 最寄り駅 徒歩25分 ● 家賃 75,000円 – 引越し後: ● 3DK 約50平米 ● 4階で見晴らし良好!(但しエレベータ無し) ● 最寄り駅 徒歩8分 ● 家賃 80,000円 もちろんめちゃくちゃ楽!! 引越しコストが高かったけどorz
4.
近況報告(2) ● 東海道らぐサーバ(Web &
ML)も引っ越しました!! – 引越し前: ● Ubuntu 12.04 LTS(←インストール時に間違えたんじゃいw) ● Apache 2.2 ● Mailman – 引越し後: ● Ubuntu 16.04 LTS (←これで5年は使える!!w) ● Apache 2.4 ● Mailman
5.
そもそも自分の引っ越しで手一杯なのに サーバーまで引っ越しとか きついっちゅーねん!!!
6.
全ての元凶 ↓
7.
あ、あひる焼き。 名前: あひる(焼き) 職業: (たぶん)大学生 生息地:
名古屋の某大学 わからない方は 「あひる焼き」でググッていただけたら。。。
8.
事の発端は… だがしかし、そもそもOSはそろそろEOLを迎える → どうせならOSごと再インストールだな → あひる「Let’s Encryptまだ〜?」と催促 → 「ちょっと待て!」と応戦(すること約半年w) → …あれこれやるうちに8月にやることにした → が、その8月に自分自身の引っ越しとなったw → 大炎上!(^^)! 東海道らぐサーバーに Let’s Encryptを導入しましょう!!!
9.
今回の引越し作業でハマったこと ● mailmanがDebian/Ubuntu系でUTF-8対応 → 文字化けのせいでメールが送信できない!?? ● Apache2.4系になった → 「Require
all granted」を使いましょう!! → mailman付属のapache.confの置き場所が変更? ● その他 – あひると最後の攻防(謎)
10.
1. mailman文字化け対応(1) mailman(MLサーバー)からメールを送信しようとすると 下記のログを残して落ちてしまう… Aug 21
16:10:07 2016 (13405) Uncaught runner exception: 'utf8' codec can't decode byte 0xc5 in position 0: invalid continuation byte Aug 21 16:10:07 2016 (13405) Traceback (most recent call last): File "/var/lib/mailman/Mailman/Queue/Runner.py", line 119, in _oneloop self._onefile(msg, msgdata) File "/var/lib/mailman/Mailman/Queue/Runner.py", line 190, in _onefile keepqueued = self._dispose(mlist, msg, msgdata) File "/var/lib/mailman/Mailman/Queue/IncomingRunner.py", line 130, in _dispose more = self._dopipeline(mlist, msg, msgdata, pipeline) File "/var/lib/mailman/Mailman/Queue/IncomingRunner.py", line 153, in _dopipeline sys.modules[modname].process(mlist, msg, msgdata) File "/var/lib/mailman/Mailman/Handlers/CookHeaders.py", line 226, in process i18ndesc = uheader(mlist, mlist.description, 'Reply-To') File "/var/lib/mailman/Mailman/Handlers/CookHeaders.py", line 68, in uheader return Header(s, charset, maxlinelen, header_name, continuation_ws) File "/usr/lib/python2.7/email/header.py", line 183, in __init__ self.append(s, charset, errors) File "/usr/lib/python2.7/email/header.py", line 267, in append ustr = unicode(s, incodec, errors) UnicodeDecodeError: 'utf8' codec can't decode byte 0xc5 in position 0: invalid continuation byte Aug 21 16:10:07 2016 (13405) SHUNTING: 1471763406.166946+da420da292e58a12f0210c1f63f729395700e571 落ちた・・・
11.
1. mailman文字化け対応(2) 肝はこれですね↓ UnicodeDecodeError: 'utf8'
codec can't decode →どうやらmailmanのWeb設定画面で 文字化けが発生していることが原因らしい。。 (え、Web画面の文字化けが原因でメール送信できないの??) – LILOの西山さんのブログを参考に Web設定画面の文字化けを修正しました。 http://blog.n-z.jp/blog/2016-04-30-mailman-error.html (ありがとうございました〜!!!)
12.
2. Apache2.2→2.4対応 (1) Apacheのアクセス制限の書式が変わった 知ってる方も多いと思うのでここは簡単に。 (詳しくはググってください^^) –
Apache2.2: Order allow,deny Allow from all ↓ – Apache2.4: Require all granted LPICでも出題される基本的な箇所 …が、仕様変更したのね。。。
13.
2. Apache2.2→2.4対応 (2) mailman管理画面にアクセスしようとすると 「404
Not found」が返ってくる (そこはせめて「500」だろ…orz) ※このせいでmailmanのWeb設定画面が表示できなかった →どうやらアクセスしようとするとApacheが落ちてる… mailmanの付属ファイル = apache.confの 置き場所が変わった!!! Ubuntu 12.04 : /etc/apache2/site-available → Ubuntu 16.04 : /etc/apache2/conf-available 以前はsite-availableに置いて普通に動いてたけど そこに置くとApacheが落ちるようになったとか …豪快ですねw(てか気づかないよ〜!!) 原因
14.
というわけで東海道らぐ鯖の今後。 ● Let’s Encryptに対応 →SSLがオレオレ証明書ではなくなりました! →東海道らぐWebページが常時SSLに! あひるさんが一昨日対応済み ● 今後はおいらと、しまださんと、あひるさんで サーバーメンテを行います。。。(たぶん)
15.
めでたしめでたし。
16.
…というわけで、本日の本題です。(ぉ
17.
おーぷん万葉の今後 (をざっくりと。) 2016/9/3 東海道らぐオフ@横浜 はしもとまさひこ
18.
7月末のOSC京都にて… かな漢字変換「Genji」のrc phase1をリリース! …が、今回は「まず動くこと」が第一だったので 本当に動くくらいの機能しかなかったw そもそも変換のための辞書ファイルを 行きの新幹線で作成してる始末だったので まともな変換ができるわけなかったorz
19.
「Genji rc phase1」の実力 ● できたこと –
当然「わたしのなまえはなかのです」は変換可能 – 「あひるやき」も変換できた ● できなかったこと – 「きょうと」が変換できない ←致命的!!! – 「おおさか」が「大坂」になってしまう
20.
ところでどんな変換アルゴリズムだったのか? 純粋に「文節区切りの単語n-gram」です と話しただけでひよわさんは理解できたっぽい(さすがだ 例: 「私の名前は中野です」 → これを単語区切りにするとこうなります 「私」「の」「名前」「は」「中野」「です」 → で、単語n-gramなのでこうなります 「私の」「の名前」「名前は」「は中野」「中野です」 → ただし、文節でデータを区切るので 「私の」「名前は」「中野です」 この単位で辞書データに登録されていました 「私」が来た場合に、「の」はどれくらいの確率で来るのか? というのが辞書データに載っています
21.
Genji rc phase1の全体像 ●
辞書作成ツールを作る → 「Kasuga」 / 「Fujitsubo」 – 形態素解析器: mecab + naist-jdic ● 変換ライブラリ作成 – ローマ字→ひらがな変換 : 「aoi」 – ひらがな→漢字変換 : 「murasaki」 ● 辞書検索ライブラリ – オープンソースライブラリの「ux」を使用
22.
1. 辞書作成 「Kasuga」 – Mecab
& naist-jdic を利用して形態素解析を行い 文節単位に区切って、データをSQLiteで保存 – この際に単語n-gramの確率も保存します 「Fujitsubo」 – SQLiteで保存されたデータをGenjiで使えるように変換 – OSSライブラリuxを利用して辞書を作成します
23.
2. 変換処理 「aoi」 – ローマ字→ひらがな変換のライブラリ –
独自のTrie実装!(前に東海道と小江戸オフそれぞれで話したかも) 「murasaki」 – ひらがな→かな漢字変換のライブラリ – uxで保存されたデータを取り出して変換する(わりとえぐい実装orz
24.
OSC京都にいなかった人のために ささっと実演。 (おそらく時間ないでしょうし)
25.
Genjiの今後 OSC東京秋&KOFで「rc phase2」をリリース(予定) 「rc phase2」で入るもの: –
同音異義語対応 ※「大坂」変換問題… – 係り受け対応 ←これがメイン!!!
26.
というわけで! OSC東京秋 & KOF
を お楽しみに〜 (てか間に合うのか?)
27.
ご清聴、ありがとうございましたm(_ _)m