• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
ぼくとしりとりの約3.0*10^3日間戦争
 

ぼくとしりとりの約3.0*10^3日間戦争

on

  • 1,202 views

 

Statistics

Views

Total Views
1,202
Views on SlideShare
1,202
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as OpenOffice

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    ぼくとしりとりの約3.0*10^3日間戦争 ぼくとしりとりの約3.0*10^3日間戦争 Presentation Transcript

    • ぼくとしりとりの 約 3.0×10 3 日間戦争 ~今日、ぼくがしりとりのすべてを語り尽くす~ えりっく さーとる 2010.12/12 第 23 回 SIProp 勉強会
    • 先に言っておかなければならないこと
      • 風邪をひいている可能性
      • タイトルは釣り
      • did2memo さん尊敬してます!
      • 参加しようとしたら何故か講師側に
      • そもそも P2P に見事に関係ない
    • じゃあきみなにしにきたの
        -> 言いたいことがある
        • しりとりをナメるな
        • 東工大には 附属の高校があります
        • 高校生が研究をしようとする とこうなりますという例
        • えりっくとかいうやつが SIP とか DHT について知りたがっています←本来の目的
    • おしながき
        1.HOURDS D' OEUVRE ( 発表の前に )
        • 自己紹介とか
        • 研究3テーマの概要
        2.POTAGE ( ちょっとした研究 )
        • テーマ1:課題研究で つくったなんちゃって OS
        3.ENTHE'E ( 本日のメインディッシュ )
        • テーマ2:一番いいしりとりの研究とつくば AC
        4.SARADE ( 添え物 )
        • テーマ3:ゲーム用 自作インタプリタ
        5.DESSERT ( 締め )
        • まとめ
        • 質疑応答という名のフルボッコ
      技術の フルコース!
    • 自己紹介とか
        えりっく さーとる
      • 自称:なんちゃってプログラマ
      • 国立大学法人東京工業大学附属科学技術高等学校 科学技術科 情報・コンピュータサイエンス分野3年
      • PC 歴 10 年目だがしかしプログラミング歴 3 年目
      • Twitter やってます @siritori
      • セキュリティ&プログラミングキャンプ 2009 卒業
      • 言語
        • C, Java, Perl, Erlang, ActionScript あたり
      • 特技:しりとりとマッサージ
      • よろしくお願いします
    • 研究テーマの概要
        3つあります
        • 課題研究でつくった なんちゃって OS
        • 一番いいしりとりの研究と つくば AC
        • ゲーム用自作インタプリタ
        Q. 時系列は? A. かなりぐちゃぐちゃ
          -> ざっとあらわすと右図
        しりとりの研究は 本当に 3000 日
      年齢 できごと 11( 小 5) しりとり研究開始  HP 公開 12( 小 6) 誕生日に広辞苑もらう 13( 中 1) ひたすら語彙の充実 14( 中 2) 戦法の考察 15( 中 3) ( 受験 ) 16( 高 1) プログラミングに出会う 17( 高 2) セプキャン←関係ない 18( 高 3) しりとり bot プロトタイプ実装 課題研究開始 最長しりとりの研究 受験終了 課題研究終了 スクリプト言語の開発開始
    • 研究テーマの概要
        1. 課題研究でつくった なんちゃって OS
        • 学校の 課題研究 (≒ 卒業研究 )
        • 初めて他人とソースコードを共有
        • 共同研究初経験
        目的
          コンピュータってどうやって動いてるの? という疑問解決
        内容
          H8SX で動く OS を フルスクラッチでつくってみる
        結果-> 黒歴史 ほとんど中途半端 何がいけなかったか
        • 基本情報からやりなおしてこい
        • 班員にバリバリ書ける人が少ないのに なにもサポートをしてやれなかった
        そのかわり
        • 疑問はある程度解決
        • 進め方についてのいい反面教師
    • 研究テーマの概要
        2. 一番いいしりとりの 研究とつくば AC
        • 総研究期間約 3000 日←若干誇張
        • いくつかあるけど2つアプローチ
          • 実戦から学ぶしりとりに 勝つ方法
          • シミュレーションによるしりとりが長く続くための単語の選び方の研究
        目的
          最初:父さんに負けたくない いま:本格的な研究のプロセスを体験
        内容
          できるだけ長くしりとりを続けるようなしりとりの研究
        結果-> 大学合格できました
        • 一応それなりの成果はでた
        • けどこれよくよく考えたら 当たり前じゃないの・・・
      • まだまだ研究は続く!
    • 研究テーマの概要
        3. ゲーム用 自作インタプリタ
        • とあるきっかけでゲームを作ることに
        • コードを書きながら、システムとコンテンツは分けたいよなぁとかぼんやりと
        目的
        • ゲーム制作のスクリプターの 負荷軽減
        • せっかくだし プログラミングスキル の腕試しをしたい
        内容
          インタプリタの開発
        ※ 現在進行形。 力試しと銘打っている以上
        • あえて bision,flex の類は使いません
        • あえて C で書いてみる
        • あえて ドラゴンブックは読みません
        で、現状どうなのよ
        • 字句解析器できました
        • 変数表管理機能 (?) つけました
        • 途中で文法の変更を加えつつ構文解析器を書いている←イマココ
    • 研究テーマの概要 ざっとそんな感じのことを これからお話します
    • POTAGE : ちょっとした研究
        課題研究でつくった なんちゃって OS ~共同研究をしようとしたら~ 1. きっかけ 2. 実装したもの 3.( 困った | 悩んだ ) こと 4. 研究 () を振り返って
    • 1. きっかけ
      • 「磯野ー OS 作ろうぜー」
      • そういえば小学校のころからコンピュータの動くしくみ気になってたし、 OS 作れば理解ができるかも
      • 名前どうしよう-> MenTOS
      • 30 日でできる (ry はあえて使わない
      • そのころ話題になりだしていた トランジスタ技術 4 月増刊号 「今すぐ使える! H8 マイコン基板」
      • こ  れ  だ
      • 学校の予算で降りたので痛手なし
    • 2. 実装したもの
        全然数がない
      • マルチタスキング
        • コンテキストスイッチ
        • 循環リストを使った簡単な物
      • ファイルシステム
        • どうしても独自規格をつくってみたかった
        • ディレクトリの作成とかしか実装できてない
      • シェル
        • 関数ポインタ無双
        • ローダができてないから内部コマンドのみ
    • 2. 実装したもの
      • マルチタスキング
        • コンテキストスイッチ
        • アセンブリコード書くのは PIC マイコンの授業以来
        • えっ PIC マイコンと H8SX ってだいぶ仕様が違うのね
        • ふむふむ er7 レジスタがスタックポインタ、と。
        • デバッグ手段どうしよう-> RS232C によるシリアル通信
          • ちゃんと使えるかよく確かめずに使ったせいで1週間ほど無駄にしてしまったことがあった
          • Syuu さんに協力してもらいながらデバッグの日々
      _switch_runnable_task: mov.l er6,@-er7 mov.l er7,er6 ; save general registers stm.l er0-er3,@-sp stm.l er4-er6,@-sp ; save SP mov.l er7,@er0 ; switch SP mov.l er1,er7 ; restore general registers ldm.l @sp+,er4-er6 ldm.l @sp+,er0-er3 rts/l er6 こういうの書いてみたりしました
    • 2. 実装したもの
      • マルチタスキング
        • タスク構造体を定義してみる
        • タスクの動的追加 / 削除には至らず ( コンパイル時にタスクリング構成 )
        • 今できてるタスクスイッチの流れは?
      すべてのタスクに switch_created_taskでコンテキスト積む クロック割り込み開始 すべてのタスクに switch_created_taskでコンテキスト積む 定期的にswitch_runnable_task でタスクの切り替えをする おい、できて ねーじゃねえか!! struct mentos_task { int *sp; char state; unsigned taskID; function entry; int stack[STACK_SIZE]; struct mentos_task *next; };
    • 2. 実装したもの
        ファイルシステム
        • 普通なら FAT32 とかを実装するわけですが
        • なにを思ったかロクに調べずに独自で書いたみた。その名も「 HIJIKI 」
        • 何か専門用語あっても知らない可能性があります
        • root ディレクトリにおけるエントリ (?) の数が無限でも大丈夫
      • で、どういう実装なの
        • データ構造が2つ  hijiki_block と data_block
          • 1ファイルや1ディレクトリにつき1 hijiki_block
          • 1つの hijiki_block は 1 つ以上の data_block へのリンクをもつ
      HIJIKI-BLOCK AREA DATA-BLOCK AREA 二次記憶装置上の空間をこんなふうに使う ROOT HIJIKI-BLOCK ファイルの表し方 ディレクトリの表し方
      • ファイルシステム
        • で、どこまで実装できたの?
        • 前述のとおり「ディレクトリの追加」「ディレクトリ内一覧表示」くらい しかできていない
        • 何がいけなかったんだろう
          • 班員に作業をお願いしていない
          • お願い!難しくないからコード書こうよ!
          • 自分の問題( もっと簡単な構造体の定義できたんじゃないの )
        • そのころ班員には何を任せてたの
          • ソフトウェアキーボードとかお願いしてた
          • シェルつくってもらうようにお願いしてた
      2. 実装したもの たしかによく考えると メンバを入れ子にしすぎた感が
      • シェル
        • 班員さんが実装してくれました
        • 簡単な字句解析と引数に分ける
        • 関数ポインタを教えるのからスタート
          • 「わかった!」っていったときがすごく嬉しそう
          • あぁもっと最初からこんなかんじでつくっていればよかった
      2. 実装したもの
      • コードをそこまで書ける人がいない
        • 「人のせいにするな」
      • 時間がない
        • 夏休み中に違う研究(しりとり)やってた
      • そもそもOSのしくみをあまりにも知らなさ過ぎる
        • 勉強しながらはやっぱり時間がかかった
      3.( 困った | 悩んだ ) こと
      • syuuさん本当にありがとうございました
      • 今どの班員が何をやっているのか、どれくらい進んでいるのかを把握しなきゃいけない(googleカレンダー、掲示)
      • なんでもかんでも教えるんじゃなくて、「何を参照すればわかる/学習できるのか」を伝えるべきだった
      • Dropboxはこういうときかなり使える
      • 予定を立てずになんとかなるだろ精神はやっぱり良くなかった
      • 将来仕事するようになったときが心配になった
      4. 研究を振り返って
    • ENTHE' E: 本日のメインディッシュ
        一番いいしりとりの研究 とつくば AC ~研究をして論文を書こうとしたら~ 1. きっかけ 2. 高校入学前の実績 3. 長く続くしりとりに挑戦 4. 論文 () を書いてつくばに 凸してみた 5. 研究を振り返って
    • 1. きっかけ
      • 高校入学前の研究動機
        • 小学校5年の夏休みに父と北海道へ
        • 北海道は広い->暇になる->Let's Shiritori
        • ぼろ負け->くやしい
      • 高校入学後の研究動機
        • しりとりbotを作ってみた←趣味
        • わりとアルゴリズムがひどい
        • できるだけ相手と一緒にしりとりを長く続ける ようにアルゴリズムを工夫したい
    • 2. 高校入学前の研究実績 しりとりとかwwwww どうせ単語たくさん知ってるほうが勝つんでしょ 甘い。 単語の分布の把握 単語の頻出度 心理状態 単語の探しかた ここで説明 次で説明
    • 3. 長く続くしりとりに挑戦
        Q.協力して長くしりとりを続けるためには?
        既存の研究をCiNiiさんで探してみた
        • 大きく分けて2件ヒット
          • しりとりゲームの数理的解析
          • 最長しりとり問題の解法
        • とりあえず読んでみる
          • ぐらふりろん?いろいろ見てみたけどよくわからない
          • ->困ったときのTwitter
        • 問題点があった
          • このアルゴリズムはしりとりbotに適用できない
    • 3. 長く続くしりとりに挑戦
        ごちゃごちゃやる前にしりとりのルールの定義
      お互いで共有する、ゲームに使っていい語彙の 辞書 をもつとする
      • 相手が言った最後の文字から始まる単語を辞書から選ぶ
      • 一回使った単語はもう使えない
      • 最初の文字はランダムとする
      • 最後の伸ばす記号「ー」は消す、拗音「ゃ」とかは大きく
      • 選べる単語がなくなった時点で終了
      • 「ん」で終わりはないものとする
      • やりとりをした回数を 「しりとり長」 とする
      • これを指定された辞書の単語をできるだけ使って 長くつづけるには?
      •               ->しりとりの数理モデル化をしてみる
    • 3. 長く続くしりとりに挑戦 あ す る ま 1 1 2 1  3  2  1 2
    • 3. 長く続くしりとりに挑戦 文字を頂点とし、 c とおく。 文字 c の集合 {c1, c2, c3, ...} を V とする C1 C2 C3 C4
    • 3. 長く続くしりとりに挑戦 頂点 a から b に伸びる 有向辺を Xab と定義し、 これを「 a から始まって b で終わる単語群」とする またこの集合を A とする Xab Xbc Xba Xac a c b
    • 3. 長く続くしりとりに挑戦 頂点 a から b に伸びる 有向辺を Xab の重みを Fab とし、これを「 a から始まって b で終わる単語の数」とする またこの集合を W とする Fab Fbc Fba Fac a c b
    • 3. 長く続くしりとりに挑戦 仮説とか立ててみた
    • 3. 長く続くしりとりに挑戦
        ここでいうIterator αとは?
        • 現在の頂点 から 次の頂点 を見つける関数
        • 単語の分布から次に どの頂点に行くかを判断
        • アルゴリズムを2つ考えてみた
    • 3. 長く続くしりとりに挑戦
        Iteratorα 0 :Foolish method
        • 現在の頂点から伸びる有向辺のうち一番重い枝 をもつ頂点を次の頂点とする
        • 真っ先に思いついた
      p Fpa Fpb Fpc
    • 3. 長く続くしりとりに挑戦
        Iteratorα 1 :Method of valuing weight of next
        • 言葉にできない
        • パラメータnをとります
      p
    • 3. 長く続くしりとりに挑戦
        よし仮説が正しいか確かめてみよう -> 実験してみた!
      • 実験の前にしなきゃいけないこと
        • しりとりするのに必要な膨大な名詞のデータ
        • アルゴリズムを記述するためのプログラミング言語
        • 名詞のデータをプログラムで扱う形に変換
    • 3. 長く続くしりとりに挑戦
        名詞データを探して
        • 参考文献では形態素解析によく使われたりする ICOT辞書を使っていた
        • とはいえこれは過去の話。もう手に入らなかった
        • ということで巷の形態素解析用辞書を捜し回る
          • IPA-jdic 79610words
          • NAIST-jdic 130503words
          • UniDic 100588words
        • 規模は違うものの、単語の分布の割合は同じであろうとここで推測(規模が違うだけ)
        • これらをPerlで変形していく(結構時間がかかった)
    • 3. 長く続くしりとりに挑戦
        プログラミング言語どうするの
        • 結論からいうとErlangを選びました
        • なんでお前Erlang知ってるん->daikiくん・・・
        • なんでよりによってErlang
          • アルゴリズムを簡潔に書きたいから関数型言語がいいな
            • すでに知っている言語はErlangしかなかった
          • AC 入試の締切りまで時間がない、複数の実験を CPU のコアいっぱいつかってできるだけ速く計算したい
            • Erlangのプロセスがいいかもしれない
        • 正直別にErlangである必要はなかったかもしれない けど、目的はかなり簡単に達せられたしいいかなと
    • 3. 長く続くしりとりに挑戦 前置きいいからさっさと結果報告しろよ -> ( しりとり長 )/( 辞書単語数 )*100 でしりとられ率だしてみた Iterator0 Iterator1 IPA 8.23 48.40 NAIST 6.25 50.30 UniDic 5.93 50.06 半分を超えること ができた!!! ちなみに: 既存の研究とほぼ同じ成果
    • 4. 論文 () 書いてつくばに凸してみた
      • せっかくここまでやってみたし報告書でも書くか
      • TeXで書いてたら論文っぽくしたくなったので フォーマットを論文のようにしてみた
      • 先生からダメだし 「お前は主語がない」
      • あぁなるほど、 主語を入れれば いいんですね
      • というわけで ぐちゃぐちゃな 英語で書いて みました
    • 4. 論文 () 書いてつくばに凸してみた
      • どきどきしながら通知を待つ ->  一次審査通過
      • いざ二次審査
      • 面接が30分 20分しりとりについて語ることができた
      • 話し足りない・・・
      • 結果->合格しました
    • 5. 研究を振り返って
      • あぁ、これ Twitter なかったらうまくいかなかったな
      • ところでこれってよくよく考えると 当たり前な実験結果な気がしなくもない
      • 満足できない
      • 単語と単語の意味的な距離をつかって、もっと人間に優しく連想させるためのシステムが作れないだろうか
      • あ、ごめんなさいしりとり webAPI とか まだできてません
    • SARADE: 添え物
        ゲーム用自作インタプリタ ~実装しながら仕様を確定していったら~ 1. きっかけ 2. どういう言語にしようか 3. 変わる変わる文法 4. 実装できた部分 5. これからどうしよう
    • 1. きっかけ
      • 「磯野ーゲームつくろうぜー」
      • ぼくはゲームシステム担当
      • シナリオ担当とかはまた別の人
        • ->システムとコンテンツを分けたい
      • イベント(宝箱見つけたとか)を外部に置いておいて実行時に読み込みたい
      • .dllはなんか負けた気がして
      • じゃあスクリプト言語作ろう
    • 2. どういう言語にしようか
      • ほとんどは式にする(評価できる)
      • 構文解析の手間をできるだけ省くためにできるだけ前置記法を全面に採用していく感じで
      • 曖昧な文法はなんか難しい構文解析が必要になってくるのでパス!使えるようになればいい!
      • lambdaとかよくわからないので関数を式にするまでには至らなくていい
    • 3. 変わる変わる文法
      • 作っている途中で「あっここの文法が曖昧だ」とか気づく
      • 無理やり実装しようとしないで(ここらへんがヘタレ)逆に文法の方を変更しちゃった
      • でも意外とこのやりかたはうまくいったようで、事前知識ほぼ0の状態から3日で字句解析・構文解析のところまで実装とかができた
      • 仕様の簡素化は大事なんだなぁと
    • 4. 実装できた部分
      • 字句解析器
        • 数値 予約語 演算子 文字列 を認識
      • 構文解析器
        • If文とかlet文とかできてきてた
      • 変数管理表
        • チェインでつないでスコープの実現とかを
    • 4. これからどうしよう
      • 構文解析器を早く完成させよう
      • 意味解析(簡単な型チェック)
        • 末尾再帰の検出ができたらいいなー
      • ゲームシステムへのマージ
      • スクリプターに使ってもらってフィードバックをもらう
      • 早いうちからレビューもらったほうが いいかもしれない
    • DESSERT: 締め
      • まとめ
        • しりとりをナメるな
        • 東工大には 附属の高校があります
        • 高校生が研究をしようとする とこうなりますという例
        • えりっくとかいうやつが SIP とか DHT について知りたがっています
    • DESSERT: 締め
        質疑応答という名のフルボッコ
    • DESSERT: 締め
        ご清聴ありがとうございました
      • お次は・・・ 中学生による 中学生でもわかる リーマン予想の最前線