Your SlideShare is downloading. ×
OmegaT プレゼンテーション 2012
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

OmegaT プレゼンテーション 2012

2,707

Published on

2012/6/29 に行われたダブリン計算言語学研究セミナーにおける Didier Briel 氏の発表資料日本語訳です。オリジナル (PDF) は http://www.didierbriel.com/news/dclrs.html より入手可能です。日本語版作成に当たり、PDF の埋め込みフォントには Migu 1P (http://mix-mplus-ipa.sourceforge.jp/) …

2012/6/29 に行われたダブリン計算言語学研究セミナーにおける Didier Briel 氏の発表資料日本語訳です。オリジナル (PDF) は http://www.didierbriel.com/news/dclrs.html より入手可能です。日本語版作成に当たり、PDF の埋め込みフォントには Migu 1P (http://mix-mplus-ipa.sourceforge.jp/) を使用させていただきました。ありがとうございました。

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,707
On Slideshare
0
From Embeds
0
Number of Embeds
8
Actions
Shares
0
Downloads
11
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. OmegaT ダブリン計算言語学研究セミナー Didier Briel 2012年6月 この文書は、原著者 Didier Briel の許諾を得て、Yu Tang が翻訳・公開するものです。著作権は Didier Briel が保有しています。査読協力 Jean-Christophe Helary (感謝!)。 Original document in English, copyright Didier Briel
  • 2. 目次• OmegaT のワークフロー• 主要機能• プラグイン• 対応可能なファイル形式• 他の翻訳支援ソフトとの互換性• OmegaT プロジェクト• 入手方法• サポート ダブリン計算言語学研究セミナー 2012年6月
  • 3. OmegaTOmegaT のワークフロー 主な特徴 ファイルの翻訳 実演
  • 4. OmegaT のワークフロー 主な特徴• 完全なスタンドアロン – 外部のソフトウェア(たとえば Microsoft Office)がインス トールされているかどうかに、まったく依存しない• Java 1.5 以上に対応するすべてのプラットフォーム上で動 作• 中間形式ファイル不要 – 準備不要 • インポートまたは変換 – 「後始末」不要 – プロジェクトの変更(文書の追加/変更/削除)は動的に即時反 映• データベース不要 – すべてのデータはメモリ上で処理される – 非常に高速 – データ量には制限あり• 翻訳の自動反映(Automatic propagation) ダブリン計算言語学研究セミナー 2012年6月
  • 5. OmegaT のワークフロー ファイルの翻訳• プロジェクトを新規作成• もし必要であれば、原文ファイルを変換• 用語集と翻訳メモリをインストール(フ ァイルコピー)• 翻訳• 訳文ファイルを生成• もし必要であれば、訳文ファイルを変換 ダブリン計算言語学研究セミナー 2012年6月
  • 6. OmegaT 主要機能RTL と bidi 対応
  • 7. コンセプト 主要機能• 参考訳文• 翻訳の自動反映(Automatic propagation)• 用語集• プロジェクトや参照している翻訳メモリ、文書を対象とした 検索• プロジェクト内にフォルダーやファイルを無制限に配置可能• 右から左への横書き(RTL)および文字表記方向混在(bidi) 入力• タグ検証(妥当性検証)• 綴り確認(Hunspell または JMySpell)• 国語および多国語辞書(StarDict または Lingvo DSL 形式)• 機械翻訳(Google Translate, Apertium, Belazar) ダブリン計算言語学研究セミナー 2012年6月
  • 8. コンセプト 主要機能: RTL と bidi 対応• 翻訳支援ツールには LTR と RTL 言語の混在表示が求められる – 英語からアラビア語へ – ヘブライ語から英語へ• OmegaT は分節の表示方向を自動的に切り替える – 各分節の先頭にある Unicode マーカーで表示方向を設定 – 向きは手動で指定することも可能(Shift+Ctrl+O)• RTL 言語の分節の途中で、LTR への切り替えが必要な場合がある – 外国語の名前 – 電話番号• José García-Verdugo(スペイン、カスティーリャ・ラ・マンチ ャ大学 アラビア語-スペイン語教師) – ”わたしは OmegaT を選びました。右から左方向へ、そして左から右 方向への表記をうまく処理してくれたからです。完璧というわけでは ありませんが、実際のところ多くの高価な商用製品よりも、はるかに 良かったのです ” – http://tech.groups.yahoo.com/group/OmegaT/message/19344 ダブリン計算言語学研究セミナー 2012年6月
  • 9. OmegaT プラグインライセンスの互換性 アーキテクチャ スタブ利用可能なプラグイン トークナイザー スクリプト
  • 10. プラグイン ライセンスの互換性• 主として法的な理由により、プラグインは OmegaT 本体と別個に配布されている – OmegaT のライセンスは、ライブラリに JAXB を含むた め、厳格な GPL v2 – 多くのプラグインは Apache コンポーネントを利用して いる – Apache ライセンスは GPL v2 と矛盾する – Apache ライセンスは GPL v3 と矛盾しない – OmegaT のごく一部(スタブ )は GPL v3 で再ライセン スされている • これが可能なのは、OmegaT のソースコードに次のように 書かれているから ライセンスはバージョン 2 か、あるいは(必要なら)それ よりも後のバージョンを適用 ダブリン計算言語学研究セミナー 2012年6月
  • 11. プラグイン ライセンスとの互換性• GPL v3 と矛盾しないライセンスなら、プラ グインで利用可能 – Apache ライセンス – 修正 BSD ライセンス • 三条項 BSD ライセンス – … – http://www.gnu.org/licenses/license-list.ja.html #GPLCompatibleLicenses• GPL と相容れない一部のライセンス(たとえ ば BSD)は、他のソフトウェアに同梱される ときに、ソースコードの配布を必要としない – 寛容な非コピーレフト(Permissive non-copyleft) ダブリン計算言語学研究セミナー 2012年6月
  • 12. プラグイン アーキテクチャ• 外部プラグインは実行時に plugins フォルダー から読み込まれる• プラグインは主にインターフェイスを介して OmegaT と連携する。これらのインターフェイ スを参照するために、スタブ が必要になる• スタブ は「空」のソースコードで、必要なオブ ジェクトとメソッドの宣言のみを含む• 実行時に、これらの空のメソッドは実物と置き 換えられる• プラグインの作り方は、OmegaT のソースの docs_devel フォルダに文書化されている – サンプル プラグイン プロジェクト一式を含む ダブリン計算言語学研究セミナー 2012年6月
  • 13. プラグイン 利用可能なプラグイン• OmegaT 製 – LanguageTool • 言語構文チェック – トークナイザー • 参考訳文と用語集の認識精度向上 – スクリプト • OmegaT 内でスクリプトの実行を可能に• サードパーティー製 – Okapi • ファイルフィルターの追加 • http://www.opentag.com/okapi/wiki/index.php?title=Okapi_Filters _Plugin_for_OmegaT – Glossum • オンライン用語集 • http://www.glossum.com/omegat ダブリン計算言語学研究セミナー 2012年6月
  • 14. プラグイン トークナイザー• トークナイザーは Lucene (Apache) を使って開発• 24 種類の言語で利用可能 – Lucene 2.9.0 に基づく• OmegaT はこれを3つの目的で使用 – トークン(字句)の解析 • 綴り確認の性能改善 • CJK 言語における “ 単語” 認識の性能改善 – 参考訳文からストップワード を排除 – 見出語(lemmas)の解析 • 参考訳文と用語集の両方で使用 • 一部の言語では利用できない – チェコ語 • ストップワードのみ – 中国語、日本語、韓国語(CJK ) • 字句解析のみ ダブリン計算言語学研究セミナー 2012年6月
  • 15. プラグイン スクリプト• OmegaT のメモリ上に保持されているデータを操作できる• グラフィカルなインターフェイスや対話式の機能を作成でき る• 初期状態で多くのスクリプト言語を使用可能 • NetRexx • XSLT • Groovy • JavaScript – 他のスクリプト言語も簡単に追加できる • Jacl (Tcl/Tk) • Jython (Python)• サンプルスクリプトを同梱 – 検索と置換 – スクリプトによる GUI 作成 – … ダブリン計算言語学研究セミナー 2012年6月
  • 16. OmegaT対応可能なファイル形式 ネイティブ形式 Okapi プラグイン カスタム コーディング Okapi Rainbow
  • 17. 対応可能なファイル形式 ネイティブ形式• 文書用ファイル形式 – プレーンテキスト(ユニコードを含む、Java が対応する全エンコー ディング) – (X)HTML(Web サイトのディレクトリ構成をそのまま保持できる) – StarOffice、OpenOffice.org、LibreOffice および OpenDocument – Open XML(Microsoft 2007/2010) – ヘルプとマニュアル – HTML Help コンパイラ – LaTeX – DokuWiki – CopyFlow Gold for QuarkXPress – DocBook – Typo3 LocManager – Iceni Infix (PDF) – XLIFF source = target – TXML Wordfast source = target ダブリン計算言語学研究セミナー 2012年6月
  • 18. 対応可能なファイル形式 ネイティブ形式• 地域化用ファイル形式 – Android リソース – Java リソースバンドル – 「キー=値」 形式ファイル – Mozilla DTD – Windows リソース(RC) – WiX ローカリゼーション – ResX – Flash の XML 出力 – Windows 用 Camtasia – Magento CE locale CSV – PO(Portable Object File)(既存の翻訳も取り込み) – SubRip 字幕形式(SRT) – SVG 画像 ダブリン計算言語学研究セミナー 2012年6月
  • 19. 対応可能なファイル形式 Okapi プラグイン• InDesign IDML• JSON• Qt TS• Trados TagEditor TTX (既存の翻訳も取り込み)• Transifex プロジェクト• Wordfast Pro TXML(ベータ版)(既存の翻訳も取り 込み) ダブリン計算言語学研究セミナー 2012年6月
  • 20. 対応可能なファイル形式 カスタム コーディング• ソースコードを少し変更するだけでファ イルフィルターを作成できる• 手順は文書化済み – http://www.omegat.org/en/howtos/new _filter.html• 特定の XML フィルターを作るのがあま りにも簡単なので、汎用の XML フィル ターは存在しない ダブリン計算言語学研究セミナー 2012年6月
  • 21. 対応可能なファイル形式 Okapi Rainbow• Okapi Rainbow は OmegaT 用のプロジ ェクトファイルを生成できる。さらに… – ファイルフィルターの追加 • 追加できるファイル形式 – MIF (Adobe FrameMaker) • 形式によっては既存の翻訳も取り込む • 汎用の XML フィルター • タグによる翻訳用テキスト指定 – ITS (Internationalization Tag Set) – 機械翻訳による事前翻訳 ダブリン計算言語学研究セミナー 2012年6月
  • 22. OmegaT他の翻訳支援ソフトとの互換性 翻訳メモリ 二ヶ国語文書 用語集
  • 23. 他の翻訳支援ソフトとの互換性• 翻訳メモリ – 翻訳メモリの個数は無制限 – TMX バージョン 1.4b レベル 1 および 2 に対応 • 取り込み • 出力 – テキストの整形情報は、書式用プレースホルダーとして保持される• 二ヶ国語文書(unclean documents とも呼ばれる) – PO – XLIFF(Rainbow 経由で既存の翻訳も取り込める) – TTX(Okapi プラグイン 経由) – TXML(Okapi プラグイン 経由で既存の翻訳も取り込める)• 用語集 – 用語集の個数は無制限 – 用語集は、複数のファイル形式に対応 • TSV(タブ区切り) • CSV(カンマ区切り) • TBX (TermBase eXchange) – 書き込み可能な用語集は一種類だけ • TSV 形式のみ ダブリン計算言語学研究セミナー 2012年6月
  • 24. OmegaTOmegaT プロジェクト 沿革史 スタッフ 理念 普及率 資金調達
  • 25. OmegaT プロジェクト 沿革史• 開発を開始 – 2000年 C++ で書かれた• 最初の一般公開 – 2001年 Java で書かれた• 文単位の分節化 – 2005年 OmegaT 1.6 から• 綴り確認機能 – 2008年 OmegaT 1.8 から• 参考訳文のオンデマンド照合による、プロジェクトの「瞬間」読 み込み – 2009年 OmegaT 2.0 から• 最初のプラグイン – 2009年 OmegaT 2.0 から• 複数訳文が可能に – 2011年 OmegaT 2.5 から• チームプロジェクト – 2012年 OmegaT 2.6 から ダブリン計算言語学研究セミナー 2012年6月
  • 26. OmegaT プロジェクト スタッフ• 最初の開発者 – Keith Godfrey(アメリカ/イギリス)• プロジェクト責任者 兼 ウェブサイト管理者 – Marc Prior(ドイツ)• 過去の開発担当 – Maxym Mykhalchuk(イタリア/ウクライナ) – Henry Pijffers(オランダ)• 現在の開発チーム – 開発担当 • Didier Briel(フランス) – 開発リーダー • Alex Buloichik(ベラルーシ)• 地域化担当 兼 ユーザーグループオーナー – Jean-Christophe Helary(日本)• 文書化担当 – Vito Smolej(ドイツ) ダブリン計算言語学研究セミナー 2012年6月
  • 27. OmegaT プロジェクト 理念• OmegaT は非公式の組織 – 法律的な組織の実体を持たない• ユーザーからの協力を求めている – プログラミングのスキルは要求されない • 翻訳 • チュートリアル ビデオの作成 • 地域の翻訳者コミュニティに対する啓蒙活動 •… ダブリン計算言語学研究セミナー 2012年6月
  • 28. OmegaT プロジェクト 普及率• 正確な統計は存在せず – OmegaT は使用状況を追跡していないため• 2010 年の調査によると – Wordfast、Deja Vu、MemoQ ユーザーの 1/3、また最も利用されている Trados ユー ザーの 1/8 が OmegaT を使用している(出 典: Wikipedia) – http://www.translationtribulations.com/ 2010/07/results-of-june-translation- tools.html ダブリン計算言語学研究セミナー 2012年6月
  • 29. OmegaT プロジェクト 普及率: ダウンロード数• Sourceforge 利用開始以来のダウンロー ド数• Java Webstart の利用は加算されていな い ダブリン計算言語学研究セミナー 2012年6月
  • 30. OmegaT プロジェクト 資金調達• OmegaT プロジェクトにおける作業のほと んどがボランティアによる• 寄付は歓迎 – OmegaT プロジェクトはそれを特定の目的に使 用する • 開発リーダーのための Mac 購入予算 • その他開発経費• 開発してほしい機能があれば、そのスポン サーになる方法もある – 開発チームは、機能仕様とその開発費について スポンサーと打ち合わせをする ダブリン計算言語学研究セミナー 2012年6月
  • 31. OmegaT 入手方法ダウンロード/Java Webstart ソースコード
  • 32. 入手方法 ダウンロード/Java Webstart• OmegaT は2つのバージョンが提供されている – 通常版 (Standard) • 取扱説明書完備(少なくとも英語版で) – 最新版 (Latest) • 新機能の取扱説明は無し • 新機能は安定性にやや欠ける• 4つのプラットフォーム向け – Windows – Linux – 汎用(Java アーカイブのみ) – Mac• Java Runtime Environment 付きと JRE 無し• さらに、OmegaT は Java Webstart からも使える – インストール不要(ユーザーの観点から) – アップデート版は自動更新 – プラグインは使えない• 全バージョンが omegat.org からダウンロード可能• プラグインは別のウェブサイトにある – https://sourceforge.net/projects/omegat-plugins/ ダブリン計算言語学研究セミナー 2012年6月
  • 33. 入手方法 ソースコード• 全リリース分のソースコードが提供されている• /trunk ソースを公開 – Subversion • svn co https://omegat.svn.sourceforge.net/svnroot/omegat/ trunk omegat – Tarball • http://omegat.svn.sourceforge.net/viewvc/omegat/?v iew=tar• プロトタイプはときどき Git で公開 – http://omegat.git.sourceforge.net/git/gitweb.c gi• プラグインの /trunk ソースは Git で公開 – http://omegat- plugins.git.sourceforge.net/git/gitweb-index.cgi ダブリン計算言語学研究セミナー 2012年6月
  • 34. OmegaT サポートユーザーおよび開発者向けサポート バグおよび機能拡張トラッカー コントリビューション
  • 35. サポート ユーザーおよび開発者向けサポート• ユーザー向けメーリングリスト – http://groups.yahoo.com/group/omegat – 1750 メンバー(訳注:2012/10 時点で 1800 人超) – 24 時間 365 日活動 – 英語中心だが、他の言語(日本語、ロシア語、ドイツ語、 フランス語等)でもサポートを受けられる – 母国語での投稿を推奨• 開発者およびパワーユーザー向けメーリングリスト – https://sourceforge.net/mailarchive/forum.php?foru m_name=omegat-development – 125 メンバー – 英語 – 技術的な話題 ダブリン計算言語学研究セミナー 2012年6月
  • 36. サポート バグおよび機能拡張トラッカー• バグレポート – https://sourceforge.net/tracker/?group_id=68 187&atid=520347 – 2002 年 11 月以来、500 件のバグが報告 – 2012/6/13 時点で 47 件がオープン – オープンで最古は、2006 年 7 月のバグ• 機能拡張リクエスト(RFE) – https://sourceforge.net/tracker/?group_id=68 187&atid=520350 – 2002 年 11 月以来、795 件のリクエストが登録 – 2012/6/13 時点で 340 件がオープン – オープンで最古は、2004 年 6 月のリクエスト ダブリン計算言語学研究セミナー 2012年6月
  • 37. サポート コントリビューション• 実際にコントリビューションを送る前に、それについて話し 合う機会を持つと有益 – 機能拡張リクエストを送る – ユーザー向けメーリングリストで話し合う – 開発者向けメーリングリストで話し合う – 開発担当に非公開で相談する• Subversion へのコミット権限を持つのはコア開発者だけ• コントリビューションは開発担当へ送る• 受け付けるもの – Zip 圧縮ファイル • パッチ • 変更した全ソースファイル • 必要であればテストデータも – パッチの目的の説明 ダブリン計算言語学研究セミナー 2012年6月

×