Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Open bio2004 biopython

396 views

Published on

This is an ancient introduction slides on BioPython, presented at GIW2004.

Published in: Science
  • Sharpen your mind with brain pill. learn more info..  https://tinyurl.com/brainpill101
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

Open bio2004 biopython

  1. 1. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 BiopythonBiopython とと PythonPython のご紹介のご紹介 Yasushi MASUDAYasushi MASUDA ymasuda at cubelab.comymasuda at cubelab.com
  2. 2. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 プログラミング言語プログラミング言語 PythonPython – (Perl(Perl やや RubyRuby のようなのような )) スクリプト言語スクリプト言語 – 19901990 年ごろから開発,安定したリリース年ごろから開発,安定したリリース – トリッキーな言語機能より読みやすさ優先トリッキーな言語機能より読みやすさ優先 – C/C++C/C++ ライブラリの組み込みが容易ライブラリの組み込みが容易 – (( 最近は最近は )) 和文ドキュメントが充実している和文ドキュメントが充実している Python Home http://python.org/ PyJUG (Japanese UG) http://python.jp/ def xpdlist(fname): f = open(fname, 'r') ret = [] for i in f.readlines(): si = i.strip() if len(si)>0: ret.append(si) return ret
  3. 3. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 バイオインフォマティクスとバイオインフォマティクスと Python (1/3)Python (1/3)  日々の雑用をこなす日々の雑用をこなす – csvcsv ,, XMLXML データの読み書きデータの読み書き (csv, xml)(csv, xml) – パーザの構築パーザの構築 (formatter, re)(formatter, re) – ディレクトリツリー単位の反復処理,ディレクトリツリー単位の反復処理, zip/tarzip/tar の読み書きの読み書き (os.path, zipfile, tarfile)(os.path, zipfile, tarfile) – HTTPHTTP やや FTPFTP からの反復ダウンロードからの反復ダウンロード (urllib, ftplib)(urllib, ftplib)
  4. 4. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 バイオインフォマティクスとバイオインフォマティクスと Python (2/3)Python (2/3)  DBDB サービスの構築サービスの構築 – DBMSDBMS (PostgreSQL(PostgreSQL ,, MySQLMySQL ,, OracleOracle ,, etc...)etc...) やや ファイルベースファイルベース DB (Access, FileMaker)DB (Access, FileMaker) の操の操 作作 CGICGI インタフェースの開発インタフェースの開発 (cgi, httpserver)(cgi, httpserver) XPAK (appeared in GIW2000, Python+PostgreSQL+Python Imaging Library)
  5. 5. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 バイオインフォマティクスとバイオインフォマティクスと Python (3/3)Python (3/3)  データの解析や表示データの解析や表示 – CC ライブラリでの数値計算ライブラリでの数値計算 (Numeric/numarray)(Numeric/numarray) – 画像処理/グラフ化画像処理/グラフ化 (PIL,(PIL, matplotlib etc)matplotlib etc) – クロスプラットフォームなクロスプラットフォームな GUIGUI アプリケーションのアプリケーションの 開発開発 (Tkinter, PyQt, wxPython,(Tkinter, PyQt, wxPython, etc.)etc.)Spherical Som visualization (Python+ wxPython+VTK, not published) BL-SOM visualization (Python +Tk+ DDBJ ClastalX, not published)
  6. 6. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 BioPythonBioPython プロジェクトプロジェクト Jeffrey Chang, Andrew DalkeJeffrey Chang, Andrew Dalke (Aug 1999)(Aug 1999) The Biopython ProjectThe Biopython Project (http://www.biopython.org/) is a(http://www.biopython.org/) is a new open collaborative effort tonew open collaborative effort to developdevelop freely available Python libraries and applicationsand applications thatthat address the needs of currentaddress the needs of current and future work inand future work in bioinformatics, includingbioinformatics, including sequence analysissequence analysis,, structuralstructural biologybiology,, pathwayspathways,, expressionexpression datadata, etc., etc. Biopython project http://www.biopython.org/
  7. 7. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 BiopythonBiopython の機能の機能 (1/2)(1/2)  配列情報の操作配列情報の操作 – 相補鎖,転写,翻訳相補鎖,転写,翻訳  データファイルの解釈データファイルの解釈 – CDD, ECell, EMBL, Enzyme, FASTA, GenBank,CDD, ECell, EMBL, Enzyme, FASTA, GenBank, NCBI Geo, Gobase, MASE, MetaTool, InterPro,NCBI Geo, Gobase, MASE, MetaTool, InterPro, Kabat, KEGG, LocusLink, NBRF/PIR, Affymetirx Cel,Kabat, KEGG, LocusLink, NBRF/PIR, Affymetirx Cel, NDB, PDB, Prosite, Rebase, SAF, SwissProt, etc..NDB, PDB, Prosite, Rebase, SAF, SwissProt, etc..  WebWeb サービスへのアクセスサービスへのアクセス – NCBI (Entrez, BLAST, PubMed), Swiss-Prot, ExPASyNCBI (Entrez, BLAST, PubMed), Swiss-Prot, ExPASy  スタンドアロンプログラムへのアクセススタンドアロンプログラムへのアクセス – BLAST, Clustalw, EMBOSS, SVM etc...BLAST, Clustalw, EMBOSS, SVM etc...
  8. 8. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 BiopythonBiopython の機能の機能 (2/2)(2/2)  汎用の解析アルゴリズ汎用の解析アルゴリズ ム実装ム実装  GA, HMM, k-Means, k-GA, HMM, k-Means, k- NN, naive Bayes, ANN,NN, naive Bayes, ANN, pairwise alignment, SVDpairwise alignment, SVD  お絵かきツールお絵かきツール – Cromosome, PathwayCromosome, Pathway  SQL DBSQL DB との連携との連携 – BioSQL: BiopythonBioSQL: Biopython のオのオ ブジェクトをブジェクトを DBDB 化化 0 1
  9. 9. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 いいところばかりではありませんいいところばかりではありません  ドキュメントの整備がいまひとつドキュメントの整備がいまひとつ – 各機能の説明がソースコードにしかない各機能の説明がソースコードにしかない – 入門者向けの機能網羅的な文書がない入門者向けの機能網羅的な文書がない ⇒⇒   もっとドキュメントの充実と整理を!もっとドキュメントの充実と整理を!  コア開発者のアクティビティコア開発者のアクティビティ – 進学,就職などで手が離せない進学,就職などで手が離せない (( らしいらしい )) – メンテナンスの停止しているモジュールがあるメンテナンスの停止しているモジュールがある ⇒⇒   現在,メンテナンス体制を見直し中現在,メンテナンス体制を見直し中
  10. 10. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 情報源とコミュニティ情報源とコミュニティ  公式ページ公式ページ – http://www.biopython.org/http://www.biopython.org/ – ダウンロード,マニュアルなどダウンロード,マニュアルなど  メイリングリストメイリングリスト – ユーザユーザ : biopython@biopython.org: biopython@biopython.org – 開発開発 : biopython-dev@biopython.org: biopython-dev@biopython.org  和訳マニュアル和訳マニュアル – http://www.cubelab.com/ymasuda/python/biopython/http://www.cubelab.com/ymasuda/python/biopython/ – 坂井俊哉氏,石田貴士氏,増田により翻訳坂井俊哉氏,石田貴士氏,増田により翻訳 – 日本語のメイリングリスト,コミュニティページ日本語のメイリングリスト,コミュニティページ ...... はまだはまだ (( 必要ですか?必要ですか? ))
  11. 11. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 まとめまとめ  BiopythonBiopython には魅力的な機能が一杯ですには魅力的な機能が一杯です ..  ぜひぜひ BiopythonBiopython にトライしてみてくださにトライしてみてくださ い.い.  BiopythonBiopython はは あなたを求めていますあなたを求めています !!!!!!
  12. 12. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 例題例題 (1/2)(1/2) from Bio.WWW import NCBI # NCBI にクエリを出す res = NCBI.query('Search', 'PubMed',   term='BioPython',doptcmdl='Summary') # 結果を読み出してファイルに保存 of = open('outfile.html', 'wb') of.write(res.read()) of.close() # ブラウザで表示 import webbrowser webbrowser.open('outfile.html')
  13. 13. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 例題例題 (2/2)(2/2) ['15336256', '15221224', '15210717', '15186836', '15161048', '15141082', '15133320', '15133034', ... '6263546', '7426031', '6774736', '229857', '4992780', '5273780'] ['Saito A', 'Doi Y', 'Tanaka A', 'Matsuura N', 'Ubukata M', 'Nakajima N'] Systematic synthesis of four epicatechin series procyanidin trimers and their inhibitory activity on the Maillard reaction and antioxidant activity. Bioorg Med Chem 2004 Sep 15;12(18):4783-90. ['Ihara N', 'Kurisawa M', 'Chung JE', 'Uyama H', 'Kobayashi S'] Enzymatic synthesis of a catechin conjugate of polyhedral oligomeric ... from Bio.PubMed import Dictionary, search_for # カテキン合成を PubMed でサーチ entries = search_for('catechin synthesis') print entries from Bio.Medline import RecordParser # Medline エントリのパーザを作成 recparser = RecordParser() # 最初の 10 件について, 3 秒ごとにクエリを出し,サーチ結果をパーザで解析して, # 著者,タイトル,出典を表示 rdict = Dictionary(delay=3.0, parser=recparser) for e in entries[:10]: record = rdict[e] print record.authors, record.title, record.source
  14. 14. Open-Bio BOF 2004 at GIW2004Open-Bio BOF 2004 at GIW2004 Acknowledgements and CopyrightsAcknowledgements and Copyrights  資料中に使われているクリップアートワークは,資料中に使われているクリップアートワークは, MicrosoftMicrosoft OfficeOnlineOfficeOnline クリップアートコレクションをもとに作成しました.クリップアートコレクションをもとに作成しました. 使用条件については使用条件については http://office.microsoft.com/clipart/http://office.microsoft.com/clipart/ をご覧くださいをご覧ください ..  その他クリップアートを使わない図形や写真,および本文テキストその他クリップアートを使わない図形や写真,および本文テキスト の著作権は増田泰の著作権は増田泰 (ymasuda at ethercube.com)(ymasuda at ethercube.com) に帰属し,以下のに帰属し,以下の 条件で再配布および改変を認めます.条件で再配布および改変を認めます.Copyright Notice Copyright Yasushi Masuda, 2004 All Rights Reserved Permission to use, copy, modify, and distribute this product for any purpose and without fee is hereby granted, provided that above copyright notice and this permission notice is attached with every copies or distributions. Disclaimer Yasushi Masuda (the author hereafter) disclaims all warranties with regard to this product, including all implied warranties of merchantability and fitness, in no event the author shall be liable for any special, indirect or consequential damages or any damages whatsoever resulting from loss of use, data or profits, whatever in an action pf contract, negligence or other tortious action, arising out of or in connection with the use or derivation of this product. The author makes any warranty, express or implied, or assumes any liability or responsibility for the accuracy, completeness, or usefulness of any information, apparatus, product, or process disclosed, or represents that its use would not infringe privately-owned rights. Reference herein to any specific commercial products, process, or service by trade name, trademark, manufacturer, or otherwise, does not necessarily constitute or imply its endorsement, recommendation, or favoring by the author. The views and opinions of authors expressed herein do not necessarily state or reflect those of the author, and shall not be used for advertising or product endorsement purposes. PDF 版は http://www.cubelab.com/ymasuda/python/misc/ で入手できます

×