Bioinformatika
Jan Pačes
jan.paces@img.cas.cz
Ústav molekulární genetiky AV ČR
organizace dat
project archive / orig (electronic)
bin / programs notebook / notes
data / storage
results to-do / changes
pic / figures /
graphs README
doc
ws / tmp /
working
old
help
perl
bezpečnost dat
přístupnost vs bezpečnost
použitelnost ochrana
hesla zálohy, verze
https checklist
ssh formáty souborů
pgp (gpg) tištěné kopie
(šifrovaný souborový
systém)
typy souborů
● obrázky:
vektorové
svg (standart vector graphics)
coreldraw, adobe illustrator
bitmapy (barevná hloubka - color depth)
tiff, png, gif (komprese bez ztráty kvality)
jpg (komprese se ztrátou kvality)
● dokumenty:
txt, html, rtf (rich text format),
pdf (portable document format)
● data:
xml (extended markup language)
síťová komunikace
http
ftp
ssh
ports ports
80 high level protocol 80
20 20
23 23
low level protocol
tcp/ip
netbui
client / server
p2p
WWW
● URL: Unique Resource Locator
● HTML: Hyper Text Markup Language
● XML: eXtensible Markup Language
http://www.w3.org/XML
protocol://computer:port/dir/document#position
http://bio.img.cas.cz/index.html#prfuk
social bookmarking
social bookmarking
výhody:
● oproti “web spiderům” (google,
yahoo) jsou stránky anotovány lidmi,
kteří rozumějí jejich obsahu
● automatický ranking systém
● tagy nejsou stanoveny rigidně
zvnějšku
● seskupování uživatelů s podobnými
zájmy
social bookmarking
nevýhody:
● z hlediska vyhledávání tag systém
neobsahuje definovaný slovník
● tagy nemají hierarchické uspořádání
● absence systematičnosti a někdy i
logiky
co se hodí jednomu,
nemusí vyhovovat druhému
del.icio.us
del.icio.us
del.icio.us
organizace odborné literatury
● http://www.citeulike.org
● http://www.conotea.org
každý problém vyžaduje
specifické nástroje
citeulike
citeulike
citeulike
citeulike
databáze
SQL: Structured Query Language
● MySQL http://www.mysql.org
● Postgres http://www.postgresql.org
● Access
● Oracle http://www.oracle.com
databáze - princip
databáze
tabulka
záznam
datový typ
datové typy
● integer(M)
● float(M,D)
● char(M), varchar(M)
● date, time
● text, blob
● set, enum
● boolean
datové typy
problémy se záznamem dat
jména autorů:
● John B. Smith
● J. B. Smith
● JB Smith
● Smith, John B
● Smith, JB
● Smith JB
● Smith J B
problémy se záznamem dat
jména autorů: řešení
● John B. Smith ● striktní datové
● J. B. Smith typy
● JB Smith
● definovaný
slovník
● Smith, John B
● Smith, JB
● Smith JB
● Smith J B
relační databáze
databáze článků:
hledejte efektní a elegantní řešení
relační databáze
● časopis (VARCHAR)
● název článku (TEXT)
● rok vydání (DATE)
● …
● autor (?)
● keyword (?)
relační databáze
id journal title year rest
INTEGER VARCHAR(20) TEXT DATE TEXT
relační databáze
id journal title year rest
INTEGER VARCHAR(20) TEXT DATE TEXT
aid id name
INTEGER INTEGER VARCHAR(20)
kid id keyword
INTEGER INTEGER VARCHAR(20)
0 comments
Post a comment