Clip adalah alat untuk membaca dan memahami konten dari situs web. Ia bekerja dengan mengambil konten HTML, lalu mengekstrak deskripsi singkat menggunakan protokol seperti OpenGraph, Twitter Cards, atau tag HTML. Clip dapat menemukan masalah seperti kesalahan DNS, encoding, atau redirect yang salah, namun dapat diselesaikan dengan mengubah pengaturan jaringan, menyetel encoding yang tepat, atau menyesuaikan permintaan se
5. Langkah Clip Dalam Membaca
HTML
1. OpenGraph Protocol >> http://ogp.me/
2. Twitter Cards >>
https://dev.twitter.com/cards/overview
3. HTML Tag
*Ketiganya dibaca menggunakan HTML
Tokenizer di GO
6. Permasalahan Yang Pernah
Terjadi
Error Message:
dial tcp: lookup i.giphy.com on 192.168.10.1:53:
cannot unmarshal DNS message
Penyebab:
DNS tidak dapat mengetahui alamat ip website yang
dimaksud
Solusi
Ganti settingan DNS pada komputer
7. Permasalahan Yang Pernah
Terjadi
ENCODING ERROR
Ciri-ciri : hasil text berbentuk karakter kotak-kotak,
padahal aslinya text merupakan huruf-huruf arab,
mandarin dsb
SOLUSI
Sesuaikan Encoding yang sesuai pada tag HTML.
<meta charset="utf-8">
8. Permasalahan Yang Pernah
Terjadi
PROBLEM
Entah kenapa tidak dapat respond dari website atau
diredirect ke tempat yang tidak sesuai seperti
forbidden page, 404, dsb. Padahal kalau diakses
pakai browser lancar-lancar saja?
SOLUSI
Buatlah mesin crawler seperti browser ketika
mengirim request. Yang paling sering adalah
setting property User-Agent dan Cookie.
9. Permasalahan Yang Pernah
Terjadi
PROBLEM
Beberapa website tidak keluar deskripsinya contoh
yang pernah terjadi krjogja.com dan en.wikipedia.org.
PENYEBAB
Website tidak mengikuti standar struktur yang ada.
SOLUSI
Dibuatkan script pembaca HTML secara spesifik
untuk masing-masing web.