Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

818 views
756 views

Published on

Articoli e monografie tecnico/scientifiche possiedono una struttura complessa che oltre a testo libero comprende tabelle, equazioni matematiche, referenze bibliografiche, illustrazioni ed altri elementi. L'estrazione di informazione testuale da documenti digitalizzati (ad esempio tramite scanner) per mezzo di programmi di riconoscimento di caratteri (OCR) è oramai consolidata, ed è quindi possibile riconoscere il testo in documenti di buona qualità con alte percentuali di successo. Tuttavia è tuttora oggetto di studio la corretta estrazione delle informazioni strutturali sopra menzionate da documenti digitalizzati. Tale estrazione non è banale neanche per molti documenti "Digital Born", come ad esempio articoli e monografie PDF. Essendo quest'ultimo un formato di stampa non conserva, nella maggior parte dei casi, l'informazione strutturale. Non banale è anche la visualizzazione e successiva fruizione efficace di tale informazione su formati "reflowable" come HTML ed Epub. In questo intervento si descriveranno queste problematiche, alcuni tool realizzati per il riconoscimento e la conversione da documenti PDF e le prospettive applicative.

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
818
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
20
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Simone Marinai @ Ebook Lab Italia 2011 - Documenti scientifici digitali: problematiche dei formati reflowable

  1. 1. Documenti scientifici digitali: problematiche dei formati reflowable Documenti scientifici digitali: problematiche dei formati reflowable Simone Marinai simone.marinai@unifi.it Universit` degli Studi di Firenze a
  2. 2. Documenti scientifici digitali: problematiche dei formati reflowableOutline Documenti digitalizzati Ricerca su libri digitalizzati Recupero basato sul riconoscimento Recupero senza riconoscimento Documenti “Digital Born” Conversione di libri PDF in Epub Problemi con documenti scientifici Documenti su due colonne Equazioni Tabelle Illustrazioni Conclusioni
  3. 3. Documenti scientifici digitali: problematiche dei formati reflowableDefinizioni .... I libri di ieri (e quelli di ieri l’altro) in quelli di domani (e di domani l’altro) I libri di → articoli e monografie tecniche/scientifiche ieri → documenti “digital born” (PDF) (e quelli di ieri l’altro) → documenti “digitalizzati” (scanner) in → conversione semi-automatica quelli di domani → epub (forse ` oggi?) e (e di domani l’altro) → senza doverci tornare sopra...
  4. 4. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzatiLibro digitalizzato (PDF) PDF Scaricato da Google Books
  5. 5. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzatiLibro digitalizzato (PDF su SONY reader)
  6. 6. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzatiLibro digitalizzato (Epub su SONY reader) Epub Scaricato da Google Books
  7. 7. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzatiLibro digitalizzato (Epub con Digital Editions)
  8. 8. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Ricerca su libri digitalizzatiRicerca su libri digitalizzati La ricerca standard nei lettori/visualizzatori ` basata su e keyword. Ma se il testo non ` riconoscibile automaticamente? e Sono possibili altre ricerche, ad esempio basate sul layout?
  9. 9. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Ricerca su libri digitalizzatiDocument Image Retrieval La finalit` di Document Image Retrieval ` l’identificazione di a e documenti rilevanti in una collezione di immagini, considerando soltanto l’aspetto visuale. Task principali: recupero di documenti sulla base di similitudine di layout o sulla base del contenuto testuale. Due approcci: Recupero basato sul riconoscimento. Recupero senza riconoscimento (esplicito). Il document retrieval si basa su tre passi principali: 1. memorizzazione e indicizzamento dei documenti, 2. formulazione query, 3. calcolo similarit` e ordinamento risultati. a
  10. 10. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero basato sul riconoscimentoRecupero basato sul riconoscimento Assunzione di base: un motore di riconoscimento (es. OCR) pu` estrarre tutta l’informazione dai documenti. o Eventuali errori non influenzano troppo le performance di recupero. Vantaggi: semplice da integrare in sistemi standard preesistenti (es. basati su codifica ASCII del testo), il calcolo della similarit` e l’ordinamento dei risultati hanno un a costo computazionale ridotto Problemi: documenti “rumorosi” (vecchi), testo stampato con font non-standard, documenti con layout complesso, costi di correzione manuale.
  11. 11. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero basato sul riconoscimentoOptical Character Recognition (OCR) Tecnologia per la conversione di immagini di documenti in formati testuali. Funziona bene con testo contemporaneo, stampato, di buona qualit`. a Esistono libri del XIX secolo che parlano di modem ?!? Si possono/(devono ?) correggere manualmente gli errori. L’output dell’ OCR non corretto pu` essere impiegato per o indicizzare il testo. Ci sono problemi per testi corti in cui non si pu` sfruttare la o ridondanza (parole ripetute). Applicazioni interessanti anche con documenti manoscritti.
  12. 12. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero basato sul riconoscimentoRiconoscimento layout Ha senso parlare di “layout di pagina” in un documento reflowable?!?
  13. 13. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoRecupero senza riconoscimento (esplicito) Durante l’indicizzamento non si cerca di riconoscere esplicitamente il contenuto. Particolarmente interessante per documenti di pessima qualit`. a Es: “Keyword spotting”: tecniche per la localizzazione di parole individuate dall’utente in un flusso informativo (inizialmente audio). La similarit` ` calcolata considerando l’immagine o ae caratteristiche a livello di immagine (feature). Applicazioni recenti: elaborazione di documenti storici, elaborazione di collezioni estese ed eterogenee.
  14. 14. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimento http://www.bl.uk/treasures/gutenberg/homepage.html
  15. 15. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoEsempio di testo da Gutenberg Bible ctum est autem post multos dies ut offerret Cain de fructibus terrae munera Domino Abel quoque obtulit de primogenitis gregis sui et de adipibus eorum. Et respe =
  16. 16. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoProblemi di visualizzazione/ricerca testo http://pinakes.imss.fi.it:8080/pinakestext/home.jsf
  17. 17. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoProblemi con layout PDF HTML
  18. 18. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoSistema AIDI
  19. 19. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoSistema AIDI
  20. 20. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoSistema AIDI
  21. 21. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoApprocci al “recupero di documenti”
  22. 22. Documenti scientifici digitali: problematiche dei formati reflowable Documenti digitalizzati Recupero senza riconoscimentoE in Ebook reader ?!?
  23. 23. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born”Documenti “Digital Born” Documenti “recenti” sono facilmente indicizzabili dal punto di vista testuale. La conversione in formato reflowable ` talvolta difficile. e Articoli, libri PDF prodotti con strumenti di editoria elettronica, ma NON marcati semanticamente. Ad esempio, titoli di capitoli (o sotto-capitoli) marcati tipograficamente (neretto, 12pt), ma non indicando la funzione (titolo). Il PDF ottenuto ` perfetto per la stampa, ma l’estrazione e dell’informazione pu` essere non banale. o Ad esempio: estrazione dell’indice (Table of Contents, ToC).
  24. 24. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in EpubConversione di libri PDF in Epub L’estrazione del ToC ` importante per la conversione in Epub e consentendo un’agevole navigazione nelle sue parti (es. capitoli). I capitoli vengono “spostati” in pagine diverse quando il testo viene ridimensionato (reflowed). Un documento Epub ` un file ZIP contenente file con metadati e sul documento e file XHTML, immagini e stylesheet CSS. Un file NCX contiene il ToC del documento che punta al paragrafo corrispondente e non semplicemente alla pagina. Vediamo alcuni esempi.
  25. 25. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in EpubPDF Book Contents Extractor: Interfaccia
  26. 26. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in EpubPDF Book Contents Extractor: Interfaccia
  27. 27. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in EpubPDF Book Contents Extractor: Interfaccia
  28. 28. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in EpubPDF Book Contents Extractor: Output Epub
  29. 29. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in EpubPDF Book Contents Extractor: Output Epub
  30. 30. Documenti scientifici digitali: problematiche dei formati reflowable Documenti “Digital Born” Conversione di libri PDF in EpubPDF Book Contents Extractor: Output PDF
  31. 31. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientificiProblemi specifici con documenti scientifici Documenti su due colonne Problemi: come determinare l’ordine di lettura (“reading order”), oggetti (es. tabelle, equazioni) a cavallo di pi` colonne. u Tabelle Problemi: localizzazione (distinguere una tabella da un elenco), comprensione (identificare righe e colonne), visualizzazione (tabella pi` larga dello schermo). u Equazioni Problemi: localizzazione (distiguere equazioni da testo libero), comprensione (“leggere” le equzioni (OCR-like)), visualizzazione (visualizzazione “gradevole” in formato reflowable (es. MathML o font SVG). Illustrazioni
  32. 32. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Documenti su due colonneArticolo su 2 colonne
  33. 33. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Documenti su due colonneArticolo convertito ad una colonna
  34. 34. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici Documenti su due colonne
  35. 35. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici EquazioniEquazioni
  36. 36. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici EquazioniEquazioni: Epub
  37. 37. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici EquazioniEquazioni: Epub
  38. 38. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici TabelleTabelle
  39. 39. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici TabelleTabelle: Epub
  40. 40. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici TabelleTabelle: PDF su SONY reader
  41. 41. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici TabelleTabelle: PDF su SONY reader
  42. 42. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici TabelleTabelle: Epub su SONY reader
  43. 43. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici TabelleTabelle: PDF difficile !! WhAt StudentS KnoW And cAn do: Student PerformAnce In reAdIng, mAthemAtIcS And ScIence • Figure I. • Comparing Countries’ and eConomies’ performanCe Statistically significantly above the OecD average not statistically significantly different from the OecD average Statistically significantly below the OecD average On the reading subscales On the   On the overall Access Integrate Reflect Continuous Non-continuous mathematics On the science reading scale and retrieve and interpret and evaluate texts texts scale scale oeCd average 493 495 493 494 494 493 496 501 shanghai-China 556 549 558 557 564 539 600 575 Korea 539 542 541 542 538 542 546 538 Finland 536 532 538 536 535 535 541 554 Hong Kong-China 533 530 530 540 538 522 555 549 singapore 526 526 525 529 522 539 562 542 Canada 524 517 522 535 524 527 527 529 New Zealand 521 521 517 531 518 532 519 532 Japan 520 530 520 521 520 518 529 539 Australia 515 513 513 523 513 524 514 527 Netherlands 508 519 504 510 506 514 526 522 Belgium 506 513 504 505 504 511 515 507 Norway 503 512 502 505 505 498 498 500 Estonia 501 503 500 503 497 512 512 528 Switzerland 501 505 502 497 498 505 534 517 Poland 500 500 503 498 502 496 495 508 Iceland 500 507 503 496 501 499 507 496 United States 500 492 495 512 500 503 487 502 Liechtenstein 499 508 498 498 495 506 536 520 Sweden 497 505 494 502 499 498 494 495 Germany 497 501 501 491 496 497 513 520 Ireland 496 498 494 502 497 496 487 508 France 496 492 497 495 492 498 497 498 Chinese taipei 495 496 499 493 496 500 543 520 Denmark 495 502 492 493 496 493 503 499 United Kingdom 494 491 491 503 492 506 492 514 Hungary 494 501 496 489 497 487 490 503 Portugal 489 488 487 496 492 488 487 493 macao-China 487 493 488 481 488 481 525 511 Italy 486 482 490 482 489 476 483 489 Latvia 484 476 484 492 484 487 482 494 Slovenia 483 489 489 470 484 476 501 512 Greece 483 468 484 489 487 472 466 470 Spain 481 480 481 483 484 473 483 488 Czech Republic 478 479 488 462 479 474 493 500 Slovak Republic 477 491 481 466 479 471 497 490 Croatia 476 492 472 471 478 472 460 486 Israel 474 463 473 483 477 467 447 455 Luxembourg 472 471 475 471 471 472 489 484 Austria 470 477 471 463 470 472 496 494 Lithuania 468 476 469 463 470 462 477 491 Turkey 464 467 459 473 466 461 445 454 dubai (uae) 459 458 457 466 461 460 453 466 russian federation 459 469 467 441 461 452 468 478 Chile 449 444 452 452 453 444 421 447 serbia 442 449 445 430 444 438 442 443 Bulgaria 429 430 436 417 433 421 428 439 uruguay 426 424 423 436 429 421 427 427 Mexico 425 433 418 432 426 424 419 416 romania 424 423 425 426 423 424 427 428 thailand 421 431 416 420 423 423 419 425 trinidad and tobago 416 413 419 413 418 417 414 410 Colombia 413 404 411 422 415 409 381 402 Brazil 412 407 406 424 414 408 386 405 montenegro 408 408 420 383 411 398 403 401 Jordan 405 394 410 407 417 387 387 415 tunisia 404 393 393 427 408 393 371 401 indonesia 402 399 397 409 405 399 371 383 argentina 398 394 398 402 400 391 388 401 Kazakhstan 390 397 397 373 399 371 405 400 albania 385 380 393 376 392 366 377 391 Qatar 372 354 379 376 375 361 368 379
  44. 44. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici IllustrazioniDiagrammi chimici “facili” da visualizzare
  45. 45. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici IllustrazioniDiagrammi chimici “difficili” da visualizzare
  46. 46. Documenti scientifici digitali: problematiche dei formati reflowable Problemi con documenti scientifici IllustrazioniCasi ancora peggiori...
  47. 47. Documenti scientifici digitali: problematiche dei formati reflowable ConclusioniConclusioni Documenti scientifici (articoli e monografie) pongono problemi specifici per: Conversione da formati: digitalizzati (immagini), digital-born (PDF). Visualizzazione: in formati fissi su schermi di piccole dimensioni, in formati reflowable (es. html - epub). Soluzioni? tecnologiche: miglioramento metodi di estrazione informazione, parzialmente tecnologiche: come utilizzare standard esistenti per visualizzare efficacemente oggetti complessi su schermi “piccoli”.
  48. 48. Documenti scientifici digitali: problematiche dei formati reflowable Conclusioni Commenti? Domande? simone.marinai@unifi.it www.dsi.unifi.it/∼simone

×