Progetto:Trascrizioni/Routine DjvuLibre/Djvudump

DjView

La routine DjView è più che un visualizzatore di file djvu; oltre alle immagini delle pagine, consente, in ogni pagina, di esplorare i vari "strati" di cui la pagina è costituita (compreso l'eventuale "hidden text", il testo - e consente anche di visualizzare le altre informazioni (metadati generali, metadati di ogni pagina, annotazioni, dimensioni delle imagini delle singole pagine, ecc.).

Permette inoltre la conversione dei file da "bundled" (monoblocco) a "indirect" (a pagine singole, gestite da un file principale), per tutto il file o per gruppi selezionati di pagine; permette inoltre l'esportazione delle immagini in differenti formati.

Djvudump

La ruotine stampa un set completo di informazioni sulla struttura del file djvu, pagina per pagina.

djvudump lincoln.djvu >test.txt

Il comando genera un testo piuttosto lungo, di cui si rappresentano qui solo i dati iniziali (testata e dati delle prime due pagine):

  FORM:DJVM [1707414] 
    DIRM [725]        Document directory (bundled, 82 files 82 pages)
    FORM:DJVU [99509] {abramolinco3118agre_0001.djvu} [P1]
      INFO [10]         DjVu 1954x3315, v25, 500 dpi, gamma=2.2
      CIDa [36] 
      Sjbz [64843]      JB2 bilevel data
      FG44 [5189]       IW4 data #1, 100 slices, v1.2 (color), 163x277
      BG44 [3355]       IW4 data #1, 74 slices, v1.2 (color), 652x1105
      BG44 [5507]       IW4 data #2, 10 slices
      BG44 [1947]       IW4 data #3, 4 slices
      BG44 [18549]      IW4 data #4, 9 slices
    FORM:DJVU [2235] {abramolinco3118agre_0002.djvu} [P2]
      INFO [10]         DjVu 1747x2620, v25, 500 dpi, gamma=2.2
      CIDa [36] 
      Sjbz [226]        JB2 bilevel data
      FG44 [178]        IW4 data #1, 100 slices, v1.2 (color), 146x219
      BG44 [739]        IW4 data #1, 74 slices, v1.2 (color), 583x874
      BG44 [245]        IW4 data #2, 10 slices
      BG44 [31]         IW4 data #3, 4 slices
      BG44 [637]        IW4 data #4, 9 slices
      TXTz [53]         Hidden text (text, etc.)

Le cose che interessano per un'eventuale elaborazione automatica del layer testo sono:

il numero di pagine;
la presenza o assenza di un "hidden text" (in pagina 1 non c'è; in pagina 2 c'è).

Siccome il testo è formattato con regolarità, è possibile estrarre, con python o un altro programma, ogni informazione, scorrendolo riga per riga e cercando i dati come si sa fare (una regex o una ricerca di sottostringa).