Bugiardo come un libro online

di Michelangelo Zaccarello

Fonte: Il Sole 24 Ore, 27 novembre 2017

Nella vita di tutti i giorni, facciamo molta attenzione alla qualità: facciamo colazione con caffè fair trade e biscotti in cui non vogliamo olio di palma, beviamo acqua minerale con pochissimo sodio e ci informiamo accuratamente sui grassi contenuti nei vari cibi. Se però – ad esempio – vogliamo leggere sul nostro tablet un’opera della letteratura italiana, non facciamo abbastanza caso a ciò che scarichiamo da internet. C’è un curioso paradosso nell’uso che facciamo del web: prendiamo per buono quasi tutto ciò che vi troviamo, senza chiederci come vi è stato caricato né come “funziona” la risorsa al di là della semplice interfaccia che ci è offerta.

A partire dagli anni Novanta, si è assistito a una vera e propria corsa alla digitalizzazione di opere letterarie, specie se non soggette a diritti d’autore, ovvero di autori che siano deceduti da almeno settant’anni: per la letteratura italiana, questo include ormai Svevo, D’Annunzio e Pirandello. Dal commercio di biblioteche digitali su CD-ROM, come la Letteratura italiana Einaudi e la LIZ-Letteratura italiana Zanichelli si è presto passati a piattaforme online gratuite, almeno in apparenza, cioè sostenute da donazioni volontarie e/o da pubblicità, che possiamo esemplificare con l’iniziativa LiberLiber-Progetto Manuzio, declinazione italiana del Project Gutenberg internazionale. Sulla homepage di quest’ultimo leggiamo che è prevista una revisione manuale dei testi digitalizzati: «We digitized and diligently proofread them with the help of thousands of volunteers», ma siamo proprio sicuri che sia così? La forza di tali progetti è nella quantità di titoli inseriti, più che nell’affidabilità di ognuno di essi. In molte di queste iniziative, che si presentano come gratuite, il guadagno non è diretto, ma deriva dalla mole di utenti della piattaforma, attraverso la pubblicità. Negli USA, si discute da tempo sugli importanti mutamenti che, nell’accesso ai testi e nelle pratiche di lettura, ha portato la digitalizzazione di massa (mass digitization): una crescita esponenziale di risorse liberamente consultabili in rete che ha forse allargato la base degli utenti dei testi letterari, ma ne ha certamente abbassato le esigenze.

Di questo nuovo “lettore Google” (definizione di Paola Italia, dell’Università di Bologna) è stata recentemente messa in luce l’assoluta mancanza di sensibilità per la qualità dei testi che legge, e in proposito esistono gravi responsabilità del sistema educativo, gestito da chi professionalmente interagisce con i Classici della letteratura italiana e la loro diffusione. In un circolo vizioso, la vasta disponibilità di e-texts gratuiti e liberamente scaricabili da qualunque dispositivo connesso al web si ricollega a pratiche di lettura frettolose e superficiali, in cui raramente l’opera è letta da cima a fondo. Si preferisce interrogarla per arrivare subito – attraverso ricerche di parole-chiave – al tema o alla sezione che interessa. Non a caso, un anonimo progettista dell’iniziativa Google Books, partita nel 2004 e arrivata a digitalizzare oltre venti milioni di libri, osservava anni fa che tale operazione non era finalizzata alla lettura dell’uomo ma a quella dell’intelligenza artificiale. Poniamo che, per svolgere un compito scolastico o universitario, ci serva rapidamente un’edizione del Decameron di Giovanni Boccaccio. Se non l’abbiamo in casa, quanti di noi andrebbero in biblioteca? Con una semplice ricerca sul web, troviamo decine di e-texts del capolavoro boccacciano, spesso con una grafica accattivante (come quello di www.booksandbooks.it) e un’impaginazione accurata con font eleganti (come quello di www.letteraturaitaliana.net, derivato dalla Letteratura italiana Einaudi).

Le soluzioni tecnologiche con cui vi si accede (tablet o lettori e-reader come il Kindle) sono aggiornate, ma i contenuti? Il lettore fa raramente caso alla fonte dalla quale è tratto il testo, che dovrebbe essere dichiarata nelle informazioni che corredano il file (tecnicamente dette metadati): nel primo dei due casi citati questi ultimi sono assenti, mentre nel secondo è dichiarata un’edizione di riferimento degli anni Cinquanta. Il dato è importante: l’autografo del novelliere boccacciano (oggi Berlin, Staatsbibliothek, Hamilton 90) è stato riconosciuto solo nel 1962, e oggi tutte le più importanti edizioni si basano su quel fedele testimone della volontà d’autore, fino alla recentissima edizione a cura di Maurizio Fiorilla (con Giancarlo Alfano e Amedeo Quondam, Rizzoli-BUR 2013). Insomma, ecco una moderna edizione elettronica che nasconde un testo invecchiato e profondamente diverso, nella forma e nella sostanza, da quello oggi accreditato in qualsiasi edizione cartacea. Ma c’è di peggio. Alla base del fenomeno della digitalizzazione di massa sta l’uso sistematico di software OCR (Optical Character Recognition), in grado di leggere la scrittura tipografica in una fonte cartacea o nelle immagini da essa derivate. Esso rileva la forma delle singole lettere attraverso il contrasto sullo sfondo bianco (stroke edge technology) e ne confronta la sequenza con le parole contenute in un dizionario integrato. In tal modo, la leggibilità della pagina è strettamente connessa alla “regolarità” delle forme stampate: caratteri nitidi e di forma prevedibile, righe giustificate dal computer, e parole di uso comune possono offrire percentuali di successo elevate, ma quasi mai superiori al 95%, una percentuale che “ammette” comunque la presenza di circa 10-15 errori in una pagina di duemila caratteri.

Ma che succede con opere scritte secoli fa, che impiegano una lingua preziosa, ma irta di vocaboli rari o forme oggi infrequenti? Tornando al nostro esempio del Decameron, non c’è da stupirsi che molti nomi siano ricondotti agli equivalenti moderni (Guiglielmo diventa Guglielmo, Ghismunda diventa Ghismonda); altrettanto avviene con alcune delle forme arcaiche predilette da Boccaccio (veggendo diventa vedendo; prencipe diventa principe). Ma c’è ancora di peggio. Per la letteratura italiana fino all’Ottocento, la digitalizzazione OCR è spesso svolta non direttamente sul libro cartaceo, ma su scansioni già disponibili in rete attraverso Google Books o simili banche dati digitali. Nate da accordi con biblioteche universitarie americane, tali iniziative offrono scansioni di edizioni cartacee che recano esse stesse i segni del tempo: copie ingiallite e sbiadite creano problemi gravi all’occhio elettronico che ne estrae la scrittura, talvolta macchie o annotazioni rendono il tutto ancora più complicato. Inoltre, in gran parte di questi libri “vintage” i caratteri hanno forme e dimensioni non del tutto simili ai moderni font di stampa, e la loro composizione e giustificazione sulla pagina è stata fatta a mano, ad esempio allargando gli spazi fra le singole lettere.

Tutti questi problemi passano del tutto inosservati all’occhio umano, che è abituato a leggere ogni tipo di libro, e riesce non solo a decifrare la complessa mappatura di una pagina scritta (l’uso di diversi font, il rientro dei paragrafi, i titoli correnti in alto o nel margine), ma ne trae utili indicazioni d’uso, ad esempio per trovare una particolare sezione del testo. Tuttavia le stesse caratteristiche di quei testi minano alle fondamenta il processo di scansione OCR, perché ne ostacolano il primo passo: l’identificazione dei blocchi di testo (zoning) in pagine complesse, che contengono ad esempio illustrazioni o elementi ornamentali. Forse la computer science riuscirà a migliorare i software OCR, anche se sembrano altre le priorità di tale sviluppo (il riconoscimento della scrittura manuale o di alfabeti non latini). Ma anche aguzzando la vista dell’occhio elettronico, difficilmente l’informatica potrà rimediare alla distrazione del lettore moderno, che ai testi accede in modo frettoloso e parcellizzato e non è in grado di riconoscerne gli errori. Un controllo di qualità servirebbe anche per i testi letterari: ma fin quando prevarrà la logica del costo zero, è difficile sperare che la certificazione sia svolta da chi mette online i libri digitali. Un maggiore grado di consapevolezza del lettore è, almeno nel medio termine, l’unico antidoto al rapido scadimento testuale dei Classici della nostra letteratura.

Fonte: Il Sole 24 Ore, 27 novembre 2017

Il Pensare i/n Libri raccoglie testi di natura letteraria a scopi culturali e senza fine di lucro. La proprietà intellettuale è riconducibile all'autore specificato in testa alla pagina, immediatamente sotto il titolo, e in calce all'articolo insieme alla fonte di provenienza e alla data originaria di pubblicazione.
Le immagini che corredano gli articoli del Pensare i/n Libri sono immagini già pubblicate su internet. Qualora si riscontrasse l'utilizzo di immagini protette da copyright o aventi diritti di proprietà vi invitiamo a comunicarlo a info@rebeccalibri.it, provvederemo immediatamente alla rimozione.

« Pensare i/n Libri n. 134