6388 texts: Million Book Project

Pioneered by Jaime Carbonell, Raj Reddy, Michael Shamos, Gloriana St Clair, and Robert Thibadeau of Carnegie Mellon University, the goal of The Million Book Project is to digitize a million books by 2005. The task will be accomplished by scanning the books and indexing their full text with OCR technology. The undertaking will create a free-to-read, searchable digital library the approximate size of the combined libraries at Carnegie Mellon University, and one much bigger than the holdings of any high school library. The pilot Thousand Book Project has already been successfully completed and can be accessed here.
Beim oberflächlichen Scrollen festgestellt: viele sehr schöne Texte dabei. Übrigens sehr viele Werke über Indien, Indisches, indische Geschichte, Landeskunde, Buddhismus und dergleichen. Störend sind allerdings extrem lange Ladezeiten bei manchen Listen.






Beim zugegeben oberflächlichen Durchsehen ist die indienbezogene Sammlung sehr, sehr eigentümlich. An englischsprachiger Literatur gibt es fast nichts davon, was als repräsentativ zu erwarten wäre. Auch bei den Sanskrittexten viele Merkwürdigkeiten - nicht die Texte, die für gewisse Traditionen repräsentativ sind, in möglicherweise existierenden kritischen Ausgaben, sondern andere Texte, in (mir) ganz unbekannten modernen Ausgaben. Aber offenbar geht es bei den "million books" gar nicht um Repräsentatives, um Kanonisches, in der einen Form oder anderen. Offenbar geht es um Büchermasse und nichts anderes. Die Indienpräsenz und die Digitalisierung von gerade diesen merkwürdigen Büchern erklärt sich dann wohl so, dass die Digitalisierung selbst zum Großteil in Indien und China erfolgt, und dass zur Schmackhaftmachung derselben in Indien den Digitalisierungsfachleuten in Bangalore die Auswahl von indischen und indienrelevanten digitalisierten Materialien anvertraut wird. Interessant, sage ich jetzt, aus Höflichkeit. Eigentlich nur aus Höflichkeit, verdammt. Eigentlich denke ich, bei aller Oberflächlichkeit des Reinschauens, dass da in den Indienteilen irre viel Schrott drinsteht, und es eigentlich schade um den Digitalisierungsaufwand ist - oder zumindest, dass da Unschrottartiges durch Abwesenheit glänzt und eigentlich in Anwesenheit schimmern sollte. Und ich habe die Ahnung, aus verwandten Erfahrungen, dass das in Indien von den Digitalisierern anders gesehen und für wichtiger gehalten wird. Merkwürdigkeiten, jaja.

(Hier übrigens der Link zur Hauptseite der "Universal Library").


auch hier

durationpress

gibt es gutes zu entdecken. out-of-print-books. und mehr.