En lo siguiente quiero introducir algunas herramientas de gran utilidad para el trabajo con datos históricos.
Herramientas
Voyant Tools
Voyant Tools es una aplicación web de código abierto para realizar análisis de texto. Apoya la lectura e interpretación académica de textos o corpus, particularmente por académicos en humanidades digitales, pero también por estudiantes y el público en general. Se puede utilizar para analizar textos en línea o subidos por los usuarios.
Su interfaz está compuesta por paneles que realizan estas variadas tareas analíticas. Estos paneles también se pueden incrustar en textos web externos (por ejemplo, un artículo web podría incluir un panel Voyant que crea una nube de palabras a partir de él).
Técnicas
A parte de las herramientas informáticas, hay una seria de técnicas que hay que dominar para trabajar con textos históricos de forma adecuada.
Por ejemplo, hay que saber cómo...:
- preservar textos
- digitalizar textos
- transcribir textos
- organizar, respectivamente tokenizar textos
- archivar textos
- interpretar textos
Métodos para transcripción
La transcripción de un texto comienza con su búsqueda, respectivamente creación.
Digitalizar libros
Algunos de los aspectos más importantes a la hora de digitalizar un texto son:
- Los derechos de autor
- El reconocimiento OCR
- El formato del archivo
Algunas bibliotecas digitales ofrecen libros y textos históricos ya digitalizados, cuyo uso para el consecutivo proceso de transcripción y análisis son bastante útiles.
Google Books
Muchos de los libros disponibles en Google Books ya han sido reconocidos mediante OCR y ofrecen una opción de descarga en formato .txt.
Transcipción voz a texto
Transcripción de manuscritos
Uno de los mayores retos es la lectura y transcripción de manuscritos. ¿Quién no ha experimentado alguna vez que no podía escribir sus propias notas después de un tiempo? Los textos escritos a mano de otras épocas o contextos culturales crean dificultades aún mayor.
Una de las herramientas recomendadas es Transcript.
Descargar Transcript.
Trazabilidad de textos
Otro gran reto es la trazabilidad. Cuando transcribimos un texto de un manuscrito cuesta a veces encontrar el lugar exácto en el manuscrito que se refiere a cada uno de los textos transcritos.
Una buena práctica es la visualización página por página mediante fotos superpuestos, algo similar a lo que hace Google en sus Google Books.
Otro ejemplo encontramos en la edición virtual de las cartas de Alfred Escher.
Alfred Escher Briefedition.
Tokenización
Existe una serie de herramientas para dividir textos en unidades más pequeñas. La cuestión central es, dónde y cómo se debería dividir.
A parte de Voyant Tools, encuentra un conjunto de herramientas aquí:
Herramientas Online.
Voyant Tools.
Natural Language Toolkit.