Captchas que digitalizan un libro a la vez

Del lado del innovador: Describiendo la evolución de un sistema en apoyo a la digitalización de libros.

Siempre que entramos a una página web que solicita un registro para disfrutar de sus contenidos o servicios, al realizar dicho formulario, al final aparecen unos recuadros como los que se presentan a continuación:

Las imágenes anteriores son ejemplos de lo que es un captcha, y quizá te preguntes cómo es que puedo relacionar un recuadro que tardas unos diez segundos en llenar con un proyecto muy importante para la conservación y preservación del conocimiento humano: la digitalización de libros.

¿Cómo es posible semejante relación? ¿Qué son los captchas realmente y porque se han vuelto tan importantes a la hora de utilizar la web? ¿Cómo apoyan a las profesiones de la información?

El principio de la ecuación: ¿cómo digitalizar un archivo?

Una vez, trabajando en una jornada laboral que parecía común y corriente, uno de mis compañeros me preguntó de la forma más amable: «¿Cómo digitalizar un archivo?». En broma, contesté que sólo necesitas levantar la tapa del escáner, acomodar el documento y pedirle a la computadora que escanee el documento. Eso es lo que la mayoría de nosotros pensamos que se debe hacer para que un documento físico se convierta en un archivo digital. Con un escáner y todo arreglado.

Pero los especialistas en estas labores saben que no es lo único que se tiene que hacer. Mi compañero quería digitalizar todo el archivo fiscal y legal de la compañía en la que estábamos trabajando. Eso significaba que tenía que escanear casi 47 años de patrimonio documental, con diferentes tipos de archivos y documentos. Diferentes temáticas, diferentes asuntos. En sí, un pequeño universo de información en un espacio digital. Retomo este caso, porque es impresionante lo que a veces puede parecer una tarea sencilla y se transforma en una labor titánica. Tardé casi dos horas en explicarle a mi compañero todas las disposiciones y normativas que tomar en cuenta y el equipo que se requiere para tener un archivo digital funcional.

Cuando terminé de explicarle, le comenté sobre otra problemática que pocos toman en cuenta a la hora de digitalizar:

Los problemas de la tecnología en reconocer palabras, caracteres o signos dentro de un documento físico.

Verán, a la hora de digitalizar un archivo, la máquina escanea toda la imagen, sin embargo,no le es posible reconocer el contenido. En sí, cuando escaneas un archivo, estás tomando una fotografía digital de dicho documento y la computadora la reproduce como tal: Una simple imagen. Pero cuando ingresas información adicional a través de distintos sistemas y programas se va recuperando información adicional.

Existe un proceso dirigido a la digitalización de textos, el cual identifican a partir de una imagen símbolos o caracteres que pertenecen a un determinado alfabeto, para luego almacenarlos en forma de datos. Se le conoce como reconocimiento óptico de caracteres (ROC)y se expresa con frecuencia con la sigla OCR (Optical Character Recognition). De esta forma se puede interactuar con programas de edición de texto o similar. Y cabe destacar que en los últimos años la digitalización de la información  ha sido de gran importancia para la sociedad.

Y hablando en el específico caso de textos, existen y se generan grandes cantidades de información (Big Data) escrita, tipográfica o manuscrita en todo tipo de soportes, ya que hay que automatizar la introducción de caracteres evitando la entrada por teclado, lo que implica un importante ahorro de recursos humanos y un aumento de la productividad, e incluso de la mejora en calidad de servicios. Algunas de las aplicaciones para el ROC son las siguientes:

  • Reconocimiento de texto manuscrito
  • Reconocimiento de matrículas.
  • Indexación en bases de datos.
  • Reconocimiento de datos estructurados (ROC Zonal)

Y es en este punto donde entra la importancia de un proyecto como Captcha.

Antes que nada, ¿qué es un captcha?

Cuando tu te registras en una nueva página y te piden escribir lo que ves en estas imágenes:

Captchas

 ¿Cuál es el propósito de esto?, pues existen unos programas informáticos llamados bots, que tienen como objetivo imitar el comportamiento humano. Entonces para evitar que los programas y páginas tengan usuarios robots, se creó un programa que permite identificar y evitar el acceso a los bots. Este programa se llamó: «Completely Automated Public Turing Test To Tell Computers and Humans Apart» (Prueba Turing Completamente Automatizada para Diferenciar entre Computadoras y Humanos) sus siglas en inglés se leen como «captcha».

Duolingo-header-664x374Ahora, Luis Von Ahn, originario de Guatemala y creador de  este sistema (que es uno de los más usados a nivel mundial), dejó a los diecisiete años su país para estudiar la licenciatura en Matemáticas y otra en Ingeniería en Informática de la Universidad de Duke, en Carolina del Norte. Actualmente, ha vendido dos empresas a Google y también es fundador de la plataforma en línea dedicada a la enseñanza gratuita de idiomas: Duolingo. Y a continuación quiero hablar sobre la evolución de Captcha a ReCaptcha. 

500,000 horas diarias + captchas + libros= ReCaptcha

En sí, fue en el año 2000 cuando Yahoo! implementa un sistema para comprobar que cada vez que se crea una nueva cuenta de correo electrónico, es un ser humano quien lo crea y no un programa (los bots). Luis Von Ahn, logró que una pantalla desplegara una serie de letras distorsionadas que se tenían identificar y escribir en un cuadro para confirmar la creación de la nueva cuenta. Alrededor de 200 millones de veces diarias se escribían captchas alrededor del mundo, y después de Yahoo!, varias tiendas en línea, blogs y sistemas de venta en línea (como Ticketmaster) lo integraron a sus plataformas.

Aunque, no todo fue sobre rosas, pues varios usuarios se quejaban de tener que perder diez segundos de tiempo por cada captcha que se tienen que llenar para poder emplear el servicio. Lo que calculo Luis fue que son alrededor de 500,000 horas diarias las que se podían considerar como tiempo perdido para todos los usuarios forzados a utilizar su sistema. Entonces, pensó ¿cómo aprovechar esas 500,000 horas diarias en algo productivo para todos?

A partir de esta problemática, lo que realizó fue renovar la visión de Captcha y fundó: ReCaptcha, la evolución del sistema que creó y que buscaba cumplir un objetivo más productivo:

Ayudar a digitalizar un libro

Esta visión le permitió fundar ReCaptcha, la evolución de su sistema anti-spam que tenía un objetivo más productivo: ayudar a digitalizar un libro. Y ¿cómo logró está evolución? En lugar de mostrar una serie de letras aleatorias, el progama presenta una imagen de palabras escaneadas de libros físicos que los sistemas informáticos no descifraron en el proceso de digitalización. Así que, la próxima vez que veas esta imagen: descarga

Estás apoyando la digitalización de un libro.

Después en 2009, este proyecto fue vendido a Google y en los últimos años ha logrado digitalizar el equivalente a 2 millones de libros anualmente. Después, se comenzaron a incluir imágenes de Google Street View y las palabras a identificar son números, nombres de calles u otros datos que permiten enriquecer la base de datos de su sistema de mapas. Después, Luis Von Ahn se dedicó a crear Duolingo, con lo que él comenta que decidió trabajar en algo que realmente ayudara y una de las cosas en las que quería trabajar era en educación. Así que con base en la democratización de la enseñanza de idiomas al mantener la plataforma a que sea gratuita; y la monetización del sistema mediante la oferta de servicios de traducción de documentos, recreó un sistema siguiendo el modelo de forma similar a ReCaptcha.

Y ahora, ¿cómo entra Big Data a la ecuación?

Matemáticamente hablando, ReCaptcha utiliza dos palabras, la primera pertenece a la base de datos correctos que los usuarios han rellenado correctamente en los últimos ocho años y la segunda pertenece a… ¡BINGO! la digitalización de libros antiguos. En 2013, de acuerdo a las cifras que presenta Jorge Tafalla, Luis identificó que el ROC que se utilizaban solo era capaz de traducir el 30% de las palabras de los libros antiguos que tienen más de cincuenta años de antigüedad (esto se debe a diferentes circunstancias: tinta desgastada, páginas deterioradas, maltrato y poco cuidado del material, etc.) . En total se repiten 10 captchas diferentes de 10 personas diferentes y cuando estas 10 personas coinciden en la misma respuesta, ReCaptcha considera correcta la traducción de caracteres y asegura el nivel de calidad. A continuación presento cifras del proyecto:

  • 100 millones de palabras diarias lo que equivale a 2 millones de libros al año.

  • Sólo el 30% de palabras de libros antiguos pueden ser traducidas por los ROC que son utilizados.

  • 500,000 horas diarias suman en total por cada persona que utilizan los captchas. 

  •  Hay alrededor de 795,113 sitios web activos que utilizan el sistema ReCaptcha.

En sí, estamos hablando de un proyecto completo que aplica Big Data en una labor de preservación y digitalización sin precedentes. Esto es un ejemplo de lo que puede contribuir a las profesiones de la información, entonces quiero dejarlos con esta reflexión:

¿Cómo podemos contribuir nosotros, los profesionales de la información, a las aplicaciones de Big Data?

Considero que este tipo de preguntas son las que pueden guiar a nuestras labores y herramientas al siguiente paso de la innovación.

Luis comenzó todo este proyecto con una duda… ¿qué puedo hacer para que esas 500,000 horas diarias que los 200 millones de usuarios realizan, puedan contribuir a un fin más elevado? Unió una de sus grandes pasiones, la educación, para poder enfocarse en un objetivo y éste terminó siendo la digitalización de conocimiento con más de cincuenta años de vida. Toda esa información que requiere de mucho mantenimiento para su preservación y que por lo mismo es difícil de consultar y difundir. El hecho de que Luis orientará los esfuerzos de ReCaptcha a solucionar este problema, dio como resultado la digitalización de 2 millones de libros al año.

Así que la primera contribución que puedes realizar, es rellenar estos cuadros de diálogo que permiten al ROC alimentar sus bases de datos con mapas, texto e imágenes que ReCaptcha maneja y administra.

La segunda, innovar. El profesional de la información tiene varias problemáticas que solucionar y esto no quiere decir que la innovación requiera al profesional que aprenda a programar. La innovación viene en varias formas: Ideas, proyectos, recursos. Ser perseverante y sobre todo, curioso. ¿Por qué molestarse en pensar qué hacer con 500,000 horas diarias que la humanidad invierte en llenar un formulario? A veces el preguntarse e interesarse por pequeñas cuestiones, nos guían a lugares y proyectos que no imaginamos el alcance que pueden tener y para que cada día estas aplicaciones sean útiles, hay que hacerlas crecer. Alimentarlas, trabajarlas y redirigirlas a esos lugares inexplorados. Y la única forma de llegar a un lugar que nunca se ha conocido, hay que realizar las preguntas que nunca se han hecho y crear las soluciones que nadie se ha imaginado.

La tercera contribución, orientarse a la innovación en educación. Big Data ofrece muchas posibilidades, pero hace falta que se aplique en áreas tan importantes para el desarrollo de la sociedad y del propio conocimiento, como lo es la educación.

Entonces, espero que esta entrada sea útil para muchos involucrados en las profesiones de la información, ya que al investigar sobre el tema, me encontré con varios artículos de sitios web de informáticos, economistas, dedicados a tecnología, pero muy pocos que vincularon este proyecto con profesiones que trabajan con información. Esta es una muestra de como la tecnología abre las oportunidades de trabajo del profesional y de cómo el propio profesional puede abrir más puertas en la sociedad.

Con esto me despido, muchas gracias por leer a Aprendiz de información.

REFERENCIAS

  1. Proyecto ReCaptcha. Google. Disponible en: Recaptcha
  2. Proyecto Captcha. Disponible en: Captcha
  3. «Luis Von Ahn: Geek latino que vendió empresas a Google» (2013). El Economista. Disponible en : http://eleconomista.com.mx/tecnociencia/2013/07/23/luis-von-ahn-geek-latino-que-le-vendio-google
  4. Reconocimiento óptico de caracteres. Wikipedia. Disponible en:  https://es.wikipedia.org/wiki/Reconocimiento_%C3%B3ptico_de_caracteres
  5. Tafalla, Jorge. «Lo que sabes y no sabes captcha». Blog Seas. Disponible en: http://www.seas.es/blog/informatica/lo-que-sabes-y-no-sabes-captcha/
  6. Estadísticas de ReCaptcha. BuiltWith Web Technology. Disponible en: http://trends.builtwith.com/widgets/reCAPTCHA
  7. Técnosfera ¿Quién es Luis Von Ahn?.  El Tiempo. Disponible en: http://www.eltiempo.com/tecnosfera/novedades-tecnologia/quien-es-luis-von-ahn/16421514

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s