lunes, 20 de diciembre de 2010

La moda de las modas


Parece ser que la nueva moda en Internet es el sitio Books Ngram Viewer, en el sitio de Google Labs.  Básicamente, el sitio contiene una base de datos con las palabras que aparecen en los libros que Google Books ha digitalizado hasta el momento, y una interfase que permite generar gráficos de frecuencia de apariciones de palabras por fecha de publicación de los libros. Hay una buena explicación de esto en el blog Amazings, Recordemos que los libros impresos existen desde que en 1449 Gutenberg imprimió su primer libro, por lo que las gráficas parten de esa época. Se puede seleccionar el idioma de publicación y los años que se desee graficar. Por omisión, actualmente aparecen las palabras “Atlantis” y El Dorado” graficadas para los libros en inglés (el sitio le llama al grupo de libros publicados en un idioma un “Corpus”) publicados entre 1800 y 2000.

Como ejemplo pedí la siguiente gráfica:



Antes de sacar conclusiones, recordemos que Galileo publicó su Diálogo en 1632, Newton sus Principia en 1687 y Einstein su Zur Elektrodynamik bewegter Körper en 1905.

Ahora sí. La gráfica de arriba fue generada con las palabras “Galileo Galilei,Isaac Newton,Albert Einstein”, para el corpus en inglés y para los años 1650 a 2000. Parece que Newton fue el rey del mundo físico desde 1800 hasta aproximadamente 1950, en que fue destronado por Einstein. Resulta curioso que la popularidad de Galileo no haya dejado de aumentar desde 1900.
  
La gráfica no sale igual si utilizamos letras mayúsculas únicamente,  minúsculas únicamente o los puros apellidos.

3 comentarios:

  1. Lo probé con mi nombre.... y el resultado fue muy interesante.... soy tan famosa como Galileo o Newton... jajaja

    Toñejo aunque rompa la tradición escéptica... hoy vengo a desearles una FELIZ NAVIDAD!!!!

    Besos

    ResponderEliminar
  2. Hace un rato que quería poner este comentario pero no puedo hacer copy-paste en esta ventana desde mi iPhone. Hice que graficaran estas palabras en Ngram Viewer: acupuncture, homeopathy, angels, prayer, gene y computer. Dos para cada uno de los temas magufería, religión y ciencia. Se puede ver que los términos religiosos son muy dominantes entre 1800 y 1900, empiezan a decaer en frecuencia como desde 1860-1880 y continúan por un largo tiempo,alcanzando un mínimo en 1980, para repuntar más o menos con la misma velocidad con la que habían caído antes, y no tienen tendencia a dejar de subir, lo que es preocupante. Como era de esperarse, los términos relacionados con ciencia se disparan a partir de 1940-1960 y alcanzan un pico máximo en 1980 y/o 2000, para bajar de manera bastante precipitada después (aquí me pregunto si no será un artefacto de la manera en que se recopilan los datos, como discutiré en un momento). Lo que me sorprende vivamente es la pequeñísima frecuencia con que aparecen las palabras magufas, a duras penas se despegan del eje horizontal. ¿Será que en verdad es tan poca la contribución de la magufería al número de libros impresos? Eso resulta muy antiintuitivo para cualquiera que se haya asomado a una librería promedio o se asome al área de libros de los supermercados. Eso me hace sospechar que la población de libros escaneados por Google no es representativa de la población total de libros en inglés, sino que se hace una selección de los libros más respetables. Tiene cierta lógica si se trata de una empresa que con recursos limitados (incluso Google tiene límites) busca lograr un objetivo valioso que se evite desperdiciar dichos recursos en lo que se consideran tonterías (y coincido completamente con ello). Sin embargo, puesto que no se divulga el criterio de selección ¿cómo se decide qué libros merecen incluirse en la base de datos? ¿cómo saber que no se están descartando libros que valen la pena porque tienen algo que no le simpatiza al(os) selector(es)? También me sorprende que caigan tan vertiginosamente las palabras "computer" y "gene", a pesar de que son temas científicos/tecnológicos con una enorme vigencia, y casi diría yo que dominantes en el ámbito. ¿Será que aún no se acaban de incluir todos los libros recientes que deben ir en la base de datos? (me parece probable y casi inevitable) ¿o será que se está dando cierta preferencia a escanear cierto tipo de libros antes que a otros y por eso mientras los temas científicos caen, los religiosos aumentan (lo que sucedería si hasta el momento se han escaneado más libros religiosos recientes que científicos)? Me parece que sin conocer el estado actual de avance del proyecto Google Books y sin conocer los criterios para la inclusión de libros en él, tratar de obtener conclusiones válidas a partir de los libros ya incluidos es una pérdida de tiempo.

    ResponderEliminar
  3. W: eso lo sabíamos sin necesidad del Ngram Viewer, además de que tienes la ventaja de poder seguir posteando mientras que Galileo y Newton ya no pueden.

    Ribozyme: a mí también me sorprende la tendencia del término "homeopathy" en los últimos años. Según la explicación del blog amazings (que enlacé en el post) el análisis incluye 5 millones de libros publicados durante los últimos 500 años. Dado que se siguen publicando libros, supongo que los datos son más robustos para los libros viejos que para lo último. Es correcto lo que dices, no se pueden sacar conclusiones tan a la ligera.

    Un abrazo

    ResponderEliminar