La métrica de las lenguas en internet
Por José-Antonio Millán21 September 2005
La Web pública es un objeto de estudio abierto a todos (por definición). En una red dominada inicialmente por el inglés, los hablantes de otras lenguas con pujanza cultural pronto intentaron descubrir cuál era su posición (Millán, 1997).
Los primeros estudios se desdoblaron en dos aspectos, los cuantitativos y los cualitativos. Desde el punto de vista cuantitativo interesaba ver qué cantidad de páginas había en cada lengua. Cualitativamente, importaba ver la presencia de determinados elementos de una cultura en las páginas web de distintas lenguas. El pionero de ambos estudios fue Daniel Pimienta, desde la Fundación Redes y Desarrollo (FUNREDES, 1996a y b), inicialmente para el español y el francés (en relación con el inglés), y que hoy en día abarca (con el apoyo de Unión Latina y de la Délégation générale la langue française) las otras lenguas romances y además el alemán. El catalán ha estado ausente de estas medidas, porque Unión Latina se ocupaba sólo de las lenguas oficiales de los estados miembros (este año acaba de adherirse Andorra) y porque ninguna institución catalana ha requerido hasta ahora la colaboración de FUNREDES.
Para el estudio cuantitativo, que es el que nos ocupará, Pimienta utilizó inicialmente el buscador Altavista y un algoritmo de reconocimiento de lenguas (mediante palabras exclusivas de cada lengua) para determinar las cifras totales (FUNREDES, 1996a). Estudios posteriores como el de Alis Technologies (1997), con el apoyo de Internet Society, utilizaron un muestreo muy pequeño de sitios.
Las medidas, más fiables, que se extraían utilizando buscadores generales tenían el problema fundamental de saber si el buscador indizaba la totalidad del espacio web, o si se centraba en el conjunto más antiguo de páginas, dando poca cuenta de las nuevas incorporaciones a la Web, y primando de esta manera las cifras de las páginas en inglés (para una perspectiva global de la situación en aquel momento de los buscadores con respecto a la totalidad véase Millán, 2000). El catalán —que se había iniciado en la Red muy tempranamente: Partal, 2004— acogió una iniciativa precoz para decir a los buscadores en qué lengua estaban sus sitios, mediante etiquetas meta (Yzaguirre, 1997), como forma de aumentar su visibilidad.
La evolución de los estudios con una misma metodología (los de FUNREDES, véase la página resumen: 2005) a lo largo de los distintos años ha conducido a refinar no sólo el uso simultáneo de varios buscadores y los procedimientos de cálculo, sino también las medidas absolutas, poniéndolas en relación con el número de hablantes y también con el numero de personas con conexión a la Red (productvidad de un espacio web) . Estos parámetros se pueden utilizar también para cada país, lo que proporciona una visión muy rica de comunidades geográficamente dispersas como la hispanohablante.
Según el estudio en vías de publicación, del que he recibido un adelanto provisional (Pimienta, 2005), la presencia relativa del inglés no ha dejado de bajar desde 1998 (cuando tenía el 75% de la red) hasta el 45% en la actualidad. El resto de las lenguas estarían, RESPECTO AL INGLÉS, así: alemán 15,42%, francés 11,00%, español 10,23%, italiano 6,77%, portugués 4,15%, rumano 0,37%. La novedad de las cifras anteriores (2003) es que el español pierde el primer lugar de las lenguas romances frente al francés.
Con casi una década de datos tal vez estemos en situación de aventurar evoluciones cuantitativas para las lenguas que se incorporan a la Red: inicios de crecimientos rápidos, seguidos de mesetas de estabilización. El inglés se estabilizó hace años, el español habría alcanzado ya una de esas mesetas y el francés estaría llegando a la suya. Pero para estas y otras muchas cosas es mejor esperar la publicación definitiva del último estudio de FUNREDES. Y en cuanto a los estudios cualitativos… pueden ser objeto de otra nota.
- Alis Technologies (1997), Palmarès des langues de la toile.
- FUNREDES (1996a), El primer estudio de las lenguas y la Internet
- FUNREDES (1996b), El primer estudio de la cultura y la Internet.
- FUNREDES (2005), Observatorio de las lenguas y culturas.
- Millán, J.A. (1997), “El español en las redes globales“, en Actas del I Congreso Internacional de la Lengua Española.
- Millán, J.A. (2000), “El libro de mil millones de páginas. La ecología lingüística de la Web”, en Revista de Libros (Madrid), nº 45. Versión ampliada en la web: http://jamillan.com/ecoling.htm
- Partal, V. (2004), El catal a la xarxa: història i raons d’un cas d’èxit.
- Pimienta, D. (2005), comunicaciónpersonal.
- Yzaguirre, Ll. (1997) Indexem en catal
documenéame -










