Cada día el software libre va ganando más y más terreno al software comercial, no solo por su precio, sino porque incluyen procedimientos más vanguardistas que los comerciales. El mayor problema que tienen es el volumen de datos.

Cuando he preguntado a algún desarrollador de los principales software libres (R, Weka, Knime…) acerca de esta cuestión, siempre me han respondido que depende de la capacidad de la máquina o servidor en la que se ejecuten los procesos. Es una respuesta ambigua, es cierto, pero es totalmente cierta. Si dispusiésemos de una máquina con recursos de memoria y almacenamiento ilimitados, el software libre sería prácticamente perfecto. Podríamos decir, entonces, que la principal desventaja de los software libres frente a los comerciales es la gestión de los procesos (mucho más estudiada en los comerciales), además de una consola o interfaz más amigable.

Desde hace tiempo tengo la curiosidad de hacer una prueba con un volumen de datos enorme en R, en una máquina normalita (1 GB de RAM), a ver si consigue acabar el proceso y cuánto tarda. Ahora que tengo un ratillo en el curro, he decidido ponerme a ello, pero me he dado cuenta de que meterle un archivo plano con un comando read podía ser un poco pesado, y me planteé conectarlo directamente a la base de datos. Pensaba que no se podía hacer, pero me encontré esto:

http://grass.itc.it/statsgrass/r_and_dbms.html

Cuando tenga resultados de pruebas de capacidad de R en una máquina estándar las iré posteando. Ojalá me sorprenda y nos llevemos una gran alegría los usuarios de software libre.

Un saludo.