partykit: un paquete de R para generar y manipular árboles de decisión

Los usuarios de R disponen de una serie de algoritmos estándar para generar y manipular árboles de decisión. Los más habituales están contenidos en alguno de los siguientes paquetes: rpart, tal vez mi favorito RWeka, un paquete más genérico que permite realizar llamadas a funciones de Weka desde R mvpart party Cada uno de ellos tiene un interfaz distinto y operaciones como las de realizar predicciones, dibujar los árboles, etc. exigen conocer funciones específicas. (Éste es, de hecho, un problema genérico de R derivado de su naturaleza cooperativa). ...

9 de junio de 2009 · cgbellosta

Manual. Curso introducción de R. Capítulo 17: Análisis Cluster con R (y III)

Ante el exito de los mensajes dedicados al análisis cluster la nueva entrega del manual de R la dedicaremos de nuevo al análisis de agrupamiento. Como es habitual trabajaremos con un ejemplo que podéis desgargaros aquí. Partimos de un archivo de texto delimitado por tabuladores con 46 frutas y la información que disponemos es: Nombre Intercambio de hidratos de carbono por gramo Kilocalorías Proteinas Grasas (información obtenida de www.diabetesjuvenil.com) El primer paso será crear un objeto en R que recoja los datos en el análisis. Para ello vamos a emplear la función read.table que deberá tener los parámetros adecuados al fichero de texto que deseamos leer: ...

8 de junio de 2009 · rvaquerizo

Muestreo de datos con R

Recientemente, hubo una entrada en este blog sobre cómo realizar muestreos aleatorios en tablas SAS. En ésta vamos a ver cómo se procedería con R. Consideraremos el conjunto de datos iris —de dimensión 150 x 5— y extraeremos 60 filas con distintos procedimientos. Para el muestreo aleatorio simple sin repetición , basta con hacer: indices <- sample( 1:nrow( iris ), 60 ) iris.muestreado <- iris[ indices, ] Para relizar un muestreo aleatorio simple con repetición , basta con sustituir la variable indices anterior por ...

4 de junio de 2009 · cgbellosta

Integración de R con SAS, SPSS y otros

Recientemente se publicó en este blog una entrada haciendo mención a la futura integración de R en SAS. Existe, de hecho, un procedimiento artesanal de lanzar procesos de R desde SAS basado en la posibilidad de realizar llamadas al sistema operativo desde SAS. No obstante, SAS ha decidido ahondar en dicha integración y proporcionale un marchamo corporativo. Sin embargo, esta iniciativa dista mucho de ser la pionera y merce la pena lanzar una mirada panorámica al mercado. Por ejemplo: ...

3 de junio de 2009 · cgbellosta

SAS comienza a fijarse en R

SAS comienza a fijarse en R Interesante nocicia leída en ComputerWorld: SAS amplía las opciones de análisis avanzado para sus clientes con la nueva interfaz de software estadístico de código abierto R. La integración inicial de R en SAS estará incluida en SAS/IML Studio 3.2 (antes SAS Stat Studio) este verano. Fiel a su filosofía de escuchar a los clientes y dar respuesta a sus necesidades cambiantes, política que le han proporcionado a la compañía 33 años de crecimiento ininterrumpido, SAS da un paso más y anuncia la introducción del código R dentro del entorno de SAS. De esta forma, los desarrolladores de modelos estadísticos tendrán más opciones para extraer valor de los datos, usando la gran variedad de métodos ofrecidos por SAS a la vez que experimentan con nuevos métodos todavía no implementados en SAS con la interfaz R. ...

28 de mayo de 2009 · rvaquerizo

Manual. Curso introducción de R. Capítulo 16: Análisis Cluster con R (II)

En esta entrega seguimos trabajando con el análisis Cluster viendo más posibilidades que nos ofrece R. Para ello vamos a realizar un estudio de agrupamiento de países europeos en función de algunos indicadores básicos: Superficie Población PIB (en mil de $) Esperanza de vida Índice de desarrollo humano % Población en ciudad Para este estudio contamos con este archivo excel . El primer paso por supuesto es crear un objeto en R: ...

4 de mayo de 2009 · rvaquerizo

Manual. Curso introducción de R. Capítulo 15: Análisis Cluster con R (I)

El propósito del análisis de conglomerados (cluster en terminología inglesa) es el agrupar las observaciones de forma que los datos sean muy homogéneos dentro de los grupos (mínima varianza) y que estos grupos sean lo más heterogéneos posible entre ellos (máxima varianza). De este modo obtenemos una clasificación de los datos multivariante con la que podemos comprender mejor los mismos y la población de la que proceden. Podemos realizar análisis cluster de casos, un análisis cluster de variables o un análisis cluster por bloques si agrupamos variables y casos. El análisis cluster se puede utilizar para: ...

23 de abril de 2009 · rvaquerizo

SAS investiga la tecnología de R

Sacado de http://www.decisionstats.com/ muy interesante: A SAS spokesperson has confirmed to this blog that they have invested in the R –Core project to help build next generation algorithms . The new R powered SAS would not be sold as licenses but would be hosted on Amazon EC 2, thus users pay only for the time of usage.The shift to SaaS is expected to boost SAS’s revenue while at the same time helping small consultants and big clients like banks to cut costs.The official announcement had been planned for release during the RUser conference however the announcement was moved earlier due to rumors building up early this week due to leakages from SAS R and D ( called birdie leakages). The size of the investment is expected to be more than 20 million USD , the exact amount is expected to be disclosed later.The R Core team would be using this for much needed investments in GUI development and up gradation of the website besides offering R courses in East European universities. An expectation of an annual prize for R User of The Year is also expected to take place. ...

12 de abril de 2009 · rvaquerizo

El futuro del análisis de datos pasa por R

Es evidente que R dentro del mundo empresarial aun no tiene la presencia que se merece. Pero se está creando una base de estadísticos, ingenieros y programadores que muy pronto demandarán el uso de R en sus empresas. En el New York Times article ya se hicieron eco de este hecho: Además ya hay algunas grandes empresas que emplean este sofware libre como reseña New York Times. En España no seremos una excepción y pronto muchos estudiantes e investigadores precisarán de R en su trabajo diario. Lo harán porque R es la herramienta que han empleado en su universidad, porque es fácil de programar, porque es barato y porque hay una comunidad de programadores detrás que garantizan una larga viva a R. ...

19 de enero de 2009 · rvaquerizo

Manual. Curso introducción de R. Capítulo 14: Introducción al cálculo matricial con análisis de componentes principales

Para el trabajo con matrices vamos a emplear un análisis de componentes principales. El análisis de componentes principales puede encuadrarse dentro del conjunto de técnicas multivariantes conocidas como métodos factoriales (también se incluyen el análisis de factores y el análisis de correspondencias). Pretendemos sintetizar un gran conjunto de datos, crear estructuras de interdependencia entre variables cuantitativas para crear unas nuevas variables que son función lineal de las originales y de las que podemos hacer una representación gráfica. El objetivo del análisis de componentes principales será el reducir la dimensión de un conjunto de p variables a un conjunto m de menor número de variables para mejorar la interpretabilidad de los datos. ...

17 de enero de 2009 · rvaquerizo