Durante la ultima década, existe un momento en el que se cruza la academia y la industria, levantando el lenguaje de programación R, que se convierte en la herramienta computacional más importante para análisis estadístico y visualización en la ciencia de datos. Alrederor del mundo, millones de estadísticos y científicos de datos usamos R para resolver los problemas más desafiantes en las distintas areas, desde biologia computacional al marketing. R se ha convertido en el lenguaje de programación más popular para ciencia de datos y una herramienta escencial para las compañias de finanzas y analisis, tales como Google, Facebook y LinkedIn.
Mira este video de 90 segundos para una introducción a R
R (lenguaje de programación)
R es un lenguaje y entorno de programación para análisis estadístico y gráfico.
Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o gráfico.
R se distribuye bajo la licencia GNU GPL y está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux.
Caracteristicas
R proporciona un amplio abanico de herramientas estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, algoritmos de clasificación y agrupamiento, etc.) y gráficas.
Al igual que S, se trata de un lenguaje de programación, lo que permite que los usuarios lo extiendan definiendo sus propias funciones. De hecho, gran parte de las funciones de R están escritas en el mismo R, aunque para algoritmos computacionalmente exigentes es posible desarrollar bibliotecas en C, C++ o Fortran que se cargan dinámicamente. Los usuarios más avanzados pueden también manipular los objetos de R directamente desde código desarrollado en C. R también puede extenderse a través de paquetes desarrollados por su comunidad de usuarios.
R hereda de S su orientación a objetos. La tarea de extender R se ve facilitada por su permisiva política de lexical scoping.4
Además, R puede integrarse con distintas bases de datos y existen bibliotecas que facilitan su utilización desde lenguajes de programación interpretados como Perl y Python.
Otra de las características de R es su capacidad gráfica, que permite generar gráficos con alta calidad. R posee su propio formato para la documentación basado en LaTeX.
R también puede usarse como herramienta de cálculo numérico, campo en el que puede ser tan eficaz como otras herramientas específicas tales como GNU Octave y su equivalente comercial, MATLAB.5 Se ha desarrollado una interfaz, RWeka6 para interactuar con Weka que permite leer y escribir ficheros en el formato arff y enriquecer R con los algoritmos de minería de datos de dicha plataforma.
Documentación en español
- R para Principiantes, la versión en español de R for Beginners, traducido por Jorge A. Ahumada (PDF).
- Versión en español de An Introduction to R por Andrés González y Silvia González (PDF).
- Estadística Básica con R y R-Commander (libro libre)
- Gráficos Estadísticos con R por Juan Carlos Correa y Nelfi González (PDF).
- Cartas sobre Estadística de la Revista Argentina de Bioingeniería por Marcelo R. Risk (PDF).
- Introducción al uso y programación del sistema estadístico R por Ramón Díaz-Uriarte, transparencias preparadas para un curso de 16 horas sobre R, dirigido principalmente a biólogos y especialistas en bioinformática (PDF).
- Lista de correo R-help-es en español Lista de correo oficial de R en español.