La ciencia de datos (data science) es un campo académico interdisciplinario que utiliza estadísticas, computación científica, métodos científicos, procesos, algoritmos y sistemas para extraer o extrapolar conocimientos e ideas a partir de datos ruidosos (noisy), estructurados y no estructurados.
Este concepto también integra el conocimiento del dominio de las aplicaciones subyacentes (por ejemplo, ciencias naturales, tecnología de la información, medicina). La ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo y una profesión.
Se puede decir que, la ciencia de datos es un «concepto para unificar estadísticas, análisis de datos, informática y sus métodos relacionados» para «comprender y analizar fenómenos reales» con datos. Utiliza técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, las estadísticas, las ciencias de la computación, las ciencias de la información y el dominio del conocimiento. Sin embargo, la ciencia de datos es diferente de la informática y la ciencia de la información.
Un científico de datos es alguien que crea código de programación y lo combina con conocimientos estadísticos para crear conocimientos a partir de los datos.
Uso moderno del concepto
Se puede rastrear que la primera aproximación al término se describió en 1962, luego se mencionó “ciencia de datos” en 1985 en una conferencia. Bueno, hasta 2001 pasaron 39 años, para entender el uso moderno de la “ciencia de datos” y esto sigue en evolución.
En 1962, John Tukey describió un campo que llamó «análisis de datos», que se asemeja a la ciencia de datos moderna. En 1985, en una conferencia impartida en la Academia de Ciencias de China en Beijing, C. F. Jeff Wu utilizó por primera vez el término «ciencia de datos» como nombre alternativo para las estadísticas. Más tarde, los asistentes a un simposio de estadística de 1992 en la Universidad de Montpellier II reconocieron el surgimiento de una nueva disciplina centrada en datos de varios orígenes y formas, combinando conceptos y principios establecidos de estadística y análisis de datos con computación.
La concepción moderna de la ciencia de datos como disciplina independiente a veces se atribuye a William S. Cleveland. En un artículo de 2001, abogó por una expansión de las estadísticas más allá de la teoría hacia áreas técnicas; debido a que esto cambiaría significativamente el campo, justificaba un nuevo nombre. La «ciencia de datos» se volvió más utilizada en los años siguientes: en 2002, el Comité de Datos para la Ciencia y la Tecnología lanzó Data Science Journal. En 2003, la Universidad de Columbia lanzó The Journal of Data Science. Durante 2014, la Sección de Aprendizaje Estadístico y Minería de Datos de la Asociación Estadounidense de Estadística cambió su nombre a Sección de Aprendizaje Estadístico y Ciencia de Datos, lo que refleja la creciente popularidad de la ciencia de datos.
En el año 2012, los tecnólogos Thomas H. Davenport y DJ Patil declararon «Científico de datos: el trabajo más sexy del siglo XXI», un eslogan que fue recogido incluso por los periódicos de las principales ciudades como el New York Times y el Boston Globe. Una década después, lo reafirmaron, afirmando que «el trabajo tiene más demanda que nunca entre los empleadores».