En este workshop, durante dos días, se presentarán y discutirán investigaciones y aplicaciones actuales en distintas áreas en el ámbito de la Ciencia de Datos.
Se admitirán charlas en todas las áreas (teóricas o aplicadas) donde la Ciencia de Datos tenga un rol principal en la solución de problemas. Entre ellas se dará prioridad a:
• Minería de datos y Big Data.• Inteligencia artificial.
• Analítica predictiva (modelación estadística entre otros).
El workshop consistirá en comunicaciones de resultados de investigación o problemas de aplicación de metodologías relacionadas con la Ciencia de Datos.
Este acontecimiento permitirá la discusión de temas novedosos y de relevancia teórica y práctica en el ámbito de la Ciencia de Datos.
El evento se realizará a través de la plataforma online zoom. Los participantes inscritos recibirán el enlace vía email.
COMITÉ CIENTÍFICO
HARVEY ROSAS
RODRIGO SALAS
DAIRA VELANDIA MUÑOZ
ALEJANDRA CHRISTEN
COMITÉ ORGANIZADOR
ALEJANDRA CHRISTEN
DAIRA VELANDIA MUÑOZ
Inteligencia artificial en la industria, tecnología disruptiva en la mejora de procesos en la seguridad laboral y salud ocupacional
La inteligencia artificial y el machine learning han prometido durante décadas soluciones tecnológicas que hasta hoy en día empezamos a ver como una realidad cotidiana. La extensión de diversas herramientas de estadística y matemática aplicada, brinda un escenario de oportunidades para resolver un abanico de problemas. En esta charla, se hace una introducción de técnicas modernas de procesamiento de datos, la metodología y arquitectura necesarios para diversos casos de uso en el contexto de la seguridad industrial y la salud ocupacional.
Dos iniciativas de ciencias de datos con aplicaciones a astronomía: La Serena School for Data Science (LSSDS) y Automaric Learning for the Rapid Classification of Events (ALeRCE)
En esta charla presentaré dos inciativas relacionadas con ciencia de datos con aplicaciones en la astronomía. Por un lado LSSDS es un programa formativo intensivo (de unas dos semanas) que comenzó en 2013 donde estudiantes chilenos (de últimos años de licenciatura / ingeniería o primeros de postgrado) y estadounidenses aprenden sobre estadísticas, infraestructura de datos y machine learning en un ambiente multidisciplinar y orientado a proyectos. La segunda iniciativa, ALeRCE es un broker liderado desde Chile que procesa en tiempo real las alertas (cambios en el cielo) reportados por el Zwicky Transient Facility (ZTF) para servir así como sistema de recomendación para estrategias de follow-up en preparación para la avalancha de datos que supondrá el Legacy Survey of Space and Time (LSST) ejecutado por el Observatorio Vera C. Rubin en el futuro cercano. Esta colaboración se basa (con respecto al equipo humano) en tres pilares: Infraestructura, Machine Learning y Dominio = astronomía.
Dispersión de influencia en análisis de redes sociales
El análisis de redes sociales es una disciplina interdisciplinaria en la que confluyen las ciencias sociales, matemáticas, estadística, ciencias de la computación, y que en general está hoy en día muy inmersa en la ciencia de datos. En esta charla hablaremos de la dispersión de influencia en redes sociales, uno de los fenómenos más relevantes y estudiados en esta área, con múltiples aplicaciones tales como el flujo de información en redes de comunicación, viralización en redes de contagio, viral marketing, difusión de rumores en redes sociales online, entre otras. Mencionaremos diversos modelos de dispersión, así como aspectos metodológicos y técnicas de análisis para abordar este tipo de problemas.
XAI en Ingeniería y Medicina
La Inteligencia Artificial es una de las áreas de investigación y desarrollo que ha experimentado el mayor crecimiento en los últimos años. En el último tiempo han aparecido nuevas aplicaciones tecnológicas que incluyen herramientas de inteligencia Artificial. En esta presentación veremos la importancia de las técnicas de Inteligencia Artificial Explicables (XAI) en diferentes aplicaciones tanto en el ámbito de la Ingeniería como en la Medicina.
Segmentacion de Datos Contaminados con Ruido Speckle usando Descriptores de Textura
El ruido speckle existe en imágenes obtenidas mediante radares de apertura sintética (SAR), dificultando el análisis de información. Los datos de intensidad en las imágenes SAR, monitoreo constante de la Tierra, se pueden modelar mediante una familia de distribuciones llamadas G^0_I. En este trabajo proponemos una manera de clasificar pixeles en una imagen SAR usando máquinas de soporte vectorial con descriptores de textura, como estimación de parámetro, dimensión fractal, y entropía de Tsallis.
Andrea Rey (Universidad Tecnológica Nacional Regional Buenos Aires)
Machine learning en astronomía y resolución de problemas con muchas incógnitas
La inteligencia artificial y el machine learning han tenido en los últimos años un crecimiento exponencial en diversas áreas de la ciencia. Esto se debe a una revolución tecnológica que ha proporcionado ingentes cantidades de datos para abordar problemas que típicamente se habían estudiado con análisis dispares muy individualizados. En esta charla presento algunas aplicaciones sencillas de machine learning al campo de la astronomía, tanto de aprendizaje supervisado como no supervisado. Comentaré cómo los nuevos telescopios están cambiando la forma en que analizamos el Universo y cómo estas nuevas técnicas se están integrando con los análisis clásicos. Además, describiré la utilidad general que pueden tener estos algoritmos en diferentes contextos y comentaré los potenciales riesgos y ventajas de aplicar estas técnicas en investigación.
Effective sample size for multivariate georeferenced variables.
Effective sample size accounts for the equivalent number of independent observations contained in a sample of correlated data. This notion has been widely studied in the context of univariate spatial variables. In that case, the effective sample size determines the reduction in the sample size due to the existing spatial correlation. Here, we generalize the methodology for multivariate spatial variables to provide a common effective sample size when all variables have been measured at the same locations. Together with the definition, we provide examples to investigate what the effective sample size looks like. An application for a soil contamination dataset is considered. To reduce the dimensions of the process, clustering techniques are applied to obtain three bivariate vectors that are modeled using coregionalization models. Because the sample size of the dataset is moderate and the locations are very unevenly distributed in the study area, the spatial analysis is challenging and interesting.
Powers correlation analysis of non-stationary illiquid assets
In this paper, the higher order dynamics of individual illiquid stocks are investigated. We show that considering the classical powers correlation could lead to a spurious assessment of the volatility persistency or long memory volatility effects, if the zero returns probability is non-constant over time. In other words, the classical tools are not able to distinguish between long-run volatility effects, such as IGARCH, and the case where the zero returns are not evenly distributed over time. As a consequence, tools that are robust to changes in the degree of illiquidity are proposed. Since a time- varying zero returns probability could potentially be accompanied by a non-constant unconditional variance, we then develop powers correlations that are also robust in such a case. In addition, note that the tools proposed in the paper offer a rigorous analysis of the short-run volatility effects, while the use of the classical power correlations lead to doubtful conclusions. The Monte Carlo experiments, and the study of the absolute value correlation of some stocks taken from the Chilean financial market, suggest that the volatility effects are only short-run in many cases.
Estadística multivariada para describir interacciones complejas en la actividad cerebral: Algunas lecciones desde modelos biofísicos.
Los avances en técnicas de registro e imagen médica han permitido que podamos caracterizar la dinámica cerebral en distintas situaciones. Además, el uso de herramientas de estadística multivariada provenientes de la teoría de la información, ha permitido caracterizar interdependencias de orden superior entre la actividad de distintas áreas. Estas interdependencias de orden superior incluyen el fenómeno de sinergia, cuando la información contenida en un grupo de variables aleatorias es mayor a la suma de las informaciones individuales. Se ha descrito que la cantidad de interacciones sinérgicas puede ser un marcador de un cerebro sano, correlacionando también con el envejecimiento de éste. Sin embargo, aún no entendemos del todo cómo emerge la sinergia en un sistema dinámico ni cómo depende de sus conexiones y dinámica. En esta charla, mostraré cómo el uso de modelos dinámicos inspirados en la actividad neuronal, y su análisis con estadística multivariada, nos permite deconstruir la emergencia de interacciones sinergísticas en modelos simples. Además, nos permite interpretar observaciones hechas en registros experimentales de actividad cerebral.
Patricio Orio (Universidad de Valparaíso
Modelos de redes profundas para la recomendación de noticias
Los sistemas de recomendación de noticias se enfrentan a la falta de valoraciones explícitas y al cambio en las preferencias de los usuarios debido a tendencias emergentes.
Juan Zamora (Pontificia Universidad Católica de Valparaíso)
Un Estimador No Paramétrico válido para el Variograma
El variograma de un campo aleatorio es el ingrediente clave para los problemas de simulación, estimación y predicción. Desde el punto de vista paramétrico es bien complejo automatizar un estimador del variograma que se ajuste solo a partir de los datos, además de tener serias restricciones para big data. Se propone una estimación no paramétrica válida del variograma, basado en las ideas de Gorsich & Genton (2004), también una implementación automatizada y se presentan ejemplos de aplicación.
Jonathan Acosta (Pontificia Universidad Católica de Chile)
Complejidad estadística en el análisis del comportamiento ocular
Aplicamos complejidad estadística en experimentos cognitivos con voluntarios resolviendo tareas que involucran actividad visual, durante los cuales se registró su movimiento ocular. El análisis mostró que es posible (1) caracterizar y distinguir patrones de comportamiento para diferentes tareas, (2) agrupar por comportamiento a los participantes en clusters estables en diferentes tipos de tareas, y (3) correlacionar patrones del feature space con el comportamiento actual de los participantes.
Claudio Delrieux (Universidad Nacional del Sur)
Clasificación de eventos de física de partículas de altas energías usando machine learning y técnicas para abordar el desbalance de clases.
La clasificación de eventos en señal o background, generados cuando ocurren colisiones de haces de protones en el Large Hadron Collider (LHC), del CERN, es una de las tareas de análisis más importantes en el área de física de partículas de altas energías, y es un trabajo fundamental para la búsqueda de nueva física. Machine learning ha sido fundamental para lograr altos desempeños en esta tarea de clasificación, y en particular, deep learning ---redes neuronales artificiales con muchas capas--- es un enfoque que ha permitido abordar problemas más complejos. Un desafío que surge en esta tarea de clasificación es que los eventos de interés ---eventos importantes desde un punto de vista físico--- son raros o poco frecuentes, como es el caso del bosón de Higgs, el cual se produce solo una vez cada pocos mil millones de colisiones protón-protón en el LHC. En términos de clasificación usando ML, esto significa que la cantidad de datos perteneciente a la clase de interés (o la clase positiva) es mucho menor que el número de muestras en la clase negativa, lo que indica que es un problema con desbalance de clases. En esta charla presentaré de forma general las técnicas para abordar el desbalance de datos y su aplicación en el contexto de clasificación de eventos de física de partículas de altas energías.
Raquel Pezoa (Universidad de Valparaíso)
Extracción automática de información clave en textos clínicos
Etiquetamos 10 tipos de entidades en interconsultas de la lista de espera en hospitales públicos, donde muchas son entidades anidadas (Ej. "cancer de colon" que es una enfermedad con una parte del cuerpo anidada). Utilizamos este corpus anotado para construir modelos de Reconocimiento de Entidades Nombradas (NER). Los mejores resultados se obtuvieron combinando embeddings de palabras, carácteres y BERT. Este trabajo constituye el primer corpus anotado con narrativas clínicas de Chile.
Jocelyn Dunstan (Universidad de Chile)
Ciencia de Datos, Servicios Financieros, Riesgo y Cumplimiento: Innovación, Desafíos y Oportunidades
Hablaremos como enfoques basados en tecnologías Big Data, combinados con estrategias híbridas de modelos de analítica descriptiva y predictiva tradicionales como arquitecturas basadas en Inteligencia de Negocios, Datawarehousing y análisis multidimensional, nos pueden ayudar a resolver muchos de los problemas clave que hoy en día podemos identificar en la industria de los servicios financieros, específicamente dentro del área de riesgo y cumplimiento.
Víctor Bahamondes (Universidad de Valparaíso)
Análisis de Vibraciones en LBTO
En la presentación se realizará un análisis de magnitud y frecuencia de las vibraciones en un periodo de un año, utilizando la telemetría del sistema de Optica Adaptativa en el Large Binocular Telescope.
Pedro Escárate (Universidad Austral de Chile)
Learning functions: from data transformations to transfer functions
During the talk we speak on learning mechanisms of data transformations and aggregation.
This will be connected to the information theory approach to Machine learning which provides us with new perspectives of methodological research for statistics. Several questions will be addressed, e.g. What is optimal learning of complex data? This will be also addressing advanced SPOCU transfer functions for neural networks.
Milan Stehlik (Universidad de Valparaíso)
CURSOS, CHARLAS, CONFERENCIAS SIMPOSIOS, Et. al INSCRIBETE AHORA
CREATIVIDAD, INVESTIGACIÓN, ENSEÑANZA.