Deep Learning para pronosticar

El modelado predictivo en Lokad ahora se realiza mediante programación diferenciable en lugar de deep learning. La programación diferenciable es una descendiente del deep learning, mejor adaptada a los retos de la supply chain. En particular, se presta mejor al whiteboxing que el deep learning.

Del pronóstico probabilístico al deep learning

Ilustración de deep learning sumergiéndose bajo la superficie de los patrones de demanda

Unos 18 meses antes de esta quinta generación, Lokad presentó su cuarta generación de tecnología de pronóstico, la primera capaz de ofrecer verdaderos pronósticos probabilísticos. Esto era crucial porque los costos de la supply chain se concentran en los extremos estadísticos, cuando la demanda resulta muy superior o inferior a lo esperado. Los pronósticos diarios, semanales o mensuales tradicionales se concentran en medias o medianas y en gran medida ignoran esos extremos. Como consecuencia, suelen producir retornos financieros insatisfactorios.

La quinta generación no abandonó esas bases. Al contrario, adoptó el pronóstico probabilístico y se apoyó en la experiencia adquirida con la generación anterior. Su diseño se basó en una familia relativamente reciente de machine learning: el deep learning. En supply chain, una mejor precisión del pronóstico se traduce directamente en mejor servicio, ejecución más rápida y menos riesgo de stock.

En parte por casualidad, el deep learning resultó estar fuertemente alineado, por diseño, con el pronóstico probabilístico. Esta orientación no nació de preocupaciones de supply chain, pero el encaje es notable. Los métodos de deep learning favorecen perspectivas probabilísticas y bayesianas de optimización, utilizando métricas como la entropía cruzada, que generan los gradientes elevados requeridos por el descenso de gradiente estocástico, la columna vertebral algorítmica del deep learning moderno.

En supply chain, los fundamentos matemáticos del deep learning resultan estar notablemente alineados con las exigencias reales del negocio.

Más allá del hype de la inteligencia artificial

La inteligencia artificial, impulsada en la práctica por el deep learning, fue la gran palabra de moda de 2017. Las promesas eran ambiciosas, atractivas y con frecuencia vagas. Desde la perspectiva de Lokad, la mayoría de las ofertas de IA empresarial no estaban cumpliendo las expectativas. Muy pocas empresas podían reunir un equipo de deep learning de primer nivel y la financiación necesaria para abordar desde cero un desafío de supply chain.

Con esta versión, Lokad puso una tecnología de pronóstico de nivel IA al alcance de cualquier empresa razonablemente digitalizada. El sistema seguía dependiendo de los datos históricos de supply chain, que debían ponerse a disposición de Lokad, pero no exigía experiencia en deep learning por parte del cliente. A diferencia de muchas ofertas de IA empresarial, Lokad no dependía de ingeniería manual de variables. Para los clientes que ya utilizaban Lokad, el paso del motor probabilístico anterior al deep learning estaba pensado para ser transparente.

Lokad pasó así a ser uno de los primeros proveedores de software en ofrecer una tecnología de pronóstico de nivel IA lista para usar, capaz de funcionar tanto para pequeños negocios de ecommerce como para grandes redes de supply chain con miles de ubicaciones y millones de SKU.

La era del GPU computing

Procesadores graficos que aceleran grandes cargas de pronostico

El deep learning siguió siendo algo de nicho hasta que sus bases de software fueron rediseñadas para aprovechar las GPU, o graphic processing units. Las GPU son muy distintas de las CPU, los procesadores centrales que todavía impulsan la mayoría del software actual. Históricamente, los videojuegos estaban entre las pocas aplicaciones masivas que dependían intensamente de ambos tipos de procesadores. Con este motor de pronóstico de quinta generación, Lokad también renovó su infraestructura de bajo nivel para que la plataforma pudiera aprovechar ambos tipos. Lokad empezó a utilizar máquinas con GPU en Microsoft Azure. Gracias a esa enorme potencia de cálculo, los pronósticos pasaron a ser no solo más precisos sino también mucho más rápidos. En conjuntos de datos importantes, una malla de GPU ofrecía normalmente resultados entre tres y seis veces más rápido.

En conjuntos de datos muy pequeños, esta quinta generación podía ser algo más lenta y tardar algunos minutos adicionales, algo sin relevancia práctica.

Lanzamientos de productos y promociones

El motor de quinta generación aportó mejoras sustanciales en algunas de las situaciones de pronóstico más difíciles, en particular los lanzamientos de productos y las promociones. Desde la perspectiva de Lokad, los lanzamientos, aunque difíciles, seguían siendo un poco más sencillos que las promociones. La diferencia se explica sobre todo por la calidad de los datos: los datos promocionales suelen ser más ruidosos y menos fiables que los datos de lanzamiento, al menos hasta que existen procesos de calidad sólidos.

Para las marcas de moda, el deep learning era especialmente prometedor, porque los lanzamientos dominan las ventas y las variantes de color y talla inflan masivamente el número de SKU que hay que pronosticar.

FAQ de pronóstico

¿Qué modelos de pronóstico utilizan?

Nuestro motor deep de pronóstico se basaba en un único modelo construido según los principios del deep learning. A diferencia de los modelos estadísticos clásicos, contaba con decenas de millones de parámetros entrenables, aproximadamente 1.000 veces más que nuestro modelo no deep más complejo de la época. El deep learning superaba con claridad a enfoques anteriores como random forests o gradient-boosted trees. Esos métodos ya superaban a los clásicos de series temporales como Box-Jenkins, ARIMA, Holt-Winters o el suavizado exponencial.

¿Aprenden de sus errores de pronóstico?

Sí. El proceso de entrenamiento estadístico que produce el modelo de deep learning utiliza todos los datos históricos disponibles para Lokad. Ese historial se explota mediante backtesting. Cuanto más historial existe, más oportunidades tiene el modelo para aprender de sus propios errores.

¿Su motor maneja estacionalidad, tendencias y efectos por día de la semana?

Sí. El motor maneja ciclos habituales y también cuasi-ciclos, cuya importancia empresarial suele subestimarse. El modelo de deep learning emplea un enfoque multiserie temporal para capturar ciclos observados en productos relacionados y al mismo tiempo adaptar el pronóstico a cada artículo. Dos productos pueden compartir una misma estacionalidad y aun así presentar patrones distintos por día de la semana; el modelo puede captar esas diferencias. El deep learning también ayuda a representar la variabilidad de la propia estacionalidad, por ejemplo cuando una temporada empieza antes o después por el clima.

¿Qué datos necesitan?

Como mínimo, el motor necesita un historial diario de la demanda. Un historial de pedidos desagregado es aún mejor. Como regla general, cuanto más largo sea el historial, mejores serán los resultados. Con menos de dos años de historial es difícil detectar estacionalidad; tres años es bueno y cinco es excelente. Para pronosticar lead times, el motor suele necesitar órdenes de compra con fecha de pedido y fecha de entrega. Los atributos de producto o SKU también refinan mucho los pronósticos. Los niveles de stock también son útiles, ya que permiten a Lokad producir un primer análisis significativo del stock.

¿Pueden pronosticar mi hoja de Excel?

Como regla práctica, si todos sus datos caben en una sola hoja de Excel, normalmente ni Lokad ni nadie podrá hacer mucho útil con ellos. Los datos de hoja de cálculo suelen estar agregados por semana o por mes, lo que elimina demasiado signal. Además, suelen faltar las categorías y jerarquías necesarias para entender bien el comportamiento de los productos. El motor de Lokad aprovecha toda la riqueza de los datos disponibles, y una muestra minúscula rara vez produce resultados significativos.

¿Qué pasa con roturas de stock y promociones?

Tanto las roturas de stock como las promociones introducen sesgo en las ventas históricas. Dado que el objetivo es pronosticar la demanda y no las ventas, ese sesgo debe tratarse explícitamente. Un enfoque frecuente pero defectuoso consiste en reescribir el historial rellenando huecos y recortando picos. Evitamos ese enfoque porque equivale a volver a introducir pronósticos dentro del motor de pronóstico, con un riesgo importante de sobreajuste. En su lugar, Lokad admite marcadores nativos para señalar cuándo la demanda ha sido censurada o inflada.

¿Pronostican productos nuevos?

Sí. Para pronosticar productos nuevos, el motor necesita las fechas de lanzamiento de productos antiguos comparables y su demanda histórica en el momento del lanzamiento. Las categorías y jerarquías de producto también son útiles. El motor identifica productos anteriores comparables a los nuevos. Como todavía no se ha observado demanda para los nuevos artículos, los primeros pronósticos se basan por completo en los atributos asociados a ellos.

¿Usan datos externos para refinar los pronósticos?

Sí, siempre que esos datos estén disponibles y sean fiables. Por ejemplo, Lokad puede aprovechar datos de precios de competidores recopilados por terceros especializados, así como datos de tráfico web. En la práctica, el principal cuello de botella no es el motor de pronóstico en sí, sino el esfuerzo necesario para construir y mantener una canalización de datos de alta calidad alrededor de esas fuentes externas.