Automatisation du machine learning

Le machine learning ne représente qu’une partie minoritaire d’un projet d’intelligence artificielle typique. Néanmoins, c’est cette partie qui marque chaque projet et est génératrice de valeur. Plus la précision des algorithmes de prédiction est élevée, plus la valeur générée par leur mise en place sera importante.

Trouver le modèle le plus précis est une tâche particulièrement chronophage et nécessite des équipes de data scientists expérimentées. Cependant, même le métier de data scientist n’échappe pas à la tendance d’automatisation des tâches par les algorithmes, et on peut actuellement observer l’émergence de nouvelles technologies qu’on appelle “AutoML” (machine learning automatisé).

Avec Verteego Brain, nous appliquons cette tendance au domaine de la prédiction.

Le réseau de Synapps®

Des modèles d'apprentissages intelligents

L'élément de base de Verteego Brain est la Synapp®. Elle contient des modèles d’apprentissage, un fichier de paramétrage et des interfaces pour se connecter aux datasets, à d’autres applications ou d’autres Synapps®. Chaque nouvelle application prédictive démarre ainsi avec la création d’une ou plusieurs Synapps®.

Sélection automatique des modèles

Le choix du bon modèle algorithmique est le nerf de la guerre pour obtenir une précision importante dans la phase de prédiction. Il existe des centaines de modèles sur le marché, appartenant en grande partie à des librairies open source. Verteego Brain propose dans sa version native les algorithmes les plus fréquemment utilisés (arbres de décisions, régressions, séries temporelles, réseaux de neurones, etc.) et permet de “brancher” facilement d’autres librairies. Lors de l’entraînement des modèles, Verteego Brain compare automatiquement les différents modèles activés à travers des fichiers de paramétrage selon des critères de priorisation qui ont été définis par l’utilisateur.

Sélection automatique des hyperparamètres

Les hyperparamètres des modèles (sélectionnables par l’utilisateur et appelés ainsi par opposition aux paramètres qui eux ne sont pas choisis par l’utilisateur) jouent un rôle clé dans la performance de la prédiction. Ainsi, un même modèle peut produire des résultats totalement divergents selon l’ensemble des hyperparamètres sélectionnés. L’utilisateur peut “guider” la Synapp® dans le choix des hyperparamètres en indiquant des plages spécifiques dans le fichier de configuration. Néanmoins, Verteego Brain intègre nativement des méthodes de sélection des hyperparamètres les plus performants afin d’arriver à des résultats d’une bonne précision, même sans sélection manuelle.

Sélection automatique des variables

La bonne sélection des variables explicatives du modèle (aussi appelées features) est l’une des tâches les plus chronophages dans le travail du data scientist. Il est important d’intégrer le plus de variables explicatives possibles, car celles-ci augmentent la précision des prédictions, sans toutefois ajouter des variables superflues qui risqueraient de créer du “bruit” inutile et détériorer la qualité des prédictions. Verteego Brain utilise les techniques d’évaluation de la pertinence des variables les plus performantes afin de débarrasser l’utilisateur de cette tâche parfois complexe.

Simplicité ET profondeur

L’une des forces principales de Verteego Brain est sa simplicité de prise en main. Nous avons voulu concevoir une technologie avec laquelle il devient possible de créer et mettre en production une application de machine learning en moins de 10 minutes et nous pensons avoir réussi notre pari. Verteego Brain est préparamétré de manière à pouvoir lancer une première phase d’apprentissage sans aucun autre paramétrage manuel préalable. L'installation de Verteego Brain inclut automatiquement une API REST documentée et requiert pas de délai supplémentaire.

Cependant, il était aussi important pour nous de permettre à des utilisateurs aguerris de disposer d’une profondeur technologique importante ainsi que d’une grande liberté dans le paramétrage. Par conséquent, une fois la première Synapp® déployée, celle-ci peut évoluer fortement à travers les modifications apportées au fichier de configuration et l’intégration de nouvelles datasources. Au fur et à mesure que la précision augmentera, l’application reste prête à la mise en production.

Automatisation du preprocessing

Verteego Brain n’est pas une solution pour la préparation des données (comme Talend, Trifacta, Dataiku et autres). Néanmoins, parfois il peut être pratique de modifier les données d’entrée “à la volée”, sans devoir régénérer entièrement les datasets sous-jacents.
Pour cela, Verteego Brain permet, très intuitivement, de mettre en place des règles de preprocessing à travers le fichier de paramétrage. Par exemple, il est possible de générer des variables supplémentaires, calculées à partir d’autres variables, définir des règles de remplacement de certaines valeurs, exclure des outliers selon certains critères bien définis, etc.

Automatisation du postprocessing

Dans certains cas, les résultats des prédictions peuvent présenter des anomalies. Ceci arrive notamment quand les données d’entrée ne sont pas d’une qualité optimale. Il devient alors nécessaire de corriger les résultats en mettant en place des règles de gestion de différents types (ex. correction de prédictions aberrantes, remplacement de valeurs nulles, etc.). Verteego Brain permet de définir ces règles en toute simplicité à travers son fichier de paramétrage.

Combinaison de multiples modèles (Q3/2020)

Vos jeux de données peuvent être très hétérogènes. Selon les ensembles de données d’entrée utilisées dans l’apprentissage, l'un ou l'autre algorithme peut s’avérer plus efficace. Or, il est techniquement complexe d'utiliser différents algorithmes de manière combinée..

Grâce à Verteego Brain, cette contrainte appartient désormais au passé, vous n'aurez plus besoin de choisir entre différentes approches. Selon le type de données, Verteego Brain combinera les approches de modélisations les plus performantes pour chaque sous-ensemble de données afin d’obtenir la meilleure précision globale.

Explicabilité et transparence

L'explicabilité et la transparence sont essentielles pour rendre l'apprentissage automatique acceptable pour une utilisation au sein d’une organisation. Les décisions ou recommandations fournies par les algorithmes d'apprentissage automatique doivent être parfaitement compréhensibles pour les personnes désireuses de les utiliser.

Par conséquent, l’entraînement des modèles ainsi que la génération des prédictions doivent faire preuve d’une transparence parfaite sur l’origine des résultats, la pondération des variables utilisées, les algorithmes retenus et leurs hyperparamètres.

Traçabilité

Les prédictions générées par Verteego Brain ont vocation à engendrer une prise de décision dans l’organisation, totalement automatisée ou pilotée par des humains suite aux recommandations émises par l’intelligence artificielle. Il est alors indispensable que l’origine des décisions réelles soit traçable dans le temps.

Verteego Brain garde en mémoire tous les modèles historiques ainsi que les ensembles de prédictions générées. Cela permet aux utilisateurs de revenir sur des décisions passées, comprendre le paramétrage des modèles utilisés, les comparer entre eux et éventuellement les réutiliser.

Intégration de problématiques métiers récurrentes

Verteego Brain a été conçu pour accélérer la mise en place d’applications qui augmentent la performance des équipes métiers. Au fur et à mesure de l’utilisation de notre technologie par nos clients pilotes, nous avons identifiés des problématiques métiers récurrentes que nous avons décidé d’intégrer nativement dans notre solution.

Modèles de Synapps® métiers (Q3/2020)

Verteego Brain contient une douzaine de modèles de Synapps® déjà configurés et prêts à l'emploi. Ces modèles permettent de lancer des applications sans aucune configuration et de comprendre les données entrantes afin de répondre en un rien de temps à des questions commerciales complexes.

Quelques exemples de Synapps® préconfigurées dans Verteego Brain : prévision des ventes, prévision du trafic, optimisation de la démarque, optimisation des prix, etc.

Prévision de séries avec peu ou pas d’historiques

Dans de nombreux cas d'utilisation, vous devrez prévoir des données dont l'historique est faible ou inexistant (par exemple, prévoir de nouvelles collections de mode, des lancements de produits, ouverture de nouveaux points de vente, etc.)

La technologie Verteego Brain intègre des fonctionnalités spécialement conçues pour répondre de manière efficace à cette problématique fréquente et détectera automatiquement les corrélations entre les variables qui décrivent le mieux vos données sans historiques afin d’identifier automatiquement la stratégie de prédiction la plus précise.

Détection de ruptures

Dans la prévision de la demande, il est essentiel de pouvoir faire la différence entre les ruptures de stock et les faibles ventes afin d’obtenir des prévisions précises.

Verteego Brain contient un processeur de détection de ruptures de stock prêt à l'emploi qui utilise l'apprentissage automatique pour comprendre finement les corrélations dans vos données afin d’estimer si une valeur est une rupture de stock ou une vente nulle ou faible. Les annotations apportées ainsi à vos données peuvent ensuite être utilisées comme une nouvelle variable d’entrée pour rendre vos modèles de prédiction plus précis.

Comparaison de scénarios

Dans certains cas, il peut être utile de générer de multiples prédictions avec des entrées légèrement différentes. Par exemple, pour prédire des quantités vendues selon différents scénarios de prix, de promotion ou de merchandising.

Ce cas d’usage étant particulièrement fréquent, nous avons développé un modèle dédié permettant de créer une Synapp® en quelques clics.

Résolutions multiples

Que vous cherchez à prévoir vos revenus annuels, des quantités vendues dans le cadre d’une future collection de mode ou le trafic horaire dans vos points de vente ou sur votre boutique en ligne, que vous souhaitez générer un seul modèle pour toutes vos données ou des millions de modèles distincts, un pour chaque combinaison possible entre articles et points de vente, Verteego Brain a la bonne solution pour vous.

Les résolutions d’entraînement et de prédiction peuvent facilement être précisées dans les fichiers de configuration sans avoir à adapter quoi que ce soit d'autre à l'infrastructure sous-jacente.

Simplification de la mise en production

La mise en production et la maintenance des applications de machine learning représente une partie importante du temps passé sur un projet type. Verteego Brain a été conçu pour automatiser fortement le temps passé sur ces tâches.

Multi-environnement

Verteego Brain a été construit pour fonctionner dans des environnements virtuels, hébergés dans le cloud ou en local. Si vous ne souhaitez pas vous soucier de l'exécution de Verteego Brain dans vos propres environnements, notre solution SaaS gère tout pour vous. Quelle que soit la solution d'exécution que vous choisissez, votre licence comprendra toujours toutes les mises à jour, améliorations et fonctionnalités du code.

Multi-cloud

Verteego Brain est indépendant de la technologie cloud que vous souhaitez utiliser. Notre technologie est containerisée et peut être déployée sans difficulté et dans sa version native chez les principaux fournisseurs cloud (Google Cloud, Amazon Web Services, Microsoft Azure, etc.).

Si vous préférez utiliser Verteego Brain en SaaS, la solution s’exécutera dans un environnement GCP sécurisé et dédié.

Mettre fin au POC

Verteego Brain a été pensé pour ne faire aucune différence entre un proof-of-concept et une application en cours de production. Vous pouvez tester de nombreuses configurations rapidement et à moindre coût et lorsque vous êtes prêt pour le déploiement, il suffit d’augmenter la volumétrie de données ou le périmètre de votre projet, car l’environnement d’exécution sera le même.

Intégration facile avec des systèmes existants

Verteego Brain a été conçu pour améliorer les performances de votre organisation sans avoir à modifier aucun processus. Vous bénéficiez simplement de prévisions plus précises qui améliorer votre performance globale.

Verteego Brain est livré avec une API haute performance documentée qui vous permet de faire interagir vos systèmes existants avec notre technologie.

Rapidité d’exécution à tous les nouveaux

Verteego Brain a été conçu pour être rapide dans toutes les situations. Il utilisera toutes les ressources disponibles pour réduire le temps nécessaire au déploiement, à l’apprentissage des modèles et à la prévision. Et lorsque ce travail est terminé, la consommation de ressources ralentit à nouveau à presque zéro afin que vous ne payiez que ce que vous utilisez.

Tarification on demand

La licence Verteego Brain a été inspirée par les modèles de pricing des principaux fournisseurs d’accès cloud. Vous ne payez que ce que vous consommez. Nos charges financières proviennent principalement des capacités de calculs consommées lors de l’entraînement des modèles de machine learning. La consommation des prédictions et du stockage des données ne représente qu’une partie mineure du budget à allouer.

Scalabilité infinie

La technologie de parallélisation de Verteego Brain (basée sur Kubeflow) permet d'utiliser les ressources de calcul quasi-illimitées du cloud pour créer ses modèles d'apprentissage. Grâce aux capacités de parallélisation employées nativement par notre technologie, Verteego Brain sera en mesure de créer des modèles précis dans un délai décent, quelle que soient la volumétrie et la complexité de vos données.

Multiples sources de données

Les sources de données peuvent être internes ou externes, des données brutes ou calculées, hébergées localement ou dans le cloud.

En modifiant simplement les fichiers de configuration, Verteego Brain peut se connecter à de nombreuses sources de données différentes.

Verteego Brain peut facilement utiliser des données provenant de différentes sources en configurant comment les combiner.

Sécurité et confidentialité

La confidentialité de vos données est une priorité absolue pour nous. Dans sa version SaaS, nous nous appuyons sur les meilleurs pratiques de sécurisation des infrastructures ainsi que les outils mis à disposition à travers Google Cloud Platform. Sur demande, nous serions évidemment ravis de vous communiquer la description détaillée de notre politique de sécurité et nos pratiques de programmation.