Optimisation d’une campagne avec des clusters Azure HDInsight Spark

Cette solution montre comment créer et déployer un modèle Machine Learning avec Microsoft R Server sur des clusters Azure HDInsight Spark pour recommander des actions visant à maximiser le taux d’achat des leads ciblés par une campagne. Cette solution permet de gérer efficacement le Big Data sur Spark avec Microsoft R Server.

+ Afficher plus – Afficher moins

Description

Cette solution crée un cluster HDInisght Spark avec Microsoft R Server. Ce cluster contient 2 nœuds principaux, 2 nœuds worker et 1 nœud de périphérie avec un total de 32 cœurs. Le coût approximatif de ce cluster HDInsight Spark est de $8.29/heure. La facturation commence dès la création d’un cluster et prend fin lors de la suppression de celui-ci. La facturation est calculée au prorata à la minute. Vous devez donc toujours supprimer votre cluster lorsqu’il n’est plus utilisé. Utilisez la page Déploiements pour supprimer l’intégralité de la solution lorsque vous avez terminé.

Présentation

Lorsqu’une entreprise lance une campagne marketing pour attirer l’attention des clients sur un nouveau produit ou un produit existant, elle utilise souvent un ensemble de règles métiers pour sélectionner des leads à cibler pour sa campagne. Des fonctionnalités Machine Learning peuvent être utilisées pour augmenter le taux de réponse de ces leads. Cette solution montre comment utiliser un modèle pour prédire des actions qui sont à même de maximiser le taux d’achat des leads ciblés par la campagne. Ces prédictions servent de base pour les recommandations à utiliser par une campagne renouvelée concernant la méthode de contact (par exemple e-mail, SMS ou prospection téléphonique), et le moment auquel établir le contact (jour et heure) avec les leads ciblés. La solution présentée ici utilise des données simulées issues d’une compagnie d’assurance afin de modéliser les réponses des leads à la campagne. Les outils de prédiction de modèle incluent des détails démographiques sur les leads, les performances des anciennes campagnes et des détails propres au produit. Le modèle prédit la probabilité que chaque lead de la base de données effectue un achat à partir d’un canal, chaque jour de la semaine à différentes heures. Les recommandations relatives au canal, au jour et à l’heure à utiliser lors du ciblage d’utilisateurs sont ensuite basées sur la combinaison canal/horaires qui, selon le modèle, a la plus forte probabilité pour qu’un achat ait lieu.

Point de vue de l’entreprise

Cette solution emploie des fonctionnalités Machine Learning tirant parti des données de campagne historique afin de prédire les réponses des clients et d’effectuer des recommandations sur le moment et la façon de contacter les leads. Les recommandations incluent le meilleur canal pour contacter un lead (dans notre exemple : e-mail, SMS ou prospection téléphonique), le meilleur jour et la meilleure heure pour la prise de contact.

Microsoft R Server sur des clusters HDInsight Spark fournit des fonctionnalités Machine Learning scalables et distribuées pour le Big Data, en tirant parti de la puissance combinée de R Server et d’Apache Spark. Cette solution démontre comment développer des modèles Machine Learning pour l’optimisation des campagnes marketing (notamment le traitement des données, l’ingénierie des caractéristiques, la formation et l’évaluation des modèles), déployer les modèles en tant que service web (sur le nœud de périphérie) et consommer le service web à distance avec Microsoft R Server sur des clusters Azure HDInsight Spark. Les prédictions finales et les recommandations sont enregistrées dans une table Hive contenant des recommandations sur la méthode à utiliser et le moment adéquat pour la prise de contact avec chaque lead. Ces données sont ensuite visualisées dans Power BI.

Power BI présente également des résumés visuels de l’efficacité des recommandations de campagne (indiquées ici avec des données simulées). Vous pouvez essayer ce tableau de bord en cliquant sur le lien Essayer maintenant à droite.

L’onglet Recommandations de ce tableau de bord affiche les recommandations prédites. Le tableau situé en haut montre les leads individuels pour notre nouveau déploiement. Il inclut des champs (ID du lead, campagne et produit) indiquant les leads sur lesquels appliquer nos règles métiers. D’autres informations sont également disponibles : des prédictions de modèle pour les leads, indiquant le canal et l’heure optimaux pour le contact des leads, ainsi que des probabilités estimées pour que les leads achètent nos produits à l’aide de ces recommandations. Ces probabilités peuvent être utilisées pour augmenter l’efficacité de la campagne en limitant le nombre de leads contactés au sous-ensemble le plus susceptible d’acheter.

L’onglet Recommandations présente également divers résumés de recommandations et d’informations démographiques sur les leads. L’onglet Résumé de la campagne du tableau de bord affiche des résumés des données historiques utilisées pour créer les recommandations prédites. Bien que cet onglet affiche également des valeurs pour le jour, l’heure et le canal, ces valeurs sont des observations passées réelles, à ne pas confondre avec les recommandations du modèle, affichées sous l’onglet Recommandations.

Point de vue du chercheur de données

Cette solution montre le processus de bout en bout qui permet de développer et de déployer des modèles Machine Learning pour l’optimisation des campagnes marketing. Elle contient des exemples de données, du code R pour chaque étape de la création du modèle (notamment le traitement des données, l’ingénierie des caractéristiques, la formation et l’évaluation des modèles et les exemples de données), du déploiement du modèle en tant que service web (sur le nœud de périphérie) et de la consommation du service web à distance avec Microsoft R Server sur des clusters Azure HDInsight Spark.

Les chercheurs de données qui testent cette solution peuvent utiliser le code R fourni à partir de l’édition open source sur navigateur de RStudio Server qui s’exécute sur le nœud de périphérie du cluster Azure HDInsight Spark. En définissant le contexte de calcul, l’utilisateur peut décider où le calcul s’effectue : localement sur le nœud de périphérie ou de façon distribuée sur les nœuds du cluster Spark. L’ensemble du code R est également disponible sur le dépôt GitHub public. Amusez-vous bien !

Clause d’exclusion de responsabilité

© 2017 Microsoft Corporation. Tous droits réservés. Ces informations sont fournies en l’état et sont susceptibles de changer sans préavis. Microsoft n’accorde aucune garantie expresse ou implicite en lien avec les informations fournies ici. Des données tierces ont été utilisées pour générer la solution. Vous êtes tenu de respecter les droits des autres utilisateurs, y compris obtenir et vous conformer aux licences pertinentes afin de créer des jeux de données similaires.

Campaign Optimisation with Azure HDInsight Spark ClustersThis solution demonstrates how to build and deploy a machine learning model with Microsoft R Server on Azure HDInsight Spark clusters to recommend actions to maximise the purchase rate of leads targeted by a campaign. This solution enables efficient handling of big data on Spark with Microsoft R Server.

Architectures de solution associées