Comment les magasins de fonctionnalités peuvent réduire l’effet «  Jour de la marmotte  » pour les scientifiques des données


Monte Zweben de Splice Machine explique comment les magasins de fonctionnalités peuvent aider à réduire les parties monotones du travail d’un data scientist.

De nombreuses personnes poursuivent une carrière dans la science des données parce qu’elles aiment résoudre des problèmes. Mais quelque chose appelé l’effet Groundhog Day peut limiter cela, selon Monte Zweben, PDG de la société d’IA en temps réel Splice Machine.

Zweben, qui travaillait auparavant en tant que chef adjoint de l’intelligence artificielle au centre de recherche Ames de la NASA et siège au conseil consultatif de l’école d’informatique de l’Université Carnegie Mellon, estime que les magasins de fonctionnalités peuvent aider.

Cliquez ici pour découvrir les meilleurs employeurs de science-technologie qui embauchent actuellement.

«  Passer tout votre temps à un travail monotone peut conduire à de l’insatisfaction face au travail  »
– MONTE ZWEBEN

Pouvez-vous expliquer ce qu’est l’effet Groundhog Day pour les data scientists?

Travailler en tant que data scientist suit un cycle: connectez-vous, nettoyez les données, définissez les fonctionnalités, testez et construisez un modèle. Sauf que toutes les parties du cycle ne sont pas créées égales; la préparation des données prend 80% du temps d’un data scientist.

Quel que soit le projet sur lequel vous travaillez, la plupart du temps, vous nettoyez les données et convertissez les données brutes en fonctionnalités que les modèles d’apprentissage automatique peuvent comprendre. Le vide monotone de préparation de données mêle les heures et rend chaque jour identique à celui qui le précède.

Avec une seule personne, c’est ennuyeux de devoir répéter le même travail tout le temps; avec une équipe, chaque personne qui construit des fonctionnalités légèrement différemment peut conduire à des résultats incohérents.

Cet effet pose-t-il un problème?

Du point de vue de la productivité, il est incroyablement inefficace pour une personne de répéter son propre travail plusieurs fois; c’est du temps et de l’argent dépensés pour des tâches inutiles, ce qui ralentit la mise en service des modèles.

Du point de vue des employés, passer tout votre temps à un travail monotone peut conduire au mécontentement du travail et augmenter le roulement du personnel. Pour l’entreprise dans son ensemble, l’absence d’un processus de données centralisé peut également entraîner des incohérences dans l’entreprise.

Si différentes personnes définissent les fonctionnalités différemment dans une entreprise, cela peut entraîner des différences entre les modèles et les décisions commerciales en fonction des définitions de fonctionnalités. La valeur à vie d’un client (LVC) en est un excellent exemple. Une équipe peut définir la valeur à vie comme le total des dépenses passées d’un client, tandis qu’une autre peut inclure la valeur projetée du client dans le LVC.

Des définitions incohérentes peuvent conduire à un traitement préférentiel dans une entreprise et affecter la fidélisation des clients à long terme.

Que sont les magasins de fonctionnalités? Comment peuvent-ils bénéficier aux travailleurs des données?

Un magasin de fonctionnalités est un référentiel partageable de fonctionnalités conçu pour automatiser la saisie, le suivi et la gouvernance des données dans des modèles d’apprentissage automatique. Les magasins de fonctionnalités calculent et stockent les fonctionnalités, ce qui leur permet d’être enregistrées, découvertes, utilisées et partagées au sein d’une entreprise.

Un magasin de fonctionnalités garantit que les fonctionnalités sont toujours à jour pour les prédictions et maintient l’historique des valeurs de chaque fonctionnalité de manière cohérente, afin que les modèles puissent être facilement entraînés et réentraînés.

Les magasins de fonctionnalités permettent une transparence totale du modèle, garantissent une formation cohérente et peuvent servir des modèles de mises à jour en temps réel des ensembles de données agrégés.

Comment fonctionnent les magasins de fonctionnalités?

Un magasin d’entités est un référentiel d’entités, d’ensembles d’entités et de valeurs d’entités, ainsi que leur historique d’entités. Le magasin de fonctionnalités dispose d’un ensemble de services qui interagissent avec ce référentiel, qui comprend la définition de fonctionnalités, la recherche de fonctionnalités, la récupération de la valeur actuelle des fonctionnalités, l’association de métadonnées à ces fonctionnalités, la définition d’un ensemble d’apprentissage à partir de groupes de fonctionnalités et le remplissage de nouvelles fonctionnalités dans des ensembles de formation.

Dans certaines implémentations, les magasins de fonctionnalités ont des interfaces utilisateur qui appellent ces services, et dans d’autres, ce ne sont que des API.

Les magasins d’entités sont alimentés par des pipelines qui transforment les données brutes en entités. Ces fonctionnalités peuvent ensuite être définies, déclarées dans des groupes et attribuées à des métadonnées qui facilitent leur recherche. Une fois que les fonctionnalités sont dans le magasin, elles sont utilisées pour créer des vues d’entraînement, des ensembles d’entraînement et des fonctionnalités de service. Ces mécanismes permettent aux magasins de fonctionnalités d’automatiser la transformation des données, de proposer des fonctionnalités agrégées en temps réel et de surveiller les modèles en temps réel.

Comment recommanderiez-vous aux travailleurs de données d’intégrer les magasins de fonctionnalités? Quels conseils leur donneriez-vous?

Ma principale recommandation est de préparer l’avenir. Même si vous n’avez que quelques modèles en production pour le moment, j’ai vu tant de travailleurs de données lutter pour mettre à l’échelle une architecture de données ad hoc. D’ici 10 ans, les entreprises les plus performantes disposeront de centaines et de milliers de modèles d’apprentissage automatique fonctionnant simultanément; ce sera impossible à gérer sans un magasin de fonctionnalités.

Si vous êtes sur la clôture, essayez-en un! Ils sont faciles à utiliser et modifieront sérieusement votre flux de travail de données de la meilleure façon possible. Je recommande personnellement d’essayer un magasin de fonctionnalités basé sur SQL. Assurez-vous d’avoir un magasin de fonctionnalités qui fonctionne sur n’importe quel cloud et sur site également. Vous ne voulez pas être enfermé dans un cloud spécifique qui pourrait être moins compétitif à l’avenir.

Y a-t-il des ressources sur le sujet que vous recommanderiez?

J’écris actuellement un livre sur les magasins de fonctionnalités pour l’apprentissage automatique avec Manning Publishers (sortie prévue en 2021).

Featurestore.org est un excellent emplacement central pour de nombreuses informations sur les magasins de fonctionnalités. Le blog Toward Data Science sur Medium propose également un excellent contenu sur les magasins de fonctionnalités.

Partager:

Partager sur facebook
Partager sur twitter
Partager sur telegram
Partager sur reddit
Partager sur linkedin
Partager sur pinterest

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Articles Similaires