👱 Contacts

RaphaĂ«l Bournhonesque, [email protected]

Alex Garel, [email protected]

đź“ś Contexte

Contexte général / constat / accroche

La liste d’ingrédients des produits est très importante dans la base Open Food Facts, car elle est utilisée pour calculer le groupe NOVA (score de transformation) et pour informer les utilisateurs allergiques ou intolérants que certains produits ne leur conviennent pas. Il est également probable que la liste des ingrédients sera utilisée dans les futures versions de l'Ecoscore, le score environnemental utilisé sur Open Food Facts.

Le processus actuel d'extraction des ingrédients est le suivant :

Cette approche manuelle prend du temps, et la plupart des contributeurs n'extraient pas les ingrédients. En décembre 2022, sur 2,7 millions de produits, 1,9 million n'ont pas de liste d'ingrédients complète.

Problématique adressée

Nous souhaitons extraire automatiquement la liste des ingrédients à partir des résultats d’OCR d'images, idéalement sans validation humaine.

Besoins utilisateurs

Ce projet permettra d’aider les contributeurs d’Open Food Facts à renseigner plus rapidement les fiches produits, en automatisant la tâche d’extraction des ingrédients. De plus, l’extraction de la liste des ingrédients nécessite de détecter quelle est la photo de la liste d’ingrédients, qui doit être renseignée par les contributeurs sur Open Food Facts. Ce projet permettra donc également de réaliser cette étape automatiquement.

Si la solution est assez performante, nous allons extraire automatiquement la liste d’ingrédients sur les 1,9 million de produits sans liste renseignée, ce qui permettra d’enrichir significativement la base de donnée, et par conséquent d’aider des millions d’utilisateurs à adopter une alimentation plus saine.

🎯Objectifs

Objectif général du projet pour répondre aux besoins

La première étape est de détecter la photo de la liste d’ingrédients, et plus spécifiquement un crop d’image de cette liste. Cette étape est nécessaire, car Google Cloud Vision (le service que nous utilisons pour l'OCR) ne détecte pas parfaitement la continuation de ligne (comment relier les mots détectés pour former une phrase), et la liste d’ingrédients extraite via l’OCR se retrouve parfois mélangée avec du texte périphérique.