OpenAI et Midjourney auraient choisi d'utiliser les publications issues de Tumblr et WordPress pour enrichir leur processus d'entraînement.

Des informations suggèrent que la société mère, Automattic, aurait intégré des données privées dans son ensemble initial.

L'essor des accords de formation des données d'IA suscite de plus en plus l'intérêt des sites web.

Une possible cession des données utilisateurs de Tumblr et WordPress à des entreprises d'IAAutomattic, la société mère des plateformes de blogs Tumblr et WordPress, serait sur le point de finaliser des accords avec OpenAI et Midjourney pour la vente de données utilisateurs. Ces données seraient destinées à alimenter les modèles des entreprises d'IA, selon des informations relayées par 404 Media.

Des allégations d'inclusion de données privées.

Cependant, la nature précise des données incluses dans ces accords demeure floue. Selon une supposée publication interne de Cyle Gage, responsable produit chez Tumblr, Automattic aurait envisagé d'inclure des données privées ou liées à des partenaires, bien que cela ait été initialement exclu de l'accord. Ceci pourrait potentiellement inclure des publications privées, des blogs supprimés ou suspendus, voire du contenu marqué comme explicite.

Un nouvel outil pour la protection des données des utilisateurs.

Face à ces incertitudes, Automattic aurait l'intention de lancer un outil d'opt-out ce mercredi. Ce dernier offrirait aux utilisateurs la possibilité de restreindre l'accès à leurs données par des tiers, y compris les entreprises d'IA. Selon une FAQ interne préparée par Automattic, si un utilisateur opte dès le départ pour la restriction, son site serait ajouté à une liste interdisant l'accès. De plus, en cas de changement d'avis ultérieur, Automattic notifierait ses partenaires pour demander la suppression du contenu.

Un marché lucratif pour les sites web.

Dans un contexte où la pérennité des publications en ligne devient de plus en plus incertaine, les accords de formation des données d'IA représentent une opportunité lucrative pour de nombreux sites web. Google, par exemple, a récemment conclu un accord avec Reddit pour former son intelligence artificielle en utilisant la vaste base de connaissances générée par les utilisateurs du site. De son côté, OpenAI a initié un programme de partenariat l'année dernière afin de collecter des ensembles de données provenant de tiers pour entraîner ses modèles d'IA.

Reactions: CrdaN

OpenAI et Midjourney auraient choisi d'utiliser les publications issues de Tumblr et WordPress pour enrichir leur processus d'entraînement.