Est-ce que notre machine est l’apprentissage ? Ars se lance dans l’intelligence artificielle

[ad_1]

Chaque jour, un petit morceau de logique construit par des éléments très spécifiques de la technologie de l’intelligence artificielle prend des décisions qui affectent la façon dont vous vivez le monde. Il peut s’agir des publicités qui vous sont diffusées sur les réseaux sociaux ou les sites de shopping, ou la reconnaissance faciale qui déverrouille votre téléphone, ou les directions que vous prenez pour vous rendre où que vous alliez. Ces décisions discrètes et invisibles sont prises en grande partie par des algorithmes créés par l’apprentissage automatique (ML), un segment de la technologie de l’intelligence artificielle qui est formé pour identifier la corrélation entre les ensembles de données et leurs résultats. Nous entendons depuis des années dans les films et à la télévision que les ordinateurs contrôlent le monde, mais nous avons finalement atteint le point où les machines prennent de véritables décisions autonomes sur des choses. Bienvenue dans le futur, je suppose.

À l’époque où j’étais membre du personnel d’Ars, j’ai beaucoup écrit sur l’intelligence artificielle et l’apprentissage automatique. J’ai parlé avec des scientifiques des données qui construisaient des systèmes d’analyse prédictive basés sur des téraoctets de télémétrie à partir de systèmes complexes, et j’ai bavardé avec des développeurs essayant de créer des systèmes capables de défendre les réseaux contre les attaques ou, dans certaines circonstances, de mettre en place ces attaques. J’ai également piqué moi-même sur les bords de la technologie, en utilisant du code et du matériel pour brancher diverses choses dans des interfaces de programmation d’IA (parfois avec des résultats effrayants, comme l’a démontré Bearlexa).

Bon nombre des problèmes auxquels l’apprentissage automatique peut être appliqué sont des tâches dont les conditions sont évidentes pour les humains. C’est parce que nous sommes entraînés à remarquer ces problèmes par l’observation – quel chat est le plus floofy ou à quelle heure de la journée la circulation est la plus encombrée. D’autres problèmes appropriés au ML pourraient également être résolus par les humains avec suffisamment de données brutes – si les humains avaient une mémoire parfaite, une vue parfaite et une compréhension innée de la modélisation statistique, c’est-à-dire.

Mais les machines peuvent effectuer ces tâches beaucoup plus rapidement car elles n’ont pas de limitations humaines. Et ML leur permet d’effectuer ces tâches sans que les humains aient à programmer les mathématiques spécifiques impliquées. Au lieu de cela, un système de ML peut apprendre (ou au moins « apprendre ») à partir des données qui lui sont fournies, créant lui-même un modèle de résolution de problèmes.

Cette force bootstrappy peut aussi être une faiblesse, cependant. Comprendre comment le système de ML est arrivé à son processus de décision est généralement impossible une fois que l’algorithme de ML est construit (malgré les travaux en cours pour créer un ML explicable). Et la qualité des résultats dépend beaucoup de la qualité et la quantité des données. Le ML ne peut répondre qu’aux questions qui sont discernables à partir des données elles-mêmes. De mauvaises données ou des données insuffisantes génèrent des modèles inexacts et un mauvais apprentissage automatique.

Malgré mes aventures antérieures, je n’ai jamais vraiment construit de systèmes d’apprentissage automatique. Je suis un touche-à-tout technologique, et bien que je sois bon en analyse de données de base et en exécutant toutes sortes de requêtes de base de données, je ne me considère pas comme un scientifique des données ou un programmeur ML. Mes aventures Python passées concernent plus le piratage d’interfaces que leur création. Et la plupart de mes compétences en matière de codage et d’analyse se sont récemment tournées vers l’exploitation des outils de ML à des fins très spécifiques liées à la recherche sur la sécurité de l’information.

Ma seule vraie superpuissance est de ne pas avoir peur d’essayer et d’échouer. Et avec cela, lecteurs, je suis ici pour faire fléchir cette superpuissance.

La tâche à accomplir

Voici une tâche pour laquelle certains rédacteurs Ars sont exceptionnellement bons : écrire un titre solide. (Beth Mole, veuillez vous présenter pour récupérer votre récompense.)

Et l’écriture de titre est difficile! C’est une tâche avec beaucoup de contraintes – la longueur étant la plus grande (les titres Ars sont limités à 70 caractères), mais loin d’être la seule. C’est un défi d’entasser dans un petit espace suffisamment d’informations pour taquiner une histoire avec précision et de manière adéquate, tout en incluant toutes les choses que vous devez mettre dans un titre (le traditionnel « qui, quoi, où, quand, pourquoi et combien  » recueil de faits). Certains éléments sont dynamiques – un « qui » ​​ou un « quoi » avec un nom particulièrement long qui ronge le nombre de caractères peut vraiment bouleverser les choses.

De plus, nous savons par expérience que les lecteurs d’Ars n’aiment pas le clickbait et rempliront la section des commentaires de dérision lorsqu’ils penseront le voir. Nous savons aussi qu’il y a des choses que les gens volonté cliquez sur sans faute. Et nous savons également que quel que soit le sujet, certains titres amènent plus de personnes à cliquer dessus que d’autres. (Est-ce un appât à clics ? Il y a là un argument philosophique, mais la principale chose qui sépare « un titre sur lequel tout le monde veut cliquer » de « un appât à clics » est l’honnêteté du titre : l’histoire sous le titre tient-elle pleinement la promesse du titre ?)

Quoi qu’il en soit, nous savons que certains titres sont plus efficaces que d’autres, car nous effectuons des tests A/B sur les titres. Chaque article Ars commence par deux titres possibles qui lui sont attribués, puis le site présente les deux alternatives sur la page d’accueil pendant une courte période pour voir lequel attire le plus de trafic.

Il y a eu quelques études réalisées par des scientifiques des données avec beaucoup plus d’expérience dans la modélisation de données et l’apprentissage automatique qui ont examiné ce qui distingue les titres « appâts à clics » (ceux conçus strictement pour amener un grand nombre de personnes à cliquer sur un article) des « bons  » titres (ceux qui résument efficacement les articles qui les sous-tendent et ne vous obligent pas à écrire de longues plaintes au sujet des titres sur Twitter ou dans les commentaires). Mais ces études se sont concentrées sur la compréhension du contenu des titres plutôt que sur le nombre de clics réels qu’ils obtiennent.

Pour avoir une idée de ce que les lecteurs semblent aimer dans un titre – et pour essayer de comprendre comment écrire de meilleurs titres pour le public d’Ars – j’ai saisi un ensemble de 500 titres Ars les plus cliqués au cours des cinq dernières années et j’ai fait quelques traitement du langage naturel sur eux. Après avoir supprimé les « mots vides » – les mots les plus courants en anglais qui ne sont généralement pas associés au thème du titre – j’ai généré un nuage de mots pour voir quels thèmes attirent le plus l’attention.

La voici : la forme des gros titres d’Ars.

Un nuage de mots des mots les plus courants qui sont apparus dans les gros titres d'Ars au cours des cinq dernières années.

Il y a beaucoup de Trump là-dedans – les dernières années ont inclus beaucoup d’actualités technologiques impliquant l’administration, donc c’est probablement inévitable. Mais ce ne sont que les mots de certains des titres gagnants. Je voulais avoir une idée de la différence entre gagner et perdre les gros titres. J’ai donc à nouveau pris le corpus de toutes les paires de titres Ars et les ai répartis entre les gagnants et les perdants. Voici les gagnants :

Ces mots viennent des gros titres qui ont remporté le test A/B...

Et voici les perdants :

... et ces mots sont venus de gros titres qui ont perdu.

N’oubliez pas que ces titres ont été écrits pour les mêmes histoires que les titres gagnants. Et pour la plupart, ils utilisent les mêmes mots, avec quelques différences notables. Il y a beaucoup moins de « Trump » dans les gros titres perdants. « Million » est fortement favorisé pour gagner les gros titres, mais un peu moins pour en perdre. Et le mot « peut » – un mot de gros titre assez indécis – se retrouve plus fréquemment dans les titres perdants que gagnants.

C’est une information intéressante, mais elle n’aide pas en soi à prédire si un titre pour une histoire donnée aura du succès. Serait-il possible d’utiliser le ML pour prédire si un titre obtiendrait plus ou moins de clics ? Pourrions-nous utiliser la sagesse accumulée des lecteurs d’Ars pour créer une boîte noire qui pourrait prédire quels titres auraient le plus de succès ?

Bon sang si je sais, mais on va essayer.

Tout cela nous amène là où nous en sommes maintenant : Ars m’a fourni des données sur plus de 5 500 tests de titres au cours des quatre dernières années : 11 000 titres, chacun avec son taux de clics. Ma mission est de créer un modèle d’apprentissage automatique capable de calculer ce qui fait un bon titre Ars. Et par « bon », j’entends celui qui vous plaît, cher lecteur d’Ars. Pour ce faire, j’ai reçu un petit budget pour les ressources de calcul d’Amazon Web Services et un mois de nuits et de week-ends (j’ai un travail de jour, après tout). Pas de problème, non ?

Avant de commencer à rechercher des solutions magiques sur Stack Exchange et divers sites Git, je voulais me baser sur ce qui est possible avec le ML et voir ce que des personnes plus talentueuses que moi en ont déjà fait. Cette recherche est autant une feuille de route pour des solutions potentielles qu’une source d’inspiration.

[ad_2]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*