Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

keepthepace_@jlai.lu · 7 months ago

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA

keepthepace_@jlai.lu · 7 months ago

Alors la théorie je l’ai beaucoup faite via des articles de blog de type <notion> explained. “Layer normalization explained”, “BERT explained”. Il y a quelques publis qui sont intéressantes à lire mais sur les technos qui ont plus d’un an, une bonne explication sur un blog aidera à aller au but et ajoutera en plus des infos sur l’utilisation actuelle de cette tech.

Les choses à comprendre:

La descente de gradient, c’est la base de tout
Le perceptron multicouche, le layer le plus simple
Le rôle des optimizers
Les différentes “couches”:
- Full connected layer (c’est la même chose qu’un perceptron)
- Convolution
- Softmax (techniquement une fonction d’activation mais elle est importante)
- Normalisation
- Dropout
- Attention
- Maxpool (ça s’utilise encore ça?)
Dans les LLMs, comprendre les tokenizers
Dans la génération de media, comprendre les modèles de diffusion et les GAN

Ah, et tu croiseras probablement des bayesiens à un moment dans cette exploration. Ils vont te parler de “priors” de fonction de distribution, tout exprimer sous forme de proba… Je blague un peu en disant que c’est une secte à part, mais c’est principalement une différence de vocabulaire: ils voient tout sous le prisme de la théorie bayesienne que (personnellement) je trouve qu’il font rentrer au chausse-pied en compliquant des notions simples. Mais je le dis pas trop fort, ça vire souvent à la guerre de religion sinon :-)

pseudo@jlai.lu · 7 months ago

De mon humble position d’étudiant n’ayant pas compris la moitié de ce que m’ont expliqué mes profs, les bayésianistes et les fréquentistes disent la même chose mais le formulent différemment. Même si la formulation des bayésianistes fait apparaître des stat partout, ça revient au même à la fin et le conflit bayésianistes/fréquentistes et le même que pain-au-chocolat/chocolatine.

Merci pour la liste, elle me sera très utile.

flyos@jlai.lu · 7 months ago

C’est pas complètement faux si tu t’en tiens aux probas, mais c’est quand même plus compliqué que ça, c’est pas juste un débat sémantique.

D’un point de vue statistique, y a une zone grise entre les deux points de vue, mais il y a aussi des approches exclusives à l’une ou l’autre perspective et cette différence d’algorithme explique aussi l’essor moderne des stats bayésiennes: le MCMC a permis de faire tourner des modèles très compliqués à faire converger en maximum de vraisemblance. L’ABC permet même de se passer de vraisemblance tout court!

D’un point de vue épistémique, c’est quand même deux points de vue très difficile à réconcilier, et ça a une importance sur comment on fait de la science (les statistiques, c’est un peu de l’épistémo pratique!).

pseudo@jlai.lu · 6 months ago

Merci pour cet éclaircissement.

pseudo@jlai.lu · 7 months ago

J’ai retrouvé une playlist francophone sur le machine learning de @[email protected] qui m’avait bien aidé à l’époque. Il a fait apparemment aussi le traitement automatique du language.
Malheureusement, sa playlist sur les réseaux de neurones est dans la langue de Shakespeare.