Vue lecture

AIDGE - Du deep learning sur vos microcontrôleurs

L'IA embarquée, c'est pas juste un buzzword de salon type CES. C'est vraiment ce qui fait que votre voiture freine toute seule, que votre drone évite les arbres et que votre prothèse auditive filtre le bruit en temps réel. Sauf que pour déployer un réseau de neurones sur un microcontrôleur de 256 Ko de RAM... bah on dépend quasi exclusivement de frameworks américains ou chinois.

Un peu gênant, non ?

Du coup, le CEA (oui, le Commissariat à l'énergie atomique, celui de Palaiseau) a décidé de s'y coller avec AIDGE , un framework open source dédié à l'IA embarquée qui est hébergé par la fondation Eclipse. En gros, vous prenez votre modèle de deep learning entraîné sous PyTorch ou importé en ONNX, et AIDGE se charge de l'optimiser puis de générer du code C/C++ standalone prêt à tourner sur votre cible matérielle. Pas du pseudo-code donc mais du vrai C++ compilable.

Et quand je vous dis "cible matérielle", y'a bien sûr pour les GPU et les CPU mais également pour des microcontrôleurs, des DSP, des FPGA (ces puces reprogrammables), des NPU (processeurs spécialisés IA) et même d'ASIC custom. Le framework du CEA supporte les architectures CNN, RNN, GAN et Transformers, avec tout l'arsenal d'optimisation qui va bien tels que quantification post-entraînement, pruning, compression, et même du Quantization Aware Training basé sur les méthodes SAT et LSQ. Bon ok, ça fait beaucoup d'acronymes, on ne comprend pas tout ^^, mais en résumé c'est ce qui permet de réduire la taille d'un modèle de plusieurs gigas à quelques centaines de Mo sans trop perdre en précision.

en fait, au lieu de réécrire tout pour chaque puce, AIDGE utilise un système de graphes pour manipuler et transformer vos modèles indépendamment du hardware cible. Comme ça si vous changez de puce, vous regénérez le code, et c'est reparti. Pas besoin de réécrire votre pipeline de déploiement à chaque fois (et ça, si vous avez déjà bossé dans l'embarqué, vous savez que c'est pas rien). Bon par contre, faut pas s'attendre à un pip install aidge qui marchera du premier coup... ce serait trop simple ;-). Faudra quand même compiler quelques dépendances C++ avant d'en profiter.

AIDGE est porté par deux gros programmes : DeepGreen côté français avec 18 partenaires (Airbus, Thales, Dassault Aviation, EDF, MBDA, Inria dans la boucle) et Neurokit2E financé par Horizon Europe qui réunit 25 partenaires dans 5 pays (STMicroelectronics, Infineon, Fraunhofer entre autres). Et le projet embarque même un design de chip dédié qui s'appelle NeuroCorgi (oui, comme le chien de la reine d'Angleterre ^^).

D'ailleurs, les cas d'usage vont du classique à des choses plus inattendues : détection d'objets pour l'ADAS automobile (genre, freiner avant le piéton), maintenance prédictive en usine, ou encore amélioration audio temps réel pour les prothèses auditives. Le tout sous licence Eclipse Public License 2.0, donc libre et gratuit.

Bon après, la doc a encore du mal à suivre (comme souvent avec les projets de recherche) et j'aurais aimé des benchmarks comparatifs clairs face à TensorFlow Lite ou ONNX Runtime, histoire de voir concrètement combien de millisecondes on gagne sur un STM32 par rapport aux alternatives. Mais le fait d'avoir une chaîne complète design-optimisation-déploiement qui soit européenne, open source et hardware-agnostique... ça mérite quand même qu'on s'y intéresse. Surtout quand on voit la dépendance actuelle à PyTorch qui est, faut bien le dire, piloté par Meta.

Bref, si vous bossez dans l'embarqué ou que vous kiffez bidouiller du deep learning sur des petites puces, allez jeter un oeil .

Merci à Fabrice pour le lien !

  •  

Le VLIW, cette architecture de processeur "impossible" qui revient par la porte de l'IA

La chaîne YouTube Asianometry vient de publier une vidéo qui retrace l'histoire du VLIW, une architecture de processeur née dans les années 80 et longtemps considérée comme un échec. Sauf que cette technologie, enterrée avec l'Itanium d'Intel, refait surface dans les puces dédiées à l'intelligence artificielle. Et elle est peut-être déjà dans votre smartphone.

Le principe, et c'est un peu technique

Si vous ne connaissez pas Asianometry, c'est une chaîne qui décortique l'histoire des semi-conducteurs avec un vrai talent de vulgarisation, et cette vidéo sur le VLIW (pour Very Long Instruction Word) ne fait pas exception.

L'idée est assez simple sur le papier. Un processeur classique exécute ses instructions une par une, ou les réordonne à la volée avec du matériel dédié (c'est ce que font les puces modernes avec l'exécution "out-of-order").

Le VLIW fait l'inverse : c'est le compilateur, le logiciel qui transforme le code en instructions machine, qui regroupe à l'avance plusieurs opérations dans un seul "mot" très long. Du coup, le processeur n'a plus qu'à exécuter le paquet en une seule fois, sans se pose la moindre question. Le matos est de fait plus simple, moins gourmand en énergie, et plus rapide.

Le problème, c'est que tout repose sur le compilateur. S'il ne trouve pas assez d'opérations à paralléliser, le processeur tourne à vide. Et écrire un compilateur capable de faire ça correctement, c'est un casse-tête qui a occupé des chercheurs pendant des décennies.

L'Itanium, le plus gros pari raté d'Intel

Les premières tentatives commerciales datent des années 80 avec Multiflow et Cydrome, deux entreprises qui ont fait faillite. Intel a sorti le i860 en 1989, un processeur VLIW quasi impossible à programmer. Et puis il y a eu l'Itanium. Développé avec HP à partir de 1994 sous le nom IA-64, ce processeur devait remplacer le x86 et dominer les serveurs. Les analystes prédisaient la fin des architectures classiques.

Quand l'Itanium est sorti en 2001 après dix ans de développement, les performances étaient décevantes, la compatibilité avec les logiciels existants était catastrophique, et AMD avait entre-temps lancé le x86-64 qui faisait tout pareil en restant compatible avec l'ancien. L'Itanium est devenu un produit de niche avant de disparaître. La presse tech l'a rebaptisé "Itanic", en référence au Titanic.

Le retour par l'intelligence artificielle

Le VLIW n'a jamais complètement disparu. Texas Instruments l'utilise dans ses processeurs de traitement du signal depuis 1997 avec la famille TMS320C6000. Le DSP Hexagon de Qualcomm, celui qui gère l'inférence IA dans les puces Snapdragon, est lui aussi basé sur du VLIW.

Et Groq, la startup qui fait beaucoup parler d'elle pour la vitesse de ses puces d'inférence, utilise une architecture VLIW où le matériel ne prend aucune décision à l'exécution.

L'inférence de réseaux de neurones, c'est justement le type de calcul idéal pour le VLIW : des opérations régulières, prévisibles, massivement parallèles.

Pas besoin de réordonnancer quoi que ce soit, le compilateur peut tout planifier en amont. Des chercheurs travaillent d'ailleurs sur des extensions RISC-V qui intègrent des principes VLIW pour combiner le meilleur des deux mondes.

C'est quand même amusant de voir une technologie enterrée il y a vingt ans revenir grâce à l'IA. Le VLIW a échoué dans les années 2000 parce que le code des logiciels classiques est trop imprévisible pour être optimisé par un compilateur.

Mais l'inférence IA, c'est l'exact opposé : tout est prévisible et régulier. Du coup, l'architecture qui devait remplacer le x86 se retrouve à alimenter les accélérateurs IA de votre Snapdragon. Comme quoi, en informatique, rien ne meurt vraiment.

Source : Hackaday

  •  

TurboQuant - Un LLM de 104B sur un MacBook, merci Google

Vous faites tourner des LLMs en local comme le gros fifou de Hipster IA que vous êtes et, Ô drame, la VRAM de votre ordinateur explose dès que le contexte dépasse 8000 pauvres malheureux tokens ?

Le problème c'est le KV cache les amis ! Le KV cache c'est ce truc qui stocke les clés et valeurs d'attention et qui grossit linéairement avec la longueur du prompt. C'est pour gérer ce problème que Google a annoncé sous la forme d'un whitepaper uniquement un algo qui compresse tout ça de 3,8 à 6,4 fois... et youpi pour nous, y'a un dev qui l'a déjà implémenté dans un fork de llama.cpp .

Concrètement ça donne :

llama-server -m model.gguf -ctk turbo3 -ctv turbo3 -fa on

Et vous venez de diviser la mémoire du cache par 4,6. Et voilà comment un énoooorme Command-R+ de 104 milliards de paramètres arrive à tourner à 128K tokens de contexte sur un MacBook M5 Max, avec un pic mémoire max de 74 Go.

Pour bien comprendre pourquoi c'est costaud, faut revenir au problème de base. En fait quand un LLM génère du texte, il stocke pour chaque token passé 2 vecteurs (la clé K et la valeur V) dans un cache. Plus le contexte est long, plus ce cache grossit. Et ça s'accumule vite... Par exemple, sur un Llama 70B avec 128K tokens de contexte, le KV cache en fp16 bouffe à lui seul plus de 40 Go de RAM. Du coup votre modèle Llama 3.1 ou Qwen3 rentre évidemment en mémoire, mais le cache, lui, fait tout déborder comme vous quand vous vous incrustez dans la mini piscine Intex des gosses.

Google a publié son papier TurboQuant fin mars et leur idée c'est de compresser ces vecteurs K et V en 3-4 bits au lieu de 16, sans ré-entraîner le modèle. En fait l'algorithme fait ça en deux étapes...

D'abord PolarQuant : on applique une rotation Walsh-Hadamard aux vecteurs pour "gaussianiser" leur distribution, genre transformer des données qui partent dans tous les sens en une forme bien ronde et prévisible.

Puis on convertit les coordonnées cartésiennes en coordonnées polaires, rayon + angle. Le rayon capture alors l'essentiel de l'information, et l'angle se compresse très bien parce que sa distribution est connue à l'avance.

Ensuite, deuxième étape, QJL (Quantized Johnson-Lindenstrauss) : Il s'agit d'un correcteur d'erreur à 1 bit qui élimine le biais résiduel, le tout sans overhead mémoire pour les constantes de quantification, contrairement aux méthodes classiques comme q4_0 ou q5_1 qui perdent 1-2 bits rien qu'en stockant leurs propres paramètres.

Et c'est là qu'intervient notre développeur de génie, TheTom, qui a pris ce document académique de Google et l'a transformé en code C avec des kernels Metal pour Apple Silicon et CUDA pour NVIDIA. Et c'est pas juste un portage bête et méchant puisqu'il a vraiment poussé les expériences bien au-delà du document original avec une couverture de tests de 100% et des benchmarks sur des modèles de 1.5 à 104 milliards de paramètres.

Et ses découvertes les plus intéressantes c'est justement ce qui n'est PAS dans le paper. Première trouvaille : la compression des valeurs V est gratuite. Compresser V à 2 bits sur Qwen, Llama, Mistral ou Command-R+ n'a aucun impact mesurable sur la qualité d'attention, tant que les clés K restent en q8_0.

Et cela a été confirmé sur Metal M5 Max 128 Go, CUDA RTX 4090 et RTX 3090 par plusieurs testeurs indépendants. C'est franchement contre-intuitif, mais cela veut dire que toute la dégradation de qualité vient de la compression des clés K, et pas de leurs valeurs. Du coup une config asymétrique (K en q8_0, V en turbo3) arrive à récupèrer des modèles où la compression symétrique échoue.

Deuxième trouvaille : les couches limites sont hypersensibles. Protéger les 2 premières et 2 dernières couches en q8_0 pendant qu'on compresse le reste en turbo2 permet de récupérer jusqu'à 91% de la perte de qualité. Et plus le modèle est gros, mieux ça marche. C'est seulement 15 lignes de code, et là encore, y'a aucun impact sur la vitesse.

Troisième trouvaille : Sparse V, un décodage du cache qui saute les positions V à faible poids d'attention permet de gagner environ 23% de vitesse de décodage à 32K tokens de contexte. Et zéro dégradation de la qualité.

Côté chiffres bruts, y'a 3 modes : turbo4 compresse 3.8x et le modèle répond quasi pareil qu'avant. turbo3 compresse 4.6x avec une perte de qualité à peine détectable. turbo2 pousse à 6.4x mais là faut l'utiliser malin (uniquement sur les valeurs V, pas les clés K).

Et dire que pour l'instant Google n'a toujours pas publié de code officiel (mais c'est prévu pour le second trimestre 2026)... Donc pour le moment, cette implémentation communautaire est le seul moyen de tester TurboQuant dans un fork llama.cpp. Ça tourne sur Apple Silicon M1 à M5, NVIDIA RTX 3080 Ti à 5090 et AMD 6800 XT / 9070 XT et visiblement, pas mal de monde a testé sur du matériel varié et les résultats sont au rendez-vous.

Donc voilà, si vous faites de l' inférence LLM locale et que la mémoire vous limite, c'est le moment de tester ça !

  •  

Reverse-SynthID - Le filigrane de Gemini mis à nu

SynthID, le filigrane invisible que Google injecte dans chaque image Gemini, c'était censé être incassable. Sauf qu'un dev a eu l'idée toute bête de générer des images noires et blanches avec Gemini, puis de regarder ce qui restait dans le domaine fréquentiel. Et là, surprise... le watermark est apparu en clair avec toutes ses fréquences porteuses !

Le projet reverse-SynthID documente le truc de A à Z où on comprend en gros, que le marquage IA de Google fonctionne en injectant de l'énergie à des fréquences bien précises dans le spectre de l'image via une transformation de Fourier . Le chercheur a identifié 6 fréquences porteuses principales, toutes avec une cohérence de phase supérieure à 99,9% et la blague, c'est que ce pattern est fixe. Donc pas de message unique par image, pas de clé qui change... c'est juste la même empreinte spectrale sur toutes les images sorties du modèle Gemini.

Spectre FFT du watermark SynthID - les pics lumineux correspondent aux fréquences porteuses identifiées

Du coup, une fois que vous avez profilé cette empreinte avec une cinquantaine d'images PNG de référence (25 noires, 25 blanches, générées via l'API Gemini), vous pouvez faire deux trucs. D'abord, détecter le filigrane avec 90% de précision, sans avoir le moindre accès au code source de Google. Et ensuite le retirer en soustrayant les composantes spectrales identifiées, fréquence par fréquence, tout en préservant la qualité de l'image à plus de 40 dB PSNR. Visuellement identique à l'original !

Et c'est là que la différence avec UnMarker (dont je vous avais parlé) saute aux yeux car ce dernier "secoue" l'image en aveugle pour casser le watermark. Alors que Reverse-SynthID, c'est plutôt scruté à la loupe et hyper ciblé. Résultat, y'a clairement moins de dégradation et un drop de confiance du détecteur.

Les fréquences porteuses reconstruites - la structure diagonale du watermark SynthID

Par contre, je l'ai implémenté en Rust et j'ai essayé de voir si ça marchait vraiment sur mes propres images générée avec Gemini. Hé bien non, car le bypass ne fait PAS chuter la confiance du détecteur de 100 à 0, mais juste de quelques pourcents.

Le watermark est atténué, mais pas effacé. Ce n'est donc pas un outil clé en main pour faire disparaître tous les filigranes SynthID en un clic. Mais le fait qu'une seule personne, avec du Python et du traitement de signal classique (FFT, filtres notch, soustraction spectrale), ait pu reverse-engineerer un système que Google présente comme LA solution anti-deepfakes...

Ça confirme ce que les chercheurs de l'Université de Waterloo avaient déjà démontré : le watermarking d'images IA, c'est pété by design.

D'ailleurs, Google le sait très bien et ils pourraient changer le pattern demain et tout serait à refaire, mais ça confirme surtout que le principe même du watermarking spectral a une date de péremption. Après, ça arrange tout le monde d'avoir un truc à montrer quand les gouvernements demandent "et contre les deepfakes, vous faites quoi ?"

Et si c'est la petite étoile visible en bas à droite des images Gemini qui vous gêne (pas le watermark spectral invisible, juste le marqueur visuel), j'ai développé un outil pour mes Patreons qui s'en occupe.

Bref, tout est sur le repo si le reverse-engineering de watermarks IA, ça vous branche !

  •  

Un agent IA a mené 700 expériences en deux jours pour améliorer un modèle de langage

Andrej Karpathy, ancien chercheur chez OpenAI et ex-responsable de l'IA chez Tesla, a laissé tourner un agent IA pendant 48 heures sur un petit modèle de langage. Résultat : 700 expériences, 20 optimisations retenues et un gain de 11 % sur le temps d'entraînement.

Le principe d'autoresearch

Mais c'est quoi ce concept d'autoresearch ? Et bien le fonctionnement est assez direct : un agent IA reçoit un script d'entraînement de 630 lignes en Python et un budget de calcul fixe de 5 minutes par expérience sur un seul GPU. Et c'est là que l'agent se met en mouvement pour lire le code, formuler une hypothèse, modifier le script, lancer l'entraînement, évaluer le résultat, et surtout décider, ou non, de conserver une modification.

Si le modèle s'améliore, le changement devient la nouvelle base. Sinon, il revient en arrière et essaie autre chose. En deux jours de boucle continue, l'agent a conduit environ 700 itérations et identifié 20 améliorations cumulables qui ont réduit le temps nécessaire pour atteindre le niveau GPT-2 de 2,02 heures à 1,80 heure.

Tobias Lütke, le patron de Shopify, a d'ailleurs testé le système sur des données internes : après une nuit, 37 expériences et un gain de 19 % sur les performances de son modèle.

La question de l'auto-amélioration

Là où le projet fait pas mal parler, c'est l'idée que cette IA s'améliore elle-même en boucle, dans un scénario que certains chercheurs en sécurité aiment appeler "exploser d'intelligence" (c'est aussi comme ça que j'appelle chaque moment que je passe à regarder l'ami Korben me parler de ses projets en cours).

Karpathy tempère : son agent n'optimise pas son propre code, il ajuste l'entraînement d'un modèle bien plus petit et bien moins complexe.

Par contre, il assume que tous les grands labos d'IA vont adopter cette méthode et que ça va accélérer la recherche. Il imagine à terme des essaims d'agents qui collaborent en parallèle, testent des pistes différentes et remontent les meilleures idées à des échelles de plus en plus grandes. Son objectif : ne pas reproduire le travail d'un doctorant, mais celui d'une communauté entière de chercheurs.

Bon maintenant il faut quand même relever que certains critiquent quand même l'idée, car elle ressemble en partie à AutoML, une technique qui est déjà utilisée chez Microsoft et Google.

Karpathy a répondu que la comparaison ne tient pas : AutoML fonctionne avec des variations aléatoires ou des algorithmes évolutifs, alors qu'autoresearch utilise un vrai modèle de langage qui écrit du code, apprend de ses expériences précédentes et a accès à internet. Bref, tout ceci est fascinant.

Source : The News Hack

  •  

Claude Octopus - Faites débattre 3 IA sur votre code

Claude Octopus , c'est un plugin Claude Code qui fait bosser trois IA ensemble sur le même problème. Codex pour l'implémentation, Gemini pour la recherche, Claude pour la synthèse, le tout avec un seuil de qualité à 75% qui bloque ce qui n'est pas au niveau.

En gros, au lieu de faire confiance à un seul modèle GPT ou Gemini, vous en mettez trois en parallèle et le plugin ne valide que si les résultats des trois moteurs convergent suffisamment.

Ça s'installe en deux commandes :

claude plugin marketplace add https://github.com/nyldn/claude-octopus.git
claude plugin install octo@nyldn-plugins

Et ensuite, faites un /octo:setup dans votre terminal et c'est parti.

Le truc fonctionne avec Claude seulement sous macOS, Linux ou Windows dès le départ, donc pas besoin de configurer Codex ou Gemini pour démarrer. Il vous guidera pour ça ensuite.

Le plugin embarque 39 commandes, 32 personas spécialisées (par exemple un auditeur sécu qui pense en OWASP, un architecte backend pour les API REST, un designer UI/UX basé sur BM25...etc) et 50 skills. Tout ça s'active ensuite automatiquement selon votre prompt. Vous tapez "wesh audite mon API ma gueule" dans votre terminal zsh et c'est le bon expert qui débarque. Et si vous ne savez pas quelle commande taper, /octo:auto fait le tri pour vous. C'est très pratique.

Le workflow principal suit la méthode Double Diamond (discover, define, develop, deliver) avec des quality gates entre chaque phase. Du coup un bout de code bâclé ne peut pas avancer au stade suivant. Pour les plus flemmards, y'a même un "Dark Factory Mode" qui prend un fichier Markdown en entrée et vous sort du code testé avec un score de satisfaction. Comme ça, vous n'avez qu'à relire que le rapport final au lieu de valider chaque PR manuellement.

Sous le capot, l'orchestrateur écrit en Bash lance Codex CLI et Gemini CLI en parallèle pour la recherche, puis Claude Sonnet 4.6 synthétise les deux réponses. Forcément, trois modèles en parallèle c'est plus lent qu'un seul donc faut compter 30 à 60 secondes par requête. Déso pas déso ^^.

Et pour la revue de code, c'est carrément, pardonnez-moi l'expression, "adversarial" puisque ce sont 4 agents (Codex logique, Gemini sécu, Claude archi, Perplexity pour les CVE ) qui postent des commentaires inline sur vos PR GitHub et y'a ensuite un "reaction engine" qui auto-répond aux échecs CI et aux review comments.

Ce projet c'est quasi l'œuvre d'un seul développeur dévoué et sa vélocité de développement est dingue... Ça vibe code à donf quoi ^^.

C'est gratuit, open source, par contre, chaque provider facture ses tokens normalement, du coup en mode multi-IA vous consommez mécaniquement 3× plus qu'avec Claude tout seul. Après si vous avez déjà un abonnement ChatGPT Plus ou Google AI Pro, les providers passent par OAuth sans clé API supplémentaire, donc ça sera inclus dans votre forfait.

Pour ceux qui utilisent déjà des plugins Claude Code au quotidien ou qui font tourner leurs agents dans des sandbox isolées , c'est le genre d'outil qui mérite un détour.

Bref, trois cerveaux valent mieux qu'un... reste à voir si besoins valent tout ce bordel à configurer !

  •  

Llamafile - Exécutez des modèles de langage en un seul fichier !

llamafile est un projet complètement barré qui va vous permettre de transformer des modèles de langage en exécutables. Derrière se cache en fait la fusion de deux projets bien badass : llama.cpp , un framework open source de chatbot IA, et Cosmopolitan Libc , une libc portable pour compiler des programmes C multiplateformes. En combinant astucieusement ces deux technos, les petits gars de Mozilla ont réussi à pondre un outil qui transforme les poids de modèles de langage naturel en binaires exécutables.

Imaginez un peu, vous avez un modèle de langage qui pèse dans les 4 gigas, dans un format .gguf (un format couramment utilisé pour les poids de LLM). Et bien avec llamafile, vous pouvez le transformer en un exécutable standalone qui fonctionnera directement sur le système sur lequel il est sans avoir besoin d'installer quoi que ce soit. Ça va permettre de démocratiser l'utilisation et la diffusion des LLM.

Et niveau portabilité, c'est le feu puisque ça tourne sur six OS, de Windows à FreeBSD en passant par macOS. Les devs ont bien bossé pour que ça passe partout, en résolvant des trucs bien crados comme le support des GPU et de dlopen() dans Cosmopolitan et croyez-moi (enfin, croyez-les) ça n'a pas été une mince affaire !

Niveau perf aussi c'est du brutal ! Sur Linux llamafile utilise pledge() et SECCOMP pour sandboxer le bousin et empêcher les accès fichiers non désirés et avec les derniers patchs de Justine Tunney , la perf CPU pour l'inférence en local a pris un boost de malade du genre 10 fois plus rapide qu'avant. Même sur un Raspberry Pi on peut faire tourner des petits modèles à une vitesse honnête.

Mise à jour : llamafile 0.10

Bonne nouvelle, le projet est loin d'être mort puisque la version 0.10 vient de sortir (mars 2026) et elle apporte pas mal de changements. Déjà, le projet a migré de Mozilla Ocho vers Mozilla.ai , ce qui montre que Mozilla prend le truc au sérieux côté IA.

Le gros morceau de cette release, c'est un tout nouveau build system. Fini le bazar monolithique, maintenant llama.cpp, whisper.cpp et Stable Diffusion sont intégrés comme des sous-modules Git. L'avantage c'est que ça permet de suivre beaucoup plus facilement les dernières versions de llama.cpp et donc de supporter les modèles les plus récents dès leur sortie.

Côté utilisation, on a maintenant trois modes bien distincts :

  • Mode TUI (Terminal User Interface) : vous chattez directement dans votre terminal avec le modèle, avec même un mode "think" pour le raisonnement étendu
  • Mode CLI : pour poser une question rapide en one-shot, genre llamafile "c'est quoi un llamafile ?" et hop, la réponse arrive direct
  • Mode serveur : avec le flag --server, ça lance le serveur llama.cpp classique pour exposer une API compatible OpenAI

Autre truc cool, le support multimodal est là avec le nouvel argument --image. Vous pouvez balancer une image au modèle et il l'analyse. Ça marche avec des modèles comme Qwen3-VL, LLaVA 1.6 ou Ministral 3.

Côté GPU, Metal fonctionne nativement sur macOS (ARM64) sans bidouille, et le support CUDA est restauré sur Linux. Par contre, le GPU sur Windows n'est pas encore de la partie, et le sandboxing via pledge()/SECCOMP a été temporairement retiré dans cette version.

Bref, si vous aviez testé llamafile il y a un moment et que vous aviez trouvé ça un peu limité, c'est peut-être le moment de retélécharger la bête et de voir ce que ça donne avec les modèles de 2026. C'est toujours aussi simple : un fichier, on le rend exécutable, on le lance, et c'est parti.

Alors on dit merci qui ?

Merci Mozilla ! 🙏🦊

  •  

Comma 4 + openpilot 0.11 - La conduite assistée open source passe un cap

Vous vous souvenez quand je vous parlais de Geohot et de sa voiture autonome en 2015 ? Le mec bidouillait une Acura avec des caméras à 13 balles et rêvait de vendre son kit à 1000 balles. Hé bien 10 ans plus tard, c'est fait ! Et si je vous reparle de ça aujourd'hui, c'est parce que sa société comma.ai sort la v0.11 d' openpilot ainsi qu'un nouveau boîtier qui tient dans la main, le Comma 4 !

Alors qu'est-ce qui change avec cette version 0.11 ?

En gros, c'est le premier système de conduite assistée dont le modèle est entièrement entraîné dans une simulation générée par un réseau neuronal.

Comma est donc sorti du simulateur classique avec des règles codées à la main pour passer officiellement sur World Model de 2 milliards de paramètres qui a avalé 2,5 millions de minutes de vidéo de conduite réelle filmées par les dashcams de leurs anciens boîtiers Comma 3 et 3X pour apprendre à simuler tout ce qu'il se passe sur la route.

Et c'est dans cette simulation apprise que le petit réseau neuronal qui pilote votre voiture s'entraîne. Concrètement, openpilot gère le maintien de voie et l'accélération/freinage sur l'autoroute, un peu comme un super régulateur adaptatif. Résultat avec cette v0.11 (qui succède à la v0.10 sortie il y a quelques mois ), ça converge mieux en vitesse, ça réagit mieux autour des voitures garées, et les utilisateurs qui l'ont testé préfèrent carrément ce mode Experimental au régulateur classique de leur voiture.

George Hotz, alias Geohot (le génie qui avait hacké l'iPhone à 17 ans puis la PS3), continue de faire les choses à sa manière et c'est pour ça que je l'adore ! Pas de levée de fonds à 10 milliards, pas de partenariat avec un constructeur auto. Non, juste sa dream team à San Diego qui conçoit, fabrique et assemble tout sur place et dernièrement, ils ont même ouvert leur propre datacenter avec 600 GPU et 4 pétaoctets de stockage... le tout pour environ 5 millions de dollars alors que la même infra en cloud leur aurait coûté 5 fois plus cher.

Donc bravo George pour les économies ^^ !

Côté hardware, le Comma 4 est une petite merveille d'ingénierie. Il est cinq fois plus petit que le Comma 3X, avec la même puissance de calcul (Snapdragon 845 MAX), un écran OLED, triple caméra 360 degrés et un système de refroidissement custom qui ne bride jamais le processeur... le tout sans faire un bruit.

Vous le collez sur votre pare-brise, hop, 5 minutes d'install, pas de temps de séchage (le 3X demandait 48 heures de séchage !), pas besoin de Wi-Fi au démarrage et c'est parti mon kiki. Et c'est compatible avec plus de 300 véhicules , dont Toyota, Hyundai, Honda, Ford et même des Lexus ou des Kia. Cela coûte 999 dollars, ou 699 si vous renvoyez votre ancien appareil, peu importe son état.

Et pour ceux qui se demandent comment ça se compare aux gros... Hé bien pendant que Mercedes met en pause son Drive Pilot de niveau 3 parce que ça coûte trop cher à développer, et que Tesla promet le niveau 5 depuis une décennie sans jamais le livrer, comma.ai sort un truc open source qui marche sur beaucoup de bagnoles lambda (pas les françaises, désolé ^^).

Donc pas besoin de claquer 35 000 à 45 000 euros dans une Tesla pour avoir de l'assistance à la conduite potable. Vous gardez votre Toyota ou votre Honda, vous branchez le Comma 4 sur le bus CAN (le réseau interne de votre voiture) et vous avez un truc qui envoie du bois ! Attention par contre, c'est du niveau 2 : donc vous devez garder les mains sur le volant et les yeux sur la route !! Car le problème c'est qu'en France, la légalité de ce genre de boîtier reste floue, donc renseignez-vous bien avant de foncer. Et sauf si votre bagnole est dans la liste de compatibilité, ça ne marchera pas forcément et là faudra suer un peu dans le code et le reverse pour le portage !

La v0.11 apporte aussi un détail technique qui a son importance. La consommation en veille du Comma 4 est passée de 225 milliwatts à 52 milliwatts, soit une réduction de 77%. Cela veut dire qu'avant ça vidait la batterie de votre bagnole en quelques semaines si vous le laissiez branché sans démarrer la voiture. Mais maintenant c'est plutôt en mois donc on peut le laisser tout le temps actif, ça passe. Pour réussir cette prouesse, ils ont désactivé les périphériques inutiles sur le microcontrôleur STM32, réduit le voltage scaling de VOS1 à VOS3, et mis le CPU en mode stop... du bel embarqué bien optimisé comme on aime !

Ce que je trouve dingue, c'est que c'est open source et qu'il n'y a encore eu aucun constructeur en Europe qui n'a eu la présence d'esprit d'intégrer ça dans ses bagnoles alors que les Chinois ne font que ça depuis des mois.

Perso, j'ai pas encore craqué pour le Comma 4. À vrai dire j'attends qu'il y ait une petite promo parce que 999 dollars ça pique un peu, mais clairement c'est sur ma liste. Mais en tout cas, je ne peux que saluer le chemin parcouru depuis ce prototype de 2015 conçu dans un garage. C'est quand même dingue ce que fait cette boîte avec une fraction des moyens de Tesla ou de Waymo.

Bref, si la conduite assistée open source vous branche, c'est le moment de s'y intéresser.

  •  

Google lance une IA pour traquer les bugs dans le noyau Linux

Google vient de rendre public Sashiko, un outil de revue de code par intelligence artificielle qui analyse automatiquement les correctifs soumis au noyau Linux. Sur un échantillon de 1 000 bugs récents, l'IA en a détecté 53 %, alors que les relecteurs humains les avaient tous ratés sans exception.

Comment fonctionne Sashiko

Sashiko a été développé en interne par l'équipe Linux de Google, sous la direction de Roman Gushchin. Le principe : chaque correctif envoyé sur la liste de diffusion du noyau Linux est automatiquement analysé par une IA qui cherche les erreurs, les incohérences et les bugs potentiels.

Sans surprise, c'est Gemini Pro 3.1 qui fait tourner l'outil, mais il est aussi capable de tourner avec d'autres modèles, comme Claude.

Ce projet s'appuie sur les recherches de Chris Mason, un développeur qui rédige des prompts de revue de code pour l'IA depuis fin 2025. Sashiko va encore plus loin, car il automatise l'intégralité du processus.

D'ailleurs, l'outil est open source et est hébergé sur GitHub. Son transfert vers la Linux Foundation est d'ailleurs en cours, et Google continue à financer l'infrastructure ainsi que les coûts d'usage de l'IA.

100 % des bugs détectés

Le chiffre qui retient l'attention, c'est que 100 % des bugs détectés par Sashiko avaient échappé aux développeurs humains. Sur les 1 000 correctifs récents qui portaient la mention de correction de bug, l'IA a repéré plus de la moitié des problèmes.

Le noyau Linux reçoit des milliers de contributions chaque mois, et les mainteneurs n'ont pas toujours le temps de tout vérifier avec la même rigueur. Sashiko ne remplace pas la relecture humaine, mais il ajoute une couche de vérification qui manquait.

L'interface web est accessible publiquement et couvre l'ensemble des soumissions envoyées à la liste de diffusion du noyau. Tout le monde peut consulter les analyses générées par l'IA.

Le noyau Linux, c'est la base d'Android, de Chrome OS, du cloud de Google, d'Amazon et de Microsoft, et d'à peu près tous les serveurs qui font tourner Internet.

Que Google investisse pour fiabiliser ce code avec de l'IA, c'est plutôt logique. Par contre, on imagine bien que certains développeurs vont tiquer à l'idée qu'une machine relise leur travail et pointe des erreurs qu'ils n'ont pas vues.

La question n'est pas de savoir si l'IA va remplacer les développeurs, mais plutôt combien de temps il faudra avant que ce genre d'outil devienne la norme dans tous les gros projets open source.

Source : Phoronix

  •  

Fast SAM 3D Body - Quand l'IA scanne votre corps en 3D en 65ms

Vous prenez une photo de quelqu’un avec votre téléphone et magie magie, en une fraction de seconde, vous obtenez un modèle 3D complet de son corps. Ses bras, ses jambes, ses mains, ses pieds... tout y est, modélisé en 3D comme si vous aviez un vrai studio de motion capture à Hollywood.

Et ben c’est exactement ce que fait SAM 3D Body , un modèle d’IA développé par Meta.

En gros, vous lui filez une image de vous et l’IA reconstruit votre corps en volume, avec le squelette, les articulations et la surface de la peau. Jusqu’ici, ce genre de techno existait déjà mais c’était hyper lent, genre plusieurs secondes par image. Donc pas top si vous vouliez que ça suive, par exemple, vos mouvements en direct.

Et c’est là qu’une équipe de chercheurs incroyable (USC, NVIDIA et Meta Reality Labs) a eu la bonne idée d’optimiser tout ça. Leur version accélérée, baptisée Fast SAM 3D Body , fait exactement le même boulot mais quasiment 11 fois plus vite. Du coup, il ne faut plus que 65 millisecondes pour reconstruire un corps entier en 3D sur une RTX 5090. C’est à peu près le temps d’un clic de souris ! Autrement dit, on peut ENFIN faire du vrai temps réel !

Au lieu de faire tourner un algorithme qui optimise la pose du corps de manière itérative (ce qui prend du temps), ils ont tout simplement remplacé tout ça par un réseau de neurones qui donne directement le résultat en 1 passe. Et cette astuce seule rend la conversion entre formats de modèle 3D plus de 10 000 fois plus rapide ! C'est ouf !

Mais alors concrètement, à quoi ça sert tout ça ?

Hé bien d'abord à la robotique si chère à mon cœur car imaginez un robot humanoïde comme le chinois Unitree G1 équipé d’une simple caméra. Vous faites un geste devant lui, et il le reproduit instantanément avec ses bras et ses jambes.

Robot chinois en dépression à cause d'un dropshipping mal exécuté

Dans la vidéo partagée par l'équipe, on voit que le robot manipule des objets et se déplace en copiant les mouvements d’un humain filmé par une caméra, sans aucun capteur sur le corps.

Mais au delà de la robotique, c’est aussi une petite révolution pour tous les créatifs et les bidouilleurs car aujourd’hui, faire de la motion capture, ça coûte une blinde en matériel (combinaison à marqueurs, caméras infrarouges, studio dédié...et j'en passe).

Alors que là, avec une webcam et un bon GPU, vous pouvoir facilement capter des mouvements 3D exploitables pour de l’animation, du jeu vidéo indie ou du prototypage. Par contre, attention, ça ne remplacera pas un vrai studio pro pour de la production ciné, faut pas trop rêver non plus. Enfin, pour le moment !

Le code est dispo sur GitHub , le paper sur arXiv , et les modèles pré-entraînés de SAM 3D Body sur Hugging Face . D’ailleurs, si vous voulez voir ce que donnent les robots qui font la lessive avec ce genre de techno, c’est par là.

Bref, y’a plus qu’à tester !

Source

  •  

notebooklm-py - L'API Python que Google refuse de sortir

Google n'a jamais sorti d'API publique pour NotebookLM , son outil qui transforme vos documents en podcasts, quiz et autres résumés grâce à l'IA. Pas de SDK, pas de CLI, y'a rien du tout alors on est tous triiiiiste. A peine juste une interface web avec ses boutons moches et ses menus déroulants, mais impossible à scripter ou à intégrer dans le moindre pipeline bash.

Mais un dev bien inspiré a reverse-engineeré les endpoints REST internes et a pondu notebooklm-py, une lib Python de 168 Ko qui fait tout ce que le web UI refuse de faire. Franchement, c'était pas trop tôt ! Vous en avez rêvé, lui l'a fait !

Un pip install notebooklm-py et voilà, vous avez accès à toute la machinerie Notebook LM à savoir : créer des notebooks, injecter des sources (URLs, PDF, vidéos YouTube, fichiers Google Drive, documents Word, images PNG), poser des questions à vos docs, et surtout générer du contenu... podcasts audio en MP3, vidéos explicatives en MP4, quiz, flashcards, slides en PPTX, infographies en PNG, mind maps en JSON.

Carrément dingue ! Et tout ça pilotable depuis votre terminal zsh ou en script Python async.

En fait, le vrai bonus c'est que la lib déverrouille des fonctionnalités que l'interface web ne propose même pas comme télécharger tous vos podcasts d'un coup en batch au lieu de cliquer un par un sur chaque fichier MP3, exporter vos 50 flashcards en JSON structuré au lieu de juste les afficher à l'écran ou encore récupérer vos slides en PPTX éditable plutôt que le PDF figé.

Ce genre de features, on avait fini par accepter que Google s'en fiche mais pourtant, extraire l'arbre complet d'une mind map en JSON pour la balancer dans D3.js ou Mermaid... clairement c'est un truc que Google aurait dû proposer depuis le début !

Côté CLI, c'est propre. Vous vous authentifiez une fois via notebooklm login (ça ouvre Chromium via Playwright pour choper les cookies de session Google), puis vous enchaînez les commandes.

notebooklm create "Ma Recherche" pour créer un notebook vide,

notebooklm source add ./mon-rapport.pdf pour balancer vos fichiers,

notebooklm generate audio "rends ça punchy" --wait pour lancer la génération de podcast,

et notebooklm download audio ./podcast.mp3 pour récupérer le MP3 sur votre disque.

On peut même éditer ses slides individuellement avec des prompts en langage naturel, du genre "ajoute un graphique sur cette slide-là" !

Pour ceux qui veulent brancher ça dans leurs pipelines, y'a comme je le disais l'API Python async complète. Vous pouvez donc monter un petit cron qui ingère vos derniers bookmarks le vendredi soir, et génèrer un résumé audio de 5 minutes, puis balancer le MP3 directement sur votre NAS Synology.

D'ailleurs, si vous avez déjà joué avec des outils pour booster votre productivité avec l'IA , c'est un peu dans la même veine... sauf qu'ici on tape directement dans les tripes des serveurs Google, sans intermédiaire. Ça tourne avec du Python, et y'a même un mode "agent" (un skill en fait) pour brancher ça dans Claude Code ou Codex. Pas mal, hein ?

Le fait que ça gère aussi la recherche web et Drive avec import automatique des résultats dans vos notebooks, c'est top, un peu comme Oboe qui génère des cours complets via IA , mais en version terminal. Et surtout, pas d'abonnement mensuel à payer, c'est votre propre compte Google qui fait tourner la machine.

Bien sûr, ça reste du reverse-engineering d'APIs non-documentées de Google, ce qui fait que les endpoints REST peuvent changer du jour au lendemain et tout péter. Le projet le dit clairement, c'est plutôt taillé pour du prototypage, de la recherche ou des projets perso et SURTOUT PAS pour de la prod sur un serveur Nginx en front avec 10 000 utilisateurs prêts à ruer dans les brancards en cas de panne.

Et puis faut quand même s'authentifier via un vrai compte Google avec Playwright et Chromium, donc pas question de faire tourner ça sur un serveur headless sans un minimum de config.

Bref, tant que Google ne coupe pas ses endpoints, c'est open bar.

Profitez-en !

  •  

OpenRAG - Le RAG clé en main qui vous évite 3 jours de galère

Monter un pipeline RAG, c'est un peu le parcours du combattant... entre le choix de la base vectorielle, le modèle d'embedding, l'orchestrateur, le parser de documents, vous en avez pour des heures de config avant de pouvoir poser la moindre question à vos PDF.

Mais c'était sans compter sur OpenRAG qui emballe tout ça dans un seul paquet prêt à l'emploi !

En gros, c'est un package open source (Apache 2.0) qui vous colle un orchestrateur visuel, un moteur de recherche vectorielle et un parser de documents hyper costaud, le tout déjà branché ensemble. Bon, dit comme ça, on dirait juste un assemblage de trucs existants... sauf que l'architecture est propre (FastAPI derrière, Next.js devant) et que tout est câblé d'entrée.

L'installation tient en une commande : uv run openrag (il vous faudra Python 3.10+ et uv, le gestionnaire de paquets rapide en Rust) et ensuite vous aurez un serveur local avec une interface de chat prête à bouffer vos documents. Vous uploadez vos fichiers (PDF, Word, HTML, Markdown...), le système les découpe, les indexe, et vous pouvez commencer à poser des questions dessus. Pas besoin de choisir un modèle d'embedding, de configurer une base Chroma ou Qdrant, ni de câbler un pipeline LangChain à la main. C'est plutôt confortable comme outil !

Et c'est pas juste un chatbot documentaire puisque la plateforme déploie une couche agentique qui va bien au-delà de la simple recherche de similarité. En fait, quand vous posez une question, le système ne se contente pas de chercher le passage le plus proche dans vos documents... il reformule, il croise plusieurs sources, il re-classe les résultats par pertinence. Et tout ça se configure visuellement dans Langflow, en mode drag-and-drop, sans écrire une ligne de code.

L'interface d'OpenRAG

D'ailleurs, pour ceux qui veulent aller plus loin, y'a des SDK Python et JavaScript pour intégrer ça dans vos propres apps. Un petit pip install openrag-sdk et vous pouvez interroger votre base documentaire depuis n'importe quel script. Et l'autre truc super chouettos, c'est le serveur MCP intégré : un pip install openrag-mcp et vous connectez directement votre base de connaissances à Claude Desktop ou Cursor. J'utilisais pour ma part LEANN jusqu'à présent mais je pense que je vais basculer rapidement sur OpenRAG. Et grâce à ça votre IDE / Claude Code / Ce que vous voulez, a accès à toute votre documentation technique sans quitter l'éditeur.

Côté technique, le projet est porté par l'équipe de Langflow (DataStax), ce qui explique la qualité de l'intégration. Et le déploiement se fait aussi en Docker, Podman ou Kubernetes pour ceux qui veulent du plus fiable.

Après comme c'est une solution tout-en-un, ça embarque pas mal de dépendances. OpenSearch à lui seul est connu pour être gourmand en ressources et si vous avez déjà votre propre stack RAG bien rodée avec une base vectorielle légère comme LEANN , c'est peut-être overkill. En fait, OpenRAG s'adresse plutôt à ceux qui partent de zéro ou qui veulent un truc clé en main pour une équipe, parce que tout est déjà branché.

Prêt à chatter avec vos docs ?

Le vrai intérêt par rapport à un assistant comme Khoj , c'est le côté plateforme extensible. Langflow vous permet de construire des workflows RAG personnalisés visuellement, d'ajouter des étapes de filtrage, de brancher plusieurs LLM en parallèle, ou de créer des agents spécialisés par type de document. C'est donc clairement plus "usine" que "bricolage"... mais parfois c'est ce qu'il faut, surtout si vous bossez en équipe et que le bricolage perso finit toujours par casser au bout de 3 mois.

Si vous en avez marre de bricoler vos pipelines de recherche augmentée à la main, allez jeter un œil !

  •  

LiteRT - L'IA embarquée de Google passe la seconde

TensorFlow Lite, c'est fini. Enfin presque car Google a rebrandé dernièrement son framework d'inférence embarquée sous le nom de LiteRT , et en a profité pour refaire pas mal de choses sous le capot.

Rassurez-vous mes petits prompts engineers (lol), le principe reste le même à savoir faire tourner des modèles de machine learning directement sur votre smartphone, votre tablette ou votre Raspberry Pi, sans envoyer vos données dans le cloud. Sauf que cette fois, y'a une nouvelle API baptisée Compiled Model qui change la donne car, en fait, l'ancien système vous obligeait à choisir manuellement votre accélérateur.

Avec ce Compiled Model, le runtime sélectionne automatiquement le meilleur accélérateur dispo, que ce soit le CPU, le GPU ou le NPU de votre appareil. Et ça gère l'exécution asynchrone et le zéro-copie côté buffers GPU... donc autant dire que côté latence, on passe de la 2CV au TGV. Bref, moins de bricolage pour les devs.

Côté plateformes, c'est plutôt copieux. Sur Android, ça exploite les NPU de Qualcomm, MediaTek et Google Tensor. Sur iOS, Metal se charge du GPU (et l'Apple Neural Engine arrive bientôt). Linux passe par WebGPU, macOS par Metal, et Windows reste en CPU pour le moment, et Google annonce même un support IoT avec Raspberry Pi. Carrément, du smartphone au micro-contrôleur ! Attention par contre, certains supports NPU sont encore marqués "à venir", donc ne vous attendez pas à tout faire tourner sur n'importe quel chipset dès demain.

D'ailleurs, le gros morceau c'est le support de l'IA générative embarquée. Avec le module LiteRT-LM, vous pouvez déployer des LLMs directement sur le téléphone. Pas de serveur, pas de connexion, tout tourne dans la poche. Bon, faut pas s'attendre à faire tourner un modèle de 70B paramètres sur un Pixel non plus, mais pour les devs qui veulent intégrer du GenAI dans leurs apps mobiles sans dépendre du cloud, c'est franchement pas mal. Et si Ollama vous permet déjà de faire tourner des modèles en local sur votre PC, ici je vous parle carrément d'appareils mobiles et d'embarqué.

Côté langages, y'a le choix : Kotlin et C++ pour la nouvelle API Compiled Model, Swift pour l'API Interpreter sur iOS, Python pour le desktop. Et si vous venez du monde PyTorch, un convertisseur dédié transforme vos modèles au format .tflite sans trop de douleur. L'ancienne API Interpreter reste dispo pour la rétrocompatibilité, mais à vrai dire, Google pousse clairement vers Compiled Model. Du coup, si vous aviez des projets TensorFlow Lite existants, la migration se fait en douceur parce que le format .tflite ne change pas.

En fait, le problème, c'est plutôt le manque de doc sur les cas tordus... et n'oubliez pas de tester vos modèles après conversion.

Pour ceux qui voudraient se lancer, tiens, y'a aussi un codelab de segmentation d'images en temps réel sur Android et une collection de modèles pré-entraînés sur Kaggle. Des apps d'exemple sont dispo sur GitHub pour pas repartir de zéro (détection d'objets, classification d'images, pose estimation...). Et si vous êtes plutôt Apple, sachez que l'IA locale sur mobile c'est clairement la tendance du moment.

Bref, si l'inférence embarquée ça vous parle, ça vaut clairement le coup d’œil !

  •  

MLX-Audio - Faites parler votre Mac sans le cloud

Faire de la synthèse vocale , de la transcription et du voice cloning en local sur son Mac, sans envoyer le moindre octet dans le cloud... hey bien c'est possible mes petits foufous et en plus comme je sais que vous avez des oursins dans les poches, hé bien bonne nouvelle : C'est gratuit !

MLX-Audio , c'est donc une bibliothèque Python qui exploite le framework MLX d'Apple pour faire tourner des modèles audio directement sur les puces M1, M2, M3, M4 et maintenant M5. Cette liste est trop longue, la prochaine fois, j'écrirais M* ou M1-5 ^^. Avec cette lib, du coup, tout se fait en local sur votre machine. Si je devais oser une comparaison un peu casse gueule, je dirais que c'est un peu le Ollama de l'audio.

Côté text-to-speech, y'a surtout du choix. Une dizaine de modèles sont disponibles, dont Kokoro pour du multilingue (français, anglais, japonais, chinois, espagnol...), Chatterbox qui gère 23 langues, ou encore Dia pour les dialogues. Et voici comment ensuite avec une commande dans le terminal, on peut faire parler la machine :

mlx_audio.tts.generate --model mlx-community/Kokoro-82M-bf16 --text "Salut les copains" --lang_code f --play

Le truc sympa, c'est que ça ne s'arrête pas à la synthèse vocale. Côté transcription, on retrouve Whisper (le modèle d'OpenAI qui gère 99 langues), Parakeet de NVIDIA pour les langues européennes, et même VibeVoice-ASR de Microsoft qui fait de la diarization (identifier qui parle dans une conversation).

Pour transcrire un fichier audio, c'est donc tout aussi simple :

python -m mlx_audio.stt.generate --model mlx-community/whisper-large-v3-turbo-asr-fp16 --audio meeting.wav --verbose

Y'a aussi le voice cloning avec CSM, où vous filez un fichier audio de référence et le modèle reproduit la voix. Perso, ça fait un peu flipper mais qui est carrément bluffant ! Sauf si vous avez une voix super particulière (trop de clope hein ^^), au final le résultat est assez bon.

Attention, tout ça a besoin de mémoire ! Heureusement, la bibliothèque gère la quantization (de 3 à 8 bits), du coup les modèles sont compressés pour tenir dans la mémoire unifiée des puces Apple Silicon. Le plus léger, Kokoro, fait 82M de paramètres et le plus costaud, Ming Omni, monte à 16.8 milliards de paramètres (mais en mixture-of-experts, donc seulement 3B activés à la fois). Pour ce dernier, faut donc un Mac avec pas mal de RAM.

D'ailleurs, si vous êtes développeur, la bibliothèque expose également une API REST compatible OpenAI. Ça veut dire que vos apps qui causent déjà avec l'API d'OpenAI peuvent basculer sur du local sans changer une ligne de code... enfin presque. Car faut quand même pointer vers localhost au lieu des serveurs d'OpenAI, mais c'est à peu près tout. Y'a même un package Swift pour intégrer ça dans une app iOS ou macOS native.

Voilà, pour ceux qui préfèrent une interface graphique, un mode web avec visualisation 3D de l'audio est même intégré. C'est super joli !

Ce projet est sous licence MIT, et le mainteneur, Prince Canuma, est un ancien ingénieur ML chez Arcee AI, donc pas un random qui a forké un truc un dimanche ^^.

Voilà, si vous avez un Mac et que l'audio IA en local vous branche, c'est open source, c'est gratuit et ça marche carrément bien !

  •