Entretiens
Jeff Kofman, Fondateur & PDG de Trint – Série d’entretiens

Jeff Kofman, est le fondateur et PDG de Trint, après une carrière de 30 ans avec ABC, CBS et CBC News, Jeff s’est lassé de heurter le mur de la transcription manuelle et de voir chaque histoire s’arrêter inutilement. En 2014, Jeff et une équipe de développeurs ont utilisé l’IA pour faire le travail difficile, et Trint est né.
Aujourd’hui, Trint est une plateforme SaaS alimentée par l’IA qui va au-delà de la transcription pour améliorer chaque étape du flux de création de contenu.
De la transcription aux outils éditoriaux, de la collaboration en temps réel à l’exportation et à la publication – rendant chaque étape plus facile pour les salles de rédaction, les podcasteurs, les entreprises locales et les organisations mondiales pour partager des histoires plus rapidement et plus facilement que jamais.
Vous avez eu une carrière distinguée de 30 ans avec ABC, CBS et CBC News, quels étaient certains des problèmes que vous avez rencontrés avec la transcription manuelle traditionnelle ?
J’ai vécu la douleur de la transcription manuelle chaque jour en tant que journaliste. Longtemps avant que j’aie l’idée d’inventer et de construire Trint, je me demandais pourquoi il n’y avait pas de meilleure façon.
La transcription manuelle était toujours le goulet d’étranglement dans mon flux de travail en tant que reporter de télévision. Je faisais mes interviews, écoutais une conférence de presse, lisais mes recherches, regardais mes images et puis… mon producteur et moi disparaissions dans le Trou noir de la transcription.
Je ne peux pas écrire mon article de télévision tant que je n’ai pas des transcriptions précises des citations ou des extraits sonores que je veux utiliser. J’ai besoin de savoir ce qu’ils ont dit et combien de temps dure cet extrait sonore. Cela signifiait s’asseoir dans une salle de projection ou à nos bureaux avec des écouteurs, appuyer sur LECTURE puis PAUSE. Puis taper quelques mots. Puis LECTURE. PAUSE. Et répéter. Cela pouvait prendre des heures. Si fastidieux. Si essentiel.
Trint a été lancé en 2014, pouvez-vous discuter de la façon dont l’idée est née ?
Je n’ai jamais imaginé que je serais un homme de technologie. C’est arrivé par hasard.
J’ai eu une conversation informelle avec des développeurs de logiciels qui avaient fait des expériences rudimentaires avec l’audio et le texte (pas la transcription) en 2013.
J’ai innocemment demandé : pourquoi ne puis-je pas utiliser la reconnaissance vocale automatique pour transcrire mes interviews ?
Je me souviens que l’un des gars m’a demandé : pourquoi voudriez-vous faire cela ?
J’ai répondu : parce que la transcription manuelle est le point de douleur dans mon travail de reporter, je la déteste.
Nous sommes restés en contact et avons fait des expériences. Il est rapidement devenu clair que nous avions inventé l’avenir. J’ai quitté mon poste de correspondant à Londres pour ABC News un an plus tard et nous avons commencé à construire Trint.
Quels étaient certains des défis du lancement d’un service de transcription dans ces premiers jours ?
La transcription automatisée est un problème discret. Les personnes qui ne vivent pas le flux de travail des reporters et des créateurs de contenu n’ont aucune idée de la façon dont ils créent des histoires. Je me souviens avoir rencontré des investisseurs providentiels très riches dans les premiers jours et ils ne pouvaient pas comprendre pourquoi les reporters comme moi ont besoin de transcriptions. Cela a pris beaucoup d’explications pour leur faire comprendre comment un reporter travaille.
Je pense que c’est plus facile aujourd’hui. Nous sommes tous des créateurs de contenu.
Quels sont les différents algorithmes d’apprentissage automatique qui sont actuellement utilisés chez Trint ?
Nous avons un groupe super intelligent d’ingénieurs et de scientifiques des données qui sont toujours en train de bricoler avec tout ce qu’ils peuvent être en contact avec et partout où leur imagination peut les emmener. Comme vous le comprendrez, notre objectif est de voir comment la transcription automatisée peut accélérer les flux de travail pour nos clients des médias, ce qui signifie que nous travaillons toujours sur la parole, les locuteurs, les langues et l’acoustique. Les algorithmes de traitement du langage naturel et de reconnaissance vocale font partie de notre quotidien, mais nous allons explorer toutes les façons créatives d’utiliser l’IA pour aider les journalistes à extraire des informations de vidéos, d’audio et d’images. La transcription riche nous permet de donner plus de contexte à leur contenu, de le rendre plus recherchable, et de leur permettre finalement de trouver les moments qui comptent vraiment et de les transmettre à leur public le plus rapidement possible.
Quelles langues sont actuellement proposées, et y a-t-il des différences dans la qualité de la transcription entre les différentes langues ?
Nous proposons environ 45 langues que vous pouvez transcrire et nous en ajoutons toujours plus. Certaines sont en “bêta” et d’autres sont beaucoup plus matures, ce qui dépend de la taille des ensembles de données d’entraînement qui aident à construire les modèles. Nous mesurons constamment l’exactitude de nos modèles pour chaque langue pour développer constamment nos modèles et améliorer leur performance.
Nous sommes toujours à la recherche de nouveaux modèles qui deviennent disponibles pour voir si nous pouvons les intégrer dans notre environnement de traitement ASR sécurisé.
Mais ce n’est pas seulement à propos des langues que nous transcrivons – nos clients peuvent également faire traduire cette transcription dans presque n’importe quelle langue.
Hors de la transcription, Trint est une plateforme SaaS alimentée par l’IA conçue pour améliorer le flux de création de contenu, pouvez-vous discuter de certains des autres outils proposés ?
Bien que le cœur de Trint soit notre transcription alimentée par l’IA, ce à quoi nous nous attachons, c’est pourquoi ces transcriptions sont utiles à nos utilisateurs, et comment nous pouvons les aider à obtenir de la valeur le plus rapidement et facilement possible. Cela signifie avoir une compréhension profonde de leurs flux de travail, afin que nous puissions essayer de rendre chaque étape aussi transparente que possible.
Finalement, nous voulons qu’ils puissent capturer n’importe quelle conférence de presse, interview ou événement, n’importe où, à tout moment, dans n’importe quelle langue et en tirer parti à mesure que cela se produit. Cela signifie rendre facile pour eux ou leur équipe de vérifier et d’utiliser la transcription en direct à mesure qu’elle se produit – vérifier, partager et traduire les citations clés quelques secondes après qu’elles aient été prononcées.
Notre application mobile signifie que cela peut se produire même si vous n’avez qu’un téléphone sur vous, et garantit que tout est transmis de manière sécurisée à votre équipe, même lorsque la connexion est défectueuse.
Notre Story Builder est conçu pour vous permettre de trouver les moments clés dans tout votre contenu et de les transformer en une nouvelle narration qui peut être exportée vers d’autres outils clés de votre flux de production de contenu. Que ce soit un montage brut pour la modification vidéo, une transcription de podcast ou un article. Si vous devez utiliser le texte de l’audio comme légendes, notre éditeur collaboratif peut également aider à cela.
Vous avez également un podcast que vous animez personnellement appelé StoryTech, qui examine comment la technologie façonne les histoires. Pouvez-vous élaborer sur ce que ce podcast est, ce que les auditeurs devraient attendre, et pourquoi ils devraient écouter ?
StoryTech est vraiment l’intersection de mes deux carrières : un reporter et un inventeur de technologie. Il examine comment la technologie et l’innovation façonnent la façon dont les histoires sont racontées.
Les premiers épisodes examinent comment la CGI a été utilisée pour abattre le mur de glace dans Game of Thrones, et comment l’invention de l’appareil photo 35mm Leica dans les années 1920 a conduit à la propagation du photojournalisme et à la création du magazine LIFE.
Je suis fasciné par l’impact de l’innovation sur le récit. C’est ce que StoryTech est.
Quelle est votre vision pour l’avenir de Trint ?
C’est le défi que chaque innovateur est en train de lutter aujourd’hui. Comment le rythme rapide de l’innovation ouvre-t-il des opportunités pour mon produit ?
Nos clients veulent un produit qui crée des efficacités simples et intuitives qui s’intègrent parfaitement dans leur flux de travail. Cela signifie aller bien au-delà de la transcription.
Trint utilisera l’IA pour faire des choses qui étaient inimaginables il y a quelques années seulement : identifier les voix, les visages, les sentiments, le contexte, les faits et les faux. Cela se produira dans n’importe quelle langue – en traduisant à partir de cette langue à mesure qu’elle est parlée. La clé est de le faire et bien plus encore d’une manière qui s’intègre dans d’autres produits pour créer un flux de travail sans douleur.
Je ne vois pas Trint remplacer les reporters, les écrivains et les créateurs de contenu. Il s’agit de les libérer de la monotonie de leur travail et de leur permettre de se concentrer sur leur temps de créativité. C’est excitant d’essayer d’imaginer l’avenir. Je ne vais pas mentir : c’est également effrayant.
Merci pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Trint ou regarder le podcast StoryTech.












