Word2HTML : add-on de conversion HTML pour Word

L’add-on pour Microsoft Word Word 2 HTML permet, en un clic, de convertir n’importe quel document Word en HTML « clean », c’est-à-dire minimaliste. Il est plus particulièrement dédié aux rédactrices et rédacteurs web, qui ont souvent la nécessité de fournir leurs textes dans un format HTML simple, exempt de toutes mises en forme.

En effet, Word ne permet pas de générer nativement du format HTML simplifié (pas plus que Google Docs ou Libre Office soit dit en passant !) : ce complément permet donc de palier à cela simplement !

Pourquoi générer du HTML simplifié (clean) ?

Usuellement, le format HTML généré par les outils de rédaction comme Microsoft Word contient des balises qui ne sont sémantiquement pas proches de celles utilisées dans le codage des pages web : ces outils abusent des balises span à grand renfort de styles embarqués, mais également de balises spécifiques à la suite Office.

Code du format HTML exporté depuis Word
Code du format HTML exporté depuis Word

La dernière version de Word (intégrée dans la suite Office 365 ou dans Office 2019) offre une version d’export vers du HTML « filtré », mais ce dernier est malheureusement encore loin d’être utilisable directement pour être intégré dans vos CMS favoris : il intègre encore des styles CSS embarqués, et certaines balises sont encore « émulées » par des artifices propres à Office (cas des listes à puce notamment).

Code du format HTML "filtré" exporté depuis Word
Code du format HTML « filtré » exporté depuis Word

Au final, ces formats d’export, lorsque vous les intégrez dans un CMS comme WordPress (ou autre), engendrent au mieux des affichages inadaptés, au pire des dysfonctionnements massifs de votre site ! Il n’est donc pas rare de devoir copier/coller en texte brut, puis de refaire toutes les mises en forme directement dans l’éditeur intégré à votre CMS.

Lorsque l’on « colle » du HTML réduit à sa plus simple expression, le problème ne se pose plus : les textes reprennent automatiquement les styles CSS de votre thème, sans travail supplémentaire de remise en forme !

La solution : un export intégré à Word !

C’est un ami rédacteur web qui m’a soufflé l’idée : créer un complément directement intégré dans Word, qui offrirait en un clic, la possibilité de fournir du code HTML simplifié et utilisable sans détours, dans les CMS les plus usités du marché.

Word 2 HTML : l'add-on indispensable pour la rédaction web !
Word 2 HTML : la bannière officielle

Et c’est ainsi qu’a germé l’idée de Word 2 HTML. Comme je me voyais mal proposer une barre d’outils avec un seul et unique bouton (puisque les compléments VSTO – développements dédiés à Office – intègrent toujours un « onglet » dans les barres d’outils), j’ai décidé d’étoffer un peu les fonctionnalités de ce dernier.

Fonctionnalités

  • Export vers un format HTML simplifié permettant une intégration directe dans vos CMS favoris
  • Enregistrement au format HTML en un clic
  • Affichage du code HTML généré avec coloration syntaxique et aperçu dynamique du rendu
  • Copie dans le presse-papier en un clic pour ne pas perdre une seconde !
  • Conversions par lot à l’aide d’un outil dédié (illimité en nombre de fichiers)
  • Outil de contrôle de similarité par rapport à un texte de référence
  • Génération par lot d’un fichier CSV au format Beem.Express (illimité en nombre de fichiers)

Voici la liste des balises HTML supportées à ce jour :

  • H1 à H6 (titres)
  • strong (gras)
  • em (italique)
  • u (souligné)
  • s (barré)
  • liens a href
  • notes de bas de page (avec renvoi sous forme de lien avec ancre dans la page)
  • listes à puce
  • listes numérotées
  • images (intégrées en Base64 dans le code)

J’y ai rajouté deux fonctions « bonus », qui pourront être utiles à tout rédacteur et/ou SEO qui se respecte, à savoir :

  • Un outil de contrôle de similarité (à partir d’un texte de référence) qui utilise les n-grams (algorithme des shingles avec un calcul de la distance de Jaccard, sur les groupes de 2, 3, 4 et 5 mots consécutifs)
  • Un outil d’export au format CSV, avec l’encodage spécifique proposé par Beem.Express au travers de leur extension gratuite disponible sur leur site (avec leur accord !) ; bien pratique pour importer un lot de textes dans votre site WordPress, avec prise en charge du format Gutenberg en option !

Mode d’emploi et vidéos

Quoi de mieux que de petites démos en vidéo pour appréhender le fonctionnement – extrêmement simple – de cet add-on de conversion Word / HTML ?

Voici les principales fonctions, en image et en paroles (les deux premières vidéos ont été tournées sur une version non définitive) :

Présentation de Word2HTML

Qu’en est-il des performances ?… Voici une seconde vidéo qui fait le point sur cette épineuse question !

Les performances en détail : attention, c’est du lourd !

Et concernant les deux fonctions « bonus », voici leur fonctionnement :

Cet outil est donc aussi simple qu’efficace comme vous avez pu le voir !

Limites fonctionnelles

Il n’y a pas de limites particulières : tout type de document que l’on peut ouvrir avec Microsoft Word peut être converti en HTML, puisque l’add-on enregistre à la volée une version temporaire au format adéquat (en l’occurrence le format DOCX par défaut de Word) avant de traiter le contenu.

En matière de performances :

  • Il n’y a pas de limites particulières sur les tailles de documents ; l’outil étant destiné en premier lieu aux rédactrices et rédacteurs web, vous ne devriez pas à avoir à transformer des documents de centaines de pages avec.
  • Sur de la conversion par lots, compter une à deux secondes par document
  • Comme l’atteste la seconde vidéo ci-dessus, sur un document de 63000 mots, la conversion prend… 2 secondes !

Caractéristiques techniques

Cet add-on a été développé avec la technologie VSTO de Microsoft, afin d’assurer une intégration parfaite avec Microsoft Word mais exclusivement en environnement Windows. J’ai utilisé Visual Studio 2019 et mon langage de prédilection (Visual Basic.Net) pour la partie programmation et compilation. Il n’y a pas d’autres composants additionnels nécessaires que le DotNet Framework 4.7.2 (qui sera éventuellement téléchargé lors de l’installation si vous n’en disposez pas, ce qui serait fort étonnant si votre PC est à jour !)

Testé sur Word 2016, Word 2019 et l’actuelle version intégrée dans les abonnements Office 365, ainsi que sur une version « Office Éducation ». Doit en principe fonctionner rétroactivement jusqu’à Word 2013.

Téléchargement

Le fichier disponible en téléchargement ci-dessous est garanti sans virus ni malwares, et est destiné à fonctionner en environnement Windows.

Téléchargement gratuit logiciel de content spinning

Comment installer Word2HTML ?

L’installation est simplissime :

  • Quitter Microsoft Word si ce dernier est en cours d’exécution
  • Dézipper le fichier téléchargé dans le répertoire de votre choix
  • Exécuter setup.exe et suivre les instructions
  • C’est fini ! Si vous relancez Microsoft Word, un nouvel onglet aura du apparaître.

Support technique et dépannage

Aucun support technique n’est assuré sur cet outil gratuit. Cependant, en cas de bug fonctionnel, merci de me faire remonter les informations par exemple sur mon compte Twitter.

Pour les problèmes d’installation, je ne peux malheureusement pas consacrer le temps nécessaire à chaque cas qui se présente ; les installations de Microsoft Office (notamment les licences livrées de série sur les PC, ou les versions piratées) sont parfois assez capricieuses !

Si le module génère une erreur, il est possible qu’il se désactive par sécurité : voici comment le réactiver.

SASU effi10

Cédric GIRARD
10 Rue Roger Douine – 10000 TROYES
06 66 44 92 58
cedric.effi10

Sur les réseaux sociaux

Retour en haut