Você deve experimentar este conversor de documentos de código aberto

por Nada Em Troca
5 minutos de leitura
Você deve experimentar este conversor de documentos de código aberto

Existem inúmeras opções para converter documentos de um formato para outro, como a função ‘Salvar como’ em processadores de texto ou vários conversores online. Há também um utilitário de código aberto para o trabalho que uso constantemente: Pandoc.

Pandoc se autodenomina “um conversor universal de documentos”, com suporte para dezenas de formatos de marcação e tipos de documentos. Ele pode lidar com arquivos do Microsoft Word, múltiplas variações de Markdown, PDFs, arquivos OpenDocument (usados ​​​​principalmente pelo LibreOffice), blocos de notas Jupyter, marcação MediaWiki, EPUB, apresentações em PowerPoint, LaTeX e muitos outros formatos. Alguns formatos de arquivo só podem ser usados ​​para importação ou exportação, e não nos dois sentidos.

Pandoc está disponível nos gerenciadores de pacotes de muitas distribuições Linux, e proprietários de Mac com Homebrew instalado podem obtê-lo com esse repositório. Se você possui Windows, pode baixar o instalador do pacote no site da Pandoc ou instalá-lo com gerenciadores de pacotes como Chocolatey e Winget.

Uso Básico

Pandoc é um aplicativo de linha de comando, mas existem dois parâmetros necessários para a maioria das conversões de documentos. Você fornece o caminho para o arquivo de entrada e usa o -o parâmetro para dizer onde você deseja que o arquivo convertido seja salvo. Aqui está um exemplo básico para converter um arquivo Markdown em HTML:

pandoc “readme.md” -o “readme.html”

Muito simples, certo? Pandoc tenta detectar os formatos de arquivo de entrada e saída automaticamente, para que você não precise defini-los sempre.

Há momentos em que essa verificação automática não funciona – talvez o seu arquivo Markdown tenha uma extensão .TXT ou o arquivo de saída não deva ter uma extensão de arquivo ou algo mais. Nesses casos, você pode definir o formato de entrada com -f e o formato de saída com -t assim:

pandoc “readme.md” -f markdown -t html -o “readme.html”

Talvez você queira converter um arquivo de texto longo para o formato EPUB, para poder abri-lo em um eReader? Pandoc pode fazer isso:

pandoc “readme.txt” -o “readme_converted.epub”

Você pode ter alguns documentos do Word que precisam ser convertidos para HTML, para que pessoas sem o Word instalado possam visualizá-los em um navegador. Não tem problema, o Pandoc pode cuidar disso:

pandoc “manual.docx” -o “manual.html”

Esse comando apenas cria a marcação HTML básica para o texto, sem qualquer formatação de estilo. Se quiser que o arquivo HTML exportado seja um documento totalmente independente, com margens de página responsivas e outras melhorias de legibilidade, você pode usar o parâmetro -s assim:

pandoc “manual.docx” -s -o “manual.html”

Existem muito mais opções para o Pandoc, como usar uma folha de estilo CSS específica para HTML exportado, formatar blocos de código dentro de documentos, alterar a forma como a matemática é convertida de arquivos LaTeX e muito mais. A página de demonstrações no site do Pandoc pode dar uma ideia melhor dos recursos da ferramenta.

Pandoc não tem uma opção integrada para conversão em massa de arquivos, mas você pode envolvê-lo em um pequeno script Bash ou script PowerShell que itera sobre cada arquivo em um diretório. Esse seria um método muito mais rápido de converter centenas de documentos do Word do que abrir cada um deles individualmente no Word.

Acelerando meu trabalho

Descobri o Pandoc pela primeira vez quando estava tentando usar o Editor do MS-DOS para escrever artigos. É um editor de texto simples, mas eu poderia digitar Markdown para adicionar links, cabeçalhos e outras formatações ao meu documento. Eu ainda precisava de uma maneira rápida de converter o texto Markdown salvo para o formato HTML usado pelo meu sistema de gerenciamento de conteúdo (CMS).

Pandoc acabou funcionando perfeitamente para esta tarefa, embora eu tenha que adicionar o –ascii = verdadeiro parâmetro para que alguns símbolos apareçam corretamente. Em vez de enviar para um arquivo, canalizei a saída para o cópia comando no macOS, que cola o texto HTML na minha área de transferência.

pandoc “/Users/corbin/Documents/DOS/MAIN.TXT” -f markdown -t html –ascii=true | cópia

Envolvi todo esse comando em um atalho no meu Mac, então tudo que tive que fazer foi salvar o documento, executar o atalho e colar o HTML na visualização Fonte no CMS do meu trabalho. Esse experimento específico com o Editor do MS-DOS não durou muito, mas vou desenterrá-lo novamente quando tentar outro editor de texto antigo.

No momento, voltei a escrever meus artigos no Microsoft Word. Quando copio meu texto direto do Word e colo no CMS do meu trabalho ou em qualquer outro editor de rich text, ele inclui todos a formatação. Quero que meus cabeçalhos, links e outras formatações importantes sejam preservados, mas não a fonte e o tamanho exatos da fonte salvos em dezenas de formatos aleatórios. etiquetas.

Felizmente, o Pandoc funciona perfeitamente para esta tarefa. Criei um pequeno script que converte meu documento do scratchpad em HTML, removendo as quebras de linha do arquivo original e salvando o resultado em minha área de transferência:

pandoc -f docx -t html –ascii=true –extract-media=”$HOME/Desktop/” “$HOME/Documents/Scratch Pad.docx” –wrap=none | cópia

O único problema é que esse script está codificado no meu documento do scratchpad. Para guias e revisões mais longos, normalmente crio um novo documento do Word na minha pasta Rascunhos. Eu poderia simplesmente abrir um terminal para convertê-los quando necessário, mas os atalhos vieram em socorro novamente.

Criei um novo atalho que adiciona uma opção de menu do botão direito ‘Copiar como HTML’ aos documentos no Finder. Quando executado, o Shortcut passa o caminho do arquivo para o Pandoc, que cola o HTML convertido na minha área de transferência. Como o Pandoc pode detectar automaticamente o formato do arquivo, isso funciona para mais do que apenas documentos do Word.

Captura de tela do atalho do Mac com Pandoc convertendo um determinado arquivo

Resumindo, o Pandoc tornou muito mais fácil e rápido escrever nos editores de texto que desejo, sem criar erros de formatação e dores de cabeça. Também é útil para muitos outros casos de uso de publicação e arquivamento. Na próxima vez que você precisar converter alguns documentos, experimente.

Este artigo foi útil?
Gostei0Não Gostei0

Deixe um comentário

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
-
00:00
00:00
Update Required Flash plugin
-
00:00
00:00