Tabla de contenidos
Se describen herramientas y métodos para convertir formatos de datos en el sistema Debian.
Las herramientas para formatos estándar son muy buenas pero para formatos propietarios son limitadas.
Los siguientes paquetes para la conversión de información en formato texto llamaron mi atención.
Tabla 11.1. Relación de herramientas de conversión de información en formato texto
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
libc6
|
V:937, I:999 | 12333 | conjunto de caracteres | conversor de la codificación de texto entre configuraciones locales mediante iconv(1) (fundamental) |
recode
|
V:4, I:28 | 608 | conjunto de caracteres+eol | conversor de codificaciones de texto entre configuraciones locales (versátil, con más funcionalidades y alias) |
konwert
|
V:1, I:57 | 123 | conjunto de caracteres | conversor de codificaciones de texto entre configuraciones locales (sofisticado) |
nkf
|
V:0, I:11 | 357 | conjunto de caracteres | traductor del conjunto de caracteres para el japonés |
tcs
|
V:0, I:0 | 518 | conjunto de caracteres | traductor de conjunto de caracteres |
unaccent
|
V:0, I:0 | 29 | conjunto de caracteres | cambia las letras acentuadas por su equivalente sin acentuar |
tofrodos
|
V:2, I:30 | 55 | eol | conversor entre formatos de texto entre DOS y Unix: fromdos(1) y todos(1) |
macutils
|
V:0, I:1 | 298 | eol | conversor de formatos de texto entre Macintosh y Unix: frommac(1) y tomac(1) |
Sugerencia | |
---|---|
iconv(1)
es parte del paquete |
Puede converitr las codificaciones de los archivos de texto con iconv(1)como es muestra.
$ iconv -f codificación1 -t codificación2 entrada.txt >salida.txt
Los valores de codificaciones para el encaje distinguen entre mayúsculas y
minúsculas y pasan por alto «-
» y
«_
». Puede obtener una relación de las codificaciones
reconocidas mediante la orden «iconv -l
».
Tabla 11.2. Relación de valores de codificación y su uso
valor de la codificación | uso |
---|---|
ASCII | Código Estándar Americano para el Intercambio de Información, código de 7 bits sin caracteres acentuados |
UTF-8 | estándar multilenguaje actual en los sistemas operativos modernos |
ISO-8859-1 | estándar antiguo de las lenguas occidentales, ASCII+ caracteres acentuados |
ISO-8859-2 | antiguo estándar de las lenguas occidentales, ASCII + caracteres acentuados |
ISO-8859-15 | antiguo estándar de las lenguas occidentales, ISO-8859-1 con el símbolo del euro |
CP850 | página de códigos 850, caracteres de Microsoft DOS con gráficos para los lenguajes de la Europa occidental, variante de ISO-8859-1 |
CP932 | página de código 932, variante del japonés de Shift-JIS al estilo Microsoft Windows |
CP936 | página de códigos 936,GB2312, GBK o GB18030 variante para chino simplificado al estilo Microsoft Windows |
CP949 | página de código 949, EUC-KR o Código Unificado Hangul par coreano al estilo Microsoft Windows |
CP950 | código de página 950, Big5 variante par chino tradicional al estilo Microsoft Windows |
CP1251 | código de página 1251, codificación del alfabeto cirílico al estilo Microsoft Windows |
CP1252 | código de página 1252, ISO-8859-15 para las lenguas de Europa occidental al estilo Microsoft Windows |
KOI8-R | antiguo estándar ruso UNIX para el alfabeto cirílico |
ISO-2022-JP | estándar de codificación japones para el correo electrónico que solo utiliza códigos de 7 bit |
eucJP | código de 8 bit del antiguo estándar japonés de UNIX, completamente diferente de Shift-JIS |
Shift-JIS | Apéndice 1 para el japonés JIS X 0208 (consulte CP932) |
Nota | |
---|---|
Algunas codificaciones son únicamente usadas para la conversión de información y no son usables como valores de la configuración local (Sección 8.4.1, “Fundamentos de codificación”). |
Para los conjuntos de caracteres que caben en un único byte como ASCII y ISO-8859, la códificación de caracteres es casi lo mismo que el conjunto de caracteres.
Para los conjuntos de caracteres con muchos elementos como JIS X 0213 en el japonés o Conjunto de Caracteres Universal (UCS, Unicode, ISO-10646-1) en prácticamente cualquier lenguaje, existen muchos esquemas de codificación y encajan como secuencias de bytes de datos.
EUC e ISO/IEC 2022 (también conocido como JIS X 0202) para el japonés
UTF-8, UTF-16/UCS-2 y UTF-32/UCS-4 para Unicode
En este caso existe un diferenciación clara entre el conjunto de caracteres y la códificación de caracteres
Algunos proveedores en algunos casos utilizan la página de códigos como sinónimo de la tabla de codificación de caracteres.
Nota | |
---|---|
Tenga en cuenta que la mayor parte de los sistemas de codificación comparten
los mismos códigos con ASCII de 7 bits. Pero existen algunas excepciones. Si
esta convirtiendo programas antiguos japoneses en C y datos URL de la
codificación conocida como formato shift-JIS a formato UTF-8, utilice
« |
Sugerencia | |
---|---|
recode(1)
también puede ser usado y aporta mayor funcionalidad que la combinación de
iconv(1),
fromdos(1),
todos(1),
frommac(1)
y
tomac(1).
Para más información, consulte « |
Puede comprobar si un archivo de texto está codificado en UTF-8 con iconv(1) como se muestra.
$ iconv -f utf8 -t utf8 entrada.txt >/dev/null || echo «non-UTF-8 found«
Sugerencia | |
---|---|
Utilice la opción « |
Aquí esta un archivo de órdenes de ejemplo de conversión de los nombres de archivos creados en un sistema operativo antiguo a otro moderno UTF-8 en un único directorio.
#!/bin/sh ENCDN=iso-8859-1 for x in *; do mv «$x« «$(echo «$x« | iconv -f $ENCDN -t utf-8)« done
La variable «$ENCDN
» contiene la codificación original
utilizada por el nombre de archivo en el sistema operativo antiguo como en
Tabla 11.2, “Relación de valores de codificación y su uso”.
Para escenarios más complicados, por favor, monte el sistema de archivos
(p. ej. la partición del disco) que contiene los nombres de archivos con la
codificación adecuada mediante la opción correspondiente de
mount(8)
(consulte Sección 8.4.6, “Códificación del nombre del archivo”) y copie el contenido
completo a otro sistema de archivos montado como UTF-8 con la orden
«cp -a
».
El formato de archivo de texto, concretamente el código de final de línea (EOL) depende de la plataforma.
Tabla 11.3. Relación de estilos EOL para las diferentes plataformas
plataforma | codificación de EOL | control | decimal | hexadecimal |
---|---|---|---|---|
Debian (unix) | LF |
^J
|
10 | 0A |
MSDOS y Windows | CR-LF |
^M^J
|
13 10 | 0D 0A |
Macintosh | CR |
^M
|
13 | 0D |
,Los porgramas de conversion del formato EOL fromdos(1), todos(1), frommac(1) y tomac(1), son muy útiles. Recode(1) también es muy útil.
Nota | |
---|---|
Algunos datos del sistema Debian, como las páginas wiki del paquete
|
Nota | |
---|---|
La mayor parte de los editores (p ej. |
Sugerencia | |
---|---|
La utilización de « |
Existen unow pocos programas especializados en convertir los códigos de tabulación.
Tabla 11.4. Relación de las órdenes de conversión de tabuladores de los paquetes
bsdmainutils
y coreutils
función |
bsdmainutils
|
coreutils
|
---|---|---|
cambia los tabuladores a espacios |
«col -x »
|
expand
|
no cambia los tabuladores por espacios |
«col -h »
|
unexpand
|
indent(1)
perteneciente al paquete indent
reformatea completamente
a un programa en C..
Los programas de edición como vim
y
emacs
pueden también utilizar la conversión de
tabuladores. Por ejemplo con vim
, puede expandir los
tabuladores con la secuencia de órdenes «:set expandtab
»
y «:%retab
». Puede deshacer estos cambios con la
secuencia de órdenes «:set noexpandtab
» y
«:%retab!
».
Los editores modernos inteligentes como el programa vim
son lo bastante inteligentes y trabajan bien con cualquier sistema de
codificación y formato de archivo. Para mejorar la compatibilidad debería
usar la configuración local UTF-8 en una consola con esta posibilidad.
Un archivo de texto Unix «u-file.txt
» almacenado en la
antiguo europeo occidental con la codificación latin1 (iso-8859-1) puede ser
editado con vim
como se muestra.
$ vim u-file.txt
Esto es debido al mecanismode autodetección de la codificación del archivo
en vim
que asume por defecto UTF-8 y si falla asume que
será latin1.
Un antiguo archivo de text polaco en Unix, «pu-file.txt
»,
almacenado en la codificación latin2 (iso-8859-2) puede ser editado con
vim
como se muestra.
$ vim '+e ++enc=latin2 pu-file.txt'
Un antiguo fichero de texto Unix en japonés,
«ju-file.txt
», almacenado con la codificación eucJP puede
ser editado por vim
como se muestra.
$ vim '+e ++enc=eucJP ju-file.txt'
Un archivo de texto MS-Windows antiguo en japonés,
«jw-file.txt
», almacenado con la codificación shift-JIS
(concretamente: CP932) puede ser editado con vim
como se
muestra.
$ vim '+e ++enc=CP932 ++ff=dos jw-file.txt'
Cuando se abre un archivo con las opciones «++enc
» y
«++ff
» , la orden de Vim «:w
» lo
almacena en su formato original sobreescribiendo el archivo
original. También puede guardarlo con un formato y nombre de archivo
específico con la orden de Vim correspondiente, p. ej. , «:w
++enc=utf8 new.txt
».
Por favor para más información sobre el «soporte de texto multibyte«
consulte mbyte.txt en la ayuda de vim
y Tabla 11.2, “Relación de valores de codificación y su uso” para los valores de configuraciones de
la ubicación utilizados por «++enc
».
En los programas de la familia de emacs
existen
funcionalidades equivalentes a las anteriormente descritas.
Los siguiente lee un página web y la convierte en un archivo de texto. Es muy útil copiando configuraciones de la Web o para aplicarle las herramientas de texto de Unix a la página web como grep(1).
$ w3m -dump http://www.sitio-remoto.com/pagina-web.html > archivo_de_texto
De igual forma, puede extraer información en texto plano desde otros formatos como se muestra.
Tabla 11.5. Relación de las herramientas para extraer información en texto plano
paquete | popularidad | tamaño | palabra clave | función |
---|---|---|---|---|
w3m
|
V:80, I:433 | 2323 | html→text |
conversor de HTML a texto con la orden «w3m -dump »
|
html2text
|
V:10, I:46 | 269 | html→text | conversor avanzado de HTML a texto (ISO 8859-1) |
lynx
|
V:20, I:103 | 1924 | html→text |
conversor de HTML a texto con la orden «lynx -dump »
|
elinks
|
V:10, I:29 | 1752 | html→text |
conversor de HTML a texto con la orden «elinks -dump »
|
links
|
V:12, I:42 | 2207 | html→text |
Conversor de HTML a texto con la orden «links -dump »
|
links2
|
V:2, I:16 | 5486 | html→text |
conversor de HTML a texto con la orden «links2 -dump »
|
antiword
|
V:4, I:12 | 618 | MSWord→text,ps | convierte archivos MSWord a texto plano o ps |
catdoc
|
V:54, I:114 | 675 | MSWord→text,TeX | convierte archivos MSWord a texto plano o TeX |
pstotext
|
V:2, I:4 | 126 | ps/pdf→text | extrae texto de PostScript y de archivos PDF |
unhtml
|
V:0, I:0 | 42 | html→text | borra lass etiquetas de marcado de un archivo HTML |
odt2txt
|
V:2, I:7 | 53 | odt→texto | conversor de Texto OpenDocument a texto |
Puede resaltar y dar formato a información en texto plano como se muestra.
Tabla 11.6. Relación de herramientas para resaltar información en texto plano
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
vim-runtime
|
V:19, I:434 | 29624 | highlight |
Vim MACRO para convertir código fuente a HTML con «:source
$VIMRUNTIME/syntax/html.vim »
|
cxref
|
V:0, I:0 | 1182 | c→html | convierte un programa en lenguaje C a latext y HTML |
src2tex
|
V:0, I:0 | 622 | highlight | convierte varios códigos fuentes a TeX (lenguaje C) |
source-highlight
|
V:0, I:7 | 2019 | highlight | convierte varias códigos fuente a HTML, XHTML, LaTeX, Texinfo, secuencias de escape de color ANSI y archivos DocBook con resaltado (C++) |
highlight
|
V:1, I:15 | 1043 | highlight | convierte varios códigos fuente a archivos HTML, XHTML, RTF, LaTeX, TeX o XSL-FO con resaltado (C++) |
grc
|
V:0, I:2 | 188 | texto→color | coloreado genérico para todo (Python) |
txt2html
|
V:0, I:4 | 254 | texto→html | conversor de texto a HTML (Perl) |
markdown
|
V:0, I:6 | 57 | texto→html | formateador de documentos de texto «markdown« a (X)HTML (Perl) |
asciidoc
|
I:13 | 80 | texto→cualquier cosa | formateador de documentos de texto AsciiDoc a XML/HTML (Python) |
pandoc
|
V:6, I:42 | 113143 | texto→cualquier cosa | conversor general «markup« (Haskell) |
python-docutils
|
V:32, I:241 | 1752 | texto→cualquier cosa | formateador de documentos de Texto ReStructurado a XML (Python) |
txt2tags
|
V:0, I:1 | 813 | texto→cualquier cosa | conversión de documentos de texto a HTML, SGML, LaTeX, páginas de manual, MoinMoin, Magic Point y PageMaker (Python) |
udo
|
V:0, I:0 | 564 | texto→cualquier cosa | documento universal - utilidad de procesamiento de texto (lenguaje C) |
stx2any
|
V:0, I:0 | 264 | texto→cualquier cosa | conversor de documentos desde texto plano estructurado a otros formatos (m4) |
rest2web
|
V:0, I:0 | 527 | texto→html | conversor de documentos de Texto ReStructurado a html (Python) |
aft
|
V:0, I:0 | 235 | texto→cualquier cosa | sistema de preparación de documento en «formato libre« (Perl) |
yodl
|
V:0, I:0 | 615 | texto→cualquier cosa | herramientas y lenguajes para procesar predocumentos (lenguaje C) |
sdf
|
V:0, I:0 | 1445 | texto→cualquier cosa | análisis de documentos sencillos (Perl) |
sisu
|
V:0, I:0 | 5341 | texto→cualquier cosa | marco para la búsqueda, publicación y estructuración de documentos (Ruby) |
El Lenguaje de Marcado Extensible (XML) es un lenguaje de marcado para documentos que tengan la información estructurada.
Consulte la información introductoria en XML.COM.
El código XML tiene la apariencia de HTML. Nos
permite obtener diferentes formatos de un documento. Un sistema sencillo de
XML es el paquete docbook-xsl
, que utilizamos aquí.
Todo archivo XML comienza con una declaración estándar XML como se muestra.
<?xml version=«1.0« encoding=«UTF-8«?>
La sintaxis fundamental de un elemento XML se marca como se muestra.
<nombre atributo=«valor«>contenido</nombre>
Un elemento XML sin contenido se marca de forma resumida como se muestra.
<nombre atributo=«valor«/>
El «atributo=«valor«
» de los ejemplos anteriores son
opcionales.
Un comentario en XML se marca como se muestra.
<!-- comentario -->
Mientras que otros añaden marcas, XML necesita cambios menores al utilizar entidades predefinidas para los siguientes caracteres.
Tabla 11.7. Relación de entidades predefinidas para XML
entidad predefinida | carácter a ser convertido |
---|---|
"
|
« : comillas
|
'
|
' : apóstrofe
|
<
|
< : menor que
|
>
|
> : mayor que
|
&
|
& : signo &
|
Atención | |
---|---|
« |
Nota | |
---|---|
Cuando se utilizan entidades definidas por el usuario,
p. ej. « |
Nota | |
---|---|
Ya que las marcas XML se realizan de forma coherente con un cierto conjunto de etiquetas (y alguna información en su contenido y atributos), la conversión a otro XML es un procedimiento trivial utilizando Transformaciones del Lenguaje de Estilo Extensibles (XSLT, Extensible Stylesheet Language Transformations). |
Existen muchas herramientas para procesar archivos XML como el Lenguaje de Estilos Extensible (XSL, the Extensible Stylesheet Language).
Principalmente, una vez que tenga un archivo XML bien formado, puede convertirlo en cualquier otro formato utilizando el Lenguaje de Transformación de Estilos Extensible (XSLT, Extensible Stylesheet Language Transformations .
El Lenguaje de Estilo
Extensible para dar Formato a Objetos (XSL-FO, Extensible Stylesheet
Language for Formatting Objects) se supone que es la solución en lo
referente a dar formato. El paquete fop
es nuevo en el
archivo main
de Debian debido a su dependencia del lenguaje de programación Java. Así
que el código LaTeX se genera normalmente partiendo de XML y utilizando
XSLT y el sistema LaTeX se utiliza para crear los formatos de archivo
imprimibles como DVI, PostScript y PDF.
Tabla 11.8. Relación de herramientas XML
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
docbook-xml
|
I:488 | 2131 | xml | Documento de definición de XML (DTD) para DocBook |
xsltproc
|
V:17, I:109 | 154 | xslt | procesador de línea de órdenes XSLT (XML → XML, HTML, texto plano, etc.) |
docbook-xsl
|
V:13, I:208 | 14998 | xml/xslt | Hojas de estilos XSL para procesar documetnos XML DocBook a diferentes formatos de salida con XSLT |
xmlto
|
V:2, I:29 | 130 | xml/xslt | conversor de XML a cualquier cosa con XSLT |
dbtoepub
|
V:0, I:0 | 71 | xml/xslt | conversor DocBook XML a .epub |
dblatex
|
V:6, I:20 | 4648 | xml/xslt | convierte archivos Docbook adocumentos DVI, PostScript, PDF con XSLT |
fop
|
V:2, I:44 | 291 | xml/xsl-fo | convierte archivos XML Docbook a PDF |
Ya que XML es un subconjunto del Lenguaje Estándar de Marcas Generalizado (SGML), puede ser procesado por cualquier herramienta para SGML, como Lenguaje de Especificación y Semantica de Documentos de Estilo (DSSSL, Document Style Semantics and Specification Language).
Tabla 11.9. Relación de herramientas DSSSL
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
openjade
|
V:2, I:43 | 988 | dsssl | ISO/IEC 10179:1996 procesador de estándar DSSSL (más actualizado) |
docbook-dsssl
|
V:1, I:28 | 2604 | xml/dsssl | Hojas de estilo DSSSL para el procesamiento de documentos XML DocBook a diferentes formatos de salida con DSSSL |
docbook-utils
|
V:1, I:20 | 281 | xml/dsssl |
utilidades para archivos DocBook incluyendo la conversión a otros formatos
(HTML, RTF, PS, man, PDF) con las órdenes docbook2* con
DSSSL
|
sgml2x
|
V:0, I:0 | 90 | SGML/dsssl | conversor de SGML y XML usando hojas de estilos de DSSSL |
Puede extraer información HTML o XML de otros formatos utilizado lo que sigue:
Tabla 11.10. Relación de herramientas de extracción de información XML
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
wv
|
V:4, I:8 | 717 | MSWord→cualquiera | conversor de documentos de Microsoft Word a HTML, LaTeX, etc. |
texi2html
|
V:0, I:9 | 1832 | texi→html | conversor de Texinfo a HTML |
man2html
|
V:0, I:3 | 141 | páginas man→html | conversor de páginas man a HTML (soporte CGI) |
unrtf
|
V:1, I:4 | 148 | rtf→html | conversor de documentos de RTF a HTML, etc |
info2www
|
V:2, I:3 | 156 | info→html | conversor de GNU info a HTML (soporte CGI) |
ooo2dbk
|
V:0, I:0 | 217 | sxw→xml | conversor de documentos SXW de OpenOffice.org a DocBook XML |
wp2x
|
V:0, I:0 | 215 | WordPerfect→cualquiera | archivos WordPerfect 5.0 y 5.1 a TeX, LaTeX, troff, GML y HTML |
doclifter
|
V:0, I:0 | 451 | troff→xml | conversor de troff a DocBook XML |
Para archivos HTML que no son XML, puede convertirlos a XHTML el cual es una ocurrencia de XML bien formado. XHTML puede ser procesado por las herramientas XML.
Tabla 11.11. Relación de las herramientas de impresión de calidad de XML
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
libxml2-utils
|
V:22, I:289 | 173 | xml↔html↔xhtml | herramienta XML en línea de órdenes xmllint(1) (comprobación de sintáxi, reformateo, filtrado, …) |
tidy
|
V:1, I:16 | 84 | xml↔html↔xhtml | comprobador de la sintáxis HTML y reformateador |
Una vez que se genera el apropiado XML, puede utilizar la tecnología XSLT para extraer información basandose el contexo de marcas, etc.
El programa Unix troff, creado por AT&T puede utilizarse para la composición tipográfica simple. Las páginas de man son generalmente creadas con él.
TeX fue creado por Donald Knuth y es una herramienta de composición tipográfica muy poderoso y el estándar de facto LaTeX fue creado por Leslie Lamport y permite un acceso a nivel alto a todas la potencia de TeX.
Tradicionalmente, roff es el sistema principal
de Unix para la composición tipográfica. Consulte
roff(7),
groff(7),
groff(1),
grotty(1),
troff(1),
groff_mdoc(7),
groff_man(7),
groff_ms(7),
groff_me(7),
groff_mm(7)
y «info groff
».
Puede leer o imprimir un buen tutorial y texto de referencia en la macro «-me
» instalando el paquete
groff
en el archivo
«/usr/share/doc/groff/
».
Sugerencia | |
---|---|
Con « |
Sugerencia | |
---|---|
Para eliminar los «^H« y «_« del archivo de texto que
|
El software TeX Live contiene un sistema
completo del sistema TeX. El metapaquete texlive
aporta
un selección apropiada de paquetes TeX Live
que cumplirá decentemente la mayor parte de las tareas.
Hay disponibles numerosas referencias a TeX y LaTeX.
tex(1)
latex(1)
texdoc(1)
texdoctk(1)
«El libro de TeX«, de Donald E. Knuth, (Addison-Wesley)
«LaTeX - Un Sistema para Preparar un Documento«, de Leslie Lamport, (Addison-Wesley)
«El Compendio de LaTeX«, de Goossens, Mittelbach, Samarin, (Addison-Wesley)
Este es el entorno de composición tipográfica más potente. Muchos
procesadores de SGML lo utilizan como motor para
el procesamiento de texto. Lyx que está en el
paquete lyx
y GNU
TeXmacs que se encuentra en el paquete texmacs
ofrecen un entorno de edición LaTeX agradable
WYSIWYG mientras que muchos utilizan Emacs y Vim como su
preferencia como editor.
Existen multitud de recursos disponibles en la red.
La Guía de TEX Live - TEX Live 2007
(«/usr/share/doc/texlive-doc-base/english/texlive-en/live.html
»)
(del paquete texlive-doc-base
)
Cuando los documentos se vuelven grandes, algunas veces TeX puede
fallar. Debe incrementar el tamaño de los recursos compartidos en
«/etc/texmf/texmf.cnf
» (o más concretamente editar
«/etc/texmf/texmf.d/95NonPath
» y ejecutar
update-texmf(8))
con el fin de solucionarlo.
Nota | |
---|---|
La fuente TeX de «El Libro de TeX« esta disponible en http://tug.ctan.org/tex-archive/systems/knuth/dist/tex/texbook.tex.
Este archivo contiene la mayor parte de las macros que se necesitan. Me
consta que puede procesar dicho documento con
tex(1)
comentando las líneas de la 7 a la 10 y añadiendo « |
Puede imprimir una página manual en PostScript con una de las órdenes que se muestran.
$ man -Tps alguna_página_de_manual | lpr
Aunque es posible escribir una página de man en formato troff plano, existen algunos paquetes que ayudan a crearla.
Tabla 11.13. Relación de paquetes que ayudan a crear páginas man
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
docbook-to-man
|
V:0, I:15 | 187 | SGML→página man | conversor de SGML DocBook en macros man roff |
help2man
|
V:0, I:10 | 480 | text→página man | generador de página man automático con --help |
info2man
|
V:0, I:0 | 134 | info→página man | conversor de GNU info a POD o páginas man |
txt2man
|
V:0, I:1 | 92 | text→página man | conversor de texto ASCII plano a formato de página man |
En el sistema Debian la información imprimible se realizan en formato PostScript. El Sistema de Impresión Común de Unix (CUPS) utiliza Ghostscript como motor de representación para impresoras que no reconocen PostScript.
El núcleo de la manipulación es el intérprete de Ghostscript PostScript (PS) el cual genera imágenes de representación.
La última versión de Ghostscript de Artifex fue relicenciado con GPL en vez de AFPL y mezcla las últimas cambios de la versión ESP como los de la versión 8.60 de CUPS en la distribución como distribución unificada.
Tabla 11.14. Relación de intérpretes Ghostscript de PostScript
paquete | popularidad | tamaño | descripción |
---|---|---|---|
ghostscript
|
V:173, I:665 | 225 | El intérprete GPL Ghostscript de PostScript/PDF |
ghostscript-x
|
V:26, I:70 | 219 | Intérprete Ghostscript de PostScript/PDF GPL - soporte para entornos X |
libpoppler82
|
V:28, I:68 | 3652 | biblioteca de representación de PDF bifurcado del visor PDF xpdf |
libpoppler-glib8
|
V:199, I:522 | 421 | biblioteca de representación PDF (biblioteca compartida basada en Glib) |
poppler-data
|
V:133, I:666 | 12219 | biblioteca de representación CMaps para PDF (con soporte CJK: Adobe-*) |
Sugerencia | |
---|---|
« |
Puede mezclar dos archivos PostScript (PS) o Formato de Documentos Portable (PDF, Portable Document Format ) utilizando la orden gs(1) de Ghostscript.
$ gs -q -dNOPAUSE -dBATCH -sDEVICE=pswrite -sOutputFile=bla.ps -f foo1.ps foo2.ps $ gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=bla.pdf -f foo1.pdf foo2.pdf
Nota | |
---|---|
El formato PDF, el cual se usa de forma habitual como un formato de impresión multiplatafoma, es en su esencia un formato PS comprimido con algunas funcionalidades y extensiones adicionales. |
Sugerencia | |
---|---|
Para la manipulación de documentos PostScript desde la línea de órdenes
existen órdenes como
psmerge(1)
y otras que pertenecen al paquete |
Los siguienetes paquetes contienen utilidades para la impresión que considero importantes.
Tabla 11.15. Relación de utilidades para la impresión
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
poppler-utils
|
V:44, I:470 | 665 | pdf→ps,texto,… |
Utilidades PDF : pdftops , pdfinfo ,
pdfimages , pdftotext ,
pdffonts
|
psutils
|
V:8, I:139 | 219 | ps→ps | herramientas de conversión de documentos PostScript |
poster
|
V:0, I:6 | 49 | ps→ps | crea póster grandes de páginas PostScript |
enscript
|
V:1, I:22 | 2111 | texto→ps, html, rtf | convierte texto ASCII a PostScript, HTML, RTF o una impresión bonita |
a2ps
|
V:1, I:19 | 3648 | texto→ps | conversor de «cualquier formato a PostScript« e impresión bonita |
pdftk
|
V:6, I:54 | 27 | pdf→pdf |
herramienta de conversión de documentos PDF: pdftk
|
html2ps
|
V:0, I:4 | 249 | html→ps | conversor de HTML a PostScript |
gnuhtml2latex
|
V:0, I:1 | 27 | html→latex | conversor de html a latex |
latex2rtf
|
V:0, I:6 | 478 | latex→rtf | conversor de documentos LaTeX a RTF la cual puede ser leído por MS Word |
ps2eps
|
V:5, I:97 | 94 | ps→eps | conversor de PostScript a EPS (PostScript encapsulado) |
e2ps
|
V:0, I:0 | 112 | texto→ps | conversor de texto a PostScript con soporte a la codificación japonés |
impose+
|
V:0, I:1 | 180 | ps→ps | utilidades PostScript |
trueprint
|
V:0, I:0 | 146 | texto→ps | imprime bien muchos códigos fuente (C, C++, Java, Pascal, Perl, Pike, Sh y Verilog) a PostScript (lenguaje C). |
pdf2svg
|
V:0, I:4 | 26 | ps→svg | conversor de PDF al formato gráficos de vector escalable (Scalable vector graphics) |
pdftoipe
|
V:0, I:0 | 67 | ps→ipe | conversor de PDF a formato XML IPE |
Tanto las órdenes de lp(1) y lpr(1) existen en Sistema de Impresión Común de Unix (CUPS) que proporciona opciones personalizadas para la impresión.
Puede imprimir tres copias del archivo correspondiente utilizando las siguientes órdenes.
$ lp -n 3 -o Collate=True nombre_de_archivo
$ lpr -#3 -o Collate=True nombre_de_archivo
Puede personalizar las impresiones mediante opciones como «-o
number-up=2
», «-o page-set=even
», «-o
page-set=odd
», «-o scaling=200
», «-o
natural-scaling=200
», etc., según consta en Impresión con línea de órdenes y sus
opciones.
Considero importantes los siguientes paquetes de conversión de datos de correo.
Tabla 11.16. Relación de paquetes que ayudan a la conversión de datos de correo
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
sharutils
|
V:5, I:73 | 1405 | shar(1), unshar(1), uuencode(1), uudecode(1) | |
mpack
|
V:1, I:21 | 91 | MIME | codifica y decodifica los mensajes MIME: mpack(1) y munpack(1) |
tnef
|
V:5, I:11 | 98 | ms-tnef | desempaca los archivos adjuntos MIME del tipo «application/ms-tnef« que es un formato propio de Microsoft |
uudeview
|
V:0, I:5 | 109 | codifica y decodifica los siguientes formatos: uuencode, xxencode, BASE64, quoted printable y BinHex |
Sugerencia | |
---|---|
Se puede utilizar un servidor del Protocolo de Acceso a Mensajes de Internet versión 4 (IMAP4) (consulte Sección 6.7, “Servidor POP3/IMAP4”) para obtener los correos de un sistema de correo propietario siempre que el cliente permita configurar el servidor de correo IMAP4. |
La información de correo (SMTP) deben utilizar 7 bits. Seleccionando el juego de caracteres (consulte Sección 8.4.1, “Fundamentos de codificación”) y las Extensiones de Correo de Internet Multipropósito (MIME) los datos binarios y la información en formato texto de 7 bits son codificados en formato de 7 bits.
El formato de almacenamiento estándar de correo es mbox según RFC2822 (actualizado por el RFC822).
Consulte
mbox(5)
(es proporcionado por el paquete mutt
).
En las lenguas europeas normalmente se utiliza en el correo la
«Codificación-para-Tranferir-Contenido:quoted-printable
»
con el juego de caracteres ISO-8859-1 ya que no existen muchos de los
caracteres de 8 bits. SI el texto europeo esta codificado en UTF-8,
«Codificación-para-Transferir-Contenido:
quoted-printable
» es usado como la mayor parte de la información
en 7 bits.
En japonés el tradicional «Content-Type: text/plain;
charset=ISO-2022-JP
» es normalmente utilizado en el correo ya que
mantiene el texto en 7 bits. Pero los antiguos sistemas Microsoft puede
enviar información en Shift-JIS sin la declaración correspondiente. Si el
texto japonés esta codificado en UTF-8 Base64
es como utilizar información de 8 bits. Lo que ocurre en otros lenguajes
asiáticos es parecido.
Nota | |
---|---|
Si su información de correo no Unix se accede desde un cliente que no es de Debian, con soporte de IMAP4, puede moverlo desplegando su propio servidor IMAP4 (consulte Sección 6.7, “Servidor POP3/IMAP4”). |
Nota | |
---|---|
Si utiliza otros formatos de almacenamiento de correo, moverlos al formato mbox es un buen comienzo. Un cliente versátil como mutt(1) puede ser útil para ello. |
Puede partir el contenido del buzón de correo en mensajes utilizando procmail(1) y formail(1).
Cada mensaje de correo se puede desempaquetar utilizando
munpack(1)
del paquete mpack
(u otra herramienta especiaizada) para
obtener el contenido codificado con MIME.
Los siguientes paquetes para la conversión, edición y organización de información gráfica llamaron mi atención.
Tabla 11.17. Relación de herramientas de información gráfica
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
gimp
|
V:85, I:489 | 19016 | imagen (bitmap) | GNU GIMP Programa de Manipulación de Imágenes |
imagemagick
|
V:43, I:549 | 209 | imagen (bitmap) | programa de manipulación de imágenes |
graphicsmagick
|
V:6, I:17 | 5252 | imagen (bitmap) |
programas de manipulación de imágenes (bifurcaciones de
imagemagick )
|
xsane
|
V:19, I:190 | 935 | imagen (bitmap) | Interfaz GTK+basado en X11 para SANE (Acceso inmediato y fácil a escáner) |
netpbm
|
V:35, I:552 | 4302 | imagen (bitmap) | herramienta de conversión de gráficos |
icoutils
|
V:15, I:153 | 220 | png↔ico(bitmap) | convierte iconos y cursores MS Windows a y desde formatos PNG (favicon.ico) |
scribus
|
V:3, I:28 | 19995 | ps/pdf/SVG/… | Scribus editor de documentos |
libreoffice-draw
|
V:313, I:470 | 9960 | imágen (vector) | LibreOffice office suite - dibujo |
inkscape
|
V:129, I:332 | 78502 | imágen (vector) | editor SVG (Scalable Vector Graphics) |
dia
|
V:18, I:37 | 3824 | imágen (vector) | editor de diagramas (Gtk) |
xfig
|
V:10, I:18 | 1793 | imágen (vector) | facilidad para la creación interactiva de figuras en X11 |
pstoedit
|
V:6, I:159 | 992 | ps/pdf→image(vector) | conversor de archivos PostScript y PDF a SVG |
libwmf-bin
|
V:11, I:335 | 113 | Windows/imágen(vector) | herramientas de conversión de archivos con formato metafile de Windows (formato de gráficos vectoriales) |
fig2sxd
|
V:0, I:0 | 149 | fig→sxd(vector) | convierte archivos XFig a formato Draw de OpenOffice.org |
unpaper
|
V:2, I:17 | 460 | imágen→imágen | herramienta para el procesado posteriro de páginas escaneadas para OCR |
tesseract-ocr
|
V:6, I:32 | 1119 | imágen→texto | software libre OCR basado en el motor OCR comercial de HP |
tesseract-ocr-eng
|
I:33 | 4032 | imágen→texto | motor de información OCR: archivo en inglés tesseact-ocr para textos ingleses |
gocr
|
V:1, I:19 | 527 | imágen→texto | software libre OCR |
ocrad
|
V:0, I:6 | 303 | imágen→texto | software libre OCR |
eog
|
V:87, I:301 | 11807 | imágen(Exif) | programa visor de gráficos «Eye of GNOME« |
gthumb
|
V:12, I:23 | 3532 | imágen(Exif) | visor y navegador de imágenes (GNOME) |
geeqie
|
V:12, I:22 | 12814 | imágen(Exif) | visor de imágenes utilizando GTK+ |
shotwell
|
V:20, I:224 | 6096 | imágen(Exif) | organizador de fotos digital (GNOME) |
gtkam
|
V:0, I:6 | 1154 | imágen(Exif) | aplicación para acceder a material de cámaras digitales (GTK+) |
gphoto2
|
V:0, I:13 | 965 | imágen(Exif) | El cliente de línea de órdenes de cámara digital gphoto2 |
gwenview
|
V:31, I:104 | 11266 | imágen(Exif) | visor de imágenes (KDE) |
kamera
|
I:103 | 748 | imágen(Exif) | aplicaciones KDE para soporte de cámaras digitales |
digikam
|
V:3, I:15 | 3644 | imágen(Exif) | aplicación para la gestión de fotos digitales para KDE |
exiv2
|
V:4, I:53 | 239 | imágen(Exif) | herramienta de manipulación de metainformación EXIF/IPTC |
exiftran
|
V:1, I:23 | 70 | imágen(Exif) | transforma imágenes de cámaras digitales jpeg |
jhead
|
V:1, I:12 | 113 | imágen(Exif) | manipula la parte que no son imágenes de los archivos jpeg de acuerod a Exif (imágenes de cámaras digitales) |
exif
|
V:1, I:12 | 238 | imágen(Exif) | utilidad de línea de órdenes para mostrar información EXIF de archivos JPEG |
exiftags
|
V:0, I:4 | 288 | imágen(Exif) | utilidad para leer etiquetas Exif de archivos JPEG de cámaras digitales |
exifprobe
|
V:0, I:4 | 491 | imágen(Exif) | lee metainformación de imágenes digitales |
dcraw
|
V:2, I:22 | 535 | imágen (crudo)→ppm | decodifica imágenes en crudo de cámaras digitales |
findimagedupes
|
V:0, I:1 | 78 | imagen→huella | busca imágenes duplicadas o parecidas visualmente |
ale
|
V:0, I:0 | 753 | imágen→imágen | fusiona imágenes para aumentar su integridad o crea mosaicos |
imageindex
|
V:0, I:0 | 145 | imagen(Exif)→html | genera galerias HTML estáticos partiendo un grupo de imágenes |
outguess
|
V:0, I:2 | 260 | jpeg,png | herramienta universal esteanográfica |
librecad
|
V:9, I:19 | 8201 | DXF | editor de información CAD (KDE) |
blender
|
V:4, I:35 | 107121 | blend, TIFF, VRML, … | editor de animaciones 3D etc |
mm3d
|
V:0, I:0 | 3900 | ms3d, obj, dxf, … | editor OpenGL de modelado 3D |
open-font-design-toolkit
|
I:0 | 10 | ttf, ps, … | metapaquete para el diseño de tipos de letra abiertos |
fontforge
|
V:0, I:8 | 91 | ttf, ps, … | editor de tipos de letra PS, TrueType y OpenType |
xgridfit
|
V:0, I:0 | 876 | ttf | programas para la ajuste e interpolación (gridfitting y hinting) de tipos de letra TrueType |
Sugerencia | |
---|---|
Busque más herramientras de imágenes utilizando
aptitude(8)
con la expresión regular « |
Aunque existen programas GUI muy potentes como gimp(1), las herramientas en línea de órdenes como imagemagick(1) son muy útiles para automatizar la manipulación de imágenes por medio de archivos de órdenes.
El formato de facto de los archivos de imágenes en cámaras digitales es Formato de Archivo de Imagen Intercambiable (EXIF, Exchangeable Image File Format) que se corresponde con el formato de archivo de imágenes JPEGcon etiquetas de metainformación adicionales. Puede contener información como la fecha, la hora y la configuración de la cámara.
La patente de compresión de datos sin pérdida Lempel-Ziv-Welch (LZW) ha expirado. Las utilidades del Formato de Intercambio de Gráficos (GIF, Graphics Interchange Format), que utiliza el método de compresión LZW, están ahora disponibles libremente en el sistema Debian.
Sugerencia | |
---|---|
Cualquier cámara digital o escáner con un medio de grabación extraible interactua con Linux a través de lectores de almacenamiento USB ya que cumple con el las reglas del Sistema de archivos para Cámaras y utiliza el sistema de archivos FAT. Consulte Sección 10.1.7, “Dispositivos de almacenamiento extraibles”. |
Existen otros programas para la conversión entre datos. Los siguientes
paquetes llamaron mi atención al usar
aptitude(8)
con la expresión regular «~Guse::converting
» (consulte
Sección 2.2.6, “Opciones del método de búsqueda con aptitude”).
Tabla 11.18. Relación de herramientas varias para la conversión de información
paquete | popularidad | tamaño | palabra clave | descripción |
---|---|---|---|---|
alien
|
V:3, I:45 | 166 | rpm/tgz→deb | conversor entre paquetes externos en paquetes Debian |
freepwing
|
V:0, I:0 | 421 | EB→EPWING | conversor de «Libro Electrónico« (común en Japón) a uno único con formato JIS X 4081 (un subconjunto de EPWING V1) |
calibre
|
V:8, I:39 | 51670 | cualquiera→EPUB | gestión de bibliotecas y conversor de libros electrónicos |
Puede extraer la información de formato RPM como se muestra.
$ rpm2cpio file.src.rpm | cpio --extract