Forum: HispaMSX BBS

UTF-8 a ISO-8859-1

From Enric Lleal Serra@2:343/107.1 to All on Wed May 21 10:17:08 2014

* Originally in ESP.SOFTBBS
* Crossposted in ESP.LINUX
* Crossposted in EOTB.BEHOLDERS

�Hola All!

Como algunos sab�is, llevamos un tiempo pele�ndonos con la entrada de correos email en las conferencias de echomail a trav�s de la pasarela de correo que est� habilitada en "EOTB". Actualmente s�lo est�n habilitadas las echos ESP.MSX
y ESP.PRUEBAS[1].

Bien, hay un gran problema cuando los correos entrantes se codifican con UTF-8 (GMail y Yahoo usan UTF-8, Hotmail usa ISO-8859-1) con cualquiera de las pasarelas que est�n habilitadas (demonio smtp nativo de BBBS o Soupgate+Spoon) lo �nico que se importa de estos correos es basura ininteligible en el cuerpo de los mensajes.

Para paliar esto, se ha trabajado en la conversi�n de los correos llegados en UTF-8 para pasarlos a ISO-8859-1.

La primera prueba se ha efectuado con la herramienta nativa "iconv", partiendo de un texto en UTF-8...

$ file -bi /tmp/utf8.txt
text/plain; charset=utf-8

...y convirti�ndolo...

$ iconv -f UTF-8 -t ISO-8859-1 /tmp/utf8.txt

...cosa que ha dejado patente que no hay una conversi�n directa[2] entre estas dos codificaciones. Para asegurarlo, se ha verificado individualmente toda la ristra de caracteres que se requerir�a convertir espec�ficamente: las vocales acentuadas, las �, las �, signos de puntuaci�n exclamaci�n, etc...

$ echo -e "�" | iconv -f UTF-8 -t ISO-8859-1

...sin �xito. Vocales con tilde, �s y �s, no se convierten.

Entonces, se ha pensado en la substituci�n de caracteres en dos pasos (de UTF-8
a una codificaci�n personalizada, y de �sta a ISO-8859-1) como complemento a la
conversi�n directa que se efect�a en el intermedio.

Para ello, se ha tirado de "python" y de "sed" para utilizar el m�todo ".encode" de python para cargar una variable con el valor UTF-8 a substituir, usando la variable con sed para hacer efectiva la substituci�n. Siguiendo con el caso de la "�"[3]...

$ CHARS=$(python -c 'print u"\u00E1".encode("utf8")')
$ sed 's/['"$CHARS"']/LATINSMALLLETTERAWITHACUTE/g' /tmp/utf8.txt

...para efectuar la conversi�n...

$ iconv -f UTF-8 -t ISO-8859-1 /tmp/utf8.txt

...y despu�s hacer la substituci�n inversa[3]...

$ CHARS=$(python -c 'print u"\u00E1".encode("iso-8859-1")')
$ sed 's/LATINSMALLLETTERAWITHACUTE/['"$CHARS"']/g' /tmp/utf8.txt

...y la �ltima substituci�n del texto donde se indica el charset[4]...

$ sed 's/charset=utf-8/charset=iso-8859-1/g' /tmp/utf8.txt

...verificando el resultado final...

$ file -bi /tmp/utf8.txt
text/plain; charset=iso-8859-1

...con lo que podr�amos decir que s� es posible convertir un texto UTF-8 a ISO-8859-1.

El gran problema ha surgido a la hora de implementar esto en real, no contra un
texto generado sino contra un correo codificado en UTF-8 descargado por la herramienta SPOON, que es la encargada de preparar el correo para que SOUPGATE lo convierta a formato PKT y lo prepare para la conferencia echomail que toque.

SPOON descarga el correo. Si es en una codificaci�n no UTF-8 los deja en un estado tratable, aptos para ser tratados/parseados/filtrados. Si la codificaci�n es UTF-8, los deja de tal manera que el cuerpo del mensaje ya es el galimat�as que veis en ESP.MSX o ESP.PRUEBAS.

Por tanto, el uso de la pasarela embebida de BBBS no es �til porque no permite tratar el correo entrante on-the-fly, y el uso de la pasarela Soupgate+Spoon tampoco es �til porque no permite tratar el correo que se descarga offline.

�Otras v�as?

La continuista. Actualmente las listas de correo vuelcan los correos en una cuenta pop3 que SPOON vac�a/llena cuando toca. Una opci�n ser�a usar un buz�n mbox o maildir, y tratar el correo de ah� o bien extrayendo los correos individuales dentro de cada mbox, o bien cogi�ndolos directamente del maildir. Se podr�a intentar hacer que dichos correos se ajustaran al formato que genera SPOON (formato SOUP, con lista de .MSG indexados en un fichero �ndice). Pero debo analizarlo para ver si es factible, porque es una pasada de trabajo sin poder deducir si habr� �xito o no.

La cambiante. Mediante el uso de un cliente de correo en la mayor�a de plataformas es posible fijar a LATIN-1 (ISO-8859-1) el juego de caracteres que usen los correos salientes. GMail incorpora la opci�n de cambiar dicho juego de
caracteres por defecto, de UTF-8 a ISO-8859-1. Llevo una semana con esto cambiado y no he tenido ning�n problema/inconveniente en todas las listas de correo en las que participo. Todo funciona igual de bien con las dos opciones. Posiblemente pida alguna de esas opciones a los usuarios de la pasarela, pero como es una opci�n personal no puedo imponerla.

La cesante. Chapar la pasarela.

La primera requiere de un tiempo que ahora no tengo.
La segunda es la m�s factible.
La tercera no se contempla.

As� pues... me voy a por un caf�.

[1] La pasarela de News fuerza a priori el env�o del mensaje en ISO-8859-1 con lo que no tenemos esos problemas.

[2] Tambi�n con las opciones "TRANSLIT" o "-c", sin �xito.

[3] Y repetirlo para todos los caracteres que se quiere preservar en la conversi�n.

[4] Dejando para m�s adelante las variedades en la presentaci�n de dicha codificaci�n (may�sculas, comillas, etc).

-
A reveure!!
Enric
__________________________________________________________________
FidoNet: 2:343/107.1 | beholderbbs.org | fidonet.cat | .es | .ws
InterNet: kishpa(at)kishpa(dot)com | kishpa.com | GPG#0xDCCB8CFC

... Qui�n vigila a los vigilantes?
--- crashmail + golded + binkd
* Origin: Black flag & crossed bones : Eye Of The Beholder BBS! (2:343/107.1)

Who's Online
Recent Visitors
- Guest
  from Polaris, Alpha Centauri via Telnet
- Volcanicsugar39
  from Coatzintla Veracruz Mexico via Telnet
- Guest
  from Amf via Telnet
- Guest
  from Eindhoven, Nl via Telnet

System Info

Sysop:	Karloch
Location:	Madrid, Spain
Users:	75
Nodes:	8 (0 / 8)
Uptime:	24:15:46
Calls:	1,495
Calls today:	2
Files:	17,895
D/L today:	428 files (15,368K bytes)
Messages:	65,841

UTF-8 a ISO-8859-1

Who's Online

Recent Visitors

System Info