Die Textkodierung einer Datei ändern (macOS)

Mit dem Kommandozeilentool iconv kann mit im macOS Terminal die Kodierung von Dateien ändern. Wenn man zum Beispiel die Kodierung einer Datei von iso-8859-1 auf utf-8 ändern möchte, geht das ungefähr so:

iconv -f iso-8859-1 -t utf-8 datei_iso.txt > datei_utf8.txt

In OS-X ist das Tool iconv standardmäßig enthalten, es sollte aber so ähnlich auch unter anderen Unixen und Linux funktionieren.

UTF-8 mit Hibernate und MySQL

Damit MySQL mit Hibernate UTF-8 kodierte Zeichen richtig speichert, muss man die jdbc-URL um ein paar Parameter erweitern, so dass sie ungefähr so aussieht:

jdbc:mysql://127.0.0.1:3306/meine_datenbank?autoReconnect=true&useUnicode=true&characterEncoding=UTF-8

Ohne diese Modifikation werden UTF-8 Sonderzeichen als Fragezeichen abgespeichert.

Gefunden auf: http://www.isocra.com/2007/01/utf-8-with-hibernate-30-and-mysql/

Problem mit UTF-8 in CakePHP mit MySQL

CakePHP kann zwar mit UTF-8 umgehen, allerdings werden die Daten nicht als UTF-8 in der MySQL-Datenbank gespeichert. Datensätze sehen dann beispielsweise so aus: „Bündnis 90 Die Grünen“.

Im Konstruktor des AppModel („/app/app_model.php“) kann man dieses Problem aber beheben, indem man „SET NAMES ‚UTF8′“ ausführen lässt, bevor andere Abfragen an die Datenbank gestellt werden.

class AppModel extends Model
{
    function __construct($id=false, $table=null, $ds=null)
    {
        parent::__construct($id, $table, $ds);
        if(!defined('SET_NAMES_UTF8'))
        {
            $this->query("SET NAMES 'UTF8'");
            define('SET_NAMES_UTF8', true);
        }
    }
}

Alle UTF-8 Zeichen (Ja, wirklich alle)

Für die, die sich mal gefragt haben, wie denn der gesamte UTF-8 Zeichensatz aussieht, habe ich nun die Antwort.

Der gesamte UTF-8 Zeichensatz in einem HTML-Dokument

Da sind ein paar interessante bzw. lustige Zeichen dabei wie der Schneemann ☃, die Schachfiguren ♔♕♖♗♘♙♚♛♜♝♞♟, Noten ♬, diverse Pfeile ➽ und auch so ganz merkwürdige Sachen, wie ⎃, ⚧ oder ❦.

Für die, die es übersichtlicher mögen hab ich die interessantesten Zeichen zusammengefasst und sortiert, in einer geordneten Liste von UTF-8 Zeichen.