MySQL: stopwords mit Umlauten
Verfasst: 14.06.2010 12:41
Hallo zusammen,
ich nutze den "similar-topics" Mod, um ähnliche Beiträge anzeigen zu lassen.
Damit Wörter wie "muss, will, kann, habe, mein, für, soll, etc" nicht mit gesucht werden, habe ich von meinem Provider die standardmäßig von sql genutzte englische stopworslist auf eine deutschsprachige umstellen lassen.
Meine db von phpBB zeigt in phpMyAdmin als Zeichensatz "latin-1" an. Die Tabelle phpbb_topics ist in utf8_bin und vor allem das darin enthaltene (und zu durchsuchende) Fulltext-Feld topic_title hat den Zeichensatz utf8_unicode_ci.
In der stopword-Datei steht jedes Wort in einer neuen Zeile.
Klappt soweit auch gut, nur werden Wörter mit Umlauten nicht "gestoppt", egal ob ich die Datei "stopword.c" als latin-1 oder "utf-8" hochlade; also am Zeichensatz scheint es nicht zu liegen.
Kennt jemand eine Lösung, wie stopwords mit Umlauten richtig erkannt und somit von der Suche ausgeschlossen werden?
VIELEN DANK!
ich nutze den "similar-topics" Mod, um ähnliche Beiträge anzeigen zu lassen.
Damit Wörter wie "muss, will, kann, habe, mein, für, soll, etc" nicht mit gesucht werden, habe ich von meinem Provider die standardmäßig von sql genutzte englische stopworslist auf eine deutschsprachige umstellen lassen.
Meine db von phpBB zeigt in phpMyAdmin als Zeichensatz "latin-1" an. Die Tabelle phpbb_topics ist in utf8_bin und vor allem das darin enthaltene (und zu durchsuchende) Fulltext-Feld topic_title hat den Zeichensatz utf8_unicode_ci.
In der stopword-Datei steht jedes Wort in einer neuen Zeile.
Klappt soweit auch gut, nur werden Wörter mit Umlauten nicht "gestoppt", egal ob ich die Datei "stopword.c" als latin-1 oder "utf-8" hochlade; also am Zeichensatz scheint es nicht zu liegen.
Kennt jemand eine Lösung, wie stopwords mit Umlauten richtig erkannt und somit von der Suche ausgeschlossen werden?
VIELEN DANK!