phpBB 3.0: die Übersetzer brauchen eure Unterstützung

Diskussionen über aktuelle und zukünftige phpBB-Versionen.
Wichtig: Bitte unbedingt die Forum-FAQ beachten! Kein Support!
Forumsregeln
Bitte unbedingt die Forum-FAQ beachten!
PhilippK
Vorstand
Vorstand
Beiträge: 14662
Registriert: 13.08.2002 14:10
Wohnort: Stuttgart
Kontaktdaten:

phpBB 3.0: die Übersetzer brauchen eure Unterstützung

Beitrag von PhilippK »

Hallo zusammen,

für phpBB 3.0 wollen wir auch die Stopwords (Liste bei der Suche ignorierter Wörter) überarbeiten. Dazu wollen wir auch eine Aktualisierung der Liste vornehmen, die derzeit in den 2.0-Paketen vorhanden ist.

Dazu brauchen wir jedoch eure Unterstützung.

Voraussetzungen:
Euer Board sollte mindestens 50 Mitglieder und 2000 Beiträge haben. Die Beiträge sollten fast ausschließlich in Deutsch verfasst werden. Außerdem solltet ihr euch etwas mit SQL auskennen.

Wie es geht:
Ihr solltet bitte folgende zwei SQL-Abfragen ausführen. Bei den Abfragen wird jeweils davon ausgegangen, dass ihr phpbb_ als Präfix verwendet habt. Wenn das nicht der Fall ist, müsst ihr den Präfix entsprechend anpassen.
Die Ergebnisse der Abfrage postet ihr bitte in diesem Thema. Falls irgendwelche Wörter enthalten sind, die ihr nicht nach außen geben wollt, dürft ihr diese gerne löschen.

Teil 1: Abfrage der in der DB als Häufig markierten Wörter

Code: Alles auswählen

SELECT word_text
  FROM phpbb_search_wordlist
  WHERE word_common
  ORDER BY word_text
Es ist übrigens durchaus möglich, dass ihr ein leeres Resultat erhaltet.

Teil 2: Abfrage der 25 häufigsten Wörter

Code: Alles auswählen

SELECT l.word_text, Count(*) word_count
  FROM phpbb_search_wordlist l
    INNER JOIN phpbb_search_wordmatch m ON l.word_id = m.word_id
  GROUP BY l.word_text
  ORDER BY word_count DESC
  LIMIT 25
Achtung, diese Abfrage kann etwas Zeit benötigen.

Was wir sonst noch wissen sollten:
Teilt uns bitte auch mit, ob ihr die deutsche search_stopwords.txt installiert habt (./language/lang_german/search_stopwords.txt).

Was wir mit den Daten machen:
Wir werden die Daten kritisch prüfen, ob in den Listen Wörter enthalten sind, die für eine Suche keinen Sinn machen (z. B. "Gruß").

Viele Grüße und Danke,

Philipp
Zuletzt geändert von PhilippK am 03.06.2007 23:54, insgesamt 1-mal geändert.
Kein Support per PN!
Der Sozialstaat ist [...] eine zivilisatorische Errungenschaft, auf die wir stolz sein können. Aber der Sozialstaat heutiger Prägung hat sich übernommen. Das ist bitter, aber wahr. (Horst Köhler)
Meine Mods
Pacman
Mitglied
Beiträge: 263
Registriert: 23.05.2002 23:15
Wohnort: Berlin
Kontaktdaten:

Beitrag von Pacman »

Code: Alles auswählen

das, die, ich, nicht, und

Code: Alles auswählen

spiel, spieler, ist, saison, mal, den, aber, spielen, fans, mit, mannschaft, ein, vom, euch, halle, verein, noch, wir, auf, denke, kommen, wenn
Aus einem Eishockeyforum (450 Benutzer, 13548 Beiträge).
Deswegen hab Ich ein paar Eishockeyfachwörter rausgenommen :wink:
Pacman
Mitglied
Beiträge: 263
Registriert: 23.05.2002 23:15
Wohnort: Berlin
Kontaktdaten:

Beitrag von Pacman »

Und dann nochmal ein Forum eines Tuningclubs (106 Benutzer & 16589 Beiträge).

Code: Alles auswählen

haha, spos, grins, jive, smile, winke, cool, think, euch, dich, hrhr, denke, gute, treffen, dabei, kirre, auto, naja, zunge, vom, komme, heute, sagen, echt, denk
Benutzeravatar
Gumfuzi
Ehemaliges Teammitglied
Beiträge: 2454
Registriert: 26.03.2004 22:25
Wohnort: Linz, AT
Kontaktdaten:

Beitrag von Gumfuzi »

und

Code: Alles auswählen

sieht 	5798
gefällt 	5619
problem 	3776
wäre 	3660
dazu 	3445
leider 	3400
lol 	3341
besser 	3332
naja 	3309
daumen 	3250
schön 	3147
windows 	3134
echt 	3057
link 	3040
sagen 	3039
zeit 	3033
irgendwie 	3019
richtig 	3017
(Fachspezifische Wörter wurden hier schon ausgemistet ;)
P.S.: 14.999 User (einer noch auf die 15.000) und über 156.000 Beiträge

die deutsche stopwords ist installiert.
Coki
Mitglied
Beiträge: 37
Registriert: 27.05.2004 10:39

Beitrag von Coki »

Forum 1: (150 User - 5000 Beiträge)

Zu 1: Zu 2:

Code: Alles auswählen

figuren 	436
paar 	423
neue 	365
zeit 	358
forum 	344
spielen 	331
dazu 	325
spiel 	320
denke 	318
halt 	309
armee 	304
zwei 	304
vom 	303
recht 	297
regeln 	294
naja 	287
erst 	278
leider 	277
bzw 	273
seite 	273
spieler 	265
Forum 2: 300 User / 13.000 Beiträge

Zu 1:

Code: Alles auswählen

auch 
auf
bei
das
den
der
die
für
hat
ich
kann
mal
mir
mit
nicht
noch
nur
oder
und
von
was
wenn
wie
Zu 2:

Code: Alles auswählen

die  	3794
ich 	3698
und 	3463
der 	3054
das 	3001
ist 	2710
sind 	2687
nicht 	2642
sich 	2612
dem 	2423
als 	2401
schon 	2381
auch 	2329
dann 	2304
den 	2238
ein 	2214
aus 	2198
aber 	2184
einen 	2150
mit 	2112
haben 	1936
also 	1900
mich 	1884
auf 	1883
wird 	1790
Zu beiden Foren:
a.) Fachbegrife rausgenommen
b.) Kein deutsches Stopwords installiert.

Gruss,

Coki
PhilippK
Vorstand
Vorstand
Beiträge: 14662
Registriert: 13.08.2002 14:10
Wohnort: Stuttgart
Kontaktdaten:

Beitrag von PhilippK »

Dann will ich auch mal:

1.: leeres Ergebnis

2.:
gruß 23831
wink 17110
hab 13402
dir 10633
hast 8266
mein 7816
fahren 7583
dich 7381
nix 7301
mrgreen 7281
grüße 7280
euch 6554
hallo 6072
roll 5971
meiner 5668
schrieb 5173
halt 5096
shock 5040
schön 4911
muß 4591
moin 4572
leider 4556
nen 4476
danke 4399
Kein Support per PN!
Der Sozialstaat ist [...] eine zivilisatorische Errungenschaft, auf die wir stolz sein können. Aber der Sozialstaat heutiger Prägung hat sich übernommen. Das ist bitter, aber wahr. (Horst Köhler)
Meine Mods
cgerharz
Ehemaliger Übersetzer
Beiträge: 174
Registriert: 14.05.2004 23:55
Wohnort: Landkreis Vulkaneifel [ DAU ]

Beitrag von cgerharz »

Code: Alles auswählen

Welcome to the MySQL monitor.  Commands end with ; or \g.
Your MySQL connection id is 448769 to server version: 4.0.20-log

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql> use usr_web16_1;
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
mysql> SELECT word_text
    ->   FROM phpbb_search_wordlist
    ->   WHERE word_common
    ->   ORDER BY word_text;
+-----------+
| word_text |
+-----------+
| aber      |
| auch      |
| das       |
| der       |
| die       |
| ist       |
| nicht     |
| und       |
+-----------+
8 rows in set (0.21 sec)

mysql> SELECT l.word_text, Count(*) word_count
    ->   FROM phpbb_search_wordlist l
    ->     INNER JOIN phpbb_search_wordmatch m ON l.word_id = m.word_id
    ->   GROUP BY l.word_text
    ->   ORDER BY word_count DESC
    ->   LIMIT 25;
+-----------+------------+
| word_text | word_count |
+-----------+------------+
| nicht     |      50975 |
| ist       |      50628 |
| ein       |      49029 |
| den       |      49028 |
| der       |      48328 |
| mal       |      43788 |
| mit       |      43514 |
| wenn      |      43170 |
| man       |      42113 |
| aber      |      41211 |
| was       |      40771 |
| mir       |      40316 |
| auf       |      40167 |
| auch      |      38741 |
| wie       |      38650 |
| noch      |      38056 |
| kann      |      37626 |
| von       |      37465 |
| nur       |      37295 |
| dann      |      36971 |
| oder      |      36174 |
| schon     |      33209 |
| und       |      32534 |
| hat       |      31577 |
| hab       |      31340 |
+-----------+------------+
25 rows in set (15.51 sec)

mysql> quit
Bye
Benutzeravatar
kazwo
Mitglied
Beiträge: 934
Registriert: 29.07.2005 14:10
Wohnort: Mutterstadt des deutschen Fußballs

Beitrag von kazwo »

1) kein Ergebnis

2)

Code: Alles auswählen

the  	693
weiß 	678
denke 	657
natürlich 	614
naja 	584
schön 	575
lol 	574
zeit 	561
irgendwie 	519
nie 	511
gerne 	511
finde 	507
sagen 	507
leben 	497
liebe 	496
gar 	482
wäre 	474
arrow 	470
nich 	468
euch 	457
mag 	440
richtig 	432
heute 	426
warum 	426
menschen 	424
104 User, 6882 Beiträge

Keine deutschen stopwords installiert
Blau-Gelb ist nicht Ikea und auch nicht die FDP. Blau-Gelb, das ist die Mannschaft, die ich so gern spielen seh.
Benutzeravatar
TK
Mitglied
Beiträge: 70
Registriert: 28.11.2004 14:08
Wohnort: Bremen
Kontaktdaten:

Beitrag von TK »

SQL-Query #1: nix (warum eigentlich?)

SQL-Query #2:
dich 7941
weiß 4987
leben 4116
nich 3936
warum 3277
sagen 3156
zeit 3076
euch 3034
angst 2762
besser 2655
menschen 2539
nie 2528
heute 2442
es 2419
liebe 2384
weg 2377
denke 2372
wäre 2371
ihn 2270
gute 2222
lieb 2198
gehen 2089
egal 2083
schön 1965
tag 1931
deutsche stopword-Liste ist aktiv

101 User (wurden aber über 300 ausgemistet) - 53.452 Beiträge

Themenschwerpunkt des Boards: psychische Probleme
Meine Signatur war zu groß und wurde deshalb gelöscht - Siehe phpBB.de-Knigge
Benutzeravatar
Swat
Mitglied
Beiträge: 498
Registriert: 27.04.2005 15:21
Wohnort: Mainz

Beitrag von Swat »

nix
naja 1410
echt 1077
zeit 1023
lol 1015
weiß 979
nie 917
finde 906
wäre 906
halt 869
erst 852
bekommen 831
gar 825
sagen 821
euch 789
sonst 789
paar 765
denke 714
leider 684
gesagt 680
ja 680
willkommen 669
besser 665
271 User, 19193Beiträge

Keine deutschen stopwords-list installiert

Thema: Diabetes-Teens, (zwei) Fachwörter raus genommen
Antworten

Zurück zu „phpBB Diskussion“