286 lines
16 KiB
Python
286 lines
16 KiB
Python
# coding=utf-8
|
||
|
||
from __future__ import unicode_literals
|
||
|
||
# Stopwords Corpus
|
||
#
|
||
# This module contains lists of stop words for several languages. These
|
||
# are high-frequency grammatical words which are usually ignored in text
|
||
# retrieval applications.
|
||
#
|
||
# They were obtained from:
|
||
# anoncvs.postgresql.org/cvsweb.cgi/pgsql/src/backend/snowball/stopwords/
|
||
|
||
|
||
# =====
|
||
# This module was generated from the original files using the following script
|
||
|
||
#import os.path
|
||
#import textwrap
|
||
#
|
||
#names = os.listdir("stopwords")
|
||
#for name in names:
|
||
# f = open("stopwords/" + name)
|
||
# wordls = [line.strip() for line in f]
|
||
# words = " ".join(wordls)
|
||
# print '"%s": frozenset(u"""' % name
|
||
# print textwrap.fill(words, 72)
|
||
# print '""".split())'
|
||
# print
|
||
|
||
|
||
stoplists = {
|
||
"da": frozenset("""
|
||
og i jeg det at en den til er som på de med han af for ikke der var mig
|
||
sig men et har om vi min havde ham hun nu over da fra du ud sin dem os
|
||
op man hans hvor eller hvad skal selv her alle vil blev kunne ind når
|
||
være dog noget ville jo deres efter ned skulle denne end dette mit
|
||
også under have dig anden hende mine alt meget sit sine vor mod disse
|
||
hvis din nogle hos blive mange ad bliver hendes været thi jer sådan
|
||
""".split()),
|
||
|
||
"nl": frozenset("""
|
||
de en van ik te dat die in een hij het niet zijn is was op aan met als
|
||
voor had er maar om hem dan zou of wat mijn men dit zo door over ze zich
|
||
bij ook tot je mij uit der daar haar naar heb hoe heeft hebben deze u
|
||
want nog zal me zij nu ge geen omdat iets worden toch al waren veel meer
|
||
doen toen moet ben zonder kan hun dus alles onder ja eens hier wie werd
|
||
altijd doch wordt wezen kunnen ons zelf tegen na reeds wil kon niets uw
|
||
iemand geweest andere
|
||
""".split()),
|
||
|
||
"en": frozenset("""
|
||
i me my myself we our ours ourselves you your yours yourself yourselves
|
||
he him his himself she her hers herself it its itself they them their
|
||
theirs themselves what which who whom this that these those am is are
|
||
was were be been being have has had having do does did doing a an the
|
||
and but if or because as until while of at by for with about against
|
||
between into through during before after above below to from up down in
|
||
out on off over under again further then once here there when where why
|
||
how all any both each few more most other some such no nor not only own
|
||
same so than too very s t can will just don should now
|
||
""".split()),
|
||
|
||
"fi": frozenset("""
|
||
olla olen olet on olemme olette ovat ole oli olisi olisit olisin
|
||
olisimme olisitte olisivat olit olin olimme olitte olivat ollut olleet
|
||
en et ei emme ette eivät minä minun minut minua minussa minusta minuun
|
||
minulla minulta minulle sinä sinun sinut sinua sinussa sinusta sinuun
|
||
sinulla sinulta sinulle hän hänen hänet häntä hänessä hänestä
|
||
häneen hänellä häneltä hänelle me meidän meidät meitä meissä
|
||
meistä meihin meillä meiltä meille te teidän teidät teitä teissä
|
||
teistä teihin teillä teiltä teille he heidän heidät heitä heissä
|
||
heistä heihin heillä heiltä heille tämä tämän tätä tässä
|
||
tästä tähän tallä tältä tälle tänä täksi tuo tuon tuotä
|
||
tuossa tuosta tuohon tuolla tuolta tuolle tuona tuoksi se sen sitä
|
||
siinä siitä siihen sillä siltä sille sinä siksi nämä näiden
|
||
näitä näissä näistä näihin näillä näiltä näille näinä
|
||
näiksi nuo noiden noita noissa noista noihin noilla noilta noille noina
|
||
noiksi ne niiden niitä niissä niistä niihin niillä niiltä niille
|
||
niinä niiksi kuka kenen kenet ketä kenessä kenestä keneen kenellä
|
||
keneltä kenelle kenenä keneksi ketkä keiden ketkä keitä keissä
|
||
keistä keihin keillä keiltä keille keinä keiksi mikä minkä minkä
|
||
mitä missä mistä mihin millä miltä mille minä miksi mitkä joka
|
||
jonka jota jossa josta johon jolla jolta jolle jona joksi jotka joiden
|
||
joita joissa joista joihin joilla joilta joille joina joiksi että ja
|
||
jos koska kuin mutta niin sekä sillä tai vaan vai vaikka kanssa mukaan
|
||
noin poikki yli kun niin nyt itse
|
||
""".split()),
|
||
|
||
"fr": frozenset("""
|
||
au aux avec ce ces dans de des du elle en et eux il je la le leur lui ma
|
||
mais me même mes moi mon ne nos notre nous on ou par pas pour qu que
|
||
qui sa se ses son sur ta te tes toi ton tu un une vos votre vous c d j l
|
||
à m n s t y été étée étées étés étant étante étants étantes
|
||
suis es est sommes êtes sont serai seras sera serons serez seront
|
||
serais serait serions seriez seraient étais était étions étiez
|
||
étaient fus fut fûmes fûtes furent sois soit soyons soyez soient
|
||
fusse fusses fût fussions fussiez fussent ayant ayante ayantes ayants
|
||
eu eue eues eus ai as avons avez ont aurai auras aura aurons aurez
|
||
auront aurais aurait aurions auriez auraient avais avait avions aviez
|
||
avaient eut eûmes eûtes eurent aie aies ait ayons ayez aient eusse
|
||
eusses eût eussions eussiez eussent
|
||
""".split()),
|
||
|
||
"de": frozenset("""
|
||
aber alle allem allen aller alles als also am an ander andere anderem
|
||
anderen anderer anderes anderm andern anderr anders auch auf aus bei bin
|
||
bis bist da damit dann der den des dem die das daß derselbe derselben
|
||
denselben desselben demselben dieselbe dieselben dasselbe dazu dein
|
||
deine deinem deinen deiner deines denn derer dessen dich dir du dies
|
||
diese diesem diesen dieser dieses doch dort durch ein eine einem einen
|
||
einer eines einig einige einigem einigen einiger einiges einmal er ihn
|
||
ihm es etwas euer eure eurem euren eurer eures für gegen gewesen hab
|
||
habe haben hat hatte hatten hier hin hinter ich mich mir ihr ihre ihrem
|
||
ihren ihrer ihres euch im in indem ins ist jede jedem jeden jeder jedes
|
||
jene jenem jenen jener jenes jetzt kann kein keine keinem keinen keiner
|
||
keines können könnte machen man manche manchem manchen mancher manches
|
||
mein meine meinem meinen meiner meines mit muss musste nach nicht nichts
|
||
noch nun nur ob oder ohne sehr sein seine seinem seinen seiner seines
|
||
selbst sich sie ihnen sind so solche solchem solchen solcher solches
|
||
soll sollte sondern sonst über um und uns unse unsem unsen unser unses
|
||
unter viel vom von vor während war waren warst was weg weil weiter
|
||
welche welchem welchen welcher welches wenn werde werden wie wieder will
|
||
wir wird wirst wo wollen wollte würde würden zu zum zur zwar zwischen
|
||
""".split()),
|
||
|
||
"hu": frozenset("""
|
||
a ahogy ahol aki akik akkor alatt által általában amely amelyek
|
||
amelyekben amelyeket amelyet amelynek ami amit amolyan amíg amikor át
|
||
abban ahhoz annak arra arról az azok azon azt azzal azért aztán
|
||
azután azonban bár be belül benne cikk cikkek cikkeket csak de e
|
||
eddig egész egy egyes egyetlen egyéb egyik egyre ekkor el elég ellen
|
||
elõ elõször elõtt elsõ én éppen ebben ehhez emilyen ennek erre ez
|
||
ezt ezek ezen ezzel ezért és fel felé hanem hiszen hogy hogyan igen
|
||
így illetve ill. ill ilyen ilyenkor ison ismét itt jó jól jobban
|
||
kell kellett keresztül keressünk ki kívül között közül legalább
|
||
lehet lehetett legyen lenne lenni lesz lett maga magát majd majd már
|
||
más másik meg még mellett mert mely melyek mi mit míg miért milyen
|
||
mikor minden mindent mindenki mindig mint mintha mivel most nagy nagyobb
|
||
nagyon ne néha nekem neki nem néhány nélkül nincs olyan ott össze
|
||
õ õk õket pedig persze rá s saját sem semmi sok sokat sokkal
|
||
számára szemben szerint szinte talán tehát teljes tovább továbbá
|
||
több úgy ugyanis új újabb újra után utána utolsó vagy vagyis
|
||
valaki valami valamint való vagyok van vannak volt voltam voltak
|
||
voltunk vissza vele viszont volna
|
||
""".split()),
|
||
|
||
"it": frozenset("""
|
||
ad al allo ai agli all agl alla alle con col coi da dal dallo dai dagli
|
||
dall dagl dalla dalle di del dello dei degli dell degl della delle in
|
||
nel nello nei negli nell negl nella nelle su sul sullo sui sugli sull
|
||
sugl sulla sulle per tra contro io tu lui lei noi voi loro mio mia miei
|
||
mie tuo tua tuoi tue suo sua suoi sue nostro nostra nostri nostre vostro
|
||
vostra vostri vostre mi ti ci vi lo la li le gli ne il un uno una ma ed
|
||
se perché anche come dov dove che chi cui non più quale quanto quanti
|
||
quanta quante quello quelli quella quelle questo questi questa queste si
|
||
tutto tutti a c e i l o ho hai ha abbiamo avete hanno abbia abbiate
|
||
abbiano avrò avrai avrà avremo avrete avranno avrei avresti avrebbe
|
||
avremmo avreste avrebbero avevo avevi aveva avevamo avevate avevano ebbi
|
||
avesti ebbe avemmo aveste ebbero avessi avesse avessimo avessero avendo
|
||
avuto avuta avuti avute sono sei è siamo siete sia siate siano sarò
|
||
sarai sarà saremo sarete saranno sarei saresti sarebbe saremmo sareste
|
||
sarebbero ero eri era eravamo eravate erano fui fosti fu fummo foste
|
||
furono fossi fosse fossimo fossero essendo faccio fai facciamo fanno
|
||
faccia facciate facciano farò farai farà faremo farete faranno farei
|
||
faresti farebbe faremmo fareste farebbero facevo facevi faceva facevamo
|
||
facevate facevano feci facesti fece facemmo faceste fecero facessi
|
||
facesse facessimo facessero facendo sto stai sta stiamo stanno stia
|
||
stiate stiano starò starai starà staremo starete staranno starei
|
||
staresti starebbe staremmo stareste starebbero stavo stavi stava stavamo
|
||
stavate stavano stetti stesti stette stemmo steste stettero stessi
|
||
stesse stessimo stessero stando
|
||
""".split()),
|
||
|
||
"no": frozenset("""
|
||
og i jeg det at en et den til er som på de med han av ikke ikkje der
|
||
så var meg seg men ett har om vi min mitt ha hadde hun nå over da ved
|
||
fra du ut sin dem oss opp man kan hans hvor eller hva skal selv sjøl
|
||
her alle vil bli ble blei blitt kunne inn når være kom noen noe ville
|
||
dere som deres kun ja etter ned skulle denne for deg si sine sitt mot å
|
||
meget hvorfor dette disse uten hvordan ingen din ditt blir samme hvilken
|
||
hvilke sånn inni mellom vår hver hvem vors hvis både bare enn fordi
|
||
før mange også slik vært være båe begge siden dykk dykkar dei deira
|
||
deires deim di då eg ein eit eitt elles honom hjå ho hoe henne hennar
|
||
hennes hoss hossen ikkje ingi inkje korleis korso kva kvar kvarhelst
|
||
kven kvi kvifor me medan mi mine mykje no nokon noka nokor noko nokre si
|
||
sia sidan so somt somme um upp vere vore verte vort varte vart
|
||
""".split()),
|
||
|
||
"pt": frozenset("""
|
||
de a o que e do da em um para com não uma os no se na por mais as dos
|
||
como mas ao ele das à seu sua ou quando muito nos já eu também só
|
||
pelo pela até isso ela entre depois sem mesmo aos seus quem nas me esse
|
||
eles você essa num nem suas meu às minha numa pelos elas qual nós lhe
|
||
deles essas esses pelas este dele tu te vocês vos lhes meus minhas teu
|
||
tua teus tuas nosso nossa nossos nossas dela delas esta estes estas
|
||
aquele aquela aqueles aquelas isto aquilo estou está estamos estão
|
||
estive esteve estivemos estiveram estava estávamos estavam estivera
|
||
estivéramos esteja estejamos estejam estivesse estivéssemos estivessem
|
||
estiver estivermos estiverem hei há havemos hão houve houvemos
|
||
houveram houvera houvéramos haja hajamos hajam houvesse houvéssemos
|
||
houvessem houver houvermos houverem houverei houverá houveremos
|
||
houverão houveria houveríamos houveriam sou somos são era éramos
|
||
eram fui foi fomos foram fora fôramos seja sejamos sejam fosse
|
||
fôssemos fossem for formos forem serei será seremos serão seria
|
||
seríamos seriam tenho tem temos tém tinha tínhamos tinham tive teve
|
||
tivemos tiveram tivera tivéramos tenha tenhamos tenham tivesse
|
||
tivéssemos tivessem tiver tivermos tiverem terei terá teremos terão
|
||
teria teríamos teriam
|
||
""".split()),
|
||
|
||
"ru": frozenset("""
|
||
и в во не что он на я с со как а то все она
|
||
так его но да ты к у же вы за бы по только
|
||
ее мне было вот от меня еще нет о из ему
|
||
теперь когда даже ну вдруг ли если уже
|
||
или ни быть был него до вас нибудь опять
|
||
уж вам ведь там потом себя ничего ей
|
||
может они тут где есть надо ней для мы
|
||
тебя их чем была сам чтоб без будто чего
|
||
раз тоже себе под будет ж тогда кто этот
|
||
того потому этого какой совсем ним
|
||
здесь этом один почти мой тем чтобы нее
|
||
сейчас были куда зачем всех никогда
|
||
можно при наконец два об другой хоть
|
||
после над больше тот через эти нас про
|
||
всего них какая много разве три эту моя
|
||
впрочем хорошо свою этой перед иногда
|
||
лучше чуть том нельзя такой им более
|
||
всегда конечно всю между
|
||
""".split()),
|
||
|
||
"es": frozenset("""
|
||
de la que el en y a los del se las por un para con no una su al lo como
|
||
más pero sus le ya o este sí porque esta entre cuando muy sin sobre
|
||
también me hasta hay donde quien desde todo nos durante todos uno les
|
||
ni contra otros ese eso ante ellos e esto mí antes algunos qué unos yo
|
||
otro otras otra él tanto esa estos mucho quienes nada muchos cual poco
|
||
ella estar estas algunas algo nosotros mi mis tú te ti tu tus ellas
|
||
nosotras vosostros vosostras os mío mía míos mías tuyo tuya tuyos
|
||
tuyas suyo suya suyos suyas nuestro nuestra nuestros nuestras vuestro
|
||
vuestra vuestros vuestras esos esas estoy estás está estamos estáis
|
||
están esté estés estemos estéis estén estaré estarás estará
|
||
estaremos estaréis estarán estaría estarías estaríamos estaríais
|
||
estarían estaba estabas estábamos estabais estaban estuve estuviste
|
||
estuvo estuvimos estuvisteis estuvieron estuviera estuvieras
|
||
estuviéramos estuvierais estuvieran estuviese estuvieses estuviésemos
|
||
estuvieseis estuviesen estando estado estada estados estadas estad he
|
||
has ha hemos habéis han haya hayas hayamos hayáis hayan habré habrás
|
||
habrá habremos habréis habrán habría habrías habríamos habríais
|
||
habrían había habías habíamos habíais habían hube hubiste hubo
|
||
hubimos hubisteis hubieron hubiera hubieras hubiéramos hubierais
|
||
hubieran hubiese hubieses hubiésemos hubieseis hubiesen habiendo habido
|
||
habida habidos habidas soy eres es somos sois son sea seas seamos seáis
|
||
sean seré serás será seremos seréis serán sería serías seríamos
|
||
seríais serían era eras éramos erais eran fui fuiste fue fuimos
|
||
fuisteis fueron fuera fueras fuéramos fuerais fueran fuese fueses
|
||
fuésemos fueseis fuesen sintiendo sentido sentida sentidos sentidas
|
||
siente sentid tengo tienes tiene tenemos tenéis tienen tenga tengas
|
||
tengamos tengáis tengan tendré tendrás tendrá tendremos tendréis
|
||
tendrán tendría tendrías tendríamos tendríais tendrían tenía
|
||
tenías teníamos teníais tenían tuve tuviste tuvo tuvimos tuvisteis
|
||
tuvieron tuviera tuvieras tuviéramos tuvierais tuvieran tuviese
|
||
tuvieses tuviésemos tuvieseis tuviesen teniendo tenido tenida tenidos
|
||
tenidas tened
|
||
""".split()),
|
||
|
||
"sv": frozenset("""
|
||
och det att i en jag hon som han på den med var sig för så till är
|
||
men ett om hade de av icke mig du henne då sin nu har inte hans honom
|
||
skulle hennes där min man ej vid kunde något från ut när efter upp
|
||
vi dem vara vad över än dig kan sina här ha mot alla under någon
|
||
eller allt mycket sedan ju denna själv detta åt utan varit hur ingen
|
||
mitt ni bli blev oss din dessa några deras blir mina samma vilken er
|
||
sådan vår blivit dess inom mellan sådant varför varje vilka ditt vem
|
||
vilket sitta sådana vart dina vars vårt våra ert era vilkas
|
||
""".split()),
|
||
|
||
"tr": frozenset("""
|
||
acaba ama aslında az bazı belki biri birkaç birşey biz bu çok
|
||
çünkü da daha de defa diye eğer en gibi hem hep hepsi her hiç için
|
||
ile ise kez ki kim mı mu mü nasıl ne neden nerde nerede nereye niçin
|
||
niye o sanki şey siz şu tüm ve veya ya yani
|
||
""".split()),
|
||
}
|