Dizionario per la Ricerca Full-Text in Italiano

Autore: Daniele Varrazzo
Contatti: piro (alla) develer.com
Organizzazione: Develer S.r.l.
Data: 2011-04-23
Versione: 1.2
Copyright: 2001, 2002 Gianluca Turconi
Copyright: 2002, 2003, 2004 Gianluca Turconi and Davide Prina
Copyright: 2004, 2005, 2006 Davide Prina
Copyright: 2007-2011 Daniele Varrazzo

Riassunto

Questo package fornisce un dizionario e gli altri file necessari per effettuare la ricerca full text in documenti in italiano utilizzando il database PostgreSQL.

La ricerca tiene in considerazione le variazioni morfologiche delle parole italiane, ad esempio le coniugazioni verbali, per restituire i documenti corrispondenti ai criteri di una ricerca.

[ English version ]

Indice

Informazioni sul dizionario

Il presente dizionario è stato generato partendo dal dizionario MySpell di OpenOffice.org, curato dal progetto linguistico.

Il dizionario ha subito una enorme quantità di trasformazioni, ed è ormai praticamente irriconoscibile rispetto all'originale. In particolare tutte le forme verbali, compresi i verbi irregolari, vengono fatte risalire all'infinito. Inoltre per ogni verbo vengono riconosciute le forme pronominali e riflessive applicabili sull'infinito, l'imperativo, il gerundio e il participio presente e passato.

Altra cura è stata posta nel ricondurre le diverse persone degli aggettivi e dei loro superlativi ad una forma normale, ad unificare le forme di maschile e femminile diverse (ricercatore = ricercatrice, sindaco = sindachessa).

Molti sostantivi apparivano inoltre unificati per ottenere il massimo risparmio del numero di radici (es. caso/casi + casa/case). Tali sostantivi sono stati divisi per evitare falsi positivi (purtroppo alcuni "falsi amici" di questo genere potrebbero ancora gironzolare per il dizionario, perché per individuare questo genere di problemi non c'è script Python che tenga).

Qualche statistica sulla corrente edizione del dizionario:

Presentazione al PGDay

Il dizionario è stato presentato al PGDay 2007, la prima conferenza italiana dedicata al PostgreSQL. La presentazione è disponibile per il download.

Download e Installazione

PostgreSQL 8.3 e successivi

Questa versione non contiene uno stemmer in quanto la libreria di stemming è già inclusa nel database. Il package è adatto all'installazione in database in qualunque encoding.

Per istruzioni dettagliate sull'installazione puoi leggere il file LEGGIMI.

PostgreSQL 8.2 e precedenti

La versione 1.1 del pacchetto è compatibile con PostgreSQL versione 8.2 e precedenti con il modulo contrib tsearch2. Il pacchetto include anche lo stemmer Snowball per l'italiano.

Il pacchetto è disponibile in due encoding:

Dovresti installare solo la versione corrispondente all'encoding del tuo cluster di database (puoi usare il comando psql -tc SHOW LC_CTYPE postgres per sapere quale sia).

Per istruzioni dettagliate sull'installazione puoi leggere i file LEGGIMI.italian_fts_utf8 o LEGGIMI.italian_fts_latin1.

Licenza

Il Dizionario Ricerca di Testo in Italiano è distribuito con licenza GPL.

Ringraziamenti

Desidero ringraziare Davide Prina e Gianluca Turconi perché senza il loro progetto linguistico non avrei avuto un punto di partenza.

Ringrazio anche Oleg Bartunov e Teodor Sigaev, autori del progetto Tsearch2

E mille grazie alla Develer, il posto più buono dove mettere un hacker!