Autore: | Daniele Varrazzo |
---|---|
Contatti: | piro (alla) develer.com |
Organizzazione: | Develer S.r.l. |
Data: | 2011-04-23 |
Versione: | 1.2 |
Copyright: | 2001, 2002 Gianluca Turconi |
Copyright: | 2002, 2003, 2004 Gianluca Turconi and Davide Prina |
Copyright: | 2004, 2005, 2006 Davide Prina |
Copyright: | 2007-2011 Daniele Varrazzo |
Riassunto
Questo package fornisce un dizionario e gli altri file necessari per effettuare la ricerca full text in documenti in italiano utilizzando il database PostgreSQL.
La ricerca tiene in considerazione le variazioni morfologiche delle parole italiane, ad esempio le coniugazioni verbali, per restituire i documenti corrispondenti ai criteri di una ricerca.
[ English version ]
Indice
Il presente dizionario è stato generato partendo dal dizionario MySpell di OpenOffice.org, curato dal progetto linguistico.
Il dizionario ha subito una enorme quantità di trasformazioni, ed è ormai praticamente irriconoscibile rispetto all'originale. In particolare tutte le forme verbali, compresi i verbi irregolari, vengono fatte risalire all'infinito. Inoltre per ogni verbo vengono riconosciute le forme pronominali e riflessive applicabili sull'infinito, l'imperativo, il gerundio e il participio presente e passato.
Altra cura è stata posta nel ricondurre le diverse persone degli aggettivi e dei loro superlativi ad una forma normale, ad unificare le forme di maschile e femminile diverse (ricercatore = ricercatrice, sindaco = sindachessa).
Molti sostantivi apparivano inoltre unificati per ottenere il massimo risparmio del numero di radici (es. caso/casi + casa/case). Tali sostantivi sono stati divisi per evitare falsi positivi (purtroppo alcuni "falsi amici" di questo genere potrebbero ancora gironzolare per il dizionario, perché per individuare questo genere di problemi non c'è script Python che tenga).
Qualche statistica sulla corrente edizione del dizionario:
Il dizionario è stato presentato al PGDay 2007, la prima conferenza italiana dedicata al PostgreSQL. La presentazione è disponibile per il download.
Questa versione non contiene uno stemmer in quanto la libreria di stemming è già inclusa nel database. Il package è adatto all'installazione in database in qualunque encoding.
Per istruzioni dettagliate sull'installazione puoi leggere il file LEGGIMI.
La versione 1.1 del pacchetto è compatibile con PostgreSQL versione 8.2 e precedenti con il modulo contrib tsearch2. Il pacchetto include anche lo stemmer Snowball per l'italiano.
Il pacchetto è disponibile in due encoding:
Dovresti installare solo la versione corrispondente all'encoding del tuo cluster di database (puoi usare il comando psql -tc SHOW LC_CTYPE postgres per sapere quale sia).
Per istruzioni dettagliate sull'installazione puoi leggere i file LEGGIMI.italian_fts_utf8 o LEGGIMI.italian_fts_latin1.
Il Dizionario Ricerca di Testo in Italiano è distribuito con licenza GPL.
Desidero ringraziare Davide Prina e Gianluca Turconi perché senza il loro progetto linguistico non avrei avuto un punto di partenza.
Ringrazio anche Oleg Bartunov e Teodor Sigaev, autori del progetto Tsearch2
E mille grazie alla Develer, il posto più buono dove mettere un hacker!