// VERSIONE ITALIANA

Text Segmentation e` il processo che consiste nel suddividere del testo in parole o altre analoghe unita` di significato, come frasi o argomenti. Il termine si riferisce ai processi mentali propri degli esseri umani nella lettura di testi, e a processi 'artificiali' implementati da calcolatori che sono il soggetto del processamento del linguaggio naturale.

Il problema potrebbe apparire di relativamente agevole soluzione per i linguaggi che in forma scritta hanno espliciti marcatori dei confini delle parole, come gli spazi fra le parole nell'Inglese scritto, o le lettere con forme diverse per riferirsi a lettere iniziali, intermedie e finali della forma delle lettere, come nell'Arabo. Quando tali indizi non sono disponibili, il compito spesso richiede tecniche tutt'altro che triviali, come il decision-making basato su tecniche statistiche, ampi dizionari, o come l'esame di vincoli semantici e sintattici.

Le tecniche di processamento del linguaggio naturale per la segmentazione del testo comportano la necessita` di identificare i confini di parole e frasi. Tale processo non e` semplice quanto la ricerca dei periodi, dei punti e virgola (che potrebbero per esempio apparire all'interno di un tag XML), etc. .

Nell'elaborazione di files di testo, le tabelle di abbreviazioni che contengono frasi (per esempio Sig.ra) possono essere utile nell'evitare erronee associazioni di demarcazioni di frase. Alcuni sistemi per la segmentazione del testo si avvalgono di alcune marcature quali l'HTML e riconoscono i formati di documenti come il PDF per fornire ulteriore evidenza a favore di confini di frase e paragrafi.

Un documento puo` contenere molteplici argomenti, e il compito della segmentazione automatica del testo puo` essere scoprire automaticamente tali argomenti, e segmentare il testo di conseguenza. I confini di un argomento possono essere evidenti dai titoli di sezioni e paragrafi. In altri casi e` necessario ricorrere a tecniche analoghe a quelle usate nella classificazione dei documenti. 


// VERSIONE ORIGINALE, DA WIKIPEDIA
[http://en.wikipedia.org/wiki/Text_segmentation]

Text segmentation is the process of dividing written text into words or other similar meaningful units, such as sentences or topics. The term applies to mental processes used by humans when reading text, and to artificial processes implemented in computers, which are the subject of natural language processing.

The problem may appear relatively trivial for written languages that have explicit word boundary markers, such as the word spaces of written English or the distinctive initial, medial and final letter shapes of Arabic. When such clues are not consistently available, the task often requires fairly non-trivial techniques, such as statistical decision-making, large dictionaries, as well as consideration of syntactic and semantic constraints.

Natural Language Processing (NLP) text segmentation techniques involves determining the boundaries between words and sentences. This process is not as simple as finding periods, semicolons (may appear for example in an XML tag), etc.

When processing plain text, tables of abbreviations that contain periods (Mr. for example) can help prevent incorrect assignment of sentence boundaries. Some text segmentation systems take advantage of any markup like HTML and know document formats like PDF to provide additional evidence for sentence and paragraph boundaries.

A document may contain multiple topics, and the task of computerized text segmentation may be to discover these topics automatically and segment the text accordingly. The topic boundaries may be apparent from section titles and paragraphs. In other cases one needs to use techniques similar to those used in document classification. Many different approaches have been tried.