ISKO Italia. Documenti

Architettura dell'informazione e organizzazione della conoscenza per l'e-government

Un esempio pratico che nasce dal modello di Ranganathan

di Giovanni Varano

<varano.giovanni @ tiscali.it>

relazione presentata all'Incontro ISKO Italia-UniMIB : Milano : 24 giugno 2005


Emanuele Quintarelli e Giovanni Varano durante l'incontro ISKO Italia-UniMIB / foto di Antonella Pastore


Abstract

Attraverso una sperimentazione pratica dimostreremo come sia possibile utilizzare una struttura basata sulle faccette in un'architettura dell'informazione pensata per un sito istituzionale come quello di un'università. In particolare abbiamo concentrato i nostri studi pratici sul web dell'Università per Stranieri di Perugia. Quello che andiamo a illustrare è un qualcosa di innovativo e non ancora utilizzato ufficialmente al posto della classica struttura e architettura del sito web.

Si è deciso di utilizzare come criterio di classificazione generale delle informazioni la classificazione a faccette che risulta essere un sistema aperto, pronto a qualunque tipo di aggiornamento, dinamico, e ricco di vantaggi anche per l'utente finale. Con tale sistema abbiamo fatto in modo che le informazioni possano essere reperite in modo più rapido, senza generare confusione. Abbiamo dato la possibilità all'utente di sfruttare ricerche incrociate, mettendolo nelle condizioni di trovare esattamente quello che cerca rendendo piacevole e non frustrante la sua permanenza sul sito.

Alcuni concetti introduttivi

Prima di entrare strettamente nel merito della sperimentazione è necessario introdurre i concetti fondamentali di classificazione su cui ci siamo basati.

La classificazione analitico-sintetica

Le classificazioni analitiche-sintetiche abbandonano l'idea di un'enumerazione a priori di tutte le classi favorendo piuttosto una metodologia che consente di creare categorie sul momento partendo solo da alcuni elementi preventivamente stabiliti: le faccete e i foci. Iniziamo col dare una definizione di tali termini per permettere la piena comprensione di ciò che andremo a spiegare.

Per faccetta si intende l'insieme di tutte le categorie (i foci) che, generate applicando uno specifico principio di divisione, descrivono una delle tante "sfaccettature"/proprietà/caratteristiche dell'ambito che si vuole classificare.

Nella compilazione di uno schema di questo tipo è necessario prevedere più faccette, tutte quelle considerate utili a classificare e a descrivere ciò che si vorrà catalogare. Si realizza così un sistema di classificazione costituito di fatto da una serie di gruppi di termini (appunto le faccette) e che è compilato con estremo rigore poiché ognuno di questi gruppi è basato su un unico principio di divisione che rende esclusivo ogni settore. È necessaria però un'attenta analisi preliminare di ciò che si vuole classificare per individuare le caratteristiche (faccette e foci) più rappresentative. Questa fase, di fondamentale e strategica importanza, prende il nome di "analisi a faccette".

Secondo Merholz (2002), una classificazione di questo tipo permette ai dati di "speak for itself": durante l'indicizzazione degli item (oggetti) il classificatore ha il compito di descrivere l'unità da catalogare rispetto alle faccette previste, assegnando per ogni faccetta il suo focus più adatto. La classe di appartenenza dell'oggetto verrà generata automaticamente dalla sintesi di ogni focus scelto per ogni faccetta.

Un fattore molto importante da tenere in considerazione nei sistemi di classificazione è dato dal loro grado di scalabilità. Se in un sistema di tipo gerarchico-enumerativo l'aggiunta di una nuova categoria comporta la modifica delle classi dello stesso livello e, di conseguenza, la riclassificazione del materiale già archiviato, in un sistema analitico-sintetico ogni faccetta è autonoma rispetto alle altre. Si può sempre aggiungere una nuova faccetta descrittiva di un nuovo aspetto dell'oggetto e non si avranno ripercussioni di alcun tipo sulle altre faccette, a condizione che il criterio di mutua esclusività venga sempre garantito.

La scalabilità assicurata dunque dalle tecniche di sintesi è una caratteristica la cui strategica importanza nella progettazione degli schemi di classificazione per sistemi informativi di vario tipo non può non essere colta.

Ma perché la classificazione a faccette è tanto importante per la gestione dell'organizzazione delle conoscenze?

Uno dei primi e forse più grandi benefici della classificazione a faccette è che anche senza conoscere il nome di un oggetto, si puè ottenere una spiegazione molto accurata di che cos'è dalla sua descrizione in termini di molte categorie di informazioni mutualmente esclusive. Se si vuole provare a descrivere un frigorifero, per esempio, si possono utilizzare fattori quali le sue misure, il materiale con cui è prodotto, il colore, la sua posizione all'interno di una casa, le sue funzioni principali.

Specialmente nei computer-based retrieval enviroment, l'insieme delle faccette non deve essere troppo complicato per l'utente: bisogna tendere sempre ad una pianificazione della struttura delle informazioni user-oriented.

La sperimentazione

La fase di analisi

La prima cosa da fare al momento della progettazione del portale che vogliamo creare è scegliere lo schema generale di classificazione a cui vogliamo fare riferimento. La struttura generale proposta dal Classification Research Group rappresenta a nostro avviso il sistema dinamico più evoluto. Questo schema è stato adottato ad esempio in modo integrale dalla Bliss Classification 2' edizione (BC2) e opera una revisione che incorpora molti principi teorici dell'analisi a faccette. Pur mantenendo e conservando le caratteristiche centrali della classificazione originale (BC1) e l'infrastruttura generale di quel sistema -- l'ordine delle classi principali, l'ordine grossolano all'interno delle classi, la notazione in lettere e la mnemonica principale -- le nuove tavole incorporano tutti gli aspetti della moderna teoria della classificazione -- una rigorosa e logica analisi in faccette e loro schiere costituenti, l'imposizione di un ordine di citazione coerente e prevedibile per mezzo di una tavola invertita, una capacità teoricamente illimitata di sintetizzare soggetti composti, e l'uso di una notazione retroattiva, che risparmia la necessità di indicatori di faccetta e semplifica notevolmente il processo di costruzione del codice di classe. Il nuovo schema offre un livello di dettaglio nella terminologia e una possibilità di sintesi tali da essere particolarmente adatti a collezioni di documenti altamente specializzati, e per alcune discipline non esistono altri linguaggi di indicizzazione paragonabili, né generali né speciali. Ciò è vero in particolare per l'Assistenza sociale e gli argomenti correlati, in cui l'adozione della BC2 è stata particolarmente ampia. Uno sviluppo recente è stato costituito dall'adozione della BC2 da parte di diverse collezioni universitarie di medie dimensioni all'Università di Cambridge, fatto che ha implicazioni considerevoli per il futuro dello schema. (Attar, 2000)

Tornando al nostro caso preso in esame, vediamo quali sono i principi e la struttura che stanno alla base del nostro sistema.

Iniziamo dall'ordine interno delle classi principali: l'ordine di citazione standard previsto dallo schema generale del CRG, così come le categorie che vi sono impiegate, può essere considerato uno sviluppo delle categorie di Ranganathan (Personalità, Materia, Energia, Spazio e Tempo) (Ranganathan, 1960).

Negli anni Sessanta vennero compiuti svariati tentativi di raffinare questa analisi di base di Ranganathan, principalmente per quanto riguarda le relazioni fra concetti (Perreault, 1965). Nell'ambito del CRG il lavoro si concentrò invece sull'identificazione di categorie più specifiche, e infatti l'inclusione di categorie come Oggetto, Tipo, Parte, Proprietà facilitò notevolmente l'esercizio dell'analisi categoriale. Come si può vedere nei lavori di Vickery (1958) , Foskett (1963), Langridge (1976), Mills (1960) e altri, l'insieme di categorie fondamentali fu espanso dalle originarie cinque di Ranganathan a un potenziale massimo di tredici.

La gamma completa di categorie è usata probabilmente soltanto nei soggetti tecnologici, mentre in alcune discipline (in particolare arti e discipline umanistiche) si trovano variazioni all'ordine di citazione standard; ciononostante, questo progresso teorico si è rivelato di inestimabile valore nell'esercizio pratico della costruzione e dello sviluppo di tavole con l'utilizzo dell'analisi a faccette.

Le categorie standard utilizzate per l'analisi dei termini nel lavoro di revisione della BC2 sono le seguenti:

  • Oggetto [inglese thing], altrimenti detto entità o sistema. Equivalente all'uso più semplice della categoria Personalità di Ranganathan, riguarda l'interesse principale o l'oggetto di qualsiasi disciplina (le piante in botanica, le sostanze in chimica, le nazioni in storia). Questa categoria contiene perlopiù oggetti fisici, oppure aggregazioni di oggetti in sistemi.
  • Tipo: questa categoria, indicante in generale una relazione genere-specie con Oggetto, contiene raggruppamenti generali ampi di concetti (es. strumenti a fiato, come Tipo dell'oggetto strumenti musicali). Nelle gerarchie tassonomiche in cui le relazioni genere-specie sono in gran parte permanenti e predefinite (botanica, zoologia), questa categoria può essere ridondante.
  • Parte: componenti e sottosistemi di Oggetto (es. l'Oggetto bicicletta ha per Parti: ruote, pedali, freni, gomme; l'Oggetto cellula ha per Parti: nuclei, vacuoli, apparati di Golgi).
  • Proprietà: proprietà e caratteristiche dell'Oggetto. Talvolta difficili da distinguere da Tipo in alcune circostanze, ma generalmente hanno natura astratta piuttosto che concreta (es. l'Oggetto bicicletta ha per Tipi: da montagna, da corsa, da turismo, mentre per Proprietà: peso, efficienza, velocità).
  • Materiale: equivalente alla categoria M della Classificazione Colon. Rappresentato da materiali grezzi, componenti ed elementi, &egarve; più fondamentale di Parte (es. l'Oggetto casa ha per Parti: tetto, muri, finestre, fondamenta, i quali consistono dei Materiali: legno, mattoni, tegole, vetro).
  • Processo: prima fra le due categorie di energia o attività, Processo è rappresentato da azioni intrinseche e spontanee all'interno di entità o sistemi -- azioni che "avvengono da sole". Esempi sono solitamente i verbi intransitivi (o gli equivalenti nominali), come: crescita, cambiamento, malattia, flusso.
  • Operazione: azioni determinate da un agente esterno -- azioni che vengono "fatte a" un'entitào sistema dall'esterno. Esempi sono solitamente i verbi transitivi, come: sperimentare, tagliare, costruire, mangiare.
  • Prodotto: esiti o risultati di processi in, o di operazioni su, entità; solitamente consistono in prodotti fisici, come cibi, farmaci o tessuti in ag ricoltura e orticoltura. Questa categoria è in gran parte limitata all'area della tecnologia, ed è generalmente assente nelle arti e nelle discipline umanistiche e sociali.
  • Sottoprodotto: autoesplicativo; analogamente alla precedente, è un'altra categoria tecnologica.
  • Paziente: il destinatario di operazioni, quando è diverso dalla categoria Oggetto o entità, come normalmente è. Di nuovo, i casi sono in gran parte tecnologici; per esempio, in ingegneria, dei buchi (Paziente) possono essere impressi (Operazione) in componenti (Parte) per macchinari.
  • Agente: i mezzi attraverso i quali delle Operazioni vengono effettuate; gli Agenti possono essere in genere distinti in persone e strumenti o attrezzature, e a un livello complesso possono essere rappresentati da istituzioni. Le due categorie di agenti possono presentarsi insieme; es. in medicina un chirurgo (Agente persona) può asportare del tessuto utilizzando un laser (Agente strumento).
  • Spazio: qualsiasi tipo di dimensione politica, fisiografica o spaziale (es.: gli USA, montuoso, interno).
  • Tempo: qualsiasi tipo di caratteristica storica, cronologica o temporale (es.: medievale, permanente, notturno).
  • Queste tredici categorie sono state trovate adeguate a trattare il vocabolario di un ampio spettro di soggetti (sebbene per un dato soggetto solitamente si possa identificare un numero minore di categorie).

    Quando nell'ambito di un soggetto viene identificata una data categoria, i suoi membri costituiscono una faccetta in quel soggetto, es. la categoria di Oggetti o entità in zoologia è nota come faccetta Organismi, la categoria dei Processi in patologia è la faccetta Malattia.

    Ordine interno delle faccette

    All'interno di una particolare faccetta può avvenire un ulteriore raggruppamento dei termini, a seconda di diversi attributi o caratteristiche.

    Questi raggruppamenti sono chiamati schiere [inglese array], e la proprietà che li definisce è chiamata principio di divisione. L'ulteriore disposizione all'interno delle schiere (ordine all'interno della schiera) solitamente non è basata su alcun principio specifico, sebbene talvolta siano applicabili degli ordini ovvi (quali sequenze cronologiche, di sviluppo o spaziali). Di solito l'ordine all'interno delle schiere, ed anche fra schiere, non è soggetto ad alcuna regola teorica, bensì viene deciso pragmaticamente.

    Ordine tra le faccette: ordine di citazione standard

    Le categorie standard vengono citate nell'ordine dato sopra, di Oggetto - Tipo - Parte ecc.; il che significa che un soggetto composto, che consista di termini tratti da più di una categoria, li combinerà in tale ordine.

    Notazione

    Il processo meccanico di sintesi dei codici di classe è ulteriormente facilitato dalla notazione dello schema. L'originaria notazione in lettere della BC1 è stata conservata nella struttura generale, in quanto le notazioni in lettere presentano diversi vantaggi. La base notazionale è grande, e utilizzando lettere si possono ottenere codici di classe più corti. Nella BC2 la notazione è utilizzata in un modo più sofisticato, così da effettuare la sintesi dei codici di classe senza bisogno di indicatori di faccetta. Tale dispositivo, ossia la notazione retroattiva, è, come l'ordine di citazione, incorporato nella tavola, e consolida ulteriormente i processi meccanici di costruzione dei numeri di classe.

    Il dispositivo opera riservando blocchi di notazione sotto ciascuna classe all'addizione diretta di qualsiasi classe precedente. Non è richiesto alcun indicatore di faccetta né dispositivo di collegamento, poiché il conflitto notazionale viene evitato dall'assegnazione appropriata della notazione da parte del compilatore della tavola. L'indicizzatore si limita a sommare i codici notazionali per gli elementi costituenti della sua analisi concettuale; poiché questo, per definizione, deve essere fatto secondo l'ordine alfabetico rovesciato, ciò serve anche a correggere qualsiasi errore che l'utente commettesse nell'ordine di citazione. In pratica l'indicizzatore ha solo bisogno di stabilire la notazione per i concetti individuali nel soggetto contenuto in un documento, e combinarli in ordine rovesciato, affinché sia generato il codice di classe, senza che gli sia necessario considerare le faccette rappresentate, né l'ordine di citazione

    La BC2 in un mondo virtuale

    Esistono numerosi esempi di applicazione di classificazioni ed altri linguaggi di indicizzazione convenzionali all'organizzazione di risorse sul Web. Fino a poco tempo fa, queste applicazioni erano rimaste in gran parte confinate all'uso dello schema di classificazione nel suo ruolo convenzionale di dispositivo di ordinamento; un certo numero di schemi generali sono stati utilizzati per sistemare le risorse all'interno di siti, nello stesso modo in cui quegli schemi sono utilizzati per ordinare i libri sugli scaffali.

    Tuttavia, progetti più recenti hanno cominciato a guardare alle strutture di conoscenza incorporate nelle classificazioni come strumenti per gestire relazioni semantiche e strutturali nella ricerca e nel recupero. Molti motori di ricerca utilizzano strutture tassonomiche e ontologiche per integrare la ricerca per parole-chiave; tali strutture sono rozze in confronto alle sofisticate reti linguistiche e filosofiche rappresentate nelle classificazioni, e alcuni progetti recenti hanno studiato come queste ultime possano assistere nei processi di raccolta di risorse, di indicizzazione automatica e di moderazione delle strategie di ricerca. Appare chiaro che in qualsiasi impresa di questo genere l'altamente strutturata e rigorosamente logica BC2, con il suo vocabolario dettagliato e le sofisticate relazioni semantiche e sintattiche, dovrebbe essere un contendente da prima linea. Una proposta di ricerca attuale presso la School of Librarianship dello University college London mira a considerare il ruolo della classificazione come fonte di vocabolario controllato e di relazioni esplicitamente definite, che potrebbero essere sfruttati nella strutturazione di stringhe di ricerca per il recupero di materiale di ambito universitario dal World Wide Web. La BC2 costituirebbe l'elemento centrale in un linguaggio controllato (mappato anche rispetto alla CDU e alla CDD), incorporato nel software di formulazione delle ricerche allo scopo di migliorare la formulazione delle espressioni di ricerca.

    La BC2 è stata scelta per fornire la "spina dorsale" di questo linguaggio di controllo, proprio per quell'integrità di principî e di struttura che la distingue dalle altre classificazioni, sviluppate su principi più pragmatici e meno strettamente logici.

    Le faccette che abbiamo scelto

    Nella versione attuale del sito dell'Università per Stranieri di Perugia, l'architettura dell'informazione è completamente insufficiente se non del tutto assente. Dopo aver fin qui spiegato il funzionamento degli schemi più evoluti di classificazione iniziamo a preparare un progetto che possa essere sviluppato non per un ipotetico aggiornamento del sito, ma per una ricostruzione completa che lo trasformi contemporaneamente in un portale vero e proprio. In altre parole, creeremo una struttura che non si limiterà a farlo apparire come un notiziario stampato, bensì come un potente portale di accesso al mondo dell'Ateneo.

    Seguendo lo schema del CRG citato poc'anzi, sceglieremo le faccette principali senza mai dimenticare i criteri di selezione fondamentali in questa fase della progettazione che abbiamo più volte ripetuto in precedenza. Come abbiamo visto, le categorie che il CRG ha messo in luce possono variare da undici a tredici, ma non necessariamente dovremo utilizzarle tutte. Adattando pertanto lo schema generale al nostro caso particolare, possiamo ridurre le faccette principali a cinque:

  • Oggetto
  • Tipo
  • Processo – Operazione
  • Paziente
  • Agente
  • Si può notare subito che abbiamo deciso di fondere in un'unica faccetta Processo e Operazione. Nel caso del portale di un'università infatti, sia le azioni intrinseche e spontanee che vengono operate all'interno di sistemi, sia le operazioni che vengono determinate da un agente esterno possono coincidere. Siccome le nostre categorie devono essere mutuamente esclusive, non era possibile creare una sovrapposizione, pertanto abbiamo inglobato tutto in una macro categoria. Espandendo lo schema con l'inserzione dei fuochi, ossia scendendo di un livello e aggiungendo le prime sottocategorie si comincia a delineare la struttura vera e propria che il nostro progetto ha:

    La struttura comincia a diventare più complessa: sebbene abbiamo mantenuto i nomi originali delle faccette si può vedere come i fuochi sotto ogni faccetta descrivano esattamente quello a cui vogliamo riferirci. Pur ribadendo che la scelta delle etichette da dare alle faccette rimarrà arbitraria, riteniamo opportuno spiegare meglio l'uso che è stato fatto di alcune di esse. Ad esempio, la faccetta etichettata provvisoriamente con "Processo – Operazione" rappresenta gli eventi legati all'università e al rapporto università – persona. La nostra idea è quella di mettere l'utente, che decide di accedere al sito dell'università attraverso questa "porta" , nelle condizioni di poter trovare ciò che cerca rifacendosi alle fasi della sua vita accademica. In parole più semplici, se un neo diplomato accede attraverso questo ingresso, potrà già immaginare il suo percorso accademico dall'orientamento universitario fino a dopo la laurea, vedendo cosa offre l'università. E lo stesso discorso è adattabile a tutti i "Pazienti" presi in considerazione dal nostro schema. Facciamo un esempio del funzionamento di questa struttura e di come il sistema generato risponderebbe a un comportamento abbastanza comune tra i neo diplomati: la ricerca di un modulo di iscrizione nella Facoltà di Comunicazione Internazionale.

    Ecco come "ragiona" il sistema che abbiamo creato:

    Titolo:

    Modulo iscrizione Comunicazione internazionale

    Analisi concettuale:

    Modulo - Iscrizione - Comunicazione internazionale - [Studente] - [Segreteria] Oggetto: Corso di Laurea

    Tipo: Comunicazione Internazionale

    Processo: Iscrizione

    Paziente: Studente

    Agente: Segreteria


    Architettura dell'informazione e organizzazione della conoscenza per l'e-government : un esempio pratico che nasce dal modello di Ranganathan / Giovanni Varano ; a cura di Emanuela Casson = (ISKO Italia. Documenti) -- <http://www.iskoi.org/doc/egov.htm> : 2006.01.02 - 2006.01.04 -