Quem nunca brincou na praia de seguir
pegadas na areia? Às vezes encontrávamos o dono da pegada, às vezes um chinelo
perdido e muitas vezes elas iam sumindo e não encontrávamos nada. É mais ou
menos essa a experiência que estamos tendo hoje ao buscar um conteúdo. Peter
Morville já dizia, quando encontramos algo nos transformamos. Ao absorver um
conteúdo e internalizá-lo passamos a adquirir novos conhecimentos.
Quando o mundo ainda era analógico, as
chances de encontrar algo pareciam maiores. À medida que as empresas
digitalizam seus documentos e se virtualizam vai ficando uma sensação de perda
de controle e aumenta muito a dificuldade de se encontrar informação criada
digitalmente ou digitalizada. Quais são as boas práticas para procurarmos
minimizar a perda da pegada digital e morrermos na praia ?
Para falar sobre esse assunto,
recentemente esteve no Brasil participando do III Seminário
Internacional Aquivos e Museus de Pesquisa, em São Paulo, Marcia
Lei Zeng, da Faculdade de Biblioteconomia e Ciência da
Informação da Universidade de Kent, nos Estados Unidos. A especialista
apontou a prática da datalização como a única forma de organizar e
recuperar conteúdos digitais e a importância da Web Semântica nesse contexto.
Breve a apresentação deve estar disponível no site do Sesc.
A expressão Datalização (derivada de
dados em inglês), corresponde à utilização de ferramentas, práticas e
protocolos a serem adotados no momento da descrição de um conteúdo digital. São
políticas que devem ser adotadas no âmbito da organização.Se for uma
instituição pública que necessita trocar dados, cresce a importância da busca
por metadados padronizados para poder promover a interoperabilidade entre os
conteúdos. Se a organização for privada, a responsabilidade em estabelecer
políticas de datalização não diminui e o desafio torna-se até maior por tratar
conteúdos que muitas vezes não possuem padrões de metadados, como por exemplo
uma base de conhecimento de Quem é Quem na organização.
A busca semântica deve contribuir muito
nesse campo, pois os termos passam a ser dotados de significado e contribuem
para agrupar conteúdos com o mesmo significado. Portanto, não apenas os
metadados, mas também a indexação de um conteúdo, determinando palavras-chave
como ponto de acesso devem fazer parte da política de gestão de conteúdo
digital em uma organização.
Nesse sentido podemos
observar na busca do Google uma mudança significativa nesses últimos dias. O
novo algorítimo de buscas do Google, o Hummingbird (beija-flor),
já está em funcionamento há cerca de um mês e afeta 90% das buscas. O
Hummingbird pretende compreender o contexto das palavras pesquisadas. Em
vez de procurar as palavras separadamente, o Google vai tentar entender o sentido
do que foi buscado. Ao pesquisar Rainha, vc poderá escolher a Rainha da
Inglaterra, o tênis Rainha, uma roupa de marca Rainha e assim por diante. Esse
refinamento já é o início da Web Semântica.
Outra iniciativa vinculada à web
semântica é a denominada Linked Open Data - LOD (em
tradução livre seria dados abertos vinculados) que permite publicar e linkar
dados estruturados na web. Ao invés de uma página apontando para outra
página, seria um dado apontando para outro dado. Inúmeras iniciativas estão sendo
desenvolvidas e padrões estão sendo definidos. Esse modelo fará parte da
infraestrutura da Web e sentiremos em breve uma mudança radical na forma de
alimentar e recuperar informação.
Instituições que estão adotando práticas
de datalização e web semântica começam a comemorar o aumento de acesso às suas
bases de dados, pois as mesmas são mais facilmente recuperadas a partir de uma
pesquisa na web.
Dois desafios se impõem às organizações:
definir o padrão de metadados para descrever seus dados e encontrar um equilíbrio
entre o número de metadados utilizado na descrição e definir o número de
metadados utilizados na busca. Instituições públicas de acervo aberto estão
diminuindo seus metadados de descrição para facilitar o processo de datalização
recuperação de dados. Para se ter uma idéia, uma obra de arte chega a ter 400
metadados em sua descrição. Tratar seu acervo com esse grau de exaustividade
pode ser um tiro no pé. Há que se buscar o equilíbrio e a melhor razão entre o
custo e o benefício. Monitorar os resultados de busca e acessos são indicadores
que podem contribuir para esse ajuste no tratamento de informação e
conteúdo.
A datalização é a tendência na web e
entra na pauta de grandes projetos de BigData e definição de formatos-padrão.
A http://dbpedia.org representa
o esforço da Wikipedia em estruturar a informação sobre seus diversos conteúdos
na web. Vale a pena conhecer o projeto. Esse tema é bem mais complexo que
esse texto, mas procurei simplificar para sensibilizar gestores e responsáveis
por projetos de conteúdo na web. Busque se aproximar de formatos já existentes.
O dado é o rei em um sistema de informação e deve ser tratado como tal. Muita
calma nessa hora!

Perfeito seu post, Renate. Dentro em breve você terá que atualizar o título do seu blog para 3.0. Sinal dos novos tempos. E o que virá no 4.0? Te digo que há pensadores (filósofos modernos) se ocupando dele.
ResponderExcluirQuanto ao LOD ou Linked Open Data, creio que para as organizações privadas que estão sendo puxadas para fora de seus muros, digitalmente falando, pode (e deve) ser atribuído o conceito do Linked Data. Ele é diferente do EDI que as organizações trocam entre parceiros comercias vitais para as suas operações. Como o Linked Data poderá ampliar (sem sufocar) a obtenção de dados relevantes para ela atender seus objetivos, que prioritariamente é atender seus clientes, é uma das questões chave de hoje (ou ontem pois estamos, no meu entender, ficando para trás). Daí eu gostar e utilizar a expressão Linked [Open] Data porque haverá também a interoperação entre o público e o privado. Assim como você termina o post, muita calma nessa hora!
Pois é Grillo...acho que vou por uma reticência depois do 2.0.....
ExcluirExcelente comentário. Entendo que se as organizações implantarem a governança de dados e conseguirem definir um padrão entre seus inúmeros sistemas de informação eliminando as famosas planilhas e datalizando seus conteúdos pode ser um caminho para uma busca mais efetiva que leve à tomada de decisões estratégicas.