sábado, 26 de outubro de 2013

Datalização: a pegada digital

Quem nunca brincou na praia de seguir pegadas na areia? Às vezes encontrávamos o dono da pegada, às vezes um chinelo perdido e muitas vezes elas iam sumindo e não encontrávamos nada. É mais ou menos essa a experiência que estamos tendo hoje ao buscar um conteúdo. Peter Morville já dizia, quando encontramos algo nos transformamos. Ao absorver um conteúdo e internalizá-lo passamos a adquirir novos conhecimentos. 

Quando o mundo ainda era analógico, as chances de encontrar algo pareciam maiores. À medida que as empresas digitalizam seus documentos e se virtualizam vai ficando uma sensação de perda de controle e aumenta muito a dificuldade de se encontrar informação criada digitalmente ou digitalizada. Quais são as boas práticas para procurarmos minimizar a perda da pegada digital e morrermos na praia ?

Para falar sobre esse assunto, recentemente esteve no Brasil participando do III Seminário Internacional Aquivos e Museus de Pesquisa, em São Paulo, Marcia Lei Zeng, da Faculdade de Biblioteconomia e Ciência da Informação da Universidade de Kent, nos Estados Unidos. A especialista  apontou a prática da datalização como a única forma de organizar e recuperar conteúdos digitais e a importância da Web Semântica nesse contexto. Breve a apresentação deve estar disponível no site do Sesc.
  
A expressão Datalização (derivada de dados em inglês), corresponde à utilização de ferramentas, práticas e protocolos a serem adotados no momento da descrição de um conteúdo digital. São políticas que devem ser adotadas no âmbito da organização.Se for uma instituição pública que necessita trocar dados, cresce a importância da busca por metadados padronizados para poder promover a interoperabilidade entre os conteúdos. Se a organização for privada, a responsabilidade em estabelecer políticas de datalização não diminui e o desafio torna-se até maior por tratar conteúdos que muitas vezes não possuem padrões de metadados, como por exemplo uma base de conhecimento de Quem é Quem na organização. 


A busca semântica deve contribuir muito nesse campo, pois os termos passam a ser dotados de significado e contribuem para agrupar conteúdos com o mesmo significado. Portanto, não apenas os metadados, mas também a indexação de um conteúdo, determinando palavras-chave como ponto de acesso devem fazer parte da política de gestão de conteúdo digital em uma organização.

Nesse sentido podemos observar na busca do Google uma mudança significativa nesses últimos dias. O novo algorítimo de buscas do Google, o Hummingbird (beija-flor), já está em funcionamento há cerca de um mês e afeta 90% das buscas. O Hummingbird pretende compreender o contexto das palavras pesquisadas. Em vez de procurar as palavras separadamente, o Google vai tentar entender o sentido do que foi buscado. Ao pesquisar Rainha, vc poderá escolher a Rainha da Inglaterra, o tênis Rainha, uma roupa de marca Rainha e assim por diante. Esse refinamento já é o início da Web Semântica.

Outra iniciativa vinculada à web semântica é a denominada  Linked Open Data - LOD  (em tradução livre seria dados abertos vinculados) que permite publicar e linkar dados estruturados na web. Ao invés de uma página apontando para outra página, seria um dado apontando para outro dado. Inúmeras iniciativas estão sendo desenvolvidas e padrões estão sendo definidos. Esse modelo fará parte da infraestrutura da Web e sentiremos em breve uma mudança radical na forma de alimentar e recuperar informação.

Instituições que estão adotando práticas de datalização e web semântica começam a comemorar o aumento de acesso às suas bases de dados, pois as mesmas são mais facilmente recuperadas a partir de uma pesquisa na web.

Dois desafios se impõem às organizações: definir o padrão de metadados para descrever seus dados e encontrar um equilíbrio entre o número de metadados utilizado na descrição e definir o número de metadados utilizados na busca. Instituições públicas de acervo aberto estão diminuindo seus metadados de descrição para facilitar o processo de datalização recuperação de dados. Para se ter uma idéia, uma obra de arte chega a ter 400 metadados em sua descrição. Tratar seu acervo com esse grau de exaustividade pode ser um tiro no pé. Há que se buscar o equilíbrio e a melhor razão entre o custo e o benefício. Monitorar os resultados de busca e acessos são indicadores que podem contribuir para esse ajuste no tratamento de informação e conteúdo. 


A datalização é a tendência na web e entra na pauta de grandes projetos de BigData e definição de formatos-padrão. A http://dbpedia.org representa o esforço da Wikipedia em estruturar a informação sobre seus diversos conteúdos na web. Vale a pena conhecer o projeto. Esse tema é bem mais complexo que esse texto, mas procurei simplificar para sensibilizar gestores e responsáveis por projetos de conteúdo na web. Busque se aproximar de formatos já existentes. O dado é o rei em um sistema de informação e deve ser tratado como tal. Muita calma nessa hora!


2 comentários:

  1. Perfeito seu post, Renate. Dentro em breve você terá que atualizar o título do seu blog para 3.0. Sinal dos novos tempos. E o que virá no 4.0? Te digo que há pensadores (filósofos modernos) se ocupando dele.
    Quanto ao LOD ou Linked Open Data, creio que para as organizações privadas que estão sendo puxadas para fora de seus muros, digitalmente falando, pode (e deve) ser atribuído o conceito do Linked Data. Ele é diferente do EDI que as organizações trocam entre parceiros comercias vitais para as suas operações. Como o Linked Data poderá ampliar (sem sufocar) a obtenção de dados relevantes para ela atender seus objetivos, que prioritariamente é atender seus clientes, é uma das questões chave de hoje (ou ontem pois estamos, no meu entender, ficando para trás). Daí eu gostar e utilizar a expressão Linked [Open] Data porque haverá também a interoperação entre o público e o privado. Assim como você termina o post, muita calma nessa hora!

    ResponderExcluir
    Respostas
    1. Pois é Grillo...acho que vou por uma reticência depois do 2.0.....
      Excelente comentário. Entendo que se as organizações implantarem a governança de dados e conseguirem definir um padrão entre seus inúmeros sistemas de informação eliminando as famosas planilhas e datalizando seus conteúdos pode ser um caminho para uma busca mais efetiva que leve à tomada de decisões estratégicas.

      Excluir