[Corpora-List] Second HAREM resources publicly available

Santos Diana Diana.Santos at sintef.no
Thu Nov 27 13:30:22 CET 2008


[Em português no fim]

Dear colleagues,

We are happy to announce that the resources created in the scope of the Second HAREM (www.linguateca.pt/HAREM/), a joint evaluation contest for named entity recognition in Portuguese, are now available at http://www.linguateca.pt/HAREM/PacoteRecursosSegundoHAREM.zip, and include:

- The Second HAREM collection and its metadata (1,040 documents in Portuguese, from Brazil and Portugal)

- The three golden collections created

Second HAREM GC: 129 documents from the HAREM collection whose 7,747 named entities were manually annotated according to HAREM guidelines (10 categories)

TEMPO GC (a subset of Second HAREM GC): 30 documents with 1,490 NEs that, in addition to the Second HAREM GC information, have also been manually annotated according to the TEMPO guidelines for finer analysis and temporal normalization

ReRelEM GC (a subset of TEMPO GC): 12 documents, whose 572 NEs, in addition to the two types of annotation just mentioned, have also been manually annotated with semantic relations between named entities, according to the ReRelEM guidelines

- The evaluation programs developed

- The runs by the participating systems

All these resources are available at the HAREM website, and they can be used in the SA(H)ARA web service (http://www.linguateca.pt/HAREM -- click in "Avaliador"), which allows the remote evaluation of new runs.

Your feedback is welcome!

The Second HAREM organization

Diana Santos, Cláudia Freitas, Hugo Oliveira, Paula Carvalho and Cristina Mota

-------------------- [Caros colegas,

É com enorme satisfação que anunciamos a disponibilização da Lâmpada, o pacote de recursos finais criados no âmbito do Segundo HAREM, a segunda edição da avaliação conjunta em reconhecimento de entidades mencionadas em português (http://www.linguateca.pt/HAREM).

A Lâmpada, acessível de http://www.linguateca.pt/HAREM/PacoteRecursosSegundoHAREM.zip, compreende:

A - a Colecção HAREM e respectivos metadados, constituída por 1.040 documentos

B - as três colecções douradas (subconjuntos da Colecção HAREM), designadamente:

1) a colecção dourada do HAREM clássico, com 129 documentos e 7.747 EM, manualmente anotadas de acordo com as directivas do HAREM (numa grelha de 10 categorias e respectivos tipos e subtipos)

2) a colecção dourada do TEMPO, um subconjunto da CD anterior, com 30 documentos e 1.490 EM, que, além dos atributos da CD do HAREM clássico, têm ainda associada informação sobre normalização temporal e outros atributos temporais mais finos, manualmente anotados de acordo com as directivas do TEMPO

3) a colecção dourada do ReRelEM, um subconjunto da CD anterior, com 12 documentos e 572 EM, que, além dos atributos das CD anteriormente referidas, têm anotadas as relações que as diferentes EM podem estabelecer entre si, de acordo com as directivas do ReRelEM

C - os programas de avaliação desenvolvidos para o Segundo HAREM

D - as corridas produzidas pelos sistemas participantes

Todos estes recursos estão naturalmente disponíveis no sítio do HAREM, juntamente com o serviço SA(H)ARA (http://www.linguateca.pt/HAREM - escolher "Avaliador"), que permite a avaliação remota de novas participações.

Agradecemos, desde já, todo o retorno que nos possam dar!

A organização do Segundo HAREM,

Diana Santos, Cláudia Freitas, Hugo Oliveira, Paula Carvalho e Cristina Mota]



More information about the Corpora mailing list