CORPORA CONSULTÁVEIS
Português
Corpus do Português: São dois corpora da língua portuguesa de acesso livre e gratuito. Um histórico, contendo mais de 45 milhões de palavras coletadas em vários países entre os anos 1300 e 1900, com textos na modalidade oral e escrita de diversas categorias, como jornais, livros, trabalhos acadêmicos e revistas. O outro é do português contemporâneo, dividido em dois subcorpora de aproximadamente 1 bilhão de palavras cada. Conta ainda com uma ferramenta, WordAndPhrases, que permite análises diversas e o upload do corpus / texto do usuário para comparação com os corpora disponíveis.
Corpus Internacional do Português (CINTIL): Corpus anotado do português de Portugal desenvolvido pela Universidade de Lisboa. O corpus contém atualmente 1 milhão de palavras com anotações que incluem informação sobre a classe morfossintática, sobre o lema e a flexão das classes abertas, sobre locuções pertencentes à classe dos advérbios e às classes fechadas, e sobre nomes próprios multi-palavra. Acesso gratuito.
Inglês/ Português
COMPARA: é um corpus paralelo, extensível e gratuito. Os textos que constituem o corpus são originais da língua inglesa e portuguesa e as suas traduções para português e inglês. Pode ser acessado por meio da plataforma Linguateca.
Corpus Multilingue para Ensino e Tradução (COMET): é um corpus multilíngue, extensível e gratuito desenvolvido pela Universidade de São Paulo. É composto por três sub corpora: Corpus Técnico-Científico (CorTec), Corpus de Tradução ( CorTrad) e Corpus Multilíngue de Aprendizes (CoMAprend).
Inglês
American National Corpus (ANC): É um corpus geral de língua inglesa de grande porte, com mais de 22 milhões de palavras. Contém textos de diversas categorias, como emails, livros, jornais, ligações telefônicas, discursos. Todos os dados e anotações estão disponíveis na página.
British National Corpus (BNC): é um corpus balanceado e geral de língua inglesa, com mais de 100 milhões de palavras. Criado pela Universidade de Oxford em 1990 e encerrado em 1994. Contém textos na modalidade oral e escrita de diversas categorias, como jornais, livros, trabalhos acadêmicos e revistas.
Corpus of Canadian English (Strathy): é um corpus balanceado e geral de língua inglesa de variação canadense falada e escrita, que contém mais de 50 milhões de palavras. Criado pela Universidade Queen’s, compreende os anos de 1970 a 2010 e pode ser acessado por meio da Universidade Brigham Young.
Corpus of Contemporary American English (COCA): é um corpus balanceado e geral de língua inglesa na variação americana falada e escrita, contém mais de 560 milhões de palavras e a última adição de textos ocorreu em 2017. É um muito popular, oferece opções variadas de consulta e pode ser baixado.
The Bergen Corpus of London Teenage Language (COLT): é um corpus de língua inglesa focado na conversação de adolescentes. Foi coletado em 1993 e consiste na língua falada de adolescentes entre 13 e 17 anos de diferentes lugares de Londres. O corpus conta com meio milhão de palavras e foi ortograficamente transcrito e etiquetado por classe de palavras. Está contido no British National Corpus (BNC).
O Collins Corpus: é um corpus geral de língua inglesa com mais de 4,5 bilhões de palavras. É extensível, novos dados são inseridos no Corpus todos os meses. Os dicionários COBUILD são baseados nas informações do Collins Corpus.
Espanhol
Corpus de Referencia del Español Actual (CREA): É um corpus extensível com textos escritos e orais de todos os países hispanofalantes de 1975 até 2004.
Corpus del español: É um corpus sincrônico desenvolvido em 2001 por Mark Davies e posteriormente ampliado pelo National Endowment for the Humanities dos Estados Unidos. Contém mais de 100 milhões de palavras e a última atualização ocorreu em 2018.
Francês
Frantext : O Frantext é um corpus gratuito, com mais de 260 milhões de palavras com textos século IX ao XXI. Foi desenvolvido na ATILF (Analyse et Traitement Informatique de la Langue Française) e está disponível online desde 1998. É necessário ser assinante para acessá-lo.
Corpus de la Langue Parlée en Interaction (CLAPI): É um corpus oral de falantes francófonos da França, Suíça e Alemanha. As amostras são conversações em diversos contextos, entre pessoas nativas e não nativas de diferentes idades coletadas entre 1984 e 2008.
MULTILÍNGUES
IWeb: é um corpus multilingue baseado em cerca de 22 milhões de páginas da web e conta com mais de 14 bilhões de palavras. Coletado em 2017, oferece a opção de criar um “corpus virtual” sobre qualquer tópico a partir das páginas da web, além de recursos como listas de frequência, busca de palavras e frases. Pode ser baixado.
Projeto Terminologico Cone Sul (TERMISUL): é um corpus multilíngue voltado para estudos terminológicos. Desenvolvido pelo Grupo TERMISUL da Universidade Federal do Rio Grande do Sul, é constituído pelos seguintes sub corpora: GestAmb (gestão ambiental), Legis (legislação ambiental) e Tecno-Ciência (química, medicina e informática). Inclui também o ambiente CardioTrad para apoio à tradução de textos de Cardiologia no par de línguas português-alemão. Oferece concordanciador, listador de palavras, e n-gramas, assim como materiais didáticos sobre reconhecimento de terminologias em corpus.
Open Parallel Corpus (OPUS): é um corpus multilingue, gratuito e extensível de textos traduzidos da web. É composto por diversos sub-corpus, como o EUROPARL. Tem por objetivo principal adicionar anotações linguísticas e fornecer à comunidade um corpus paralelo disponível ao público e auxiliar pesquisas terminológicas.
- Acessos: 2185