Tradicionalmente, a palavra corpus (plural corpora) significa um “corpo” ou coleção de escritos, textos, material oral, etc. (COD, 1995). Entretanto no contexto dos Estudos da Tradução, a definição de corpus possui conotações mais específicas: Formato digital Textos completos Auto-configuráveis e Representativos . . Neste sentido, para BAKER (1995) um corpus pode ser interpretado como uma coleção auto-configurável de textos completos digitalizados, analisáveis automática ou semi-automaticamente e, coletados a fim de serem representativos ao máximo do fenômeno tradutório sendo examinado.
- Formato digital Formato Digital – hoje em dia, para que os textos possam ser armazenados e processados por ferramentas computacionais, é necessário que eles estejam em formato digital. Textos digitalizados permitem uma maior manipulação dos dados e, consequentemente, permitem a investigação de fenômenos que antes permaneciam indetectáveis a olho nu.
- Textos completos Textos Completos – no passado conjuntos de frases, sentenças e excertos tirados de um texto eram considerados suficientes para se construir um corpus. Atualmente, entretanto, opta-se em criar corpora com textos completos para que se possa também levar em consideração outros níveis lingüísticos de significação que vão além do nível de sentença tais como, coesão e coerência.
- Auto-configuráveis Auto-Configuráveis – um corpus deve ser construído de tal forma que o usuário possa re-configurar os textos do corpus de acordo com suas necessidades. Isso faz com que um corpus possa ser utilizado de várias formas e por vários usuários, o que por sua vez faz do corpus uma ferramenta inesgotável de dados e aplicações práticas.
- Representativos Representativos – os textos incluídos em um corpus devem tentar representar o máximo possível o fenômeno tradutório a ser investigado ou as aplicações práticas a serem utilizadas através do corpus em questão. A representatividade como um conceito estatístico é difícil de ser atingida, mas cabe ao criador do corpus tentar diminuir o máximo possível quaisquer distorções.