UMA PROPOSTA DE WORKFLOW PARA CONSTRUÇÃO DE CORPUS DIGITAL EM LÍNGUA DE SINAIS

Autores

DOI:

https://doi.org/10.54221/rdtdppglinuesb.2024.v12i1.284

Palavras-chave:

Língua de Sinais; Construção de corpora; Método Lapelinc; Escrita Sel.

Resumo

Os corpora de línguas de sinais disponíveis atualmente em pesquisas linguísticas e em sites para acesso livre são constituídos por um módulo de gravação feita em vídeo, pois os dados pertencem a uma língua de modalidade gesto-visual e outro módulo de “transcrição” dos dados por meio de glosas que utilizam a escrita de uma língua oral, como o Português ou o Inglês. No entanto, esse método comumente utilizado para descrever e estudar as propriedades gramaticais das línguas de sinais apresenta um problema: a falta de um módulo que desempenhe, de fato, a função da transcrição, que é a de realizar a associação entre forma e sentido por meio de um sistema de anotação escrita do sinal. Isso porque, ao analisar essas “transcrições” por glosa, percebe-se que elas exercem, na verdade, um papel de tradução e não de transcrição, uma vez que não se utiliza um sistema de escrita equivalente à escrita fonética para transcrever os sinais; as traduções não são representações do sinal, pois não consideram sua articulação na anotação, são apenas traduções para a língua oral dos sentidos do que foi sinalizado no vídeo. Esse fato se apresenta como um problema para os estudos linguísticos, pois pode afetar a análise e descrição das propriedades linguísticas, interferindo na formulação das hipóteses sobre a estrutura gramatical da língua de sinais por parte do pesquisador. Uma proposta que levantamos como enfrentamento a esse problema é a utilização de um sistema de escrita para língua de sinais que represente a articulação fonética do sinal para compor o módulo de transcrição nas iniciativas de construção de corpora para essas línguas. O sistema que melhor atendeu ao objetivo de representar linearmente a articulação fonética de sinais mano-visuais de línguas sinalizadas foi o Sistema de Escrita para Língua de Sinais (SEL) (Lessa-de-Oliveira, 2023). Nesse contexto, essa dissertação teve como objetivo principal: (a) realizar um levantamento de como os estudos da área da Linguística trabalham com os dados das línguas de sinais (especificamente da Libras) e como são constituídos os corpora que fundamentam esses estudos; (b) avaliar os limites e as possibilidades das iniciativas de construção de corpora para línguas de sinais encontradas; e (c) propor um fluxo de trabalho, um workflow, para construção de corpora de línguas de sinais, que atenda todas as etapas iniciais de anotação incluindo a possibilidade de transcrições fonéticas e/ou fonológicas, que siga as diretrizes de construção de corpora para línguas oro-auditivas no que se refere às possibilidades de anotação e que faça reuso das tecnologias já existentes. Para isso, foi executada uma metodologia de pesquisa em nosso trabalho que se caracteriza como pesquisa aplicada, na qual seguimos as etapas: (i) realização de um estudo para conhecimento do estado da arte e levantamento de corpora de língua de sinais observando seus alcances, possibilidades e limites; (ii) levantamento de requisitos importantes para anotação e controle na produção de corpora de língua de sinais; (iii) definição dos metadados que podem guiar a catalogação dos dados, os quais devem ser guardados em uma estrutura de arquivo como corpus cru (Santos; Namiuti, 2019); (iv) construção de um modelo teórico a partir do workflow proposto para a construção de corpora de língua de sinais que contempla o módulo de transcrição e tradução com exemplificação da anotação a partir de dados de Libras selecionados nas fontes da pesquisa; (v) realização de análise comparativa entre o modelo construído a partir do workflow proposto e os corpora construídos com a utilização de outros esquemas para investigações da língua Libras. A partir disso, foi possível demonstrar que: (1) uma iniciativa de construção de corpora para línguas de sinais que siga padrões de anotação sistematizados e padronizados é necessária para que pesquisas na área da Linguística de línguas sinalizadas (mano-visuais), no caso do Brasil a Libras, sejam bem fundamentadas; e (2) a escrita Sel se caracteriza como uma proposta plausível para compor o módulo de transcrição nessa iniciativa.

Downloads

Não há dados estatísticos.

Referências

ALUÍSIO, Sandra Maria; ALMEIDA, Gladis Maria de Barcellos. O que é e como se constrói um corpus?: lições aprendidas na compilação de vários corpora para pesquisa lingüística. Calidoscópio, Unisinos, v. 4, n. 3, p. 156-179, dez. 2006.

BARBOSA, Thaís Bolgueroni. Uma descrição do processo de referenciação em narrativas contadas em língua de sinais brasileira (Libras). 2013. 155 f. Dissertação (Mestrado) - Curso de Linguística, Universidade de São Paulo, São Paulo, 2013.

BARROS, Mariângela Estelita. ELiS – Escrita das Línguas de Sinais: proposta teórica e verificação prática. 2008. 199 f. Tese (Doutorado) - Curso de Pós-Graduação em Linguística, Universidade Federal de Santa Catarina, Florianópolis/Sc, 2008.

BARROS, Mariângela Estelita. Princípios básicos da ELiS:: escrita das línguas de sinais. Revista Sinalizar, São Paulo, v. 1, n. 2, p. 204-210, dez. 2016.

BENASSI, Claudio Alves. Visografia: uma nova proposta de escrita da língua de sinais. Traços de Linguagem, Cáceres, v. 2, n. 2, p. 71-82, 2018.

Capovilla, F. C.; RAPHAEL, W.D. (Org.) ; MAURICIO, A.C. (Org.) . Novo Deit-Libras: Dicionário enciclopédico ilustrado trilíngue da Língua de Sinais Brasileira (Libras) baseado em linguística e neurociências cognitivas, 2a. edição revista e ampliada, Volume 2: Sinais de I a Z.. 2. ed. São Paulo, SP: Edusp, 2011. v. 1. 2759p.

Capovilla, F. C.; RAPHAEL, W.D. (Org.) ; MAURICIO, A.C. (Org.) . Novo Deit-Libras: Dicionário enciclopédico ilustrado trilíngue da Língua de Sinais Brasileira (Libras) baseado em linguística e neurociências cognitivas, 2a. edição revista e ampliada, Volume 1: Sinais de A a H.. 2. ed. São Paulo, SP: Edusp, 2011. v. 1. 1418p.

COSTA, Aline Silva. WEBSINC: uma ferramenta web para buscas sintáticas e morfossintáticas em corpora anotados - estudo de caso do corpus dovic - bahia. 2015. 186 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2015.

COSTA, B. S. et al. The Systematic Construction of Multiple Types of Corpora Through the Lapelinc Framework. In: Vládia Pinheiro; Pablo Gamallo; Raquel Amaro; Carolina Scarton; Fernando Batista; Diego Silva; Catarina Magro; Hugo Pinto (Eds.) Computational Processing of the Portuguese Language. Springer, Switzerland, 2022.

COSTA, B. S; SANTOS, Jorge Viana; NAMIUTI, Cristiane. Uma proposta metodológica para a construção de corpora através de estruturas de trabalho: o Lapelinc Framework. Revista Brasileira em Humanidades Digitais, [S. l.], v. 1, n. 2, 2021.

COSTA, B. S. Um framework integrado para a criação, o gerenciamento e a disponibilização de corpora digitais em língua portuguesa. Projeto de Pesquisa de Doutorado (PPGLIN/UESB). Vitória da Conquista. 2019.

Finger, Marcelo; SOUSA, M. C. P. ; NAMIUTI, C. ; MONTE, V. M.. Corpus Carolina v1.0 Ada. 2022. (Corpus).

Finger, M., Paixão de Souza, M. C., Namiuti, C., Monte, V. M., Costa, A. S., Serras, F. R., Sturzeneker, M. L., Guets, R. P., Mesquita, R. M., Crespo, M. C. R. M., Rocha, M. L. S. J., Palma, M. F., Silva, M. M., Brasil, P. Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance and Typology Information. Language resources and evaluation, submitted paper (2021).

GALVES, Charlotte. O corpus tycho brahe: um corpus sintaticamente anotado do Português histórico. Rbba, Vitória da Consquista, v. 1, n. 8, p. 181-204, jul. 2019.

GALVES, Charlotte; SANDALO, Filomena; SENA, Ticiana A. de; VERONESI, Luiz. Annotating a polysynthetic language: from portuguese to kadiwéu. Cadernos de Estudos Lingüísticos, [S.L.], v. 59, n. 3, p. 631, 4 dez. 2017. Universidade Estadual de Campinas. http://dx.doi.org/10.20396/cel.v59i3.8651003.

GALVES, Charlotte; SANDALO, Filomena; SENA, Ticiana A. de; VERONESI, Luiz. Corpus Kadiwéu. 2017. Disponível em: https://www.tycho.iel.unicamp.br/viewer/C12. Acesso em: 17 mar. 2024.

Grishman, R. (1996). TIPSTER Text Phase II Architecture Design. Version 2.1p. Computer Science. New York University.

JEREMIAS, Daiana do Amaral. Iconicidade nas sentenças topicalizadas da Libras: uma motivação semântica e pragmática. 2020. 215 f. Tese (Doutorado) - Curso de Linguística, Universidade Federal de Santa Catarina, Florianópolis, 2020.

KADER, Cárla Callegaro Corrêa; RICHTER, Marcos Gustavo. Linguística de corpus: possibilidades e avanços. Instrumento, Juiz de Fora, v. 15, n. 1, p. 13-23, jan/jun. 2013.

LESSA-DE-OLIVEIRA, Adriana S. C. Componentes articulatórios da Libras e a escrita SEL Estudos da Língua(gem), Vitória da Conquista, v. 17, n. 2, p. 103-122, 2019.

LESSA-DE-OLIVEIRA, Adriana S. C. Libras escrita: o desafio de representar uma língua tridimensional por um sistema de escrita linear. ReVEL, v. 10, n. 19, 2012.

LESSA-DE-OLIVEIRA, Adriana S. C. Por uma modalidade escrita da Libras: estrutura frasal e sinalização, a estrutura fonológica do sinal e a escrita sel. Campinas, Sp: Pontes Editores, 2023. 179 p.

MAGRO, Catarina; VAAMONDE, Gael. Atlas sintático do Português europeu. Revista Binacional Brasil-Argentina: Diálogo entre as ciências, [S.L.], v. 8, n. 1, p. 249, 31 jul. 2019. Universidade Estadual do Sudoeste da Bahia/Edicoes UESB. http://dx.doi.org/10.22481/rbba.v8i1.5593.

MCCARTHY, M.; O’KEEFFE, A. Historical perspective: what are corpora and how have they evolved? In OKEEFFE, A.; McCARTHY, M. The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.

McENERY, T.; WILSON, A. A corpus linguistics. Edinburg: Edinburg University Press, 1997.

MENGEL, Andreas; LEZIUS, Wolfgang. An XML-based representation format for syntactically annotated corpora. International Conference On Language Resources And Evaluation, Stuttgart, maio 2000.

MONTEIRO, Myrna Salerno. A interferência do Português na análise gramatical em Libras: o caso das preposições. 2015. 250 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Federal de Santa Catarina, Florianópolis, 2015.

MOREIRA, Daniele Santana; ROSADO, Luiz Alexandre da Silva. A importância da escrita das línguas de sinais: mapeando propostas e resultados de aplicação na literatura acadêmica nacional. Revista Espaço, Rio de Janeiro, v. 54, n. 1, p. 187-208, dez. 2020.

MOREIRA, Renata Lúcia. Um Olhar da Semiótica para os Discursos em Libras: descrição do tempo. 2016. 207 f. Tese (Doutorado) - Curso de Linguística, Universidade de São Paulo, São Paulo, 2016.

OTHERO, G.A. Linguística Computacional: Uma breve introdução. Letras de Hoje, Porto Alegre v.41, n.2, 2006.

PRADO, Lizandra Caires do. Sintaxe dos determinantes na língua brasileira de sinais e aspectos de sua aquisição. 2014. 163 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2014.

QUADROS, Ronice Müller de. A transcrição de textos do Corpus de Libras. Revista Leitura: Línguas de Sinais: abordagens teóricas e aplicadas, São Paulo, v. 1, n. 57, p. 8-34, jun. 2016.

QUADROS, Ronice M. de.; SCHMITT, Deonísio; LOHN, Juliana T.; LEITE, Tarcísio de A. Corpus de Libras. http://corpuslibras.ufsc.br/ 2020.

ROCHA, Amanda Oliveira. Uma investigação sobre o uso de recursividade em Libras. 2021. 133 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2021.

SAMPAIO, Adovaldo Fernandes. Breve história da escrita. In: SAMPAIO, Adovaldo Fernandes. Letras e Memória: uma breve história da escrita. São Paulo: Ateliê Editorial, 2009. p. 13-293.

SAMPAIO, Thamires Oliveira de Souza. A natureza gramatical da Libras adquirida por surdos e ouvintes: sinal, classificador, ação construída e gesto. 2020. 169 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2020.

Sampson, Geoffrey. English for the Computer: The SUSANNE Corpus and Analytic Scheme. Clarendon Press, 1995.

SANTANA, Ediélia Lavras dos Santos. A questão da categorização morfológica para nome e verbo em Libras. 2019. 140 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2019.

SANTORINI, B. Annotation manual for the Penn Historical Corpora and the PCEEC. Disponível em: https://www.ling.upenn.edu/hist-corpora/annotation/index.htm. 2010. Acesso em: 02 mar. 2024.

SANTOS, Jorge Viana; NAMIUTI, Cristiane. O futuro das Humanidades Digitais é o passado. In: CARRILHO, Ernestina; MARTINS, Ana Maria; PEREIRA, Sandra; SILVESTRE, João Paulo (org.). Estudos Linguísticos e Filológicos Oferecidos a Ivo Castro. [S.L.]: Centro de Linguística da Universidade de Lisboa, 2019. p. 1381-1403.

SARDINHA, Tony Berber. Linguística de Corpus. Barueri: Manole, 2004.

SIGNPUDDLE - Online. Disponível em: https://www.signbank.org/signpuddle2.0/signmaker.php?ui=12&sgn=46. Acesso em: 27 nov. 2022.

SILVA, Alan David Sousa; COSTA, Edivaldo da Silva; BÓZOLI, Daniele Miki Fujikawa; GUMIERO, Daniela Gomes. OS SISTEMAS DE ESCRITA DE SINAIS NO BRASIL. Revista Virtual de Cultura Surda, Rio de Janeiro, v. 23, p. 1-30, maio 2018.

SILVA, Anderson Almeida da. A (in)definitude no sintagma nominal em Libras [recurso eletrônico]: uma investigação na interface sintaxe-semântica. 2019. 351 f. Tese (Doutorado) - Curso de Linguística, Universidade Estadual de Campinas, Campinas, 2019.

SILVA, F. I. da. Ler em SignWriting: possibilidades de desenvolvimento cognitivo da criança surda. In: PERLIN, G.; STUMPF, M. (Orgs.). Um olhar sobre nós surdos: leituras contemporâneas. Curitiba: CRV, 2012, p.199-211

SILVA, Igor Valdeci Ramos da. Aspectos de nomes e verbos na Libras: identificação morfossintática. 2020. 157 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Federal de Santa Catarina, Florianópolis, 2020.

SILVA, Ione Barbosa de Oliveira. A categoria dos verbos na língua brasileira de sinais. 2015. 174 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2015.

SILVEIRA, F.P. Integração de ferramentas para compilação e exploração de corpora. 2008. 101 f. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.

Skut, Wojciech; Brants, Thorsten; Krenn, Brigitte; Uszkoreit, Hans. A Linguistically Interpreted Corpus of German Newspaper Text. Workshop on Recent Advances in Corpus Annotation, 1998.

Sturzeneker, Mariana Lourenço; Crespo, Maria Clara Ramos Morales; Rocha, Maria Lina de Souza Jeannine; Finger, Marcelo; Paixão de Sousa, Maria Clara; Monte, Vanessa Martins do; Namiuti, Cristiane. ‘Carolina’s Methodology: building a large corpus with provenance and typology information’. Proceedings of the Second Workshop on Digital Humanities and Natural Language Processing (2nd DHandNLP 2022). CEUR-WS, Vol. 3128, 2022. Available at http://ceur-ws.org/Vol-3128.

VELOSO, Brenda Silva. Construções classificadoras e verbos de deslocamento, existência e localização na língua de sinais brasileira. 2008. 159 f. Tese (Doutorado) - Curso de Linguística, Universidade Estadual de Campinas, Campinas, 2008.

VILAÇA, M.L.C. Pesquisa e ensino: Considerações e reflexões. Revista e-scrita. Uniabeu, v.1, n.2, 2010.

XAVIER, André Nogueira. Descrição fonético-fonológica dos sinais da língua de sinais brasileira (Libras). 2006. 168 f. Dissertação (Mestrado) - Curso de Linguística, Universidade de São Paulo, São Paulo, 2006.

Downloads

Publicado

30-12-2024