A workflow proposal for construction digital corpus in sign language
DOI:
https://doi.org/10.54221/rdtdppglinuesb.2024.v12i1.284Keywords:
Sign language; Corpora construction; Lapelinc method; Sel writing.Abstract
The sign language corpora currently available in linguistic research and on open-access websites consist of a video recording module, since the data belongs to a language with a gesture-visual modality, and another module for “transcribing” the data through glosses that use the writing of an oral language, such as Portuguese or English. However, this method commonly used to describe and study the grammatical properties of sign languages presents a problem: the lack of a module that actually performs the function of transcription, which is to associate form and meaning through a system of written annotation of the sign. This is because, when analyzing these “transcriptions” by gloss, it is clear that they actually play the role of translation and not transcription, since a writing system equivalent to phonetic writing is not used to transcribe the signs; the translations are not representations of the sign, since they do not consider its articulation in the annotation; they are merely translations into the oral language of the meanings of what was signaled in the video. This fact presents itself as a problem for linguistic studies because it can affect the analysis and description of linguistic properties, interfering with the formulation of hypotheses about the grammatical structure of sign language by the researcher. One proposal that we put forward to address this problem is the use of a writing system for sign language that represents the phonetic articulation of the sign to compose the transcription module in initiatives to build corpora for these languages. The system that best met the objective of linearly representing the phonetic articulation of mano-visual signs of signed languages was the Writing System for Sign Language (SEL) (Lessa-de-Oliveira, 2023). In this context, this dissertation had as its main objective: (a) to carry out a survey of how studies in the field of Linguistics work with data from sign languages (specifically Libras) and how the corpora that support these studies are constituted; (b) to evaluate the limits and possibilities of the initiatives to build corpora for sign languages found; and (c) propose a workflow for building sign language corpora that meets all the initial stages of annotation, including the possibility of phonetic and/or phonological transcriptions, that follows the guidelines for building corpora for oral-auditory languages with regard to annotation possibilities, and that reuses existing technologies. To this end, a research methodology was implemented in our work that is characterized as applied research, in which we followed the steps: (i) conducting a study to understand the state of the art and surveying sign language corpora, observing their scope, possibilities, and limits; (ii) surveying important requirements for annotation and control in the production of sign language corpora; (iii) defining the metadata that can guide the cataloging of data, which must be saved in a file structure as a raw corpus (Santos; Namiuti, 2019); (iv) construction of a theoretical model based on the proposed workflow for constructing sign language corpora that includes the transcription and translation module with annotation examples based on Libras data selected from the research sources; (v) performance of a comparative analysis between the model constructed based on the proposed workflow and the corpora constructed using other schemes for Libras language investigations. From this, it was possible to demonstrate that: (1) an initiative to construct corpora for sign languages that follows systematized and standardized annotation patterns is necessary for research in the area of Linguistics of signed languages (manual-visual), in the case of Brazil Libras, to be well-founded; and (2) the Sel script is characterized as a plausible proposal to compose the transcription module in this initiative.
Downloads
References
ALUÍSIO, Sandra Maria; ALMEIDA, Gladis Maria de Barcellos. O que é e como se constrói um corpus?: lições aprendidas na compilação de vários corpora para pesquisa lingüística. Calidoscópio, Unisinos, v. 4, n. 3, p. 156-179, dez. 2006.
BARBOSA, Thaís Bolgueroni. Uma descrição do processo de referenciação em narrativas contadas em língua de sinais brasileira (Libras). 2013. 155 f. Dissertação (Mestrado) - Curso de Linguística, Universidade de São Paulo, São Paulo, 2013.
BARROS, Mariângela Estelita. ELiS – Escrita das Línguas de Sinais: proposta teórica e verificação prática. 2008. 199 f. Tese (Doutorado) - Curso de Pós-Graduação em Linguística, Universidade Federal de Santa Catarina, Florianópolis/Sc, 2008.
BARROS, Mariângela Estelita. Princípios básicos da ELiS:: escrita das línguas de sinais. Revista Sinalizar, São Paulo, v. 1, n. 2, p. 204-210, dez. 2016.
BENASSI, Claudio Alves. Visografia: uma nova proposta de escrita da língua de sinais. Traços de Linguagem, Cáceres, v. 2, n. 2, p. 71-82, 2018.
Capovilla, F. C.; RAPHAEL, W.D. (Org.) ; MAURICIO, A.C. (Org.) . Novo Deit-Libras: Dicionário enciclopédico ilustrado trilíngue da Língua de Sinais Brasileira (Libras) baseado em linguística e neurociências cognitivas, 2a. edição revista e ampliada, Volume 2: Sinais de I a Z.. 2. ed. São Paulo, SP: Edusp, 2011. v. 1. 2759p.
Capovilla, F. C.; RAPHAEL, W.D. (Org.) ; MAURICIO, A.C. (Org.) . Novo Deit-Libras: Dicionário enciclopédico ilustrado trilíngue da Língua de Sinais Brasileira (Libras) baseado em linguística e neurociências cognitivas, 2a. edição revista e ampliada, Volume 1: Sinais de A a H.. 2. ed. São Paulo, SP: Edusp, 2011. v. 1. 1418p.
COSTA, Aline Silva. WEBSINC: uma ferramenta web para buscas sintáticas e morfossintáticas em corpora anotados - estudo de caso do corpus dovic - bahia. 2015. 186 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2015.
COSTA, B. S. et al. The Systematic Construction of Multiple Types of Corpora Through the Lapelinc Framework. In: Vládia Pinheiro; Pablo Gamallo; Raquel Amaro; Carolina Scarton; Fernando Batista; Diego Silva; Catarina Magro; Hugo Pinto (Eds.) Computational Processing of the Portuguese Language. Springer, Switzerland, 2022.
COSTA, B. S; SANTOS, Jorge Viana; NAMIUTI, Cristiane. Uma proposta metodológica para a construção de corpora através de estruturas de trabalho: o Lapelinc Framework. Revista Brasileira em Humanidades Digitais, [S. l.], v. 1, n. 2, 2021.
COSTA, B. S. Um framework integrado para a criação, o gerenciamento e a disponibilização de corpora digitais em língua portuguesa. Projeto de Pesquisa de Doutorado (PPGLIN/UESB). Vitória da Conquista. 2019.
Finger, Marcelo; SOUSA, M. C. P. ; NAMIUTI, C. ; MONTE, V. M.. Corpus Carolina v1.0 Ada. 2022. (Corpus).
Finger, M., Paixão de Souza, M. C., Namiuti, C., Monte, V. M., Costa, A. S., Serras, F. R., Sturzeneker, M. L., Guets, R. P., Mesquita, R. M., Crespo, M. C. R. M., Rocha, M. L. S. J., Palma, M. F., Silva, M. M., Brasil, P. Carolina: a General Corpus of Contemporary Brazilian Portuguese with Provenance and Typology Information. Language resources and evaluation, submitted paper (2021).
GALVES, Charlotte. O corpus tycho brahe: um corpus sintaticamente anotado do Português histórico. Rbba, Vitória da Consquista, v. 1, n. 8, p. 181-204, jul. 2019.
GALVES, Charlotte; SANDALO, Filomena; SENA, Ticiana A. de; VERONESI, Luiz. Annotating a polysynthetic language: from portuguese to kadiwéu. Cadernos de Estudos Lingüísticos, [S.L.], v. 59, n. 3, p. 631, 4 dez. 2017. Universidade Estadual de Campinas. http://dx.doi.org/10.20396/cel.v59i3.8651003.
GALVES, Charlotte; SANDALO, Filomena; SENA, Ticiana A. de; VERONESI, Luiz. Corpus Kadiwéu. 2017. Disponível em: https://www.tycho.iel.unicamp.br/viewer/C12. Acesso em: 17 mar. 2024.
Grishman, R. (1996). TIPSTER Text Phase II Architecture Design. Version 2.1p. Computer Science. New York University.
JEREMIAS, Daiana do Amaral. Iconicidade nas sentenças topicalizadas da Libras: uma motivação semântica e pragmática. 2020. 215 f. Tese (Doutorado) - Curso de Linguística, Universidade Federal de Santa Catarina, Florianópolis, 2020.
KADER, Cárla Callegaro Corrêa; RICHTER, Marcos Gustavo. Linguística de corpus: possibilidades e avanços. Instrumento, Juiz de Fora, v. 15, n. 1, p. 13-23, jan/jun. 2013.
LESSA-DE-OLIVEIRA, Adriana S. C. Componentes articulatórios da Libras e a escrita SEL Estudos da Língua(gem), Vitória da Conquista, v. 17, n. 2, p. 103-122, 2019.
LESSA-DE-OLIVEIRA, Adriana S. C. Libras escrita: o desafio de representar uma língua tridimensional por um sistema de escrita linear. ReVEL, v. 10, n. 19, 2012.
LESSA-DE-OLIVEIRA, Adriana S. C. Por uma modalidade escrita da Libras: estrutura frasal e sinalização, a estrutura fonológica do sinal e a escrita sel. Campinas, Sp: Pontes Editores, 2023. 179 p.
MAGRO, Catarina; VAAMONDE, Gael. Atlas sintático do Português europeu. Revista Binacional Brasil-Argentina: Diálogo entre as ciências, [S.L.], v. 8, n. 1, p. 249, 31 jul. 2019. Universidade Estadual do Sudoeste da Bahia/Edicoes UESB. http://dx.doi.org/10.22481/rbba.v8i1.5593.
MCCARTHY, M.; O’KEEFFE, A. Historical perspective: what are corpora and how have they evolved? In OKEEFFE, A.; McCARTHY, M. The Routledge Handbook of Corpus Linguistics. New York: Routledge, 2010.
McENERY, T.; WILSON, A. A corpus linguistics. Edinburg: Edinburg University Press, 1997.
MENGEL, Andreas; LEZIUS, Wolfgang. An XML-based representation format for syntactically annotated corpora. International Conference On Language Resources And Evaluation, Stuttgart, maio 2000.
MONTEIRO, Myrna Salerno. A interferência do Português na análise gramatical em Libras: o caso das preposições. 2015. 250 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Federal de Santa Catarina, Florianópolis, 2015.
MOREIRA, Daniele Santana; ROSADO, Luiz Alexandre da Silva. A importância da escrita das línguas de sinais: mapeando propostas e resultados de aplicação na literatura acadêmica nacional. Revista Espaço, Rio de Janeiro, v. 54, n. 1, p. 187-208, dez. 2020.
MOREIRA, Renata Lúcia. Um Olhar da Semiótica para os Discursos em Libras: descrição do tempo. 2016. 207 f. Tese (Doutorado) - Curso de Linguística, Universidade de São Paulo, São Paulo, 2016.
OTHERO, G.A. Linguística Computacional: Uma breve introdução. Letras de Hoje, Porto Alegre v.41, n.2, 2006.
PRADO, Lizandra Caires do. Sintaxe dos determinantes na língua brasileira de sinais e aspectos de sua aquisição. 2014. 163 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2014.
QUADROS, Ronice Müller de. A transcrição de textos do Corpus de Libras. Revista Leitura: Línguas de Sinais: abordagens teóricas e aplicadas, São Paulo, v. 1, n. 57, p. 8-34, jun. 2016.
QUADROS, Ronice M. de.; SCHMITT, Deonísio; LOHN, Juliana T.; LEITE, Tarcísio de A. Corpus de Libras. http://corpuslibras.ufsc.br/ 2020.
ROCHA, Amanda Oliveira. Uma investigação sobre o uso de recursividade em Libras. 2021. 133 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Federal do Rio Grande do Sul, Porto Alegre, 2021.
SAMPAIO, Adovaldo Fernandes. Breve história da escrita. In: SAMPAIO, Adovaldo Fernandes. Letras e Memória: uma breve história da escrita. São Paulo: Ateliê Editorial, 2009. p. 13-293.
SAMPAIO, Thamires Oliveira de Souza. A natureza gramatical da Libras adquirida por surdos e ouvintes: sinal, classificador, ação construída e gesto. 2020. 169 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2020.
Sampson, Geoffrey. English for the Computer: The SUSANNE Corpus and Analytic Scheme. Clarendon Press, 1995.
SANTANA, Ediélia Lavras dos Santos. A questão da categorização morfológica para nome e verbo em Libras. 2019. 140 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2019.
SANTORINI, B. Annotation manual for the Penn Historical Corpora and the PCEEC. Disponível em: https://www.ling.upenn.edu/hist-corpora/annotation/index.htm. 2010. Acesso em: 02 mar. 2024.
SANTOS, Jorge Viana; NAMIUTI, Cristiane. O futuro das Humanidades Digitais é o passado. In: CARRILHO, Ernestina; MARTINS, Ana Maria; PEREIRA, Sandra; SILVESTRE, João Paulo (org.). Estudos Linguísticos e Filológicos Oferecidos a Ivo Castro. [S.L.]: Centro de Linguística da Universidade de Lisboa, 2019. p. 1381-1403.
SARDINHA, Tony Berber. Linguística de Corpus. Barueri: Manole, 2004.
SIGNPUDDLE - Online. Disponível em: https://www.signbank.org/signpuddle2.0/signmaker.php?ui=12&sgn=46. Acesso em: 27 nov. 2022.
SILVA, Alan David Sousa; COSTA, Edivaldo da Silva; BÓZOLI, Daniele Miki Fujikawa; GUMIERO, Daniela Gomes. OS SISTEMAS DE ESCRITA DE SINAIS NO BRASIL. Revista Virtual de Cultura Surda, Rio de Janeiro, v. 23, p. 1-30, maio 2018.
SILVA, Anderson Almeida da. A (in)definitude no sintagma nominal em Libras [recurso eletrônico]: uma investigação na interface sintaxe-semântica. 2019. 351 f. Tese (Doutorado) - Curso de Linguística, Universidade Estadual de Campinas, Campinas, 2019.
SILVA, F. I. da. Ler em SignWriting: possibilidades de desenvolvimento cognitivo da criança surda. In: PERLIN, G.; STUMPF, M. (Orgs.). Um olhar sobre nós surdos: leituras contemporâneas. Curitiba: CRV, 2012, p.199-211
SILVA, Igor Valdeci Ramos da. Aspectos de nomes e verbos na Libras: identificação morfossintática. 2020. 157 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Federal de Santa Catarina, Florianópolis, 2020.
SILVA, Ione Barbosa de Oliveira. A categoria dos verbos na língua brasileira de sinais. 2015. 174 f. Dissertação (Mestrado) - Curso de Linguística, Universidade Estadual do Sudoeste da Bahia, Vitória da Conquista, 2015.
SILVEIRA, F.P. Integração de ferramentas para compilação e exploração de corpora. 2008. 101 f. Dissertação (Mestrado em Ciência da Computação) - Faculdade de Informática, Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2008.
Skut, Wojciech; Brants, Thorsten; Krenn, Brigitte; Uszkoreit, Hans. A Linguistically Interpreted Corpus of German Newspaper Text. Workshop on Recent Advances in Corpus Annotation, 1998.
Sturzeneker, Mariana Lourenço; Crespo, Maria Clara Ramos Morales; Rocha, Maria Lina de Souza Jeannine; Finger, Marcelo; Paixão de Sousa, Maria Clara; Monte, Vanessa Martins do; Namiuti, Cristiane. ‘Carolina’s Methodology: building a large corpus with provenance and typology information’. Proceedings of the Second Workshop on Digital Humanities and Natural Language Processing (2nd DHandNLP 2022). CEUR-WS, Vol. 3128, 2022. Available at http://ceur-ws.org/Vol-3128.
VELOSO, Brenda Silva. Construções classificadoras e verbos de deslocamento, existência e localização na língua de sinais brasileira. 2008. 159 f. Tese (Doutorado) - Curso de Linguística, Universidade Estadual de Campinas, Campinas, 2008.
VILAÇA, M.L.C. Pesquisa e ensino: Considerações e reflexões. Revista e-scrita. Uniabeu, v.1, n.2, 2010.
XAVIER, André Nogueira. Descrição fonético-fonológica dos sinais da língua de sinais brasileira (Libras). 2006. 168 f. Dissertação (Mestrado) - Curso de Linguística, Universidade de São Paulo, São Paulo, 2006.
Downloads
Published
Issue
Section
Categories
License
Copyright (c) 2024 PPGLin e autora

This work is licensed under a Creative Commons Attribution 4.0 International License.
