🥁 2024 플러스알파레터 특별기획 ☄️
어린이청소년SF를 읽는 당신이 궁금합니다! 🔍🔭🔬 |
|
|
플러스알파 레터를 보고 계신 님은 누구신가요?
지난 레터 9호와 10호에서 그림작가와 함께했던 '보글보글 인터뷰'를 기억하시죠?
2024년 플러스알파는 '보글보글 인터뷰'의 주인공으로 플러스알파 레터의 독자, 바로 당신을 초대하고 싶어요.
여러분과 함께 만드는 보글보글 인터뷰는 이메일로 진행할 예정입니다.
핵인싸인 당신에게도, 슈퍼샤이한 당신에게도 모두모두 안성맞춤인 보글보글 인터뷰!
아래 버튼을 눌러서 신청해 주시기 바랍니다. 꾹 눌러 주세요! |
|
|
두근두근! 설레는 마음으로 독자 여러분의 신청을 기다리겠습니다. 다음으로 미루지 말고 바로 오늘~ 바로 지금~ 신청해 주세요. 고맙습니다!
|
|
|
SF처럼 문학 연구하기
심지섭 (어린이청소년문학 연구자) |
|
|
SF는 때때로 인간의 한계를 다룹니다. 인간의 한계를 보완하는 새로운 기술로 변화한 미래 사회를 상상하며 재미를 느끼기도 하고, 반대로 변화로 인한 우려와 두려움을 느끼기도 합니다. 둘 모두 가능한 미래이지만 우리가 변화의 한복판에서 살고 있다는 것만큼은 확실하겠지요.
작년 2월 「ChatGPT가 쓴 SF동화」라는 제목으로 과학 기술의 발전과 동화 창작에 대한 경험을 플러스알파레터에서 다룬 바 있습니다. 그렇다면 문학 연구에서는 어떤 변화가 있을까요? 이번 '보글보글 SF'에서는 제가 이번에 쓴 박사논문 「데이터 분석에 기반한 일제강점기 동화와 소년소설 연구」를 바탕으로 조금은 낯선 문학 연구 방법을 소개하려 합니다. |
|
|
소위 ‘디지털 전환’이라는 거대한 흐름의 변화가 세계적인 현상으로 나타나고 있습니다. 과학 기술 소식을 접할 때마다 인간의 예상을 뛰어넘는 기술 발전과 데이터 정보의 폭발 속에서 거의 모든 영역이 변화하고 있다는 체감을 하곤 합니다. 이러한 변화는 컴퓨터 공학이나 사회학을 넘어 인문학의 영역과 접속하고 있습니다. 문학 연구는 어떨까요? 커다란 변화는 새로운 질문들을 이끌어냅니다.
대체로 문학 연구에서 변화는 문학 언어의 다양한 양(quantity)에 주목하는 것으로 시작합니다. 이는 기존 문학 연구에서 나타난 인간 인식의 한계를 성찰하고 보완하기 위함입니다. 이 글에서는 두 측면을 집중적으로 살펴봅니다. 첫째는 다량의 작품 수입니다. 인간은 모든 작품이나 거시적인 양적 차원의 정보를 읽고 분석하는 데에 한계가 있습니다. 장르에 따라서는 수십 년을 읽어도 특정 장르의 작품을 다 읽지 못할 수도 있지요. 둘째는 반대로 아주 미세한 영역의 수입니다. 인간은 언어, 작품을 구성하는 모든 단어 또는 형태소 층위의 언어 정보를 파악하기 어렵습니다. 이에 단어의 빈도, 형태소의 품사별 분포와 같은 세밀한 영역을 분석하는 데에 한계가 발생합니다. |
|
|
이러한 문학의 양적 연구는 아직 한국에서는 초기 단계이지만 해외에서는 디지털 인문학이라는 넓은 틀에서 여러 학술적인 논의가 진전되었습니다. ‘멀리서 읽기’ 또는 ‘양적 형식주의’를 대표적으로 꼽을 수 있겠습니다. 멀리서 읽기는 소수의 작품을 세부적으로 읽고 해석하는 기존 문학 연구의 대상과 방법(꼼꼼히 읽기)과는 다르게 거시적인 시야에서 문학을 연구하는 방법을 뜻합니다. 이는 문학 장르나 작품을 훨씬 더 거대한 흐름 속에서 파악하려는 시도입니다. 한 작가의 작품을 읽어 새로운 사실을 발견하거나 가치평가하려는 해석적인 문학 연구와는 지향하는 바와 연구 방법이 다르지요. 어떤 부분에서는 마치 과학 실험처럼 측정과 분석이 수반되는 연구 방법에 가깝기도 합니다.
형식주의 문학 비평가이자 대표적인 디지털 인문학자인 프랑코 모레티는 문학 연구의 방법을 근본적으로 다시 성찰합니다. 그는 다소 과감하게도 문학장은 정전화되어 있는 소수의 작품만이 담론으로 논의되는 ‘문학의 도살장’과 같다고 주장합니다. 조금 과격한 주장이지만 이는 연구와 비평이 정전을 선별하고 연구를 재생산하는 동안 다른 다수의 작품은 소외되어 마치 존재하지 않았던 것처럼 여겨지는 문제를 비판적으로 고찰한 것으로 문학의 양적 차원에 대한 새로운 문제 제기라고 볼 수 있습니다.
예를 들어 소설 장르의 특성을 연구할 때, 기존 연구에서는 주요 정전 작품과 시대의 대표작을 기준으로 장르의 특성을 규정하곤 했습니다. 이는 전체 소설 작품 중에 극히 일부라는 점에서 의문을 제기할 수 있겠지요. |
|
|
아동문학은 어떨까요? 성인 작가와 어린이 독자의 비대칭성은 아동문학의 중요한 속성으로 꼽힙니다. 아동문학은 아동이 이해하기 쉬운 ‘단순 명쾌’한 장르로 정의되기도 했지만 제가 수집한 일제강점기 아동문학 작품 말뭉치(아동문학 언어 데이터) 자료를 컴퓨터로 계산하면 동화는 9.79, 소년소설은 9.58, 소설(일부, 109개의 소설)은 9.64의 어절 길이가 측정됩니다. 모든 소설과의 비교는 아니지만 적어도 동화가 짧고 단순하다는 것은 편견일 수 있음을 수치로 파악할 수 있습니다. 이 긴 문장 속에는 ‘단순 명쾌’ 이외에 동화 작가들이 수행한 문체적인 시도들이 있었음을 생각해볼 수 있습니다.
또한 특정 시대의 작품 특성을 파악하기 위해서도 기존에는 대표작을 통해 경향을 파악하는 방법이 주로 활용되었습니다. 그러나 몇몇 작품이 시대 경향을 대표하기는 어려운 까닭에 양적인 차원에서 분석에 한계가 있었습니다. 그런데 데이터 분석을 활용하면 언어의 양적 차원에서 시대의 평균적인 특징을 가늠할 수 있습니다.
예를 들어 1930~1934년의 일반명사의 빈도와 1935~1939년의 일반명사의 빈도를 두 말뭉치로 나누어 통계적인 방법을 통해 계산하면 동화의 언어 구성 경향의 변화를 알 수 있습니다. 제 연구에 의하면 1935~1939년에 비해 1930~1934년에 특징적으로 더 많이 사용된 언어는 ‘물건’, ‘피리’, ‘죽음’, ‘고방’ 등등으로 나타나고 말뭉치의 크기를 고려하여 대략 6배부터 64배까지 더 자주 등장합니다. 물론 훨씬 더 다양한 특징적인 어휘 목록이 있지만 생략하겠습니다. 이러한 어휘 구성은 소수의 작품이 아니라 해당 시기 전체 작품의 구체적인 언어 구성에서 측정됩니다. |
|
|
그렇다면 작품의 문체 특징은 어떻게 드러날까요? 문체, 일종의 스타일은 다양한 측면으로 측정되어 한 번에 논하는 데에는 상당한 무리가 있었습니다. 문체의 특징을 수치화하는 것이 수작업으로는 한계가 있는 데다 여러 문체 요소들(예를 들어 문장의 평균 길이나 동사와 형용사의 비율 차이 등)의 다차원 정보는 인간의 인지능력상 직관적으로 파악하기 어렵기 때문입니다.
제 논문에서는 여섯 가지 문체 요소들로 1930~1944년의 소년소설을 비교했습니다. 먼저 작품의 문체를 컴퓨터로 측정하는 기준을 설정합니다. 예를 들면 평균 어절의 수를 모두 계산하여 작품의 문장 수로 나누고, 그것을 다시 평균화하여 시대별 평균을 얻습니다. 또 작품에 나타나는 동사의 수와 형용사의 수를 모두 측정하여 작품별로 평균을 냅니다. 동적인 서사 진행을 강조하는 품사인 동사의 비율, 묘사와 가치판단 등을 중점적으로 하는 품사인 형용사의 비율을 나누어 서사적 문체와 묘사적 문체의 정도를 계산합니다. 이외에도 모든 작품별 대화의 비율, 보조용언 ‘있-’의 비율(서사적 문체와 묘사적 문체의 보완), 작품의 변형 TTR(작품별 형태소의 반복성) 등의 문체 정보를 모두 추출하여 모든 작품과 시대별로 정보를 결합합니다. 이후 인간이 직관적으로 파악할 수 있게끔 여섯 가지 문체 조건을 하나의 평면으로 옮기는 기술인 주성분 분석(PCA)을 수행합니다. |
|
|
이 주성분 분석은 소년소설 장르의 문체 정보를 작품별로 다차원으로 벡터화한 후에 시각화한 결과입니다. 이 글에 작품 리스트를 포함할 수는 없지만 각 점은 작품을, 숫자는 파일 리스트의 순번을 의미합니다. 이 주성분 분석으로 각 작품의 문체적 특성의 위치를 가늠할 수 있습니다. 유사한 문체적 특징을 가질수록 가까운 위치에 놓이고 다를수록 먼 거리에 위치하게 됩니다. 군집의 중심부에서 먼 작품들은 특이한 문체적 특징을 가진 작품으로 볼 수 있습니다. 즉, 주성분 분석 기술은 작품별 문체 스타일과 작품의 관계망을 구체화하고 시각화할 수 있게 합니다.
위의 문체 정보를 통한 주성분 분석에서 소년소설 작품들이 군집을 이루고 있는 것으로 보입니다. 중앙과 좌측으로 옥색, 즉 1930∼1934년 작품이 모이는 경향이 있고, 중심부에는 1940∼1944년, 중심부와 우측으로는 1935∼1939년의 작품이 모이는 경향이 있습니다. 이는 시대적 변화, 특히 1930-1934년과 1935-1939년 시기와 문체 변화 사이에 연관이 있다고 볼 수 있겠지요. 약 10년이라는 짧은 시기 사이에 나타나는 변화가 뚜렷하게 드러난다는 점에서 상당히 흥미롭습니다. |
|
|
물론 작가별 분석도 가능합니다. 저는 방정환, 마해송, 이주홍, 최병화, 현덕을 선정하여 작품을 분석했는데요. 작가별 특징 어휘를 동화의 전체 말뭉치와 비교분석하여 통계적으로 추출, 목록화할 수 있습니다. 여기에는 기존 연구에서 파악한 어휘적 특징이 나타나기도 하고, 기존에 인식하지 못했던 새로운 특징이 드러나기도 합니다. 너무 많은 예가 있기에 다 적을 수는 없지만, 예를 들면 현덕이 기존 ‘동화’ 말뭉치와는 상당히 다른 언어들을 구사한다거나 소년소설에서 ‘문’이라는 단어를 굉장히 반복적으로 활용한다는 것, ‘고개’, ‘얼굴’, ‘머리’라는 어휘를 작품의 중요한 언어 구성으로 활용한다는 것 등을 파악할 수 있습니다.
작가별 문체 분석도 각 작가마다 수행했습니다. 한 가지 예를 들면 이주홍과 현덕 의 동화 둘 모두 ‘짧은 문장’으로 연구된 바 있지만 그 구체적인 수치는 측정되지 않은 바 있습니다. 이 작가들의 모든 작품을 분석해 평균화하면 현덕은 동화에서 7.05어절, 이주홍은 8.52어절로 전체 동화 말뭉치의 9.79어절보다 둘 모두 짧지만 현덕이 이주홍보다 1.5어절 가량 짧다는 것을 파악할 수 있습니다(참고로 방정환은 11어절로 평균보다 깁니다). 각 문체 정보를 분석하여 통계를 측정하여 PCA로 분석하면 아래와 같은 결과가 나타납니다. 빨간색은 방정환, 주황색은 마해송, 노란색은 이주홍, 초록색은 최병화, 파란색은 현덕의 작품입니다. 이 주성분 분석에서는 작가와 작품 차원에서의 스타일 분산이 나타납니다. 거리가 가까운 작품과 작가일수록 해당 문체의 특징이 유사하고 멀수록 큰 차이가 나타납니다. 현덕의 경우는 우측 하단에 독특하게 나타나지요. 이 작업을 통해 작가와 작품이 갖는 문체 정보 차이를 한 평면에 시각화할 수 있습니다. |
|
|
해외에는 이러한 문체 정보들을 활용해 저자를 판별하는 연구도 많이 진행되었습니다. 아울러 언어학과 문학, 그리고 컴퓨터 계산의 학문 영역에서도 상당한 논의의 진전이 있습니다. 최근에는 물론 기계학습을 통한 분석 역시 다양하게 시도되고 있습니다. 우리가 작년에 놀라워했던 ChatGPT와 같은 거대언어모델(LLM)도 실은 언어를 데이터로 변환하고 방대한 양의 데이터를 확률에 따라 연산하는 ‘학습’에 기반합니다. 이러한 연구들의 공통점이 언어의 빈도와 분포, 확률, 수의 분석에 있다는 것을 언급해 두어야겠습니다. |
|
|
기술의 발전이 우리를 어디로 이끌지는 알 수 없지만, 이미 우리의 삶 속에서는 다양한 변화가 이루어지고 있음을 인식할 필요가 있습니다. SF 만큼 인간의 한계와 가능성을 다양한 상상으로 탐구하는 장르가 또 있을까요? 앞으로도 여러분과 함께 좋은 SF를 읽고 함께 다양한 상상을 해나갈 수 있기를 기대해 봅니다.📓 |
|
|
한낙원 탄생 100주년 기념 학술대회(한국아동청소년문학학회)
한국아동청소년문학학회에서는 한낙원 탄생 100주년을 기념하는 학술대회를 개최합니다.
- 일시: 2024년 2월 17일 (토) 10:00~18:00
- 장소: 서울교육대학교 사향체육관(3층 사향세미나실 1호) 및 ZOOM 회의실
- 주제: 한낙원 탄생 100주년 기념 학술대회
한낙원(1924~2007) 작가는 『잃어버린 소년』, 『금성 탐험대』 등 어린이청소년 과학소설을 활발하게 집필한 한국 과학소설의 개척자입니다. 그 업적을 기리며 2013년에 『한낙원 과학소설 선집』(김이구 엮음)이 발간되기도 했는데요, 한낙원과 SF에 관한 다양한 연구 성과들을 모아볼 수 있는 이번 학술대회 역시 무척 기대됩니다. |
|
|
알파툰 및 일러스트 ㅣ 박용숙
레터 편집과 발송 ㅣ 정재은 |
|
|
님, 이번 플러스알파 레터 어떠셨나요?
더 좋은 다음 호를 위해 피드백을 남겨 주세요.🖊️ |
|
|
플러스알파 레터를 아직 모르는 분이 있다면?
구독 링크를 공유해 주세요! 💌 |
|
|
|