زبان شناسی پیکره ای – CorPus linguistics

زبان شناسی پیکره ای – CorPus linguistics

پیکره زبانی عبارت است از مجموعه ای از متن های نوشتاری یا گفتاری آوانویسی شده که می توان در توصیف و تحلیل زبان از آن بهره گرفت. گرچه در گذشته، بسیاری از زبان شناسان بر اهمیت پیکره زبانی در بیشتر بررسی هایشان تأکید کرده اند، اما در دوران جدید است که تکیه بر داده های واقعی زبانی به صورت گسترده ای رواج یافته و شرط اساسی بسیاری از پژوهش های نظری و کاربردی مانند گویش شناسی، دستور نویسی، سازماندهی، تنظیم و تفکیک، جستجو و دستیابی سریع داده های زبانی شده است و افق های تازه ای در برابر پژوهندگان گشوده و باعث پیدایش شاخه ای تخصصی در حوزه زبان شناسی رایانه ای شده است. این شاخه، بانام زبان شناسی پیکره ای تنها در آخرین دهه های قرن بیستم ایجاد شد و در همین زمان کوتاه تبدیل به یکی از فعال ترین و پرکاربردترین زمینه ها شده است. تألیف کتاب های متعدد و ایجاد مجامع علمی، مراکز پژوهشی، نشریه های تخصصی و بین المللی و سایت های اینترنت برای این شاخه، گویای این واقعیت است. در این گفتار، پس از اشاره ای به تاریخچه شکل گیری این رشته، به رویکردهای نظری و کاربردی زبان شناسی پیکره ای، انواع پیکره های زبانی، نشانه گذاری پیکره ها، سازماندهی آنها، پایگاه داده های زبانی و نقش رایانه در آنها می پردازیم. سپس برخی از پیکره های مهم زبان انگلیسی و فارسی و نیز چند پروژه مهم فرهنگ نگاری را که با بهره گیری از پیکره های زبانی انجام یافته اند، معرفی می کنیم.

نگاهی به پیشینه پیکره های زبانی

نلسون فرانسیس در گفتاری با عنوان “Language CorPus B.C.” مروری بر مجموعه های داده های زبانی دارد که در گذشته به طور دستی فراهم آمده اند. یادآور می شود که وی با طنز، دوران پیش از پیدایش رایانه را B.C می نامد. از نخستین مواردی که می توان واژه corPus را یافت، قرن ششم میلادی است که امپراتور ژوستی نین CorPus Juris Civilis، آن را به عنوان مجموعه ای از قوانین رومی به کار می برد. در قرن هشتم، فهرستی از واژه های مشکل لاتینی با عنوان CorPus Glossary فراهم شد که ترتیبی الفبایی داشت و شاید نخستین فرهنگ دو زبانه لاتین ـ انگلیسی به شمار آید. پس از آن در اروپا پیکره هایی به منظورهای گوناگون شکل گرفت که می توان آنها را در سه دسته جای داد:

1- پیکره ها و داده های فرهنگ نگاری که مهم ترین آنها برای زبان انگلیسی به وسیله جانسون در قرن هجده، مورای در قرن نوزده و میریام وبستر در قرن بیستم فراهم شده است.

2- پیکره های گویشی که اغلب در اواخر قرن نوزده و نیمه اول قرن بیستم فراهم آمده است.

3- پیکره ها و مطالب دستوری که مربوط به قرن بیستم می شود.

اصطلاح پیکره را به ویژه زبان شناسان ساختگرا به کار می بردند و همواره تأکید می کردند که توصیف یک زبان یا گویش باید مبتنی بر داده های گردآوری شده و تحلیل این داده ها باشد و با آنکه فراگیری و بزرگی پیکره عامل تعیین کننده ای در افزایش دقت و اعتبار نتایج به شمار می آمد، محدودیت های نیروی انسانی و زمان در برابر این عامل قرار داشت و درنتیجه، بیشتر به نمونه های برگزیده ای اکتفا می شد. «تنها از دهه 1960 بود که توانستند با کمک رایانه، مجموعه های بسیار بزرگی از متن های معتبر زبانی فراهم نمایند و آغازگر همه اینها، پیکره زبانی براون بود که نمونه ای معیار از زبان انگلیسی امروز برای استفاده در رایانه های رقمی به شمار می آید.»

این پیکره را نلسون فرانسیس و هنری کوچرا در دانشگاه براون با گردآوری نزدیک به یک میلیون واژه از پانصد نمونه متنی پیوسته ایجاد کردند و کوشیدند انواع مقاله ها و گونه های زبانی را پوشش دهند. کار از 1961 آغاز شد و در سال 1964 به پایان رسید. این مدت در مقایسه با کارهای گذشته و با توجه به حجم نسبتا زیاد داده ها در آن زمان بسیار کم به نظر می رسید

یکی از مهم ترین پیکره هایی که در همین دهه، امّا بدون بهره گیری از رایانه فراهم آمد و از این نظر آن را در شمار پیکره های پیش از دوران الکترونیک قرار می دهند، پیکره بررسی کاربرد زبان انگلیسی یا SEU است که راندلف کرک از 1959 در دانشگاه لندن آغاز کرد و گردآوری، آوانگاری و آماده سازی آن تا سال 1989 طول کشید، چرا که برای یک میلیون واژه آن، یک میلیون برگه با هفده سطر از متن های مربوط به سال های 1953 تا 1987 با دست، نوشته شد. البته در کنار این پیکره نوشتاری، بخش گفتاری آن با عنوان پیکره لندن ــ لوند (بررسی انگلیسی گفتاری، SSE) ــ به وسیله یان سوارتویک در دانشگاه لوند سوئد از سال 1975 آغاز شد. از آنجا که این بخش با کمک رایانه فراهم شد، از همتای نوشتاری خود پیشی گرفت و با حدود نیم میلیون واژه در سال 1980 ارائه شد

پیکره از دیدگاهی نظری : آغاز زبان شناسی پیکره ای

«در دانش زبان، پیکره، مجموعه ای از متون نوشتاری یا گفتاری آوانویسی شده است که می توان آن را به عنوان مبنایی برای تحلیل وتوصیف زبانی به کار برد.»

پیکره زبانی می تواند بسیار بزرگ، فراگیر و نماینده تمامی یک زبان و یا گونه ای از آن باشد، به شکل برگه های یادداشت یا پرونده های رایانه ای شامل متن های کامل یا گزیده هایی از آنها، و یا بخش های پیوسته ای از متون یا گزیده ای از نقل قول ها و نکات و حتی فهرست های واژگانی پیکره می تواند ویژه بررسی خاصی فراهم شود و یا دربرگیرنده مجموعه عظیم و بی ساختاری از متون گوناگون باشد که برای منظورهای گوناگون به کار رود.

برای زبان شناسان قدیمی تر، اصطلاح «زبان شناسی پیکره ای» اغلب یادآور دوران رونق پیکره زبانی یعنی دهه 1950 است، دوران هریس، فریس،هیل و دیگر ساختگرایان آمریکایی. امّا از آن دوران به بعد است که این اصطلاح کاربرد بیشتری یافته و به ویژه در اوایل دهه 1990 است که به عنوان شاخه ای مشخص از زبان شناسی، مانند زبان شناسی اجتماعی، زبان شناسی روانشناختی و زبان شناسی متنی که در دهه های 1960 و 1970 شکل گرفته اند، شناخته شده است . امّا زبان شناسی پیکره ای با رشته های یاد شده تفاوت دارد، زیرا نماینده یک حوزه مشخص از مطالعات زبانی نیست بلکه بنیادی روش شناختی برای پژوهش های زبانی به شمار می آید. در اصل و عملاً زبان شناسی پیکره ای، به آسانی با شاخه های دیگر زبان شناسی می آمیزد. می توان با کمک پیکره، به بررسی های آوایی، نحوی، اجتماعی یا دیگر زمینه های زبان پرداخت و در این صورت می گوییم که روش ها و فنون زبان شناسی پیکره ای را با موضوعات آوایی، نحوی و اجتماعیِ زبان و مانند آن آمیخته ایم.

تنها رشته دیگر زبان شناسی که مانند این رشته، با ابزار و روش های مطالعه و نه با موضوعی خاص سروکار دارد، زبان شناسی رایانه ای است که به عنوان «مطالعه زبان با کمک رایانه» تعریف شده است. و امروزه به نظر می رسد که این دو رشته با یکدیگر پیوند یافته اند. یعنی می توان این حوزه را «زبان شناسی پیکره ای رایانه ای» یا CCL نامید که در این صورت نه تنها روش های نوین بررسی زبان بلکه فعالیت پژوهشی تازه ای با رویکردی فلسفی در زبان شناسی به شمار می آید.

لیچ، ویژگی های مهم این رشته را چنین برمی شمارد:

1- تمرکز بر کنش زبانی و نه توانش زبانی

2- تمرکز بر توصیف زبانی و نه بر همگانی های زبان

3- تمرکز بر الگوهای کمّی زبانی همانند الگوهای کیفی آن

4- تمرکز بر دیدگاه های تجربی (و نه عقلانی) در بررسی های علمی زبان

همان گونه که مشاهده می شود، این ویژگی ها مجموعه ای را به وجود می آورد که توجه بیشتری به جنبه های رفتاری زبان و بروز طبیعی گفتار و نوشتار دارد و عملاً در مقابل دیدگاه های چامسکی و پیروان وی قرار می گیرد

تویبرت نیز نگرشی همسو را با لیچ نشان می دهد:

«زبان شناسی پیکره ای برپایه این باور که زبان اساسا پدیده ای اجتماعی است بنا نهاده شده است. پدیده ای که پیش از هر چیز، می توان آن را با داده های تجربی آماده، یعنی در کنش های ارتباطی، مشاهده و توصیف کرد. متن های مورد مشاهده، در اصل کنش های ارتباطی گذرا هستند. . از سوی دیگر، بررسی این پدیده اجتماعی را مستلزم دانستن چگونگی درک گوینده یا شنونده از مطالب نمی داند، زیرا زبان، به عنوان یک پدیده اجتماعی، به صورت متنی متجلی می شود که می توان آن را مشاهده، ضبط، توصیف و تحلیل کرد.

از آنجا که حجم مواد زبانی (در اغلب زبان های امروز جهان) برای گنجاندن در پیکره بسیار زیاد است، در برخی موارد می توان پیکره را به صورت نمونه ایجاد کرد. تعیین حدود و گستره پیکره، وظیفه زبان شناسان است. برخی از متغیرهایی که در تعیین حدود دخالت دارند، عبارت اند از زبان، برش یا محدوده ای از زمان، منطقه، شرایط و موقعیت، ویژگی های بیرونی و درونی متنی و بسیاری دیگر.

زبان شناسی پیکره ای، به توصیف تک تک زبان های طبیعی می پردازد و نه همگانی های زبان. از آنجا که نمی توان به درون ذهن افراد رخنه کرد، تنها می توان قراردادهای زبانی را در کنش های ارتباطی و متون یافت.

گرچه فرهنگ های لغت، کتاب های دستور و کتاب های درسی زبان نیز جزیی از فضای کلامی هستند، امّا نمونه های واقعی از فضای کلامی و متن ها، بهتر می توانند واقعیات زبان را نشان دهند.

زبان شناسی پیکره ای با آمیختن سه روش، به فراهم آوردن دانش تجربی زبانی کمک می کند:

الف: استخراج خودکار داده های زبانی از پیکره ها

ب: پردازش برونداد با روش های عمدتا آماری

پ: ارزیابی و تفسیر این گونه داده های پردازش شده

مراحل اوّل و دوّم را می توان و باید به طور کامل با برنامه و خودکار انجام داد، امّا مرحله سوم، نیاز به تصمیم گیری و منطق انسانی دارد.

انواع پیکره های زبانی

همان گونه که پیش تر اشاره شد، پیکره های زبانی می توانند عام و گسترده ،نمونه تصادفی از یک زبان و یا تخصص و نماینده یک گونه خاص زبان باشند. آنها را می توان برای منظورهای گوناگون به کار گرفت، ازجمله برای فرهنگ نگاری، معناشناسی، بررسی های دستوری، آموزش زبان و مانند اینها. پیکره ها را می توان از نظر اندازه و گستره به دسته های محدود، متوسط و عظیم تقسیم کرد. براساس یکی از رویکردها (فرم و کارکرد)، می توان انواع زیر را برای پیکره ها درنظر گرفت:

– پیکره اشباع شده که با اشاره به عوامل و متغیرهای معین با اطلاعات اضافی پر شده است. اشباع، ویژگی آماری است که با نسبت غنای واژگانی (موارد کاربردیسرواژه یاtyPetoken) ارتباط دارد.

در این مورد، کل متن به پاره های مشابه بخش شده است.

– پیکره موقعیتی که بنابر نیازهای خاص یک بررسی، فراهم می شود.

– پیکره پایشگر که دارای ابعاد تاریخی است و برای ثبت تغییرات زبانی به کار می رود و از برهه های گوناگون زمانی، نمونه های مشابه را دارد.

– پیکره تطبیقی، پیکره ای چند زبانه با نمونه های مشابه از هر زبان است.

– پیکره موازی، پیکره ای چند زبانه با متنی اصلی از یک زبان و ترجمه آن در زبان های دیگر (یا زبان های هدف) است.

– پیکره دو سویه، پیکره ای چند زبانه با متن اصلی به همه زبان ها و ترجمه آنها به همه زبان ها است.

کندی (1998) پس از دسته بندی پیکره ها به پیش از دوران الکترونیک و پیکره های الکترونیکی، دسته دوّم را نیز به نسل اوّل و نسل دوّم تقسیم می کند.

پیکره های الکترونیکی نسل اوّل: این پیکره ها با حجم محدود و کاربردهای ویژه و اغلب برای زبان انگلیسی مشخص می شوند و مهم ترین آنها عبارتند از :

– The Brown CorPus

– The Lancaster – Oslo / Bergen CorPus (LOB)

– The London – Lund CorPus (LLC)

و پیکره های تخصصی برای زبان انگلیسی ازجمله برای فرهنگ نگاری مانند American Heritage Intermediate CorPus (AHI) که در آمریکا فراهم شد و هدف آن تدوین فرهنگ مدرسه ای هریتج بود. یا پیکره ای که آلگیو برای بررسی کاربردهای بریتانیایی زبان انگلیسی فراهم آورد و هر دوی این پروژه ها مربوط به دهه 1960 می شوند.  همچنین در جهت دیگر، طرح هایی برای بهره گیری از فرهنگ های لغت به عنوان پیکره زبانی اجرا شد. ازجمله فرهنگ انگلیسی امروز لانگمن و درونداد فرهنگ بزرگ آکسفورد به رایانه و پردازش های بعدی آن بود.

پیکره های تخصصی دیگر نیز برای بررسی زبان گفتاری انگلیسی و بررسی های تاریخی و نیز یادگیری آن طراحی و ایجاد شد.

پیکره های الکترونیکی نسل دوّم : نام دیگر این پیکره ها، غول آسا است و اغلب در دهه 80 و 90 و با بهره گیری از امکانات بسیار پیشرفته رایانه های تازه ایجاد شده اند. برخی از آنها را می توان تنها نام برد و مشخصات کامل آنها را از منابع یاد شده در این گفتار به دست آورد:

The COBUILD Project

Bank of English

The Longman CorPus Network

The British National CorPus (BNC)

The International CorPus of English (ECE)

یادآور می شود که اکنون بسیاری از پیکره های یاد شده، به صورت پیوسته از (on-line) و راه ارتباط با شبکه جهانی رایانه ای (اینترنت) قابل دسترسی و استفاده هستند.

نشانه گذاری پیکره ها

برای گویاتر شدن پیکره و کاربردهای خاص، کدهای متفاوتی به آن افزوده می شود. این نشانه گذاری، از یک سو می تواند برای ارتباط دادن بخش های یک پیکره به ساختار کلّی آن باشد، مانند شماره سطر، صفحه، فصل و مانند اینها و یا بافت زبانی را مشخص نماید مانند شرایط تولید زبانی، گونه زبانی، رسانه و مانند آن.

از سوی دیگر نشانه گذاری می تواند صرفا زبانی باشد.

نشانه گذاری زبانی ممکن است در سه سطح انجام پذیرد :

1- در سطح صورت های کاربردی (tokens): در این مورد، برای هر صورت کاربردی یک نشانه (کد) در متن افزوده می شود.

2- در سطح پاره های زبانی (segments): که نشانه مربوط به توالی چند صورت کاربردی در متن است.

3- در سطح تداعی (associative level): که نشانه هایی ارتباطی و تداعی میان صورت های زبانی و پاره های زبانی را در متن مشخص می سازد.

به پیکره هایی که در سطح صورت های کاربردی نشانه گذاری می شوند، برچسب دار یا برچسب دهی شده می گویند و این نشانه ها می توانند نوع دستوری واژه یا برخی ویژگی های معنایی آن را نشان دهند.

نشانه گذاری در سطح پاره زبانی را، برچسب دهی نحوی می گویند و می توان ارتباط نحوی یا با همایی یا لانه گیری واحدها را با آنها نمایش داد. نشانه گذاری تداعی ها، رواج کمتری دارد.

نکته شایسته یادآوری این است که یک پیکره ممکن است در یک یا چند سطح نشانه گذاری شود، که نمونه آن پیکره LOB است.  یکی از معدود کارهایی که در زبان فارسی، برای برچسب دهی پیکره های فارسی انجام شده است، طراحی و اجرای برنامه ای رایانه ای برای برچسب دهی دستوری خودکار متون فارسی است.

طرح های پیکره ای

پیش تر اشاره شد که زبان شناسی پیکره ای، ابزارهای بنیادی برای بررسی ها، پژوهش ها و کاربردهای زبانی متفاوت فراهم می آورد. اکنون تنها به برخی از این موارد اشاره می کنیم:

ــ یکی از مهم ترین کاربردهای پیکره در پردازش زبان طبیعی است. مهم ترین دستاورد این حوزه، درک و بازشناسی گفتار بوده است که تنها با بهره گیری از پیکره های بزرگ امکان پذیر شده است.

ــ اکنون هیچ پروژه فرهنگ نگاری پیشرفته ای نمی توان یافت که از پیکره های زبانی و پایگاه های داده های زبانی بهره گیری نکند.

هارتمن که پیش تر نظریه متن شناسی مقابله ای را در 1980 ارائه کرده است، در دهه 1990 تداوم و تکامل آن را به سوی پیکره های متنیِ موازی می بیند و با بررسی چندین طرح فرهنگ نگاری، نتیجه می گیرد که این پیکره ها ابزاری کارا و ناگزیر در کار تدوین فرهنگ ها به شمار می روند. . نمونه چنین کاربردی در زبان فارسی واژگان گزیده زبان شناسی است که نرم افزار رایانه ای آن نیز با امکانات گسترده آماده شده است.

ــ ایجاد پایگاه های داده های زبانی نیز جنبه ای دیگر از کاربرد پیکره های زبانی است که نمونه های متعدد آن را هم اکنون در سراسر جهان به صورت پیوسته یا ناپیوسته در اختیار داریم. برای زبان فارسی نیز، چنین پایگاهی به وسیله نگارنده در پژوهشگاه علوم انسانی ایجاد شده است.

ــ طرح های بررسی واژه های هماننددر زبان های گوناگون با کمک پیکره های زبانی اجرا شده است. نمونه مهم و موفق آن فرهنگ واژه های همانند BBI برای زبان انگلیسی است. هم اکنون در پژوهشگاه علوم انسانی نیز طرحی برای تدوین فرهنگ واژه های همانند فارسی براساس پایگاه داده های زبان فارسی در دست اجرا است.

ــ برنامه های پایشگری زبان برای پی گیری و ردگیری تحولات زبانی نیز از امکانات پیکره های زبانی سود می برند. این گونه پیکره ها را پیکره پویا یا پیکره پایشگر می نامند.

ــ همه طرح های ترجمه ماشینی، به گونه ای از پیکره های زبانی سود می برند و هنوز بسیاری از زمینه های دیگر ناگفته مانده است.

با توجه به کارایی های فزاینده پیکره های زبانی و گسترش رشته زبان شناسی پیکره ای، می توان گفت که تنها در سه دهه گذشته، این رشته رشد اعجاب انگیزی داشته است و به روش های نوین، اندیشه ها و کارکردهای تازه با کمک دستگاه های الکترونیک و رایانه دست یافته است. «با همه اینها، هنوز بزرگترین و مهم ترین دستگاهی که می تواند از میان انبوه واقعیت ها قوانین را استخراج و تدوین کند، همان ذهن انسان است.»

مجله پژوهشگران مرداد و شهریور – مهر و آبان 1385، شماره 8 و 9 (از پیکره زبانی تا زبان شناسی پیکره ای)

دیدگاه(2)

  1. Ghassem Kamarei
    خرداد 07, 1402 \ق.ظ\31 7:12 ق.ظ

    نوشته علمی و جالبی است که سالها از زمان جلوتر است. این مطلب حدود ۱۷ سال قبل از رونمائی رسانه ای از “هوش مصنوعی” که در سال ۱۴۰۲ شد نوشته شده است! ارج بزرگی باید برای نویسنگان و منتشر کنندگان این مقاله قائل شد. موفق و موید باشید.

    • روابط عمومی
      خرداد 12, 1402 \ب.ظ\31 7:19 ب.ظ

      سپاس

پیام بگذارید

آدرس ایمیل شما منتشر نخواهد شد.