Document Type : Original Article
Authors
1 Assistant Prof., Department of Linguistics, Faculty of Literature and Humanities, Ferdowsi University Of Mashhad, Mashhad, Iran.
2 MA., Department of Linguistics, Faculty of Literature and Humanities, Ferdowsi University Of Mashhad, Mashhad, Iran.
3 PHD, Department of Computer Engineering , Faculty of Engineering , Ferdowsi University Of Mashhad, Mashhad, Iran.
Abstract
Keywords
. مقدمه
کمک به نیروی انسانی و کاهش خطا از دلایل مهمّ استفاده از رایانه است. امروزه ابزارهای سودمند و بسیار متداولی چون غلطیاب املایی و دستوری در ابتداییترین رایانهها وجود دارد که موجب صرفهجویی در زمان و هزینۀ کاربران میشود. اما همچنان میل به کمکوشی انسان را به سمت کاربردهای گستردهتر و تخصصیتر ابزارهای رایانهای همچون بازشناسی خودکار متن[1] (تبدیل عکس به نوشتار) سوق داده است. کاربرد وسیع دیگری که درحال حاضر در حوزه تحقیق و پژوهش بسیار لازم و ضروری بهنظر میرسد و مدتی است مورد توجه قرار گرفته است، امکان استفاده از انبوه دادههای متنی است. با استفاده از این امکان، بهجای استفادۀ محدود از دادههای متنی و یا صرف هزینه و زمان بسیار زیاد برای جمعآوری آن، با صرف زمان و هزینه اندک، از پیکرههای موجود که دارای دادههای انبوه و آمادۀ استفاده و استخراج اطلاعات هستند، استفاده میشود. بدینترتیب، محقق میتواند تمرکز اصلی خود را بر روی موضوعِ تحقیق قرار دهد و وقتش را صرف جمعآوری دادهها و اطلاعات نکند. بنا بر این ضرورت، در این پژوهش که در حوزه زبانشناسی پیکرهای قرار میگیرد، پیکره ایجاد شده از مقالههای علمیپژوهشیِ اعضای هیئتعلمی توصیف و معرفی میشود. منظور از پیکره، مجموعهای نسبتاً بزرگ از متون الکترونیک است که بهصورت حسابشده برچسبگذاری و دستهبندی شدهاند و امکان بررسیهای مختلف را به کاربر میدهند (مکنری ویلسون، 2001).
زبانشناسیِ پیکرهای سه حوزۀ انجام پژوهش را پوشش میدهد که پژوهش حاضر دو حوزۀ اول آن را شامل میشود:
_ استخراج خودکار دادههای زبانی از پیکره؛
_ پردازش آماری دادهها؛
_ ارزیابی و تفسیر این دادهها (تئوبری، 1991: 1).
همچنین از منظر زبانشناسی، چهار حوزۀ اصلی وجود دارد: آواشناسی، معناشناسی، ساختواژه و نحو. پژوهش حاضر تمرکز خود را بر روی دو حوزۀ ساختواژه و نحو قرار داده است. گام نخست در حوزۀ نحوی، شناسایی مقولههایی است که واژههای یک زبان به آن تعلق دارند (اَگرادی و دیگران، 1380: 208). در حوزه ساختواژه نیز نخستین گام، داشتن فهرستی از اقلام واژگانی است که مطلوبترین حالت با استفاده از پایگاههای دادههای زبانی عملی میگردد (عاصی، 1383).
برخی از مطرحترین حوزههای پیکرهای در زبان فارسی عبارتند از: پیکرۀ حوزۀ اخبار (مانند پیکرۀ همشهری)، پیکرۀ ادبیات داستانی (مانند پیکرۀ میزان)، پیکرۀ رمان و زیرنویس فیلم، پیکره بیجنخان و... . هر کدام از این پیکرهها در حوزۀ خاصی توسعه یافتهاند. تاکنون پیکره مقالههای علمیپژوهشی پدید نیامده و همین عامل وجه تمایز پیکرۀ حاضر با پیکرههای موجود است. استفاده از پیکره حوزههای گستردهای را شامل میشود و پژوهشگران مختلف بر اساس نیاز خود میتوانند از پیکره استفاده کنند. بهعنوان نمونه، «مشهور و فقیری» (1391) برای بررسی انواع زمان از پیکره استفاده کردهاند. موارد مورد استفاده از این پیکره نیز میتواند متناسب با نیاز کاربر، متنوع باشد.
2. پیشینه
در چند دهۀ اخیر رویکردهای پیکرهمحور در زبانشناسی کاربردی استقبال شدهاند، زیرا امکانات تحلیلیِ بسیار دقیقی برای زبان فراهم میکنند بهطوری که بسیاری از کشورها اقدام به تهیۀ پیکرۀ زبان بومی خود کردهاند. علاوه بر این، بسیاری از پیکرههای خردتر که اهداف پژوهشی خاصی را دنبال میکنند نیز بهوجود آمدهاند. پیکرههای زبانآموز، موازیِ دوزبانه، متون ادبی و متون ترجمهشده از این دست هستند (گرینجر، گیلکویین و مونیر[2]، 2015). برای پیکره کاربردهای مختلفی را برشمردهاند. با استفاده از این نوع پیکره میتوان استفادۀ دقیق زبانآموز از نوع و میزان واژگان و ساختهای دستوری را مشخص کرد (همان). «بیکر» (2006) در کتاب خود کاربرد پیکره را در تحلیل گفتمان بررسی و پلی میان تحلیل گفتمان و زبانشناسی پیکرهای برقرار کردهاست. یکی از کاربردهای دیگر پیکره، آموزش زبان است.
در ساخت پیکره مسائل مختلفی مطرح میشود؛ از جمله، دستهبندی مقولات گفتار مانند فعل. چگونگی نوع دستهبندی افعال و سایر مقولههای زبانی در تحقیقات مختلفی ارائه شده است. «فرخ» (1381)، دستهبندی مبسوطی از افعال زبان فارسی برای تشخیص خودکار رایانه ارائه کرده است. «آراسته» (1381) نرمافزار تشخیص فعل را طراحی کرده است. «حاجی و عبدالحسینی» (2000) از روش ریاضی و آمار برای دستهبندی مقولههای گفتار بهره بردهاند. «رجا و همکاران» (2007) نیز برچسبگذاری متون زبان فارسی را بررسی کردهاند.
اما زبان فارسی بهدلیل پیچیدگیهای زبانی، کمبود منابع و مطالعات انجامشده از دیدگاه محاسباتی کمتر مورد توجه پژوهشگران قرار گرفته است و در آثار بسیار اندکی از جمله «شمسفرد» (2011) و «فیلی، منشادی، فردرکینگ[3] و لوین[4]»(2014) شاهد آن هستیم. متأسفانه ابزارهای استانداردِ پیشپردازشِ ایجادشده برای متون زبان فارسی از قبیل «شمسفرد، جعفری و ایلبیگی» (2014)، «سرابی، مهیار و فرهودی» (2013) و «سراجی، مقیسی[5] و نیور»[6] (2012) بهصورت رایگان منتشر نشدهاند. برخی از ابزارهای کد باز پیشپردازش موجود از قبیل «خلش و ایمانی» (2014) و «جدیدنژاد، محمودی و دهداری» (2010) نیز دقت مناسب را ندارد. فهرست پیکرههای موجود در زبان فارسی را میتوان در سایت http://dadegan.ir/catalog?page=3 مشاهده کرد هر چند دسترسی به همۀ آنها امکانپذیر نیست.
3. پیکره
وجود پیکرههای زبانی در امر پردازش زبان یکی از ضروریات است. برخی از پیکرههای موجود در این زمینه در ادامه فهرست شده است؛ البته هر یک از این پیکرهها متفاوت است.
1. پیکرۀ حوزه خبر مرکز تحقیقات مخابرات ایران: حجم این پیکره ده میلیون لغت است و در آن متون ترازشدۀ زبان فارسی در مقابل اخبار آورده شده است.
2. پیکرۀ میزان (ادبیات داستانی) مربوط به شورای عالی اطلاعرسانی: این پیکره پانزده میلیون لغت دارد و دوزبانه است.
3. پیکرۀ رمان و زیرنویس فیلم.
4. پیکرۀ بیجنخان: پیکرهای برچسبگذاریشده است که در حوزه پردازش زبان طبیعی بهکار میرود و متشکل از 4300 موضوع مختلف از اخبار و متون عامیانه است. (پردازش زبانهای طبیعی عبارت است از، استفاده از رایانه بهمنظور پردازش زبان گفتاری و نوشتاری).
5. پیکره همشهری
6. بانکهای درختی: پیکرۀ درختی مجموعهای از جملههای فارسی است که در آنها روابط نحوی کلمات بر مبنای نقش دستوری آنها مشخص شده است.
برخی پیکرههای موجود هم در حوزۀ صوت است (یاری، 1394).
باید خاطرنشان کرد، جمعآوری دادهها در یک مجموعه به خودی خود ارزش بسیار بالایی ندارد. ارزش این دادهها زمانی به حداکثر خود میرسد که اطلاعات جانبی یا مشخصههای زبانی مختلف به آن دادهها اضافه شده باشد که در اصطلاح به آن «حاشیهنویسی» گفته میشود. حاشیهنویسی معنایی با بهکارگیری پردازش زبان طبیعی، یادگیری ماشین و یادگیری آماری دادههای فاقد ساختار را که در قالبهای مختلف مثل متن، تصویر، صوت و... منتشر شدهاند، با افزودن فرادادهها غنی میکند. حاشیهنویسی در فرهنگ لغت آکسفورد، یادداشت توضیحی یا نظریای که به یک متن یا نمودار اضافه شده، تعریف شده است. در یک برنامۀ نرمافزاری حاشیهنویسی توضیحاتی است که به برنامه اضافه شده است. در یک عکس تبلیغاتی شعاری است که در ذیل آن اضافه شده و در یک نمودار اطلاعات تکمیلی است که به آن ضمیمه گردیده است. بر اساس روش انجام، میتوان پلتفرمهای حاشیهنگاری را به دو دستۀ اصلی زیر تقسیم کرد:
_ مبتنی بر الگو[7]: الگو میتواند کشف یا بهطور دستی تعریف شود. بیشتر این روشها از متدی که برین[8] معرفی کرده است، استفاده میکنند.
_ مبتنی بر یادگیری ماشین[9] (متیو[10]، 2005).
همچنین با توجه به نحوه انجام کار، حاشیهنویسی معنایی را میتوان به سه نوع دستی (در این روش عملیات حاشیهنویسی توسط نیروی انسانی انجام میگیرد)، نیمهخودکار (روش نیمهخودکار از نیروی انسانی در بخشهایی از فرایند انجام حاشیهنویسی بهره میبرد) و خودکار (حاشیهنویسی بدون دخالت و نظارت نیروی انسانی را خودکار مینامند) تقسیم کرد (ازبک[11]، 2015؛ تالانتیکر[12]، 2009). بهعلاوه، حاشیهنویسی را میتوان بر اساس محتوای منابعی که قرار است حاشیهنویسی شود نیز دستهبندی کرد(یون[13]، 2008؛ کیریاکف[14]، 2004). از این بُعد میتوان متن، تصویر و تصاویر متحرک را که تاکنون بیشتر بر روی آنها فعالیت صورت گرفته است، نام برد. یکی از چالشهای بزرگ در پردازش خودکار متنهای زبانی، شناسایی واژهها و نشانهگذاری آنهاست. نشانهگذاری دستوری را معمولا برچسبدهی مینامند (عاصی، 1383).
1. پیکرۀ مقالههای علمی
با درنظرگرفتن اهمیت موضوع، ابزار ساخت پیکرۀ مقالههای هیئت علمی بهوجود آمد. سپس با استفاده از آن، پیکرهای با تعداد 1100 مقاله از اعضای هیئت علمی دانشگاه فردوسی مشهد ساخته شد. فرایند ساخت این پیکره در ادامه بیان شده است.
4-1 روش جمعآوری دادهها
برای دستیابی به اهداف پژوهش، متون علمی اعضای هیئت علمی دانشگاه فردوسی مشهد (شامل1100 مقاله) گردآوری و بر اساس رشته و دانشکده به دو دستۀ کلی تقسیم شد. دستۀ اول مقالههای حوزههای کشاورزی، دامپزشکی و علوم پایه و دسته دوم مقالههای حوزههای علوم انسانی و مهندسی را شامل میشود. هرچند امکان بررسی کلیِ همۀ حوزهها با هم وجود دارد، این تقسیمبندی برای رویکردهای مقایسهای امکان مناسبی را فراهم کرده است. سپس با استفاده از نرمافزار پیکرهسازِ طراحیشده، دادهها از نظر مقولههای گفتار از جمله اسم، فعل، صفت، حرف اضافه و قید برچسبگذاری شدند. در نهایت، دو خروجیِ اصلیِ برچسبخورده بهدست آمد که امکان جستجوی سریع تمام مطالب در آن وجود داشت.
4-2 ابزارهای پردازش متن فارسی
بر اساس تقسیمبندیهای ذکرشده، ابزارهای حاشیهنویسیِ مبتنی بر متن متفاوتی بهوجود میآید. استانداردسازی، تفکیک متن به جملات، عبارات و کلمات و برچسبگذاری و حاشیهنویسی آنها، تأثیر بسزایی بر پردازش و استخراج اطلاعات، دستهبندی یا دیگر کاربردهای پردازش زبان طبیعی دارد. بیش از صدمیلیون نفر از مردم جهان به زبان فارسی صحبت میکنند. فارسی زبان رسمی سه کشور ایران، افغانستان (فارسی دری) و تاجیکستان (فارسی تاجیکی) است. بهدلیل پیچیدگیهای زبانی، منابع و مطالعات انجامشده در این زبان از دیدگاه محاسباتی کمتر مورد توجه پژوهشگران قرار گرفته است (شمسفرد، 2011؛ فیلی، 2014).
متأسفانه ابزارهای استاندارد پیشپردازشِ ایجادشده برای متون زبان فارسی از قبیل شمسفرد (2010)، سرابی، مهیار و فرهودی (2013)، سراجی، مقیسی[15] و نیور[16] (2012) رایگان منتشر نشدهاند. برخی از ابزارهای کد باز[17] پیشپردازش موجود از قبیل خلش و ایمانی (2014)، جدیدنژاد، محمودی و دهداری (2010) و منشادی (2015) نیز دقت مناسب را ندارند. در این بخش توضیحات ابزارهای تولیدشده و مورد نیاز برای نظرکاوی در زبان فارسی را ارائه میکنیم.
4-3 نرمالسازی و جداسازی جملات و کلمات متن
قبل از پردازش متون جهت استانداردسازی حروف و فاصلهها باید پیشپردازشهایی روی آنها انجام شود. در پردازش رسمالخط زبان فارسی، با توجه به قرابتی که با رسمالخط عربی دارد، همواره در نگارش تعدادی از حرفها مشکل کاراکترهای عربی معادل وجود دارد. از جملۀ آنها میتوان به حروف «ک»، «ی»، همزه و... اشاره کرد. در گام نخست باید مشکلات مربوط به این حروف را با یکسانسازی آنها برطرف کرد. در این مرحله باید همۀ نویسهها (حروف) متن با معادل استاندارد آن جایگزین و یکسانسازی شود. علاوه بر این، اصلاح نویسۀ نیمفاصله و فاصله در کاربردهای مختلف آن و همچنین حذف نویسۀ «ـ» که برای کششنویسههای چسبان استفاده میشود و یکسانسازی متون برای تشدید، تنوین و موارد مشابه (مشابه ابزار PrePer) (سراجی، 2010) از جمله اقدامهای لازم قبل از شروع پردازش متن است.
در این فاز مطابق با یکسری قاعده دقیق و مشخص، فاصلهها و نیمفاصلههای موجود در متن برای علاماتی نظیر "ها"، "تر" و "ی" غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعلساز نظیر "نمی"، "می"، "ام"، "ایم"، "اید" و موارد مشابه نیز اصلاح میگردند. پس از پایان مرحلهی پیش پردازش متون، ابزار تشخیصدهندۀ جملهها با استفاده از علامتهای ”.“، ”؛“، ”!“، ”؟“، ”?“، ”:“ و بهکارگیری برخی قواعد دستوری زبان فارسی و در نظرگرفتن برخی واژگان آغازکنندۀ جملهها (از قبیل حروف ربط مانند "که"، "اساسا"، "البته"، "تا"، "اما"، "اگر"، "ولی"، "زیرا"، "سپس"، "همچنین"، "و"و "یا")، مرز جملهها را تعیین میکند. تشخیصدهندۀ واژگان نیز با استفاده از علامتهای فضای خالی، ”،“، ”,“، ”-“ و ... و درنظرگرفتن اصلاحات اعمالشده دربارۀ پیشوندها و پسوندها در فاز قبلی، واژهها را شناسایی میکند. همچنین پردازش ویژهای برای درنظرگرفتن یک علامت برای کلمات اختصاری (از قبیل A.T.R یا بی.بی.سی)، تاریخ و زمان (از قبیل 5:35 یا 2015/2/25)، اعداد اعشاری (از قبیل 5/17 یا 5.17) و سایر عبارتها و علایم خاص (جایگزینی کلمه ”ا... “ با کلمه اصلی آن) انجام میشود.
4-4 ریشهیابی
ریشهیابی واژگان از عملیات مهمّ پیشپردازش متون در بازیابی اطلاعات و پردازش زبانهای طبیعی است. هدف الگوریتمهای ریشهیابی، حذف پیشوند و پسوندهای کلمات و تعیین ریشۀ اصلی کلمه است. توضیحات بیشتر دربارۀ اهمیت ریشهیابی و تحلیلهای ریختشناسی کلمات در استخراج دانش از متن (عبدالمجید، دیاب[18] و کوبلر[19]، 2014) وجود دارد. ریشهیابی بهطور گسترده در سیستمهای بازیابی اطلاعات، ترجمه ماشین، دستهبندی متن، خلاصهنویسی متن، شاخصگذاری، متنکاوی و... استفاده میشود. برخلاف زبان انگلیسی، مشکلات مختلفی هنگام ریشهیابی کلمات زبان فارسی وجود دارد؛ از جمله اینکه ضمایر میتوانند به دو صورت جدا و متصل در جمله ظاهر شوند. البته در مورد افعال مسئله کمی پیچیدهتر است، بطوری که علاوه بر وندهای فعلی، شخص (فاعل) و زمان جمله نیز بر روی حالت فعل تأثیرگذار است.
در روشهای ریشهیابی فعلی در زبان فارسی، پس از حذف وندها ممکن است معنای کلمه تغییر کند. در ریشهیاب (بنواژهیاب[20]) تولیدشده، ریشهیابی واژه بدون تغییر مفهوم واژه در جمله مبنای نظر است. همچنین الگوریتم بیان ارائهشده قابلیت تعیین ریشه در چند سطح را دارد. این سطوح مختلف ریشه میتوانند در عملیات مختلف پردازش زبان طبیعی مورد استفاده قرار گیرند. در ابزار ریشهیاب تولیدشده، از دو رویکرد استفاده از فرهنگ لغت و قوانین ریختشناسی و برای این ابزار، از پنج فرهنگ لغت استفاده شده است:
1.فرهنگ لغت برای نگه داشتن تمامی ریشه های مربوط به کلمات غیر فعلی (شامل اسامی، صفتها، قیدها).
2.فرهنگ لغت برای نگهداری کلمات جمع مکسر و حالتهای جمع بدون قاعده به همراه حالت مفرد این کلمات.
3. فرهنگ لغت شامل ریشههای گذشته و حال افعال زبان فارسی.
4. فهرست انواع وند (پیشوند و پسوند) و قوانین مربوط به ترتیب قرارگیری آنها در زبان فارسی.
5. فرهنگ لغت برای کلمات استثنا (وندهای متعلق به ریشه یا هستۀ اصلیِ کلمه).
در الگوریتم ریشهیابی، ابتدا باید نوع عبارت از نظر فعل یا غیرفعل تشخیص داده شود. برای شناسایی صحیح انواع فعل (پیشوندی، ساده و مرکب) در زمانها و شکلهای مختلف در متن، قواعد دستوری زبان فارسی، موقعیت لغات (بافت جمله) و تحلیل ریختشناسی واژگان (مطالعه ساختار لغات) بررسی شد. بدینمنظور، از فرهنگ لغت مربوط به بُنهای گذشته و حال افعال زبان فارسی مجموعه «دادگان» (رسولی و همکاران، 2011) که حدود 6000 فعل ساده، پیشوندی و مرکب را شامل میشود، استفاده شده است.
برای ریشهیابی واژگان غیرفعل، ابتدا کلّ واژه درون فرهنگ لغت شامل ریشۀ واژگان جستجو میشود. اگر واژه وجود داشته باشد، خود واژه بهعنوان ریشه معرفی میشود. در غیر اینصورت، واژه درون فرهنگ لغت مربوط به واژگان جمع مکسر و بدون قاعده جستجو میشود. اگر واژه در این فرهنگ لغت یافت شود، معادل مفرد آن به همراه یک نشانگر مبنی بر جمع مکسربودن آن، برگردانده میشود. سپس با استفاده از قوانین ریختشناسی مربوط، تمامی وندهای ممکن موجود در واژه یافت میشود. در هر مرحله، پس از حذف پسوند، دوباره واژه درون فرهنگ لغت مربوط به ریشۀ واژگان غیر فعل زبان فارسی جستجو میشود. چنانچه واژه یافت شود، میتواند بهعنوان ریشه معرفی شود. همین مراحل برای پیشوندها نیز صورت میگیرد. پیشوندها نیز از واژۀ مربوط حذف میشوند تا ریشه بهدست آید. همچنین، ممکن است دو واژه در متن به هم متصل شده باشند و برنامه نتواند طبق روال فوق آنها را ریشهیابی کند. بهمنظور رفع این مشکل، برای جداسازی واژگان بههمچسبیده در متن، هر واژه که در فرهنگ ریشه واژگان یافت نشود، به دو بخش بزرگتر از دو حرف شکسته شده و درصورتیکه هر دو بخش در فرهنگ ریشه واژگان وجود داشته باشد، عمل جداسازی انجام میشود. این عملیات بهصورت تکراری ادامه مییابد تا در نهایت ریشۀ نهایی استخراج گردد. با تکرار این عملیات، ابزار ریشهیابی این قابلیت را پیدا میکند که بتواند سطوح (ریشهها) معانی مختلف واژه را (برای استفاده در کاربردهای گوناگون) استخراج کند. بهعنوان مثال، برای واژۀ «خلاصهسازی» سه ریشه «خلاصهسازی»، «خلاصهساز» و «خلاصه» بهعنوان خروجی بازگردانده میشود که بسته به نوع استفاده میتوان از هر یک از آنها استفاده کرد. بهعنوان مثال دیگر، برای کلمه «دانشجویان» نیز سه ریشه «دانشجو»، «دانش» و «دان» استخراج میشود.
4-5 برچسبزنی اجزای کلام
برچسبزنی نقش اجزای کلام[21] عمل انتساب برچسبهای نحوی به واژهها و نشانههای تشکیلدهندۀ یک متن است؛ بهصورتی که این برچسبها نشاندهندۀ نقش واژگان و نشانهها در جمله باشد. در زبان فارسی اغلب واژگان (حدود91%) در پیکرۀ بیجنخان (2004) دارای نقشی واحد در جملههای مختلف هستند. سایر واژگان از نظر برچسبزنِ نحوی دارای ابهام هستند، زیرا ممکن است واژگان در جایگاههای مختلف برچسبهای نحوی متفاوتی داشته باشند. بنابراین، برچسبزنی نحوی، عمل ابهامزدایی از برچسبها با توجه به زمینه (ساختار جمله) مورد نظر است.
برای بررسی آمار تعداد تکرار واژگان و برچسبهای مختلف بهصورت مجزا یا در کنار هم و استخراج قوانین نحوی و ریختشناسی (ساختار واژگان و ارتباط واژگان در جمله) در متون زبان فارسی از پیکرۀ استاندارد دادگان[22] (رسولی، 2015) استفاده شد. همچنین فهرستی از انواع وندهای صفتساز، قیدساز و اسمساز در واژگان زبان فارسی برای استفاده جهت پیشبینی احتمالات اولیه به واژگان جدید (خارج از پیکره)، شناسایی شد. برای شناسایی بهتر نقش واژگان جدید در جملههای عملیات پیشپردازش شامل نرمالسازی و استانداردسازی حروف و فاصلهها و ریشهیابی کلمات[23] روی مستندات پیکره انجام میشود.
ابزار تهیهشده برای برچسبگذاری نقش ادات سخن در متون فارسی، از پیکره برچسبخوردۀ دادگان و از ترکیب دو روش مدل مخفی مارکوف و برچسبگذاری مبتنی بر قانون، استفاده میکند. برای برچسبگذاری اجزای کلام، ابتدا متن ورودی پیشپردازش میشود. سپس به کمک روش یادگیر [24]HMM (پیادهسازیشده به روش ویتربی) و با استفاده از اطلاعات آماریِ محاسبهشده از پیکرههای برچسبخورده، محتملترین برچسب نقش ادات سخن به هر کلمه در جمله انتساب مییابد (Ganchev, Taskar, Pereira, and Gama,، 2009). در مرحله بعد، این برچسبها بهوسیلۀ دو گروه از قوانین نحوی و ریختشناسی از پیش استخراجشده، اصلاحشده و برچسب نهایی نقش هر کلمه مشخص میشود. گروه اول قوانینی هستند که بهصورت خودکار از پیکرۀ برچسبخورده استخراج شدند (بر اساس روش برچسبزنی بریل (Megyesi، 1999) و گروه دوم شامل تعداد محدودی از قوانین نحوی است که زبانشناسان زبان فارسی آنها را استخراج کردهاند.
در مرحله بعد، این برچسبها بهوسیله دو گروه از قوانین نحوی و ریختشناسی از پیش استخراجشده، اصلاح و برچسب نهایی نقش هر واژه مشخص میشود. گروه اول قوانینی هستند که بهصورت خودکار از پیکرۀ برچسبخورده استخراج شدند (بر اساس روش برچسبزنی بریل[25] (مقیسی، 1999). گروه دوم شامل تعداد محدودی از قوانین نحوی هستند که زبانشناسان زبان فارسی آنها را استخراج کردهاند. در شکل1، نرمافزار تهیهشده برای ساخت پیکره را مشاهده میکنید.
شکل 1. نمایی از نرمافزار ساخت پیکره
برای استفاده و استخراج اطلاعات از پیکره، یک نرمافزار جانبی طراحی شده است که در شکل4 نمایی از آن را مشاهده میکنید. در این امکان میتوان با همآیی، انواع ترکیب واژگان و سایر اطلاعات مورد نیاز را استخراج کرد. اما خود نرمافزار هم به دو شیوه خروجی اطلاعات را نشان میدهد که در شکل 2 فرمت کلی آن را که نمایش عناصر موجود در یک فایل است، نشان داده شده است. فرمت دیگر آن تجزیّۀ اجزا به توکنها، ریشه و روابط معنایی را بیرون میدهد.
شکل 2. خروجی هر پوشه از نرمافزار پیکرهساز
پیکره با ساختاربندی مطابق استاندارد CoNLL-U [26] است. مجموعه برچسبهای مورد استفاده مطابق با پیکره بانک درختی PerDet موجود در سایت دادگان[27] (رسولی، کوهستانی و مولودی ،2013) بهصورت جدولی است که در ادامه آمده است.
جدول 1. برچسبهای مورد استفاده در پیکره
بر این اساس، خروجی دادههای پیکرۀ حاضر بهصورت شکل3 است.
شکل3. نمایی از تحلیل هر فایل
شکل4. استخراج اطلاعات از پیکره با نرمافزار جانبی
4-6 ارزیابی دقت نرمافزار پیکرهساز
برای ارزیابی درستی ابزارهای ریشهیاب و برچسبزنی ادات سخن (نقش کلمات در جمله) سعی شد تا حدممکن از پیکرههای استاندارد موجود مانند پیکره PerDT (در سایت دادگان) که شامل تعداد قابلتوجهی جملۀ برچسبخورده با اطلاعات نحوی و ساختواژی است (Rasooli, M. Kouhestani, and A. Moloodi ، 2013) استفاده شود. با توجه به اینکه ریشهیاب ایجادشده، قابلیت ریشهیابی چندسطحی واژگان تا رسیدن به بن اصلی واژه را دارد، برای کاربرد موردنظر این پژوهش از ریشههای بهدستآمده، از اولین سطح ابزار ریشهیابی استفاده میشود. همچنین در این پیکره برای برچسب نقش ادات سخن (نقش کلمات) دو سطح (با جزئیات متفاوت) وجود دارد که با توجه به کاربرد مورد نظر ابزار، سطح اول (نقش کلی کلمه در جمله) در نظر گرفته شده است.
برای محاسبۀ درستی ابزارها، توالی واژگان ورودی بهصورت
W={w1, w2, w3, … , wn}
توالی واژگان هدف یا برچسب صحیح آنها بهصورت
W*={, , , … , }
و توالی واژگان (یا برچسب) خروجی ابزارها بهصورت
Wout= {, , , … , }
نامگذاری شد. برای محاسبۀ میزان درستی ابزارها از رابطۀ زیر استفاده میشود :
بهطوریکه:
میزان درستی ابزارهای ریشهیابی و برچسبزنی نقش لغات تفکیک عملکرد برای افعال (کلمات دارای نقش فعل) و کلمات غیرفعل و بهصورت کلی، در جدول زیر ذکر شده است:
جدول2. میزان درستی ابزارهای پردازش زبان طبیعی (متن) فارسی
خلاصه و نتیجهگیری
امروزه نیاز به افزودن فراداده به دادههای عظیم جهت پردازش آنها بهوسیلۀ ماشین، بیش از پیش احساس میشود. یکی از بهترین روشها برای این نوع کاربرد، استفاده از پیکره است. برای تهیۀ پیکره، متون مورد استفاده باید بهصورتی دربیاید که به وسیلۀ ماشین قابل خواندن باشد. در این پژوهش ابزار پیکرهساز طراحی شد و سپس از 1100 مقاله علمیپژوهشی پیکره متون علمی ساخته شد. از سادهترین موارد کاربرد این پیکره، بررسی دادهها با شمارش جملهها، واژهها و تکواژهاست. استخراج کلیدواژهها و واژههای همایند نیز از این قبیل است. بهطور دقیق، حوزههای مورد هدف این پیکره مطالعات زبان برای اهداف خاص و دانشگاهی است. بهعنوان مثال، بر روی واژگان رشتههای دانشگاهی، همنشینی واژگان، زنجیرههای واژگانی و روابط دستوری است. همچنین با استفاده از این پیکره میتوان فهرستهای مختلفی از واژگان عمومی یا تخصصی گروههای آموزشی مختلف را استخراج کرد. این فرایند تأییدکنندۀ آثاری چون «کاکسهد»[28] (2000)، «گاردنر و دیویس»[29] (2013) است. همچنین با استفاده از این پیکره میتوان شیوۀ نگارش متون علمی در بین رشتهها و نویسندگان مختلف را بررسی کرد؛ از جمله آثاری که تأییدکنندۀ این مطلب «هایلند و تسو»[30] (2004) است. از دیگر کاربردهای این پیکره، استفاده برای ساخت هستانشناسیهای مختلف است؛ درست همانگونه که «مرادی، وزیرنژاد و بحرانی» (1394) از سه پیکره همشهری، بیجنخان و ویکیپدیا استفاده کرده و هستانشناسی دانش عرفی زبان فارسی را بهوجود آوردهاند.
برای بررسی موردی، میزان و نوع نشانههای تردید در دو گروه مورد پژوهش استخراج و مقایسه شد. نشانههای تردید کلماتی هستند که نشاندهندۀ عدم قطعیت نویسنده از بیان گفتهاش است و استفاده از آنها نشاندهنده پایبندنبودن کاملِ نویسنده به درستی و ارزش صدق یک گزاره است. از آنجا که دیدگاه نویسنده در تمام جملات وجود دارد، لازم است ادعاهای نویسندگان مقالههای علمی بسیار دقیق، با احتیاط و همراه با تواضع بیان شود تا مقبول طبع مخاطبان قرار گیرد. نشانههای تردید،واسط اطلاعات متن و تفسیر نویسنده است. هدف از بررسی نشانههای تردید، بررسی تأثیر حوزه پژوهش بر روی راهکارهای مورداستفاده در نشانههای تردیدتوسط اعضای هیئت علمی دانشگاه فردوسی مشهد در نگارش مقالههای علمی و همچنین آزمایش پیکره، ایجاد شده است. قبل از این، پژوهشگران دیگری به بررسی عبارتهای احتیاطآمیز پرداخته بودند، اما کارهای انجامگرفته بهصورت دستی و بر روی تعداد محدودی مقاله یا پایاننامه انجام گرفته بود. همچنین از دستهبندیهای دیگری برای تحلیل خود استفاده کرده بودند. نتایج حاصل از این پژوهش بهعلت انبوهبودن دادههای مورد استفاده، قابلیت تعمیم بهعنوان الگو در نوشتن مقالههای علمی را دارا هستند که نتایج دقیق آن در اثر دیگری در حال انتشار است. نتایج این تحقیق ثابت میکند پیکرۀ ساختهشده در این پژوهش منبع بسیار خوبی برای انجام سایر تحقیقات بر روی متون علمی است.
بهطور خلاصه میتوان گفت این پژوهش در پنج مرحله انجام شده است. نخست، تبدیل متون به پیکره خام اولیه به فرمت قابل خواندن برای ماشین. دوم، گردآوری منابع دستور زبان برای کار بر روی پیکره آغازین. در مراحل سوم و چهارم انواع برچسب به پیکره اضافه شد و در مرحله پنجم استخراج دانش صریح از روی پیکره امکانپذیر گردید. اکنون پیکره آمادۀ استخراجِ اطلاعاتِ ضمنی در سطوح مختلف از جمله بررسی ریشۀ کلمات یا مقولۀ کلمات توسط کاربران است. امکان استفادۀ محدود از نرمافزار از طریق ارسال درخواست به آدرس ایمیل نویسنده نیز مسئول وجود دارد. همچنین دسترسی آزاد و نامحدود به پیکره در آیندۀ نزدیک فراهم میشود.
[1]. OCR
[2]. Granger, Gilquin, & Meunier
[3]. Frederking
[4]. Levin
[5]. Megyesi
[6]. Nivre
[7]. Pattern Based
[8]. Brin
[9]. Machine Learning Based
[10]. Matthew
[11]. Usbeck
[12]. Talantikitr
[13]. Yun
[14]. Kiryakov
[15]. Megyesi
[16]. Nivre
[17]. Open Source
[18]. Diab
[19]. Kubler
[20]. Lemmatizer
[21]. Part of Speech tagging
[22]. Dadegan Treebank
[23]. برای تعیین احتمال اولیه نقش کلمات خارج از پیکره آموزشی عمل ریشهیابی نیز انجام میشود.
[24]. Hidden Markov Model
[25]. Brill POS-Tagger
[26]. توضیحات بیشتر درباره این فرمت پیکره را میتوانید از
"http://universaldependencies.org/docs/format.htm" مشاهده کنید.
[27]. Dadegan.ir
[28]. Coxhead
[29]. Gardner & Davies
[30]. Hyland & Tse