Extracting information from language corpus: introducing the corpus of scientific articles of Ferdowsi University of Mashhad

Document Type : Original Article

Authors

1 Assistant Prof., Department of Linguistics, Faculty of Literature and Humanities, Ferdowsi University Of Mashhad, Mashhad, Iran.

2 MA., Department of Linguistics, Faculty of Literature and Humanities, Ferdowsi University Of Mashhad, Mashhad, Iran.

3 PHD, Department of Computer Engineering , Faculty of Engineering , Ferdowsi University Of Mashhad, Mashhad, Iran.

Abstract

Purpose: Some of the most important applications of corpus are natural language processing, writing dictionaries, following lingual changes and extracting information from texts. The aim of this article was to describe and introduce a designed corpus of scientific articles.
Methodology: First a corpus software was designed and developed. This software supported different text formats such as doc ،docx ،rtf ،txt and pdf. It was also possible to set the corpus parameter in advance, for example the least number of allowed token files for presence of each text in the corpus. At the next step the scientific articles of faculty members of Ferdowsi University of Mashhad were collected. The corpus contained 7,154,202 words in 1,100 articles. Then all articles were analyzed into their component sentences in separated files, word’s roots were extracted, and parts of speech were annotated. In addition to direct extraction of information, a simple and easy-using software was developed for extracting statistical information by non-expert users.
Findings: The existing standard corpus such as PerDT which included a significant number of annotated sentences with syntactic and vocabulary information was used for the evaluation of the correctness of the word rooting and parts of speech labeling tools. Also, with a case study of precautionary statements (part of a research project that has not been published), the finding of the present research, i.e. the construction of the corpus of scientific research papers, was tested and approved with 96 percent of accuracy.
Conclusion: Based on the results. The developed corpus has high capacity to use for data extraction in different researches. Using this corpus, a data-driven description of language usage by different language groups would be possible. In near future, this corpus will be available on the website of the Central Library of Ferdowsi University of Mashhad for the use of all researchers.

Keywords


. مقدمه

کمک به نیروی انسانی و کاهش خطا از دلایل مهمّ استفاده از رایانه است. امروزه ابزارهای سودمند و بسیار متداولی چون غلط‌یاب املایی و دستوری در ابتدایی‌ترین رایانه‌ها وجود دارد که موجب صرفه‌جویی در زمان و هزینۀ کاربران می‌شود. اما همچنان میل به کم‌کوشی انسان را به سمت کاربردهای گسترده‌تر و تخصصی‌تر ابزارهای رایانه‌ای همچون بازشناسی خودکار متن[1] (تبدیل عکس به نوشتار) سوق داده ‌است. کاربرد وسیع دیگری که درحال حاضر در حوزه تحقیق و پژوهش بسیار لازم و ضروری به‌نظر می‌رسد و مدتی است مورد توجه قرار گرفته ‌است، امکان استفاده از انبوه داده‌های متنی است. با استفاده از این امکان، به‌جای استفادۀ محدود از داده‌های متنی و یا صرف هزینه و زمان بسیار زیاد برای جمع‌آوری آن، با صرف زمان و هزینه اندک، از پیکره‎های موجود که دارای داده‌های انبوه و آمادۀ استفاده و استخراج اطلاعات هستند، استفاده می‌شود. بدین‎ترتیب، محقق می‌تواند تمرکز اصلی خود را بر روی موضوعِ تحقیق قرار دهد و وقتش را صرف جمع‌آوری داده‌ها و اطلاعات نکند. بنا بر این ضرورت، در این پژوهش که در حوزه زبانشناسی پیکره‌ای قرار می‌گیرد، پیکره ایجاد شده از مقاله‎های علمی‎پژوهشیِ اعضای هیئت‎علمی توصیف و معرفی می‌شود. منظور از پیکره، مجموعه‌ای نسبتاً بزرگ از متون الکترونیک است که به‎صورت حساب‌شده برچسب‌گذاری و دسته‌بندی شده‌اند و امکان بررسی‌های مختلف را به کاربر می‌دهند (مکنری ویلسون، 2001).

زبان‎شناسیِ پیکره‌ای سه حوزۀ انجام پژوهش را پوشش می‌دهد که پژوهش حاضر دو حوزۀ اول آن را شامل می‎شود:

_ استخراج خودکار داده‌های زبانی از پیکره؛

_ پردازش آماری داده‌ها؛

_ ارزیابی و تفسیر این داده‌ها (تئوبری، 1991: 1).

همچنین از منظر زبان‎شناسی، چهار حوزۀ اصلی وجود دارد: آواشناسی، معنا‌شناسی، ساخت‎واژه و نحو. پژوهش حاضر تمرکز خود را بر روی دو حوزۀ ساخت‎واژه و نحو قرار داده است. گام نخست در حوزۀ نحوی، شناسایی مقوله‎هایی است که واژه‌های یک زبان به آن تعلق دارند (اَگرادی و دیگران، 1380: 208). در حوزه ساخت‎واژه نیز نخستین گام، داشتن فهرستی از اقلام واژگانی است که مطلوب‌ترین حالت با استفاده از پایگاه‌های داده‌های زبانی عملی می‌گردد (عاصی، 1383).

   برخی از مطرح‌ترین حوزه‌های پیکره‌‌ای در زبان فارسی عبارتند از: پیکرۀ حوزۀ اخبار (مانند پیکرۀ همشهری)، پیکرۀ ادبیات داستانی (مانند پیکرۀ میزان)، پیکرۀ رمان و زیرنویس فیلم، پیکره بیجن‌خان و... . هر کدام از این پیکره‌ها در حوزۀ خاصی توسعه یافته‌اند. تاکنون پیکره مقاله‎های علمی‎پژوهشی پدید نیامده و همین عامل وجه تمایز پیکرۀ حاضر با پیکره‌های موجود است. استفاده از پیکره حوزه‌های گسترده‌ای را شامل می‌شود و پژوهشگران مختلف بر اساس نیاز خود می‌توانند از پیکره استفاده کنند. به‌عنوان نمونه، «مشهور و فقیری» (1391) برای بررسی انواع زمان از پیکره استفاده کرده‌اند. موارد مورد استفاده از این پیکره نیز می‌تواند متناسب با نیاز کاربر، متنوع باشد.

2. پیشینه

در چند دهۀ اخیر رویکردهای پیکره‎محور در زبان‌شناسی کاربردی  استقبال شده‎اند، زیرا امکانات تحلیلیِ بسیار دقیقی برای زبان فراهم می‌کنند به‌طوری که بسیاری از کشورها اقدام به تهیۀ پیکرۀ زبان بومی خود کرده‌اند. علاوه ‌بر این، بسیاری از پیکره‌های خردتر که اهداف پژوهشی خاصی را دنبال می‌کنند نیز به‎وجود آمده‌اند. پیکره‌های زبان‌آموز، موازیِ دوزبانه، متون ادبی و متون ترجمه‌شده از این دست هستند (گرینجر، گیلکویین و مونیر[2]، 2015). برای پیکره کاربردهای مختلفی را برشمرده‌اند. با استفاده از این نوع پیکره می‌توان استفادۀ دقیق زبان‌آموز از نوع و میزان واژگان و ساخت‌های دستوری را مشخص کرد (همان). «بیکر» (2006) در کتاب خود کاربرد پیکره را در تحلیل گفتمان بررسی و پلی میان تحلیل گفتمان و زبان‌شناسی پیکره‌ای برقرار کرده‎است. یکی از کاربردهای دیگر پیکره،  آموزش زبان است.

در ساخت پیکره مسائل مختلفی مطرح می‌شود؛ از جمله، دسته‌بندی مقولات گفتار مانند فعل. چگونگی نوع دسته‌بندی افعال و سایر مقوله‌های زبانی در تحقیقات مختلفی ارائه شده است. «فرخ» (1381)، دسته‌بندی مبسوطی از افعال زبان فارسی برای تشخیص خودکار رایانه ارائه کرده است. «آراسته» (1381) نرم‌افزار تشخیص فعل را طراحی کرده است. «حاجی و عبدالحسینی» (2000) از روش ریاضی و آمار برای دسته‌بندی مقوله‌های گفتار بهره برده‌اند. «رجا و همکاران» (2007) نیز برچسب‌گذاری متون زبان فارسی را بررسی کرده‎اند.

   اما زبان فارسی به‎دلیل پیچیدگی‌های زبانی، کمبود منابع و مطالعات انجام‎شده از دیدگاه محاسباتی کمتر مورد توجه پژوهشگران قرار گرفته است و در آثار بسیار اندکی از جمله «شمس‌فرد» (2011) و «فیلی، منشادی، فردرکینگ[3] و لوین[4]»(2014) شاهد آن هستیم. متأسفانه ابزارهای استانداردِ پیش‌پردازشِ ایجادشده برای متون زبان فارسی از قبیل «شمس‌فرد، جعفری و ایل‌بیگی» (2014)، «سرابی، مهیار و فرهودی» (2013) و «سراجی، مقیسی[5] و نیور»[6] (2012) به‎صورت رایگان منتشر نشده‌اند. برخی از ابزارهای کد باز پیش‌پردازش موجود از قبیل «خلش و ایمانی» (2014) و «جدیدنژاد، محمودی و دهداری» (2010) نیز دقت مناسب را ندارد.  فهرست پیکره‌های موجود در زبان فارسی را می‌توان در سایت http://dadegan.ir/catalog?page=3 مشاهده کرد هر چند دسترسی به همۀ آنها امکان‎پذیر نیست.

3. پیکره

وجود پیکره‌های زبانی در امر پردازش زبان یکی از ضروریات است. برخی از پیکره‌های موجود در این زمینه در ادامه فهرست شده است؛ البته هر یک از این پیکره‌ها متفاوت است.

1. پیکرۀ حوزه خبر مرکز تحقیقات مخابرات ایران: حجم این پیکره ده میلیون لغت است و در آن متون ترازشدۀ زبان فارسی در مقابل اخبار آورده شده است.

2. پیکرۀ میزان (ادبیات داستانی) مربوط به شورای عالی اطلاع‌رسانی: این پیکره پانزده میلیون لغت دارد و دوزبانه است.

3. پیکرۀ رمان و زیرنویس فیلم.

4. پیکرۀ بیجن‌خان: پیکره‌ای برچسب‌گذاری‎شده است که در حوزه پردازش زبان طبیعی به‎کار می‌رود و متشکل از 4300 موضوع مختلف از اخبار و متون عامیانه است. (پردازش زبان‌های طبیعی عبارت است از، استفاده از رایانه به‎منظور پردازش زبان گفتاری و نوشتاری).

5. پیکره همشهری

6. بانک‌های درختی: پیکرۀ درختی مجموعه‌ای از جمله‎های فارسی است که در آنها روابط نحوی کلمات بر مبنای نقش دستوری آنها مشخص شده است.

برخی پیکره‌های موجود هم در حوزۀ صوت است (یاری، 1394).

     باید خاطرنشان کرد، جمع‌آوری داده‌ها در یک مجموعه به خودی خود ارزش بسیار بالایی ندارد. ارزش این داده‌ها زمانی به حداکثر خود می‌رسد که اطلاعات جانبی یا مشخصه‌های زبانی مختلف به آن داده‌ها اضافه شده باشد که در اصطلاح به آن «حاشیه‌نویسی» گفته می‌شود. حاشیه‌نویسی معنایی با به‎کار‌گیری پردازش زبان طبیعی، یادگیری ماشین و یادگیری آماری داده‌های فاقد ساختار را که در قالب‌های مختلف مثل متن، تصویر، صوت و... منتشر شده‌اند، با افزودن فراداده‌ها غنی می‌کند. حاشیه‌نویسی در فرهنگ‌ لغت آکسفورد، یادداشت توضیحی یا نظری‎ای که به یک متن یا نمودار اضافه شده، تعریف شده است. در یک برنامۀ نرم‌افزاری حاشیه‎نویسی توضیحاتی است که به برنامه اضافه شده است. در یک عکس تبلیغاتی شعاری است که در ذیل آن اضافه شده و در یک نمودار اطلاعات تکمیلی است که به آن ضمیمه گردیده است. بر اساس روش انجام، می‌توان پلت‌فرم‌های حاشیه‌نگاری را به دو دستۀ اصلی زیر تقسیم کرد:

 _ مبتنی بر الگو[7]: الگو می‌تواند کشف‌ یا به‎طور دستی تعریف شود. بیشتر این روش‌ها از متدی که برین[8] معرفی کرده ‌است، استفاده می‌کنند.

_ مبتنی بر یادگیری ماشین[9]  (متیو[10]، 2005).

   همچنین با توجه به نحوه انجام کار، حاشیه‌نویسی معنایی را می‌توان به سه نوع دستی (در این روش عملیات حاشیه‌نویسی توسط نیروی انسانی انجام می‌گیرد)، نیمه‌خودکار (روش نیمه‌خودکار از نیروی انسانی در بخش‎هایی از فرایند انجام حاشیه‌نویسی بهره می‌برد) و خودکار (حاشیه‌نویسی بدون دخالت و نظارت نیروی انسانی را خودکار می‌نامند) تقسیم‌ کرد (ازبک[11]، 2015؛ تالانتیکر[12]، 2009). به‌علاوه، حاشیه‌‌نویسی را می‌توان بر اساس محتوای منابعی که قرار است حاشیه‌نویسی شود نیز دسته‌بندی کرد(یون[13]، 2008؛ کیریاکف[14]، 2004). از این بُعد می‌توان متن، تصویر و تصاویر متحرک را که تاکنون بیشتر بر روی آنها فعالیت صورت گرفته است، نام برد. یکی از چالش‌های بزرگ در پردازش خودکار متن‌های زبانی، شناسایی واژه‌ها و نشانه‎گذاری آنهاست. نشانه‌گذاری دستوری را معمولا برچسب‌دهی می‌نامند (عاصی، 1383).

   1. پیکرۀ مقاله‎های علمی

با درنظرگرفتن اهمیت موضوع، ابزار ساخت پیکرۀ مقاله‎های هیئت علمی به‎وجود آمد. سپس با استفاده از آن، پیکره‌ای با تعداد 1100 مقاله از اعضای هیئت علمی دانشگاه فردوسی مشهد ساخته شد. فرایند ساخت این پیکره در ادامه بیان شده است.

4-1  روش جمع‌آوری داده‌ها

برای دستیابی به اهداف پژوهش، متون علمی اعضای هیئت علمی دانشگاه فردوسی مشهد (شامل1100 مقاله) گردآوری و بر اساس رشته و دانشکده به دو دستۀ کلی تقسیم شد. دستۀ اول مقاله‎های حوزه‎های کشاورزی، دام‎پزشکی و علوم پایه و دسته دوم مقاله‎های حوزه‌های علوم انسانی و مهندسی را شامل می‎شود. هرچند امکان بررسی کلیِ همۀ حوزه‌ها با هم وجود دارد، این تقسیم‌بندی برای رویکردهای مقایسه‌ای امکان مناسبی را فراهم کرده است. سپس با استفاده از نرم‌افزار پیکره‌سازِ طراحی‎شده، داده‌ها از نظر مقوله‌های گفتار از جمله اسم، فعل، صفت، حرف اضافه و قید برچسب‌گذاری شدند. در نهایت، دو خروجیِ اصلیِ برچسب‎خورده به‎دست آمد که امکان جستجوی سریع تمام مطالب در آن ‎وجود داشت.

4-2  ابزارهای پردازش متن فارسی

بر اساس تقسیم‌بندی‌های ذکرشده، ابزارهای حاشیه‌نویسیِ مبتنی بر متن متفاوتی به‎وجود می‌آید. استانداردسازی، تفکیک متن به جملات، عبارات و کلمات و برچسب‌گذاری و حاشیه‎نویسی آنها، تأثیر بسزایی بر پردازش و استخراج اطلاعات، دسته‌بندی یا دیگر کاربردهای پردازش زبان طبیعی دارد. بیش از صد‎میلیون نفر از مردم جهان به زبان فارسی صحبت می‌کنند. فارسی زبان رسمی سه کشور ایران، افغانستان (فارسی دری) و تاجیکستان (فارسی تاجیکی) است. به‎دلیل پیچیدگی‌های زبانی، منابع و مطالعات انجام‎شده در این زبان از دیدگاه محاسباتی کمتر مورد توجه پژوهشگران قرار گرفته است (شمس‌فرد، 2011؛ فیلی، 2014).

متأسفانه ابزارهای استاندارد پیش‌پردازشِ ایجادشده برای متون زبان فارسی از قبیل شمس‌فرد (2010)، سرابی، مهیار و فرهودی (2013)، سراجی، مقیسی[15] و نیور[16] (2012) رایگان منتشر نشده‌اند. برخی از ابزارهای کد باز[17] پیش‌پردازش موجود از قبیل خلش و ایمانی (2014)، جدیدنژاد، محمودی و دهداری (2010) و منشادی (2015) نیز دقت مناسب را ندارند. در این بخش توضیحات ابزارهای تولیدشده و مورد نیاز برای نظرکاوی در زبان فارسی را ارائه می‎کنیم.

4-3 نرمال‌سازی و جداسازی جملات و کلمات متن

قبل از پردازش متون جهت استانداردسازی حروف و فاصله‌ها باید پیش‌پردازش‌هایی روی آنها انجام شود. در پردازش رسم‎الخط زبان فارسی، با توجه به قرابتی که با رسم‎الخط عربی دارد، همواره در نگارش تعدادی از حرف‌ها مشکل کاراکترهای عربی معادل وجود دارد. از جملۀ آنها می‌توان به حروف «ک»، «ی»، همزه و... اشاره کرد. در گام نخست باید مشکلات مربوط به این حروف را با یکسان‌سازی آنها برطرف کرد. در این مرحله باید همۀ‌ نویسه‌ها (حروف) متن با معادل استاندارد آن جایگزین و یکسان‌سازی شود. علاوه بر این، اصلاح نویسۀ نیم‌فاصله و فاصله در کاربردهای مختلف آن و همچنین حذف نویسۀ «ـ» که برای کشش‎نویسه‌های چسبان  استفاده می‎شود و یکسان‌سازی متون برای تشدید، تنوین و موارد مشابه  (مشابه ابزار PrePer)  (سراجی، 2010) از جمله اقدام‎های لازم قبل از شروع پردازش متن است.

در این فاز مطابق با یک‎سری قاعده دقیق و مشخص، فاصله‌ها و نیم‌فاصله‌های موجود در متن برای علاماتی نظیر "ها"، "تر" و "ی" غیرچسبان در انتهای لغات و همچنین پیشوندها و پسوندهای فعل‌ساز نظیر "نمی"، "می"، "ام"، "ایم"، "اید" و موارد مشابه نیز اصلاح می‌گردند. پس از پایان مرحله‌ی پیش پردازش متون،  ابزار تشخیص‌دهندۀ جمله‎ها با استفاده از علامت‌های ”.“، ”؛“، ”!“، ”؟“، ”?“، ”:“ و به‎کارگیری برخی قواعد دستوری زبان فارسی و در نظرگرفتن برخی واژگان آغازکنندۀ جمله‎ها (از قبیل حروف ربط مانند "که"، "اساسا"، "البته"، "تا"، "اما"، "اگر"، "ولی"، "زیرا"، "سپس"، "همچنین"، "و"و "یا")، مرز جمله‌ها را تعیین می‎کند. تشخیص‌دهندۀ‌ واژگان نیز با استفاده از علامت‌های فضای خالی، ”،“، ”,“، ”-“ و ... و درنظرگرفتن اصلاحات اعمال‎شده دربارۀ پیشوندها و پسوندها در فاز قبلی، واژه‌ها را شناسایی می‌کند. همچنین پردازش ویژه‌ای برای درنظرگرفتن یک علامت برای کلمات اختصاری (از قبیل A.T.R یا بی.بی.سی)، تاریخ و زمان (از قبیل 5:35  یا 2015/2/25)، اعداد اعشاری (از قبیل 5/17 یا 5.17) و سایر عبارت‎ها و علایم خاص (جایگزینی کلمه ”ا... “ با کلمه اصلی آن) انجام می‌شود.

4-4  ریشه‌یابی

ریشه‌یابی واژگان از عملیات مهمّ پیش‌پردازش متون در بازیابی اطلاعات و پردازش زبان‌های طبیعی است. هدف الگوریتم‌های ریشه‌یابی، حذف پیشوند و پسوندهای کلمات و تعیین ریشۀ اصلی کلمه است. توضیحات بیشتر دربارۀ اهمیت ریشه‌یابی و تحلیل‌های ریخت‌شناسی کلمات در استخراج دانش از متن (عبدالمجید، دیاب[18] و کوبلر[19]، 2014) وجود دارد. ریشه‌یابی به‎طور گسترده در سیستم‎های بازیابی اطلاعات، ترجمه ماشین، دسته‎بندی ‌متن، خلاصه‌نویسی متن، شاخص‌گذاری، متن‌کاوی و... استفاده می‌شود. برخلاف زبان انگلیسی، مشکلات مختلفی هنگام ریشه‌یابی کلمات زبان فارسی وجود دارد؛ از جمله اینکه ضمایر می‌توانند به دو صورت جدا و متصل در جمله ظاهر شوند. البته در مورد افعال مسئله کمی پیچیده‌تر است، بطوری که علاوه بر وندهای فعلی، شخص (فاعل) و زمان جمله نیز بر روی حالت فعل تأثیرگذار است.

در روش‌های ریشه‌یابی فعلی در زبان فارسی، پس از حذف وندها ممکن است معنای کلمه تغییر کند. در ریشه‌یاب (بن‌واژه‌یاب[20]) تولیدشده، ریشه‌یابی واژه بدون تغییر مفهوم واژه در جمله مبنای نظر است. همچنین الگوریتم بیان ارائه‎شده قابلیت تعیین ریشه در چند سطح را دارد. این سطوح مختلف ریشه می‌توانند در عملیات مختلف پردازش زبان طبیعی مورد استفاده قرار گیرند. در ابزار ریشه‌یاب تولیدشده، از دو رویکرد استفاده از فرهنگ لغت و قوانین ریخت‌شناسی  و برای این ابزار، از پنج فرهنگ لغت استفاده شده است:

1.فرهنگ لغت برای نگه داشتن تمامی ریشه های مربوط به کلمات غیر فعلی (شامل اسامی، صفت‌ها، قیدها).

2.فرهنگ لغت برای نگهداری کلمات جمع مکسر و حالت‌های جمع بدون قاعده به همراه حالت مفرد این کلمات.

3. فرهنگ لغت شامل ریشه‌های گذشته و حال افعال زبان فارسی.

4. فهرست انواع وند (پیشوند و پسوند) و قوانین مربوط به ترتیب قرارگیری آنها در زبان فارسی.

5. فرهنگ لغت برای کلمات استثنا (وندهای متعلق به ریشه یا هستۀ اصلیِ کلمه).

       در الگوریتم ریشه‌یابی، ابتدا باید نوع عبارت از نظر فعل یا غیرفعل تشخیص داده شود. برای شناسایی صحیح انواع فعل (پیشوندی، ساده و مرکب) در زمان‌ها و شکل‎های مختلف در متن، قواعد دستوری زبان فارسی، موقعیت لغات (بافت جمله) و تحلیل ریخت‌شناسی واژگان (مطالعه ساختار لغات) بررسی شد. بدین‎منظور، از فرهنگ لغت مربوط به بُن‌های گذشته و حال افعال زبان فارسی مجموعه «دادگان» (رسولی و همکاران، 2011) که حدود 6000 فعل ساده، پیشوندی و مرکب را شامل می‌شود، استفاده شده است.

        برای ریشه‌یابی واژگان غیرفعل، ابتدا کلّ واژه درون فرهنگ لغت شامل ریشۀ واژگان جستجو می‌شود. اگر واژه وجود داشته باشد، خود واژه به‎عنوان ریشه معرفی می‎شود. در غیر این‎صورت، واژه درون فرهنگ لغت مربوط به واژگان جمع مکسر و بدون قاعده جستجو می‌شود. اگر واژه در این فرهنگ لغت یافت شود، معادل مفرد آن به همراه یک نشانگر مبنی بر جمع مکسربودن آن، برگردانده می‌شود. سپس با استفاده از قوانین ریخت‌شناسی مربوط، تمامی وندهای ممکن موجود در واژه یافت می‌شود. در هر مرحله، پس از حذف پسوند، دوباره واژه درون فرهنگ لغت مربوط به ریشۀ واژگان غیر فعل زبان فارسی جستجو می‌شود. چنانچه واژه یافت شود، می‌تواند به‎عنوان ریشه معرفی شود. همین مراحل برای پیشوندها نیز صورت می‌گیرد. پیشوندها نیز از واژۀ مربوط حذف می‌شوند تا ریشه به‎دست آید. همچنین، ممکن است دو واژه در متن به هم متصل شده باشند و برنامه نتواند طبق روال فوق آنها را ریشه‌یابی کند. به‎منظور رفع این مشکل، برای جداسازی واژگان به‎هم‎چسبیده در متن، هر واژه که در فرهنگ ریشه واژگان یافت نشود، به دو بخش بزرگ‎تر از دو حرف شکسته شده و درصورتی‎که هر دو بخش در فرهنگ ریشه واژگان وجود داشته باشد، عمل جداسازی انجام می‌شود. این عملیات به‎صورت تکراری ادامه می‌یابد تا در نهایت ریشۀ نهایی استخراج گردد. با تکرار این عملیات، ابزار ریشه‌یابی این قابلیت را پیدا می‌کند که بتواند سطوح (ریشه‌ها) معانی مختلف واژه را (برای استفاده در کاربردهای گوناگون) استخراج کند. به‎عنوان مثال، برای واژۀ «خلاصه‌سازی» سه ریشه «خلاصه‌سازی»، «خلاصه‌ساز» و «خلاصه» به‎عنوان خروجی بازگردانده می‌شود که بسته به نوع استفاده می‌توان از هر یک از آنها استفاده کرد. به‎عنوان مثال دیگر، برای کلمه «دانشجویان» نیز سه ریشه «دانشجو»، «دانش» و «دان» استخراج می‎شود.

4-5  برچسب‌زنی اجزای کلام

برچسب‌زنی نقش اجزای کلام[21] عمل انتساب برچسب‌های نحوی به واژه‌ها و نشانه‌های تشکیل‎دهندۀ یک متن است؛ به‎صورتی که این برچسب‌ها نشان‎دهندۀ نقش واژگان و نشانه‌ها در جمله باشد. در زبان فارسی اغلب واژگان (حدود91%) در پیکرۀ بیجن‌خان (2004) دارای نقشی واحد در جمله‎های مختلف هستند. سایر واژگان از  نظر برچسب‌زنِ نحوی دارای ابهام هستند، زیرا ممکن است واژگان در جایگاه‌های مختلف برچسب‌های نحوی متفاوتی داشته باشند. بنابراین، برچسب‌زنی نحوی، عمل ابهام‌زدایی از برچسب‌ها با توجه به زمینه (ساختار جمله) مورد نظر است. 

برای بررسی آمار تعداد تکرار واژگان و برچسب‌های مختلف به‎صورت مجزا یا در کنار هم و استخراج قوانین نحوی و ریخت‌شناسی (ساختار واژگان و ارتباط واژگان در جمله) در متون زبان فارسی از پیکرۀ استاندارد دادگان[22] (رسولی، 2015) استفاده شد. همچنین فهرستی از انواع وندهای صفت‌ساز، قید‌ساز و اسم‌ساز در واژگان زبان فارسی برای استفاده جهت پیش‌بینی احتمالات اولیه به واژگان جدید (خارج از پیکره)، شناسایی شد. برای شناسایی بهتر نقش واژگان جدید در جمله‎های عملیات پیش‌پردازش شامل نرمال‌سازی و استانداردسازی حروف و فاصله‌ها و ریشه‌یابی کلمات[23] روی مستندات پیکره انجام می‌شود.

ابزار تهیه‎شده برای برچسب‌گذاری نقش ادات سخن در متون فارسی، از پیکره برچسب‎خوردۀ دادگان و از ترکیب دو روش مدل مخفی مارکوف و برچسب‌گذاری مبتنی بر قانون، استفاده می‎کند. برای برچسب‌گذاری اجزای کلام، ابتدا متن ورودی پیش‌پردازش می‌شود. سپس به کمک روش یادگیر [24]HMM (پیاده‌سازی‎شده به روش ویتربی) و با استفاده از اطلاعات آماریِ محاسبه‎شده از پیکره‌های برچسب‌خورده، محتمل‌ترین برچسب نقش ادات سخن به هر کلمه در جمله انتساب می‌یابد (Ganchev, Taskar, Pereira, and Gama,، 2009). در مرحله بعد، این برچسب‌ها به‎وسیلۀ دو گروه از قوانین نحوی و ریخت‌شناسی از پیش استخراج‎شده، اصلاح‎شده و برچسب نهایی نقش هر کلمه مشخص می‌شود. گروه اول قوانینی هستند که به‎صورت خودکار از پیکرۀ برچسب‌خورده استخراج شدند (بر اساس روش برچسب‌زنی بریل  (Megyesi، 1999) و گروه دوم شامل تعداد محدودی از قوانین نحوی است که زبان‌شناسان زبان فارسی آنها را استخراج کرده‌اند.

در مرحله بعد، این برچسب‌ها به‌وسیله دو گروه از قوانین نحوی و ریخت‌شناسی از پیش استخراج‎شده، اصلاح و برچسب نهایی نقش هر واژه مشخص می‌شود. گروه اول قوانینی هستند که به‎صورت خودکار از پیکرۀ برچسب‌خورده استخراج شدند (بر اساس روش برچسب‌زنی بریل[25] (مقیسی، 1999). گروه دوم شامل تعداد محدودی از قوانین نحوی هستند که زبان‌شناسان زبان فارسی آنها را استخراج کرده‌اند. در شکل1، نرم‌افزار تهیه‎شده برای ساخت پیکره را مشاهده می‌کنید.

 

شکل 1. نمایی از نرم‎افزار ساخت پیکره

برای استفاده و استخراج اطلاعات از پیکره، یک نرم‌افزار جانبی طراحی شده است که در شکل4 نمایی از آن را مشاهده می‌کنید. در این امکان می‌توان با هم‌آیی، انواع ترکیب واژگان و سایر اطلاعات مورد نیاز را استخراج کرد. اما خود نرم‌افزار هم به دو شیوه خروجی اطلاعات را نشان می‌دهد که در شکل 2 فرمت کلی آن را که نمایش عناصر موجود در یک فایل است، نشان داده شده است. فرمت دیگر آن تجزیّۀ اجزا به توکن‌ها، ریشه و روابط معنایی را بیرون می‌دهد.

 

                        شکل 2. خروجی هر پوشه از نرم‌افزار پیکره‌ساز                   

پیکره با ساختاربندی مطابق استاندارد CoNLL-U [26] است. مجموعه برچسب‌های مورد استفاده مطابق با پیکره بانک درختی PerDet  موجود در سایت دادگان[27] (رسولی، کوهستانی و مولودی ،2013) به‎صورت جدولی است که در ادامه آمده است.

جدول 1. برچسب‌های مورد استفاده در پیکره

 

 

بر این اساس، خروجی داده‌های پیکرۀ حاضر به‌صورت شکل3 است.

 

شکل3. نمایی از تحلیل هر فایل

 

 

شکل4. استخراج اطلاعات از پیکره با نرم‌افزار جانبی

4-6  ارزیابی دقت نرم‌افزار پیکره‌ساز

برای ارزیابی درستی  ابزارهای ریشه‌یاب و برچسب‌زنی ادات سخن (نقش کلمات در جمله) سعی شد تا حدممکن از پیکره‌های استاندارد موجود مانند پیکره PerDT  (در سایت دادگان) که شامل تعداد قابل‌توجهی جملۀ برچسب‎خورده با اطلاعات نحوی و ساخت‎واژی است (Rasooli, M. Kouhestani, and A. Moloodi ، 2013) استفاده شود. با توجه به اینکه ریشه‌یاب ایجادشده، قابلیت ریشه‌یابی چندسطحی واژگان تا رسیدن به بن اصلی واژه را دارد، برای کاربرد موردنظر این پژوهش از ریشه‌های به‎دست‎آمده، از اولین سطح ابزار ریشه‌یابی استفاده می‌شود. همچنین در این پیکره برای برچسب نقش ادات سخن (نقش کلمات) دو سطح (با جزئیات متفاوت) وجود دارد که با توجه به کاربرد مورد نظر ابزار، سطح اول (نقش کلی کلمه در جمله) در نظر گرفته شده است.

برای محاسبۀ درستی ابزارها، توالی واژگان ورودی به‎صورت

W={w1, w2, w3, … , wn}

توالی واژگان هدف یا برچسب صحیح آنها به‎صورت

W*={, , , … , }

و توالی واژگان (یا برچسب) خروجی ابزارها به‎صورت

Wout= {, , , … , }

نامگذاری شد. برای محاسبۀ میزان درستی ابزارها از رابطۀ زیر استفاده می‌شود :

 

به‌طوری‎که:

 

میزان درستی ابزارهای ریشه‌یابی و برچسب‌زنی نقش لغات تفکیک عملکرد برای افعال (کلمات دارای نقش فعل) و کلمات غیرفعل و به‎صورت کلی، در جدول زیر ذکر شده است:

جدول2. میزان درستی ابزارهای پردازش زبان طبیعی (متن) فارسی

 

خلاصه و نتیجه‌گیری

امروزه نیاز به افزودن فراداده به داده‌های عظیم جهت پردازش آنها به‎وسیلۀ ماشین، بیش از پیش احساس می‌شود. یکی از بهترین روش‌ها برای این نوع کاربرد، استفاده از پیکره است. برای تهیۀ پیکره، متون مورد استفاده باید به‌صورتی دربیاید که به وسیلۀ ماشین قابل خواندن باشد. در این پژوهش ابزار پیکره‌ساز طراحی شد و سپس از 1100 مقاله علمی‎پژوهشی پیکره متون علمی ساخته شد. از ساده‌ترین موارد کاربرد این پیکره، بررسی داده‌ها با شمارش جمله‎ها، واژه‌ها و تکواژهاست. استخراج کلیدواژه‌ها و واژه‌های همایند نیز از این قبیل است. به‌طور دقیق، حوزه‌های مورد هدف این پیکره مطالعات زبان برای اهداف خاص و دانشگاهی است. به‎عنوان مثال، بر روی واژگان رشته‌های دانشگاهی، همنشینی واژگان، زنجیره‌های واژگانی و روابط دستوری است. همچنین با استفاده از این پیکره می‌توان فهرست‌های مختلفی از واژگان عمومی یا تخصصی گروه‌های آموزشی مختلف را استخراج کرد. این فرایند تأییدکنندۀ آثاری چون «کاکسهد»[28] (2000)، «گاردنر و دیویس»[29] (2013) است. همچنین با استفاده از این پیکره می‌توان شیوۀ نگارش متون علمی در بین رشته‌ها و نویسندگان مختلف را  بررسی کرد؛ از جمله آثاری که تأییدکنندۀ این مطلب «هایلند و تسو»[30] (2004) است. از دیگر کاربردهای این پیکره، استفاده برای ساخت هستان‌شناسی‌های مختلف است؛ درست همان‎گونه که «مرادی، وزیرنژاد و بحرانی» (1394) از سه پیکره همشهری، بیجن‌خان و ویکی‌پدیا استفاده کرده‌ و هستان‌شناسی دانش عرفی زبان فارسی را به‎وجود آورده‌اند.

    برای بررسی موردی، میزان و نوع نشانه‌های تردید در دو گروه مورد پژوهش استخراج و مقایسه شد. نشانه‎های تردید کلماتی هستند که نشان‌دهندۀ عدم قطعیت نویسنده از بیان گفته‌اش است و استفاده از آنها نشان‌دهنده پایبندنبودن کاملِ نویسنده به درستی و ارزش صدق یک گزاره است. از آنجا که دیدگاه نویسنده در تمام جملات وجود دارد، لازم است ادعاهای نویسندگان مقاله‎های علمی بسیار دقیق، با احتیاط و همراه با تواضع بیان شود تا مقبول طبع مخاطبان قرار گیرد. نشانه‌های تردید،واسط اطلاعات متن و تفسیر نویسنده است. هدف از بررسی نشانه‌های تردید، بررسی تأثیر حوزه پژوهش بر روی راهکارهای مورداستفاده در نشانه‌های تردیدتوسط اعضای هیئت علمی دانشگاه فردوسی مشهد در نگارش مقاله‎های علمی و همچنین آزمایش پیکره، ایجاد شده است. قبل از این، پژوهشگران دیگری به بررسی عبارت‎های احتیاط‌آمیز پرداخته بودند، اما کارهای انجام‎گرفته به‎صورت دستی و بر روی تعداد محدودی مقاله یا پایان‌نامه انجام گرفته بود. همچنین از دسته‎بندی‎های دیگری برای تحلیل خود استفاده کرده بودند. نتایج حاصل از این پژوهش به‎علت انبوه‎بودن داده‎های مورد استفاده، قابلیت تعمیم به‎عنوان الگو در نوشتن مقاله‎های علمی را دارا هستند که نتایج دقیق آن در اثر دیگری در حال انتشار است. نتایج این تحقیق ثابت می‌کند پیکرۀ ساخته‎شده در این پژوهش منبع بسیار خوبی برای انجام سایر تحقیقات بر روی متون علمی است.

   به‌طور خلاصه می‌توان گفت این پژوهش در پنج مرحله انجام شده است. نخست، تبدیل متون به پیکره خام اولیه به فرمت قابل خواندن برای ماشین. دوم، گردآوری منابع دستور زبان برای کار بر روی پیکره آغازین. در مراحل سوم و چهارم انواع برچسب به پیکره اضافه شد و در مرحله پنجم استخراج دانش صریح از روی پیکره امکان‌پذیر گردید. اکنون پیکره آمادۀ استخراجِ اطلاعاتِ ضمنی در سطوح مختلف از جمله بررسی ریشۀ کلمات یا مقولۀ کلمات توسط کاربران است. امکان استفادۀ محدود از نرم‌افزار از طریق ارسال درخواست به آدرس ایمیل نویسنده نیز مسئول وجود دارد. همچنین دسترسی آزاد و نامحدود به پیکره در آیندۀ نزدیک فراهم می‌شود.



[1]. OCR

[2]. Granger, Gilquin, & Meunier

[3]. Frederking

[4]. Levin

[5]. Megyesi

[6]. Nivre

[7]. Pattern Based

[8]. Brin

[9]. Machine Learning Based

[10]. Matthew

[11]. Usbeck

[12]. Talantikitr

[13]. Yun  

[14]. Kiryakov

[15]. Megyesi

[16]. Nivre

[17]. Open Source

[18]. Diab

[19]. Kubler

[20]. Lemmatizer

[21]. Part of Speech tagging

[22]. Dadegan Treebank

[23].  برای تعیین احتمال اولیه نقش کلمات خارج از پیکره آموزشی عمل ریشه‌یابی نیز انجام می‌شود.

[24]. Hidden Markov Model

[25]. Brill POS-Tagger

[26].  توضیحات بیشتر درباره این فرمت پیکره را می‌توانید از

 "http://universaldependencies.org/docs/format.htm" مشاهده کنید.

[27]. Dadegan.ir

[28]. Coxhead

[29]. Gardner & Davies

[30]. Hyland & Tse

-      Abdul-Mageed, M., Diab, M. and Kübler, S. (2014). SAMAR: Subjectivity and sentiment analysis for Arabic social media. Computer Speech & Language, 28(1): p. 20-37.
-      Baker, P. (2006). Using corpora in discourse analysis. Continuum Discourse Series.
-      Bijankhan, M., (2004). The role of the corpus in writing a grammar: An introduction to a software. Iranian Journal of Linguistics, 19(2).
-      Coxhead, A. (2000). A New Academic Word List. TESOL Quarterly, 34(2), 213-238. 
-      A. Kiryakov, B. Popov, D. Manov and D. Ognyanoff, (2004). Semantic Annotation, Indexing, and Retrieval. Web Semantics: Science, Services and Agents on the World Wide Web, vol. 2, pp. 49- 79.
-      Feely, W., Manshadi, M. Frederking, R. and Levin, L. (2014). The CMU METAL Farsi NLP Approach, in Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14), pp. 4052-4055.
-      The CMU METAL Farsi NLP Approach. Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14).
-      Ganchev, K. Taskar, B. Pereira, F. and Gama, J. (2009). Posterior vs parameter sparsity in latent variable models,  Advances in Neural Information Processing Systems.
-      Gardner, D., & Davies, M. (2013). A New Academic Vocabulary List. Applied Linguistics.
-      Granger, S., Gilquin, G., & Meunier, F. (2015). The Cambridge Handbook of Learner CorpusResearch: Cambridge University Press.
-      Hyland, K., & Tse, P.M. 2004. Meta discourse in academic writing: A reappraisal. Applied Linguistics, 25(2), 156-177.
-      Khallash, M. and M. Imany. (2014). Hazm: Python library for digesting Persian text.  [cited 2015; Available from: https://github.com/sobhe/hazm.
-      Jadidinejad, A.H., F. Mahmoudi, and J. Dehdari, (2010). Evaluation of PerStem: a simple and efficient stemming algorithm for Persian, in Workshop of the Cross-Language Evaluation Forum for European Languages. Springer. p. 98-101.
-      Manshadi. M. (2013). Farsi Verb Tokenizer. Available:
-      Manshadi, M. (2015). Farsi Verb Tokenizer. 2013. [cited 2015; Available from: https://github.com/mehdi-manshadi/Farsi-Verb-Tokenizer.
-      Megyesi, B. (1999). Improving Brill’s POS tagger for an agglutinative language. in Proceedings of the Joint SIGDAT Conference on Empirical Methods, Natural Language Processing and Very Large Corpora.
-      McEnery, T., & Wilson, A. (2001). Corpus Linguistics: An Introduction: Edinburgh University Press.
-      Michelson, Matthew, and Craig A. Knoblock. (2005). Semantic annotation of unstructured and ungrammatical text,  International Joint Conference on Artificial Intelligence. Vol. 19. Lawrence Erlbaum Associates LTD.
-      Talantikitr, H. N., Aissani, D. and Boudjlida, N. (2005). Semantic annotations for web services discovery and composition. Computer Standards & Interfaces, 31(6), pp. 1108- 1170.
-      Rasooli, M.S., et al. (2011). A syntactic valency lexicon for Persian verbs: The first steps towards Persian dependency treebank, 5th Language & Technology Conference (LTC): Human Language Technologies as a Challenge for Computer Science and Linguistics.
-      Rasooli, M.S., M. Kouhestani, and A. Moloodi. (2013). Development of a Persian syntactic dependency treebank. Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.
-      Sarabi, Z., H. Mahyar, and M. Farhoodi. (2013). ParsiPardaz: Persian Language Processing Toolkit. Computer and Knowledge Engineering (ICCKE), 3th International eConference on. IEEE.
-      Seraji, M., B. Megyesi, and J. Nivre. (2012). A basic language resource kit for Persian. Eight International Conference on Language Resources and Evaluation (LREC 2012), Istanbul, Turkey. European Language Resources Association.
-      Seraji, M. (2013). PrePer: A Pre-processor for Persian, Proceedings of The Fifth International Conference on Iranian Linguistics (ICIL5), Bamberg, Germany.
-      Shamsfard, M., (2011). Challenges and open problems, Persian text processing. Proceedings of LTC.
-      Shamsfard, M., H.S. Jafari, and M. Ilbeygi. (2010). STeP-1: A Set ofFundamental Tools for Persian Text Processing. LREC.
-      Teubert, W. (1999). Corpus Linguistics: A Partisan View, International Journal of Corpus Linguistics, 4(1), 1-10.
-      Usbeck, Ricardo, et al. (2015). GERBIL: general entity annotator benchmarking framework. Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee.
-      Lin, Yun. (2008). Semantic annotation for process models: Facilitating process knowledge management via semantic interoperability.
‌‌‌‌‌‌‌‌‌‌