نوع مقاله : مقاله پژوهشی
نویسندگان
1 کارشناس ارشد علوم کتابداری و اطلاعرسانی و مسئول بخش فهرستنویسی کتابخانه مرکزی دانشگاه امام رضا (ع)
2 دانشیار گروه کتابداری و اطلاع رسانی دانشگاه فردوسی مشهد
چکیده
کلیدواژهها
مقدمه
نمایهسازی فرایند تحلیل محتوای اطلاعاتی، پیشینهای از دانش و بیانکردن محتوای اطلاعاتی در زبان نمایهسازی از طریق اصطلاحات نمایهای است. به این ترتیب، نمایهسازی حداقل سه مرحله دارد:
1.انتخاب مفاهیم قابل نمایه در یک مدرک
2.بیانکردن این مفاهیم در زبان نمایهسازی ( به صورت واژه نمایهها[1] )
3.تهیه یک فهرست مرتبشده از این شناسهها (لاتینن[2]، 2000:ص. 29)
نمایهسازی یا بهصورت دستی و یا بهصورت ماشینی[3] است. هنگامیکه اصطلاحات نمایهای توسط نمایهساز انتخاب شود، نمایهسازی دستی است و چنانچه همه امور انتخاب کلیدواژه، ترتیببندی و ... توسط رایانه انجام شود، نمایهسازی ماشینی است. اکثر روشهای نمایهسازی خودکار موجود، برای انتخاب اصطلاحات نمایهای از زبان طبیعی[4] استفاده میکنند. در این شیوه تکواژهها و عبارتهای چندواژهای برای انعکاس محتوای متن، مستقیماً از عنوان، چکیده و متن کـامل یک مدرک انتخاب میشوند(موئنز[5]،2003: ص. 24).
در مجموع، در نظامهای نمایهسازی رایانهای سعی نشدهاست تا عملکرد ذهنی شخص نمایهساز تقلید شود. برنامهریزی رایانهای به منظور گزینش اصطلاحات حایز اهمیت از متنی با زبان طبیعی، مستلزم این است که برنامه درک خوبی از زبانشناسی و دانش لازم در مورد موضوعی که تحت بررسی است، داشتهباشد. البته، این امر در حال حاضر برای تمام و یا اکثر نظامهای بازیابی کار بسیار بزرگی است. در عوض، نمایهسازی خودکار به روشهایی که بر فراوانی نسبی کلمات در متن مبتنی است، تکیه دارد (ویکری و یکری[6]،1380:ص180).
میتوان مراحل زیر را در فرایند نمایهسازی خودکار درنظر گرفت:
1.شناسایی واژههای انفرادی از متن که تحلیل واژگان[7] نامیدهمیشود (موئنز، 2003: ص. 77)
2.برداشتن واژههای کاربردی و واژههای با بسامد تکرار بالا که در ارائه محتوای متن بــــیتأثیرند، با استفاده از فهرست واژههای غیرمجاز.
3.تبدیل واژههای باقیمانده به شکل ریشه[8] آنها؛ یعنی حذف پسوندها یا پیشوندها تا هر کلمه تا حد ریشهاش کوتاه شود.
4.محاسبة رایانهای بسامد رخدادهای ریشههایی که در متن تحلیل شدهاند، به منظور تعیین تابع ارزشگذاری هر ریشه.
5.ریشههایی که نسبت به بعضی ارزشهای قراردادی آستانهای[9]، ارزشگذاری بزرگتری دارند، برای متنی که در آن ظاهر شده، به عنوان کلیدواژه تعیین میشود. در بعضی نظامها، کلیدواژه ممکن است ارزشی متناسب با ارزش تابع ارزشگذاری داشته باشد (ویکری و ویکری[10]، 1380: ص. 183).
به هر حال، تعیین واحدهای متنی و مشخص کردن حد و حدود واژه برای ماشین از مسائل اساسی در گزینش اصطلاحات نمـایهای در نمـایهسـازی خودکار است (گیلوری، 1379). به علاوه، امکان تشخیص واژههای مفهومی از واژههای غیرمفهومی، در فرایند انتخاب اصطلاحات نمایه تأثیر بسزایی دارد. آنچه مسلم است، ماشین امکان تشخیص را تنها از طریق تطـبیق واژههای استخراج شده از متن یا منتسب شده به متن با فهرستی که واژههای غیرمجاز نامیده میشـود، به دســـت میآورد. در اختیار داشتن فهرستی از این واژهها و ارائه آنها به برنامه رایانهای برای ممانعت از ورود آنها به فهرست واژههای مفهومی مطلوب برای نمایهشدن، یکی از اقدامهای سودمند در نمایهسازی خودکار مبتنی بر کلیدواژههاست.
تحلیل کلمات یک متن نشان میدهد گروهی از کلمات بیاهمیت وجـــــوددارد که بهفراوانی در متن ظاهر میشود (مانند یک، به، نه، برای، با، چه کسی، چه موقع، است، آن). گروهی نیز وجود دارد که بندرت در متن میآیند و ممکن است نشاندهنده محتوای اطلاعاتی متن نباشند (ویکری و ویکری، 1380:ص180). این دسته از واژهها به تنهایی بارمعنایی ندارند (حاوی معنا و مفهوم نیست) بلکه در ارتباط با واژههای دیگر معنا مییابند. به این ترتیب، مفهوم و محتوای متن را نشان نمیدهند. از طرف دیگر، بود یا نبود آنها نه تنها در پرسش کاربر تأثیری ندارد، بلکه در میزان ربط یا عدم ربط مدارک بازیابی شده نیز تأثیری نخواهدداشت. این واژهها با عنوان واژههای غیرمجاز برای ورود به نمایه معرفی میشوند. درصورتیکه واژههای غیرمجاز قبل از فرایند نمایهسازی مدارک مشخص و فهرست آنها برای کنترل به رایانه دادهشود، علاوهبر صرفهجویی در زمان و حجم بایگانیهای نمایه، به میزان زیادی از بازیابی مدارک نامرتبط و ریزش کاذب در جستجو جلوگیری خواهدشد (زو و دیگران[11]، 2006).
با گسترش مدارک الکترونیکی فارسی و به تبع آن کاربران فارسی زبان و همچنین ویژگیهای خاص زبان و خط فارسی، نیاز به توجه و بهبود روشهای نمایهسازی بیش از پیش احساس میشود. زبان فارسی مانند هر زبان دیگری واژههایی دارد که هیچ گونه سهمی در ارائه بار معنایی مدرک ندارند، ولی فهرستی از پیش آماده از اینگونه واژهها در دسترس نبوده و مشخص نیست چگونه باید انتخاب شوند. بنابراین، مسئله اساسی این پژوهش آن است که: معیارهای شناسایی واژههای غیرمفهومی در زبان فارسی کدام است؟ و آیا میتوان سیاههای از این واژهها را برای نمایهسازی خودکار متنهای فارسی در حوزه روانشــناسی، علومتربیتی و کتابداری و اطلاعرسانی تهیه کرد؟
این پژوهش با بهرهگیری از اصول ساختاری زبان فارسی، درپی دستیابی به هدفهای زیر است:
1.معیارهای نحوی و معنایی شناسایی واژههای غیرمفهومی در زبان فارسی کدام است؟
2.واژههای غیرمفهومی در زبان فارسی که بتواند در نمایهسازی خودکار مدارک فارسی هر یک از حوزههای مورد مطالعه نادیده گرفتهشود، کدام است؟
3.واژههای غیرمفهومی چه حجمی از متون زبان فارسی هر یک از حوزههای مورد مطالعه را تشکیل میدهد؟
4.بین سیاهة واژههای غیرمفهومی انگلیسی و واژههای غیرمفهومی به دست آمده در این پژوهش، چه وجوه تشابه و تفاوتی وجود دارد؟
5.توزیع بسامد واژههای غیرمفهومی در رشــتههای علومتربیتی، روانشناسی و کتابداری و اطلاعرسانی چگونه است؟
تاریخچة نمایهسازی خودکار بر مبنای بسامد تکرار واژه، به دهة 1950 و تحقیقات «لوان»[12](1975) و «باکسن دال»[13] (1958) بر میگردد. پیش فرض کلی در بازیابی اطلاعات این است که اصطلاحات با بسامد متوسط، مناسبترین اصطلاحات برای نمایهسازی هستند. این فرض اساس کار «زیف»[14] (1949) قرار گرفت.
«فاکس»[15] (1990) از یک شیوة رایج، یعنی واژههای پربسامد گروهی بزرگ از آثار نوشته شده در همان زبان، استفاده کرد. بسامد واژهها در یک مجموعه مواد انگلیسی با عنوان پیکره زبانی براون در حوزههای موضوعی متنوع تعیین شدهاست. مراحل کار فاکس را می توان در مراحل زیر خلاصه کرد:
«فرانسیس و کوسرا»[16] (نقل شده در : گیلوری 1379) در مرحله اول ده کلمه پر بسامد را تعیین و در مرحله دوم فهرستی از 425 کلمه ممنوعه را تهیه کردند . «رایجزبرگن»[17] ( نقل شده در: گیلوری 1379) نیز فهرستی ارائه داد که از 150 کلمه بازدارنده تشکیل شده بود. فهرست برگمن در سال 1975 منتشر شد.
در سال 1987، در کتابخانة بازمن[18] دانشگاه ایالت مونتانا فهرستی از واژههای بازدارنده نرم و سخت برای فهرست پیوسته آن با هدف جلوگیری از نمایهسازی آنها و درنتیجه بازیابی آنها تهیه شد. در سال 1992 به دلیل تغییر در نرم افزار پایگاه اطلاعاتی و نیاز به نمایهسازی مجدد مدخلهای آن، بهترین فرصت جهت ارزیابی و بهبــود فهرست واژههای بازدارنده به دست آمد.
«سیروتکین و ویلبور»[19] (1992) با استفاده از این پیش فرض که واژههای بازدارنده به عنوان واژههایی که احتمال رخداد یکسانی در مدارک مرتبط و نامرتبط با درخواست اطلاعاتی دارند، شناخته میشوند، پژوهشی را انجام دادند. آنها بیان میکنند که این احتمال وجود دارد واژههای بازدارنده در یک مجموعه با استفاده از یک روش بازیابی برداری مبتنی بر ضریب تأثیر کسینوس مدارک و تشابه مدارک انجام گیرد. نتیجه بررسی سیروتکین و ویلبور در مجموعهای از مدارک مدلاین (71311 مدرک) در حوزة بیوتکنولوژی کاهـش 203040 تکواژه در این مدارک به 50508 ( کاهش 78 درصدی) تکواژه است.
«یمـین و ویلبور»[20] (1996) با استـفاده از روش ویلبور و سیروتکین (1992) و دو روش طبــقهبندی آمــاری (Expert Network و LLSF ) برای بازیابــی و دستهبندی مدارک و یک روش تطابق واژهمحور برای جستجو در پایگاهها ([21] WBM) استفاده نمودند. در این بررسی، به عنوان مثال روش Expert Network روی مدارک کتابخانه ملی پزشکی آمریکا، با حذف 87% واژههای بازدارنـده، 8002 واژه به 1042 واژه کاهـش یافـت و در نتیـجه باعـث صرفهجویی 63 درصدی زمان، 74 درصدی در حجم فایل مقلوب و در نهایت بهبود دقت بازیابی تا 10% گردید.
«برگ»[22] (1997) با استفاده از روش «ادمونسون و وایلز»[23] (1959) درمورد تعیین اهمیت واژه، پژوهشی را در زمینه تعیین واژههای بازدارنده در یک حوزه موضوعی مشخص بر اساس مجموعهای از مدارک نیروی هوایی آمریکا انجام داد.
«ساووی»[24] (1999) برای شناسایی واژههای بازدارنده در زبان فرانسوی از پیکرهای شامل دو مجموعه آزمایشی استفاده کرد. وی با پیروی از خط مشی فاکس ابتدا200 واژه پربسامد را استخراج کرد؛ سپس با بازبینی فهرست به دست آمده، تمام اسمها و صفتهایی که بسامد بالایی داشتند ولی با موضوعات اصلی پیکره مرتبط بودند، از فهرست حذف شدند. ضمن اینکه بعضی واژههای غیر اطلاعی که در200 واژه پربسامد ظاهر نشده بودند مانند ضمایر ملکی و شخصی، حروف اضافه، ربط و تعریف و بعضی از اشکال فعل Be به این فهرست ابتدائی اضافه شد. فهرست نهایی شامل215 واژه است و هنگامی که از چنین فهرستی استفاده می شود، اندازه فایل مقلوب برای مجموعه آزمایشی اول تا حدود 21% و برای مجموعه آزمایشی دوم حدود 35% کاهش می یابد.
«هو»[25] (1999) پژوهشی را با استفاده از این حقیقت زبانشناسی که بیش از نیمی از واژههای یک نمونه صفحه انگلیسی از میان 150 واژهبازدارنده رایج هستند، یک شیوة سریع برای تعیین محل واژههای بازدارنده ارائـه میدهد. این روش از سنجش دامنه واژههای انفرادی و واژههای همجوار آنها استفاده میکند. در یک آزمایش با استفاده از 400 تصویر از صفحات، این روش 63% از واژههای زاید متن را حذف کرد. وی بیان میکند تمایز بین واژة بازدارنده و غیربازدارنده اغلب به تشــخیص کلیدواژه کمک میکند.
«ساووی» 2001، 2002 و 2007) براساس کار قبلی خود فهرستی از واژههای بازدارنده را برای زبانهای فنلاندی، ایتالیایی، آلمانی، اسپانیایی و بلغاری شناسایی نمود. با استفاده از همین شیوه، «ساووی و راسولوفو»[26] (2003) فهرست واژههای بازدارنده در زبان عربی را نیز ایجاد کردند. فهرست ایجاد شده مبتنی بر پیکره زبان عربی است که توسط دیوید کرافت و کوین والکرد در کنسرسیوم اطلاعات زبانشناسی در فیلادلفیا شکلگرفته و دربرگیرندة 383/872 مدرک (76 میلیون علامت) حاوی بیش از 094/666 تک واژه است.
«ابوالخیر» در پایاننامه دکتری خود با عنوان «اثربخشی روشهای پردازش متن برای بازیابی زبان عربی» به فهرســتی از واژههای بازدارنده نیازداشت. به این منظور، با استفاده از سه شیوة متفاوت: 1- مبتنی بر ساختار و ویژگیهای زبان عربی 2- مبتنی بر آمارهای پیکره زبانی و 3- ترکیبی از این دو روش، فهرستی از واژههای بازدارنده زبان عربی را تهیه نمود.
در پژوهشی دیگر، «زو و دیگران»[27] (2006) برای استخراج واژههای بازدارنده در زبان چینی از یک روش خودکار یکپارچه مبتنی بر الگوهای اطلاعاتی و آماری استفاده کردند. الگوی آماری بر اساس احتمال و توزیع واژه و الگوی اطلاعاتی بر اساس اهمیت واژه با استفاده از نظریه اطلاعـات عمـل میکند. در انـتها نتـایج به دستآمـده از این دو الگـو یکـپارچه میشوند.
«لازارینیس»[28] (2007) مقاله ای را با هدف پردازش ساختمان فهرستی از واژههای بازدارنده برای زبانهای غیر لاتین و ارزیابی تأثیر حذف این واژه ها از پرسش کاربران ارائه داد. برای انجام این پژوهش، مجموعه ای از 32 پرسش موثق و صحیح که توسط کاربران پیشنهادشدهبود، یک نوبت با درنـــظرگرفتن واژههای بازدارنده و نوبت بعد بدون این واژهها به موتور کاوش گوگل داده شد. به این ترتیب، اهمیت حذف واژههای بازدارنده از عبارت پرسش بر حسب ربط در 10 نتیجه برتر گوگل ارزیابی شدهاست.
اما بررسی متون و مرور نوشتار نشان میدهد در مورد واژههای بازدارنــده در زبان فارسی کارهای معدود و پراکندهای صورت پذیرفته است که در ادامه به آن پرداخته خواهد شد.
«تقوا، بکلی و سده»[29] (2003) مجموعهای متشکل از 1850 مدرک در یک دورة 6 ماهه از میان وبسایتهای فارسی با حوزههای موضوعی متنوع که عمدتاً نسخــه الکترونیکی روزنامهها و مجـــله های مشهور ایرانی بــودند، و یا وبسایتهای فارسی طراحیشده در آمریکا را جمعآوریکردند. آنها فهرست خود را بر اساس پراکندگی واژهها تهیه نمودند. در فهرست نهایی 12 فعل وجود داشت که «تقوا و همکارانش» به جای فهرستکردن همه وجوه و زمانهای این افعال، تنها زمان گذشته و حال بن فعل را در فهرست خود وارد کردند.
«پور اسماعیل و رستمی» (1384 ) ابتدا فهرست تقوا، بکلی و سده(2003) را برای صیغهها و زمانهای مختلف کامل کردند. این فهرست شامل 204 فعل فارسی است. سپس با کمک مجموعه آزمون استاندارد محک که بالغ بر 3000 مستند را شامل میشود، بسامد کلمات مختلف را محاسبه نمودند و از میان آنها در مرحله مقدماتی کلماتی را که بسامدی بیشتر از 1000 بار داشته اند انتخاب و سپس فهرست نهایی را که شامل 34 واژه میشود، استخراج کردند.
«داورپناه و بلندیان» (1386) پژوهشی را با موضوع نمایهسازی ماشینی متون فارسی براساس قانون زیف انجام دادند. نتایج نشان داد توزیع فراوانی واژگان در متون فارسی دارای الگوی پیشبینیپذیر است. کاربرد واژههای با بسامد بالا و بسامد پایین درمقاله های فارسی، از قانون زیف پیروی میکند. همچنین، مشخص شد بسامد واژگانی میتواند به عنوان معیاری برای نمایهسازی ماشینی متون فارسی در نظرگرفته شود. وضعیت همخوانی کامل بین بسامد واژگانی و کلیدواژههای موضوعی در شیوة تفکیک صرفا ماشینی بدون دخالت عامل انسانی به طور متوسط در کل مقاله های مورد بررسی به میزان 50/21% است. در شیوة تفکیک ماشینی با دخالت عامل انسانی، میزان همخوانی به 52% میرسد. وضعیت همخوانی کامل بسامد واژگانی با کلیدواژههای عنوانی در شیوة صرفاً ماشینی بدون دخالت عامل انسانی، به طور متوسط در کل، مقاله های مورد بررسی 20/9% است که در شیوة ماشینی با دخالت عامل انسانی این میزان بیشتر از 5 برابر شده و به 14/54% میرسد.
این پژوهش با استفاده از روش تحلیل محتوا انجام پذیرفت. جامعه آماری این پژوهش، مقاله های مندرج در آخرین شماره منتشر شده در مجله های علمی و پژوهشی در رشتههای علــــومتربیتی، روانشناسی و کتابداری و اطلاعرسانی در سال 1385 است. این مجله ها از فهرست مجله های مورد تأیید وزارت علوم، تحقیقات و فناوری در همین سال شناسایی شد که به شرح ذیل است:
با استفاده از جدول تعیین حجم نمونه مورگان، برای 73 عنوان مقاله (کتابداری 20 عنوان، روانشناسی 22 عنوان و علومتربیتی 31 عنوان مقاله) حجم نمونه پژوهش 63 عنوان مقاله است؛ و از آنجا که تعداد مقاله های سه رشته با هم برابر نبود، تعداد مقالههای هر رشته براساس فرمول زیر محاسبه و تعیین شد:
تعداد مقاله های هر رشته در نمونه= حجم نمونه× |
حجم جامعه آن طبقه |
حجم کل جامعه |
با روش نمونهگیری تصادفی طبقهای، در رشته کتابداری 17 عنوان مقاله، رشته روانشناسی 19عنوان و در رشته علومتربیتی 27 عنوان مقاله انتخاب شد.
برای تهیه سیاهة واژههای غیرمجاز از متون مورد مطالعه، اولین گام، تفکیک واژگان این متون بود. برای رسیدن به این هدف، مراحل زیر انجام پذیرفت:
1. تهیه متن الکترونیکی
در اولین گام نسخه الکترونیکی مقاله های منتشرشده در آخرین شماره مجلههای علمی و پژوهشی در سه رشته مورد مطالعه در سال 1385 در محیط نرمافزاری Word که امکان تفکیک واژگان متن در آن وجود دارد، تهیه شد.
2. تفکیک واژگان
برای استفاده از اصول به دست آمده و استخراج واژههای غیرمفهومی از میان دیگر واژهها، واژگان هر یک از مقاله های حجم نمونه (63 مقاله) تفکیک شد. تفکیک واژگان متن هر یک از مقاله ها به صورت ماشینی و با استفاد از فرامین موجود در نرم افزار Word صورت پذیرفت. سپس واژگان تفکیک شده هر متن براساس معیارهای زبانشناسی، قواعد دستوری و آیین نگارش فارسی ازلحاظ نوع و بار معنایی به صورت دستی بررسی و ویرایش گردید. به این ترتیب، در تایپ مجدد متن مقاله ها و در تفکیک واژگان، معیارهای زیر مورد استفاده قرارگرفت:
3.شمارش بسامد واژگان
برای شمارش واژگان مرتبشده هرمتن، از دستور Word Count استفادهشد.
یافتههای پژوهش
با استفاده از دادههای گردآوری شده به سؤالهای پژوهش پاسخ داده شد که توضیح آن به شرح زیر است:
1. معیارهای نحوی و معنایی شناسایی واژههای غیرمفهومی در زبان فارسی کدام است؟
با مطالعه متون و کتابهای مربوط به حوزه زبانشناسی[30]، دستور زبان فارسی[31] و متون مربوط به تهیه و تدوین اصطلاحنــامهها ساخت واژگانی زبان فارسی مورد مطالعه قرارگرفت؛ سپس اصول و قواعدی مشخص و مستدل استـــخراج شد که با استناد به آنها، شناسایی و استخراج واژههای کممعنا یا بدون معنا در زبان فارسی امکان پذیر خواهد بود. این اصول و قواعد عبارتند از:
در پایان، بر اساس معیارهای ذکر شده در بالا، میتوان چنین استنباط نمود که، افعال (معین و همراه شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علایم سجاوندی به عنوان واژه نمایه ها ظاهر نمی شوند. این قواعد مبنایی را برای شناسایی و تهیه فهرست واژههای بازدارنده در زبان فارسی فراهممیکند.
به منظور شناسایی واژه های غیرمفهومی با توجه به معیارهای استخراج شده ذیل سؤال اول پژوهش، ابتدا نوع دستوری واژگان بررسی شد. برای تعیین نوع دستوری واژه ها از فرهنگهای لغت فارسی به فارسی ـ لغتنامه دهخدا، فرهنگ معین و فرهنگ سخن ـ استفاده شد. در تعیین نو ع دستوری واژه هایی که در این سه فرهنگ وجود نداشت، از کتابهای دستور زبان فارسی و مشورت با صاحب نظران استفاده گردید. چون برخی از واژهها دارای چندین نقش دستوری هستند، ملاک ما در انتخاب واژه بازدارنده آن نوع دستوری از واژه بود که براساس اصول استخراج شده در سؤال اول پژوهش، جزء واژههای غیرمفهومی زبان فارسی قرار میگیرند. به این ترتیب، نوع دستوری تکتک 248552 واژه تشکیل دهندة متون مورد مطالعه مشخص شد. فهرست درهمکرد این واژهها به جهت کوتاه تر شدن، بدون ذکر نوع دستوری، براساس بسامد واژهها به ترتیب از بیشترین به کمترین میزان تکرار در جدول شماره 1 ارائه شده است.
جدول شماره 1. فهرست درهمکرد واژههای بازدارنده سه رشته مورد مطالعه
[32]نتایج بررسی این سوال پژوهشی نشان داد از مجموع 248552 واژه به کار رفته در مقاله های مورد بررسی در هر سه رشته 97280 واژه (1291 واژه بدون احتساب بسامد)، به عنوان واژههای غیرمفهومی در سه رشته مورد مطالعه شناخته شدند. از لحاظ نوع دستوری میتوان بیانداشت که قیدها (9/45%)، افعال (04/14%)، حروف ربط (6/09%)، حروف اضافه (7/7%)، اعداد (25/4%)، ضمایر (01/4%) و ادات (07/%) به ترتیب بیشترین حجم از واژههای غیرمفهومی در سه رشته را به خود اختصاص داده اند.
3. واژههای غیر مفهومی چه حجمی از متون زبان فارسی هر یک از حوزههای مورد مطالعه را تشکیل میدهند؟
پس از شناسایی و استخراج فهرست واژههای بازدارنده هر یک از مقاله های سه حوزة مورد مطالعه، نسبت واژههای بازدارنده هر مقاله به تعداد کل واژههای آن مقاله محاسبه گردید که نتایج به دست آمده در جدول شماره 2 نشان داده شدهاست.
جدول شماره 2 .درصد واژههای بازدارنده هرمقاله درسه رشتة مورد مطالعه
رشتههای مورد مطالعه |
بدون احتساب علایم سجاوندی |
با احتساب علایم سجاوندی |
||||
واژههای متن |
واژههای بازدارنده |
درصد واژههای بازدازنده |
واژههای متن |
واژههای بازدارنده |
درصد واژههای بازدارنده |
|
رشته علوم تربیتی |
121963 |
48738 |
96/39 |
135956 |
63463 |
67/46 |
رشته روانشناسی |
63112 |
24344 |
57/38 |
72037 |
33359 |
30/46 |
رشته کتابداری |
63477 |
24198 |
12/38 |
72224 |
33239 |
02/46 |
هر سه رشته |
248552 |
97280 |
94/38 |
380217 |
130061 |
41/46 |
یافتههای جدول بالا نشان میدهد در رشتة علوم تربیتی 96/39% (بدون احتساب علایم سجاوندی)، در رشته روانشناسی 57/38% (بدون احتساب علایم سجاوندی) و در رشته کتابداری 12/38% از تعداد 248552 واژه (بدون احتساب علایم سجاوندی) از متون این رشتهها را واژههای بازدارنده تشکیل میدهد.
بهطورکلی، از تعداد 248552 واژه ( بدون احتساب علایم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل میدهد، 97280 واژه که 94/38% کل واژهها را شامل میشود، جزء واژههای بازدارنده هستند. درصورتی که با احتساب علایم سجاوندی، از 380217 واژه مورد بررسی، تعداد واژه بازدارنده به 130061 واژه خواهد رسید که 41/46% کل واژهها را تشکیل میدهد. به این ترتیب، مشخص میشود که علایم سجاوندی حدود 7% از کل یک متن را تشکیل میدهند.
4. بین سیاهه واژههای غیرمفهومی انگلیسی و واژههای غیرمفهومی به دست آمده در این پژوهش چه وجوه تشابه و تفاوتی وجود دارد؟
همان گونه که از پیشینة پژوهش برمیآید، دربارة واژههای بازدارنده زبان انگلیسی مطالــعات گوناگونی صـورت گرفتهاست. فهرست حاصل از مطالعة «فاکس» (1992) و فهــرست استاندارد SMART که هر دو نمـونههایی از فهرست واژههای بازدارنده در حوزه عمومی میباشند، بیشتر از فهرستهای دیگر در تحقیقات بعدی مورد استناد قرارگرفتهاست. ازآنجاکه فهرست SMART قابل دستیابی نبود، فهرست عمومی فاکس برای مقایسه بین فهرست واژههای بازدارنده انگلیسی و فارسی مورد استفاده قرارگرفت.
مقایسه صورتگرفته بین فهرست پژوهش حاضر و فهرست فاکس نشان داد برای 231 واژه از 421 واژه بازدارنده فهرست فاکس، 363 معادل فارسی در فهرست به دست آمده وجود دارد. همان طورکه قبلاً ذکر شد، فهرست واژههای بازدارنده حاصل از پژوهش حاضر از میان واژههای پیکره زبانی سه رشته علوم تربیتی، روانشناسی و کتابداری و اطلاعرسانی استخراج شدهاست؛ درحالیکه فهرست حاصل از پژوهش فاکس یک پیکره عمومی است. از سوی دیگر، به دلیل اینکه فاکس فهرست خود را براساس بسامد واژه تهیه کرده است، بسیاری از صورتهای مختلف فعلهای انگلیسی و صفتهای ساده، تفضیلی و عالی نیز در فهرست او دیده میشود. لیکن پژوهش حاضر چون براساس قواعد دستور زبان تهیه شده است، تنها افعال کمکی و معین را در بین واژههای بیمعنا و کممعنا قرار داده است؛ به همین دلیل اغــلب واژههایی که در فهرست فاکس فاقد معادل فارسی هستند، جزء گروه افعال می باشند. ضمن اینکه صفتها از این حیث مستثنا بوده و همگی جزء کلیدواژهها محسوب میشوند. بیشترین برابری بین واژههای فهرست فاکس و فهرست فارسی حاصل از پژوهش حاضر، به حروف ربط، اضافه (حروف اضافه ساده) و قیدهای مختص اختصاص دارد. ضمایر متصل «م، ت، ش، مان، تان، شان» معادل واژه های منفصل ... Me، His، Her میباشند که به دلیل اینکه واژه مجزا نیستند، در فهرست واژههای بازدارنده فارسی قرار نمیگیرند.
5. توزیع بسامد واژههای غیرمفهومی در رشــتههای علومتربیتی، روانشناسی و کتابداری و اطلاعرسانی چگونه است؟
نتایج اجرای آزمون کای اسکور بر روی فهرست حاصل از سه حوزة مورد مطالعه، نشان داد از میان 1291 واژه بازدارنده، 379 واژه یعنی 35/29% از کل واژهها دارای توزیع یکسانی بین سه رشته مورد مطالعه میباشند. به عبارت دیگر، در عین اینکه این واژهها در هر سه رشته مورد مطالعه کاربرد دارند، میزان تکرار آنها (بسامد واژه ها) در هر سه رشته تقریباً مشابه است. این واژهها جزء واژههای پربسامد در هر سه رشته مورد مطالعه میباشند؛ به طوری که واژههای «و، در، که، به، از، است، را، این، با و برای» 10 واژة پربسامد در هر سه رشته است.
از سوی دیگرP-Value ی 269 واژه یعنی 83/20% واژهها، کمتر از 0/05% میباشد که نشاندهنده آن است که این تعداد واژه فاقد توزیع بسامدی یکسان در سه رشته مورد مطالعه میباشند. به عبارتی، احتمال رخداد هریکاز واژههای این گروه که از دید دستور زبان فارسی بیشتر از میان حروف اضافه، ربط قیود خاص و افعال پربسامد زبان فارسی میباشند، در یکی از سه رشتة مورد مطالعه بیشتر از دو رشته دیگر است؛ به این معنا که احتمال استفاده و کاربرد این واژه در یک رشته خاص بیشتر از رشتههای دیگر بوده و در آن رشته متداولتر است. برای 644 واژه باقی مانده، به دلیل اینکه تنها در یکی از سه رشته مورد مطالعه رخ داده بودند، آزمون کای اسکور قابل اجرا نبود. این دسته از واژهها منحصراً مربوط به همان رشته خاص میباشند.
از آنجا که تهیة فهرست واژههای بازدارنده ای که مبتنی بر ساخت زبان مورد مطالعه باشد، مستلزم استخراج معیارهای نحوی و معنایی زبان مورد مطالعه است، ابتدا این معیارها شناسایی و مشخص گردید افعال (معین و همراه شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علایم سجاوندی بهعنوان واژه نمایه ها ظاهر نمی شوند. در سایر پژوهشهای صورت گرفته، بیشتر از شیوة بسامد واژگانی استفاده شده و تنها ابوالخیر (2003) در پایاننامه خود فهرستی عمومی از واژههای بازدارنده زبان عربی را بر اساس دستور زبان عربی، تهیه نموده است. اما در پژوهشهایی که بر مبنای بسامد واژگانی بوده است نیز برخی از نقشهای دستوری به عنوان واژه های بازدارنده معرفی شده اند که با پژوهش حاضر تناسب دارد. به طوریکه «لوان» (نقل شده در :نیاکان، 1383)، در پژوهش خود حروف ربط و حروف تعریف را جزء واژههای بیمعنایی می داند که بسامد بالایی دارند. «ساووی» (1999 و 2007) نیز در پژوهشهای خود پساز تعیین پربسامدترین واژهها و حذف تمامی اسامی و صفاتی که با موضوعات اصلی پیکره های مورد مطالعه مرتبط بودند، حروف اضافه، ربط، تعریف، ضمایر ملکی، شخصی و اشکال فعل Be را به عنوان واژههای پربــسامد و بیمعنا معرفی میکند.
بررسی واژههای غیرمفهـومی زبان فارسی در سه حوزة علوم تربیـتی، روانشــناسی و کتابـداری و اطلاعرسانی مشخص ساخت از بین مجموع 248552 واژه تشکیل دهنده متن مقاله های مورد بررسی در هر سه رشته، 97280 واژه (1291 واژه بدون احتساب بسامد)، به عنوان واژههای غیرمفهومی در سه رشتة مورد مطالعه شناخته شدند. با مقایسه نتایج پژوهش حاضر و موارد ذکر شده میتوان به این مطلب پیبرد که میزان واژههای غیرمفهومی معیّن شده با این روش بسیار بیشتر از فهرستهایی است که در سایر پژوهشها استخراج گردیدهاست و این نتیجه احتمالاً به دلیل تفاوت در شیوة استخراج واژههای غیرمفهومی است؛ به نحوی که بیشترین میزان واژههای غیرمفهومی در زبان انگلیسی توسط «فرانسیس و کوسرا» مشتمل بر 425 واژه و تقریباً 33% واژههای غیرمفهومی شناسایی شده در مطالعه «تقوا» تنها ناظر بر گروه فعلی است و تعداد آنها نیز بسیار اندک میباشد. در پژوهش «پوراسماعیل و رستمی» نیز تنها 204 واژه فارسی بهعنوان واژه بازدارنده استخراج شده است. میتوان چنین نتیجه گرفت که با استفاده از این شیوه، تعداد واژههایی که به عنوان واژههای غیرمفهومی شناسایی می شوند، افزایش مییابد.
نتایج نشان داد از بین 100 واژه پربسامد در هر رشته، 67 واژه در بین هر سه رشته تکرار شده است و تنها میزان تکرار آنها اندکی متفاوت است. بررسی حجم واژههای غیرمفهومی متون زبان فارسی در هر یک از رشتههای مورد مطالعه نیز نشان داد واژههای بازدارنده 94/38% کل واژه ها را شامل می شود. «فراکز و بیزا ـ یاتس» (1992) عنوان کردند واژههای بازدارنده احتمالا بین 20 تا 30% واژههای درون یک متن انگلیسی را شامل میشود. «سیروتکین و ویلبور» (1992) با اجرای آزمون آماری خود در مجموعه مدارک مورد بررسی تعداد 203040 واژه موجود در این مدارک را به 50508 واژه کاهش دادند. «یمـین و ویلبور» (1996) با استـفاده از روش ویلبور و سیروتکین نشان دادند با حذف 87% واژههای بازدارنده در یکی از چهار مجموعة مورد مطالعة خود، صرفهجویی 63 درصدی زمان، 74 درصدی حجم فایل مقلوب و در نهایت بهبود دقت بازبابی تا 10% حاصل میگردد. «ساووی» (1999) نشان داد با تعیین واژگان غیرمفهومی حجم فایل مقلوب بین 21 تا 35% کاهش مییابد. ازآنجاکه پژوهش حاضر بر اساس ساختار زبانی و واژگانی زبان فارسی صورتگرفته، تعداد واژههایی که میتوانند به عنوان واژة بازدارنده در نظرگرفته شود، افزایش مییابد. از سوی دیگر، میتوان نتیجهگرفت که میزان واژههای بازدارنده در متون زبان فارسی بیشتر از متون زبان انگلیسی است. این نتایج نشان میدهد میزان حشو و زواید در متون زبان فارسی زیاد است.
پرداختن به وجوه تشابه و تفاوت بین سیاهة واژههای غیرمفهومی انگلیسی و واژههای غیرمفهومی فارسی نیز یکی دیگر از اجزای پژوهش حاضر بود. نتایج به دست آمده نشان داد برای 231 واژه از 421 واژه بازدارنده فهرست فاکس، تعداد 363 معادل فارسی در فهرست به دست آمده وجود دارد. بیشترین برابری بین واژههای فهرست فاکس و فهرست فارسی حاصل از پژوهش حاضر به حروف ربط، اضافه (حروف اضافه ساده) و قیدهای مختص اختصاص دارد. ضمایر متصل «م، ت، ش، مان، تان و شان» معادل واژههای منفصل ...Her, His, Me است که به دلیل اینکه واژه مجزا نیستند، در فهرست واژههای بازدارنده فارسی قرار نمیگیرند.
بررسی توزیع بسامد واژههای غیرمفهومی در رشتههای مورد مطالعه نشان داد P-Value ی 269 واژه یعنی 83/20% واژهها، کمتر از 0/05 % است که به این معناست که این تعداد واژه فاقد توزیع بسامدی یکسان در سه رشته مورد مطالعه میباشند. به عبارتی، احتمال رخداد هر یک از واژههای این گروه که از دید دستور زبان فارسی بیشتر از میان حروف اضافه، ربط قیود خاص و افعال پربسامد زبان فارسی میباشند، در یکی از سه رشته مورد مطالعه بیشتر از دو رشته دیگر است؛ به این معنا که احتمال استفاده و کاربرد این واژهها در یک رشته خاص بیشتر از رشتههای دیگر بوده و در آن رشته متداولتر است. بررسی توزیع بسامدی واژه های غیرمفهومی شناسایی شده نشان داد تعداد قابل توجهی واژه در این فهرست وجود دارد که بسامد پایینی دارند، بنابراین می توان نتیجه گرفت که استفاده از روش بسامد واژگانی در شناسایی واژه های بازدارنده احتمالا نتواند در زبان فارسی کارایی لازم را داشته باشد.
به طور کلی، میتوان بیان داشت که نتایج به دستآمده از پژوهشهای انجام شده در حوزة ذخیره و بازیابی اطلاعات نشان داد واژههای بازدارنده بهعنوان یکی از ضروری ترین بخشها در نمایهسازی و چکیدهنویسی پایگاه های اطلاعاتی، نقش مهمی در کاهش حجم پایگاه های اطلاعاتی و نرمافزارهای اطلاعرسانی ایفا میکنند و سبب تسهیل در امر بازیابی، افزایش میزان مانعیت مدارک بازیابی شده، کاهش زمان جستجو و ... میشوند.
1. باقری، مهری(1367). «مقدمات زبانشناسی». تبریز: دانشگاه تبریز.
صفوی، کورش(1360). «درآمدی بر زبانشناسی». تهران: بنگاه ترجمه و نشر.
نجفی، ابوالحسن(1380). «مبانی زبانشناسی و کاربرد آن در زبان فارسی». تهران: نیلوفر.
هادسن، گرور(1383). «مباحث ضروری و بنیادین زبانشناسی مقدماتی (ضرورت زبانشناسی مقدماتی)». ترجمه علی بهرامی. تهران: رهنما.
پالمر، فرانک(1366). «نگاهی تازه به معنی شناسی». ترجمه کورش صفوی. تهران: مرکز.
مشکوة الدینی، مهدی(1382). دستور زبان فارسی بر پایه نظریه گشتاری (ویرایش 2). مشهد: فاطمی.
2. شفائی، احمد(1363). «مبانی علمی دستور زبان فارسی». تهران: نوین.
بابک، علی(1383). «دستور زبان فارسی پژوهشی معاصر». تهران: دانشگاه آزاد اسلامی مشهد: سخن.
مشکوةالدینی، مهدی(1384). «دستور زبان فارسی (واژگان و پیوندهای ساختی)». تهران: سمت.
وحیدیان کامکار، تقی؛ عمران، غلامرضا، (1385). دستور زبان فارسی (1). تهران: سازمان مطالعه و تدوین کتب علوم انسانی(سمت).
ناتل خانلری، پرویز (1359). دستور زبان فارسی (با تجدیدنظر). تهران: توس.
مشکوة الدینی، مهدی (1384). دستور زبان فارسی. واژگان و پیوندهای ساختی. تهران: سازمان مطالعه و تدوین کتب علوم انسانی(سمت).
معین، محمد(1378). فرهنگ فارسی (متوسط): شامل یک مقدمه و سه بخش لغات، ترکیبات خارجی، اعلام .... تهران: امیرکبیر.
مرزبان راد، علی(1378). دستور سودمند. تهران: دانشگاه صنعتی امیرکبیر.
محتشمی، بهمن(1370). دستور کامل زبان فارسی. تهران: اشراقی.
صهبا، عبدالرشید (1371). حرفهای ربط، اضافه، نشانه در دستور زبان فارسی برای استفاده دانش آموزان، دانشجویان و پژوهندگان. تهران: غزل.
غلامعلی زاده، خسرو(1374). ساخت زبان فارسی. تهران: احیاء الکتاب.
فرشیدورد، خسرو(1382). دستور مفصل امروز. تهران: سخن.
فرشیدورد، خسرو(1386). دستور برای لغت سازی: فرهنگ پیشوندها و پسوندهای فارسی به همراه گفتارهایی درباره دستور زبان فارسی. تهران: زوار.
کلباسی، ایران(1380). ساخت اشتقاقی در فارسی امروز. تهران: پژوهشکده علوم انسانی و مطالعات فرهنگی.
دهخدا، علی اکبر(1383). لغتنامه. (با همکاری محمد معین، جعفر شهیدی). تهران: موسسه لغتنامه دهخدا.
خطیب رهبر، خلیل(1379). دستور زبان فارسی: کتاب حرف اضافه و ربط مشتمل بر تعریف و تقسیم و شرح اصطلاحات و معانی و کاربرد حروف. تهران: مهتاب.
خطیب رهبر، خلیل(1381). دستور زبان فارسی: برای پژوهش دانشجویان و ادب دوستان در آثار شاعران و نویسندگان بزرگ ایران. تهران: مهتاب.
باطنی، محمدرضا(1382). توصیف ساختاری دستوری زبان فارسی بر بنیاد یک نظریه عمومی زبان. تهران: امیرکبیر
انوری، حسن(1381). فرهنگ بزرگ سخن. تهران: سخن.
انوری، حسن؛ احمدی گیوی، حسن (1377). دستور زبان فارسی 2 (ویرایش 2). تهران: فاطمی
احمدی گیوی، حسن(1380). دستور تاریخی فعل. تهران: قطره.