شناسایی واژه‌های غیرمفهومی (رایج) در نمایه سازی خودکار مدارک فارسی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 کارشناس ارشد علوم کتابداری و اطلاع‌رسانی و مسئول بخش فهرستنویسی کتابخانه مرکزی دانشگاه امام رضا (ع)

2 دانشیار گروه کتابداری و اطلاع رسانی دانشگاه فردوسی مشهد

چکیده

پژوهش حاضر با هدف شناسایی واژه‌های غیرمفهومی در زبان فارسی و تهـیه سیاهه‌ای از این واژه‌ها برای نمایه‌سازی خودکار متنهای فارسی در رشته‌های روانشناسی، علوم‌تربیتی و کتابداری و اطلاع‌رسانی انجام شده است. این پژوهش با روش تحلیل محتوا صورت گرفته‌است. جامعه آماری این پژوهش را مقاله‌های مندرج در آخرین شماره منتشر‌شده در مجله‌های علمی و پژوهشی ِ رشته‌های علـوم‌تربیتی، روانشناسی و کتابداری و اطلاع‌رسانی در سال 1385 تشکیل می‌دهد. نمونه شامل 63 مقاله است. گردآوری داده‌ها با استفاده از تفکیک واژگان به صورت ماشینی و دستی صورت گرفت. نتایج پژوهش نشان داد: 1- افعال ( معین و همراه‌شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علائم سجاوندی به‌عنوان واژه نمایه‌ها ظاهر نمی‌شوند، بنابراین، آنها را می‌توان واژه‌های غیرمفهومی یا به اصطلاح واژه‌های بازدارنده تلقی کرد. 2- بدون احتساب علائم سجاوندی، در رشتة علوم تربیتی 96/39%، در رشته روانشناسی 57/38% و در رشـــته کتابداری 12/38%  از حجم متون را واژه‌های غیرمفهومی تشکیل می‌دهد. 3- واژه‌های بازدارندة پربسامد در هرسه حوزه تقریبا مشابه است. 4- از تعداد 248552 واژه (بدون احتساب علائم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل می‌داد، 97280 واژه که 94/38% کل واژه‌ها را شامل می‌شود، جزء واژه‌های بازدارنده هستند.5- نتیجة مقایسه فهرست فارسی حاصل از پژوهش با فهرست واژه‌های بازدارنده انگلیسی نشان داد بین این دو فهرست به میزان 5/28% همپوشانی وجود دارد. 6. همچنین 38/20% از واژه‌ها فاقد توزیع بسامدی یکسان در سه رشتة مورد مطالعه می‌باشند.
 
 

کلیدواژه‌ها


مقدمه

نمایه­سازی فرایند تحلیل محتوای اطلاعاتی، پیشینه­ای از دانش و بیان­کردن محتوای اطلاعاتی در زبان نمایه­سازی از طریق اصطلاحات نمایه­ای است. به این ترتیب، نمایه­سازی حداقل سه مرحله دارد:

1.انتخاب مفاهیم قابل نمایه در یک مدرک

2.بیان­کردن این مفاهیم در زبان نمایه­سازی ( به صورت واژه نمایه­ها[1] )

3.تهیه یک فهرست مرتب­شده از این شناسه­ها (لاتینن[2]، 2000:ص. 29)

نمایه­سازی یا به­صورت دستی و یا به­صورت ماشینی[3] است. هنگامی­که اصطلاحات نمایه­ای توسط نمایه­ساز انتخاب شود، نمایه­سازی دستی است و چنانچه همه امور انتخاب کلیدواژه، ترتیب­بندی و ... توسط رایانه انجام شود، نمایه­سازی ماشینی است. اکثر روشهای نمایه­سازی خودکار موجود، برای انتخاب اصطلاحات نمایه­ای از زبان طبیعی[4] استفاده می‌کنند. در این شیوه تکواژه­ها و عبارتهای چندواژه­ای برای انعکاس محتوای متن، مستقیماً از عنوان، چکیده و متن کـامل یک مدرک انتخاب می­شوند(موئنز[5]،2003: ص. 24).

در مجموع، در نظامهای نمایه­سازی رایانه­ای سعی نشده­است تا عملکرد ذهنی شخص نمایه­ساز تقلید شود. برنامه­ریزی رایانه­ای به منظور گزینش اصطلاحات حایز اهمیت از متنی با زبان طبیعی، مستلزم این است که برنامه درک خوبی از زبانشناسی و دانش لازم در مورد موضوعی که تحت بررسی است، داشته­باشد. البته، این امر در حال حاضر برای تمام و یا اکثر نظامهای بازیابی کار بسیار بزرگی است. در عوض، نمایه­سازی خودکار به روشهایی که بر فراوانی نسبی کلمات در متن مبتنی است، تکیه دارد (ویکری و یکری[6]،1380:ص180).

می­توان مراحل زیر را در فرایند نمایه­سازی خودکار درنظر گرفت:

1.شناسایی واژه­های انفرادی از متن که تحلیل واژگان[7] نامیده­می­شود (موئنز، 2003: ص. 77)

2.برداشتن واژه­های کاربردی و واژه­های با بسامد تکرار بالا که در ارائه محتوای متن بــــی­تأثیرند، با استفاده از فهرست واژه­های غیرمجاز.

3.تبدیل واژه­های باقی‌مانده به شکل ریشه[8] آنها؛ یعنی حذف پسوند­ها یا پیشوندها تا هر کلمه تا حد ریشه­اش کوتاه شود.

4.محاسبة رایانه­ای بسامد رخداد­های ریشه­هایی که در متن تحلیل شده­اند، به منظور تعیین تابع ارزشگذاری هر ریشه.

5.ریشه­هایی که نسبت به بعضی ارزشهای قراردادی آستانه­ای[9]، ارزشگذاری بزرگتری دارند، برای متنی که در آن ظاهر شده، به ­عنوان کلیدواژه تعیین می­شود. در بعضی نظامها، کلیدواژه ممکن است ارزشی متناسب با ارزش تابع ارزشگذاری داشته باشد (ویکری و ویکری[10]، 1380: ص. 183).

به هر حال، تعیین واحدهای متنی و مشخص کردن حد و حدود واژه برای ماشین از مسائل اساسی در گزینش اصطلاحات نمـایه­ای در نمـایه­سـازی خودکار است (گیلوری، 1379). به­ علاوه، امکان تشخیص واژه­های مفهومی از واژه­‌های غیرمفهومی، در فرایند انتخاب اصطلاحات نمایه تأثیر بسزایی دارد. آنچه مسلم است، ماشین امکان تشخیص را تنها از طریق تطـبیق واژه­های استخراج شده از متن یا منتسب شده به متن با فهرستی که واژه­های غیرمجاز نامیده می­شـود، به دســـت می­آورد. در اختیار داشتن فهرستی از این واژه­ها و ارائه آنها به برنامه رایانه­ای برای ممانعت از ورود آنها به فهرست واژه­های مفهومی مطلوب برای نمایه­شدن، یکی از اقدامهای سودمند در نمایه­سازی خودکار مبتنی بر کلیدواژه­هاست.

تحلیل کلمات یک متن نشان می­دهد گروهی از کلمات بی­اهمیت وجـــــوددارد که به­فراوانی در متن ظاهر می­شود (مانند یک، به، نه، برای، با، چه کسی، چه موقع، است، آن). گروهی نیز وجود دارد که بندرت در متن می­آیند و ممکن است نشان­دهنده محتوای اطلاعاتی متن نباشند (ویکری و ویکری، 1380:ص180). این دسته از واژه­ها به تنهایی بارمعنایی ندارند (حاوی معنا و مفهوم نیست) بلکه در ارتباط با واژه­های دیگر معنا می­یابند. به این ترتیب، مفهوم و محتوای متن را نشان نمی‌دهند. از طرف دیگر، بود یا نبود آنها نه تنها در پرسش کاربر تأثیری ندارد، بلکه در میزان ربط یا عدم ربط مدارک بازیابی شده نیز تأثیری نخواهدداشت. این واژه­ها با­ عنوان واژه­های غیرمجاز برای ورود به نمایه معرفی می‌شوند. درصورتی­که واژه­های غیرمجاز قبل از فرایند نمایه­سازی مدارک مشخص و فهرست آنها برای کنترل به رایانه داده­شود، علاوه­بر صرفه­جویی در زمان و حجم بایگانیهای نمایه، به میزان زیادی از بازیابی مدارک نامرتبط و ریزش کاذب در جستجو جلوگیری خواهدشد (زو و دیگران[11]، 2006).

با گسترش مدارک الکترونیکی فارسی و به تبع آن کاربران فارسی زبان و همچنین ویژگیهای خاص زبان و خط فارسی، نیاز به توجه و بهبود روشهای نمایه­سازی بیش ­از پیش احساس می‌شود. زبان فارسی مانند هر زبان دیگری واژه­هایی دارد که هیچ گونه سهمی در ارائه بار معنایی مدرک ندارند، ولی فهرستی از پیش آماده از این‌گونه واژه­ها در دسترس نبوده و مشخص نیست چگونه باید انتخاب شوند. بنابراین، مسئله اساسی این پژوهش آن است که: معیارهای شناسایی واژه­های غیرمفهومی در زبان فارسی کدام است؟ و آیا می­توان سیاهه­ای از این واژه­ها را برای نمایه­سازی خودکار متنهای فارسی در حوزه روانشــناسی، علوم­تربیتی و کتابداری و اطلاع­رسانی تهیه کرد؟

 

هدفهای پژوهش

این پژوهش با بهره­گیری از اصول ساختاری زبان فارسی، درپی دستیابی به هدفهای زیر است:

  • شناسایی معیارهای نحوی و معنایی زبان فارسی در تشخیص واژه­های غیرمفهومی
  • تهیة سیاهه‌ای از واژه­های غیرمفهومی در زبان فارسی
  • مقایسه واژه­های غیرمفهومی فارسی و انگلیسی
  • بررسی چگونگی توزیع بسامد واژه­های غیرمفهومی فارسی در سه رشتة علوم تربیتی، روانشناســی و کتابداری و اطلاع­رسانی.

 

سؤالهای پژوهش

1.معیار­های نحوی و معنایی شناسایی واژه­های غیرمفهومی در زبان فارسی کدام است؟

2.واژه­های غیرمفهومی در زبان فارسی که بتواند در نمایه­سازی خودکار مدارک فارسی هر یک از حوزه­های مورد مطالعه نادیده گرفته­شود، کدام است؟

3.واژه­های غیرمفهومی چه حجمی از متون زبان فارسی هر یک از حوزه‌های مورد مطالعه را تشکیل می­دهد؟

4.بین سیاهة واژه­های غیرمفهومی انگلیسی و واژه­های غیرمفهومی به دست آمده در این پژوهش، چه وجوه تشابه و تفاوتی وجود دارد؟

5.توزیع بسامد واژه­­های غیرمفهومی در رشــته­های علوم­تربیتی، روانشناسی و کتابداری و اطلاع­رسانی چگونه است؟

پیشینة پژوهش

تاریخچة نمایه­سازی خودکار بر مبنای بسامد تکرار واژه، به دهة 1950 و تحقیقات «لوان»[12](1975) و «باکسن دال»[13] (1958) بر می­گردد. پیش فرض کلی در بازیابی اطلاعات این است که اصطلاحات با بسامد متوسط، مناسب‌ترین اصطلاحات برای نمایه­سازی هستند. این فرض اساس کار «زیف»[14] (1949) قرار گرفت.

«فاکس»[15] (1990) از یک شیوة رایج، یعنی واژه­های پر­بسامد گروهی بزرگ از آثار نوشته شده در همان زبان، استفاده کرد. بسامد واژه­ها در یک مجموعه مواد انگلیسی با عنوان پیکره زبانی براون در حوزه­های موضوعی متنوع تعیین شده­است. مراحل کار فاکس را می توان در مراحل زیر خلاصه کرد:

  • تعیین بسامد واژه­ها در یک مجموعه از مدارک نوشته شده
  • محدودکردن فهرست به اندازة مناسب برای استفاده (تعیین نقطه برش. فاکس    300 بار تکرار واژه را انتخاب نمود)
  • حذف واژه های بامعنی اما با بسامد بالا در سیاهة واژه­های بازدارندة اولیه.
  • اضافه کردن واژه­های پربسامد و کم­اهمیتی که نقطه برش را ازدست­داده­اند.

«فرانسیس و کوسرا»[16] (نقل شده در : گیلوری 1379) در مرحله اول ده کلمه پر بسامد را تعیین و در مرحله دوم فهرستی از 425 کلمه ممنوعه را تهیه کردند . «رایجزبرگن»[17] ( نقل شده در: گیلوری 1379) نیز فهرستی ارائه داد که از 150 کلمه بازدارنده تشکیل شده بود. فهرست برگمن در سال 1975 منتشر شد.

در سال 1987، در کتابخانة بازمن[18] دانشگاه ایالت مونتانا فهرستی از واژه­های بازدارنده نرم و سخت برای فهرست پیوسته آن با هدف جلوگیری از نمایه­سازی آنها و درنتیجه بازیابی آنها تهیه شد. در سال 1992 به دلیل تغییر در نرم افزار پایگاه اطلاعاتی و  نیاز به نمایه­سازی مجدد مدخلهای آن، بهترین فرصت جهت ارزیابی و بهبــود فهرست واژه­های بازدارنده به دست آمد.

«سیروتکین و ویلبور»[19] (1992) با استفاده از این پیش فرض که واژه­های بازدارنده به عنوان واژه­هایی که احتمال رخداد یکسانی در مدارک مرتبط و نامرتبط با درخواست اطلاعاتی دارند، شناخته می­شوند، پژوهشی را انجام دادند. آنها بیان می­کنند که این احتمال وجود دارد واژه­های بازدارنده در یک مجموعه با استفاده از یک روش بازیابی برداری مبتنی بر ضریب تأثیر کسینوس مدارک و تشابه مدارک انجام ­گیرد. نتیجه بررسی سیروتکین و ویلبور در مجموعه­ای از مدارک مدلاین (71311 مدرک) در حوزة بیوتکنولوژی کاهـش 203040 تک­واژه در این مدارک به 50508 ( کاهش 78 درصدی) تک­واژه است. 

«یمـین و ویلبور»[20] (1996) با استـفاده از روش ویلبور و سیروتکین (1992) و دو روش طبــقه­بندی آمــاری (Expert Network و LLSF ) برای بازیابــی و دسته­بندی مدارک و یک روش تطابق واژه­محور برای جستجو در پایگاه‌ها ([21] WBM) استفاده نمودند. در این بررسی، به­ عنوان مثال روش  Expert Network روی مدارک کتابخانه ملی پزشکی آمریکا، با حذف 87% واژه­های بازدارنـده، 8002 واژه به 1042 واژه کاهـش یافـت و در نتیـجه باعـث صرفه‌جویی 63 درصدی زمان، 74 درصدی در حجم فایل مقلوب و در نهایت بهبود دقت بازیابی تا 10% گردید.

«برگ»[22] (1997) با استفاده از روش «ادمونسون و وایلز»[23] (1959) درمورد تعیین اهمیت واژه، پژوهشی را در زمینه تعیین واژه‌های بازدارنده در یک حوزه موضوعی مشخص بر اساس مجموعه­ای از مدارک نیروی هوایی آمریکا انجام داد.

«ساووی»[24] (1999) برای شناسایی واژه­های بازدارنده در زبان فرانسوی از پیکره­ای شامل دو مجموعه آزمایشی استفاده کرد.  وی با پیروی از خط مشی فاکس ابتدا200 واژه پربسامد را استخراج کرد؛ سپس با بازبینی فهرست به دست­ آمده، تمام اسمها و صفتهایی که بسامد بالایی داشتند ولی با موضوعات اصلی پیکره مرتبط بودند، از فهرست حذف شدند. ضمن اینکه بعضی واژه‌های غیر اطلاعی که در200 واژه پربسامد ظاهر نشده بودند مانند ضمایر ملکی و شخصی، حروف اضافه، ربط و تعریف و بعضی از اشکال فعل Be به این فهرست ابتدائی اضافه شد. فهرست نهایی شامل215 واژه است و هنگامی که از چنین فهرستی استفاده می شود، اندازه فایل مقلوب برای مجموعه آزمایشی اول تا حدود 21% و برای مجموعه آزمایشی دوم حدود 35% کاهش می یابد.

«هو»[25] (1999) پژوهشی را با استفاده از این حقیقت زبانشناسی که بیش از نیمی از واژه­های یک نمونه صفحه انگلیسی از میان 150 واژه­بازدارنده رایج هستند، یک شیوة سریع برای تعیین محل واژه­های بازدارنده ارائـه می­دهد. این روش از سنجش دامنه واژه‌های انفرادی و واژه­های همجوار آنها استفاده می­کند. در یک آزمایش با استفاده از 400 تصویر از صفحات، این روش 63% از واژه­های زاید متن را حذف کرد. وی بیان می‌کند تمایز بین واژة بازدارنده و غیربازدارنده اغلب به تشــخیص کلیدواژه کمک می‌کند.

«ساووی» 2001، 2002 و 2007) براساس کار قبلی خود فهرستی از واژه­های بازدارنده را برای زبانهای فنلاندی، ایتالیایی، آلمانی، اسپانیایی و بلغاری شناسایی نمود. با استفاده از همین شیوه، «ساووی و راسولوفو»[26] (2003) فهرست واژه­های بازدارنده در زبان عربی را نیز ایجاد کردند. فهرست ایجاد شده مبتنی بر پیکره زبان عربی است که توسط دیوید کرافت و کوین والکرد در کنسرسیوم اطلاعات زبانشناسی در فیلادلفیا شکل­گرفته و دربرگیرندة 383/872 مدرک (76 میلیون علامت) حاوی بیش از 094/666 تک واژه است.

«ابوالخیر» در پایان­نامه دکتری خود با عنوان «اثربخشی روشهای پردازش متن برای بازیابی زبان عربی» به فهرســتی از واژه­های بازدارنده نیازداشت. به این منظور، با استفاده از سه شیوة متفاوت: 1- مبتنی بر ساختار و ویژگیهای زبان عربی 2- مبتنی بر آمارهای پیکره زبانی و 3- ترکیبی از این دو روش، فهرستی از واژه­های بازدارنده زبان عربی را تهیه نمود.

در پژوهشی دیگر، «زو و دیگران»[27] (2006) برای استخراج واژه­های بازدارنده در زبان چینی از یک روش خودکار یکپارچه مبتنی بر الگوهای اطلاعاتی و آماری استفاده کردند. الگوی آماری بر اساس احتمال و توزیع واژه و الگوی اطلاعاتی بر اساس اهمیت واژه با استفاده از نظریه اطلاعـات عمـل می­کند. در انـتها نتـایج به دست­آمـده از این دو الگـو یکـپارچه می­شوند.

«لازارینیس»[28] (2007) مقاله ای را با هدف پردازش ساختمان فهرستی از واژه­های بازدارنده برای زبانهای غیر لاتین و ارزیابی تأثیر حذف این واژه ها از پرسش کاربران ارائه داد. برای انجام این پژوهش، مجموعه ای از 32 پرسش موثق و صحیح که توسط کاربران پیشنهاد­شده­بود، یک نوبت با درنـــظرگرفتن واژه­های بازدارنده و نوبت بعد بدون این واژه­ها به موتور کاوش گوگل داده­ شد. به این ترتیب، اهمیت حذف واژه­های بازدارنده از عبارت پرسش بر حسب ربط در 10 نتیجه برتر گوگل ارزیابی شده­است.

اما بررسی متون و مرور نوشتار نشان می­دهد در مورد واژه­های بازدارنــده در زبان فارسی کارهای معدود و پراکنده­ای صورت پذیرفته است که در ادامه به آن پرداخته خواهد شد.

«تقوا، بکلی و سده»[29] (2003) مجموعه­ای متشکل از 1850 مدرک در یک دورة    6 ماهه از میان وب­سایتهای فارسی با حوزه­های موضوعی متنوع که عمدتاً نسخــه الکترونیکی روزنامه­ها و مجـــله های مشهور ایرانی بــودند، و یا وب­سایتهای فارسی طراحی­شده در آمریکا را جمع­آوری­کردند. آنها فهرست خود را بر اساس پراکندگی واژه­ها تهیه نمودند. در فهرست نهایی 12 فعل وجود داشت که «تقوا و همکارانش» به جای فهرست­کردن همه وجوه و زمانهای این افعال، تنها زمان گذشته و حال  بن فعل را در فهرست خود وارد کردند. 

«پور اسماعیل و رستمی» (1384 ) ابتدا فهرست تقوا، بکلی و سده(2003) را برای صیغه­ها و زمانهای مختلف کامل کردند. این فهرست شامل 204 فعل فارسی است. سپس با کمک مجموعه آزمون استاندارد محک که بالغ بر 3000 مستند را شامل می­شود، بسامد کلمات مختلف را محاسبه نمودند و از میان آنها در مرحله مقدماتی کلماتی را که بسامدی بیشتر از 1000 بار داشته اند انتخاب و سپس فهرست نهایی را که شامل 34 واژه می­شود، استخراج کردند.

«داورپناه و بلندیان» (1386) پژوهشی را با موضوع نمایه­سازی ماشینی متون فارسی براساس قانون زیف انجام دادند. نتایج نشان داد توزیع فراوانی واژگان در متون فارسی دارای الگوی پیش­بینی­پذیر است. کاربرد واژه­های با بسامد بالا و بسامد پایین درمقاله های فارسی، از قانون زیف پیروی می­کند. همچنین، مشخص شد بسامد واژگانی می­تواند به عنوان معیاری برای نمایه­سازی ماشینی متون فارسی در نظرگرفته ­شود. وضعیت همخوانی کامل بین بسامد واژگانی و کلیدواژه­های موضوعی در شیوة تفکیک صرفا ماشینی بدون دخالت عامل انسانی به طور متوسط در کل مقاله های مورد بررسی به میزان 50/21% است. در شیوة تفکیک ماشینی با دخالت عامل انسانی، میزان همخوانی به 52% می­رسد. وضعیت همخوانی کامل بسامد واژگانی با کلیدواژه­های عنوانی  در شیوة صرفاً ماشینی بدون دخالت عامل انسانی، به طور متوسط در کل، مقاله های مورد بررسی 20/9% است که در شیوة ماشینی با دخالت عامل انسانی این میزان بیشتر از 5 برابر شده و به 14/54% می­رسد.

 

روش پژوهش، جامعه آماری و حجم نمونه

این پژوهش با استفاده از روش تحلیل محتوا انجام پذیرفت. جامعه آماری این پژوهش، مقاله های مندرج در آخرین شماره منتشر شده در مجله های علمی و پژوهشی در رشته­های علــــوم­تربیتی، روانشناسی و کتابداری و اطلاع­رسانی در سال 1385 است. این مجله ها از فهرست مجله های مورد تأیید وزارت علوم، تحقیقات و فناوری در همین سال شناسایی شد که به شرح ذیل است:

  • پژوهش در مسائل تعلیم و تربیت/ انجمن ایرانی تعلیم و تربیت
  • نوآوریهای آموزشی/ وزارت آموزش و پرورش
  • آموزش عالی ایران/ انجمن آموزش عالی ایران
  • پژوهش و برنامه­ریزی در آموزش عالی/ مؤسسه پژوهش و برنامه­ریزی آموزش عالی
  • روانشناسی و علوم­تربیتی/ دانشگاه تهران
  • روانشناسی و علوم­تربیتی/ دانشگاه تبریز
  • علوم تربیتی و روانشناسی/ دانشگاه شهید چمران
  • مطالعات تربیتی و روانشناسی/ دانشگاه فردوسی مشهد
  • پژوهشهای روانشناختی/ رضا زمانی (بخش خصوصی)
  • تازه­ها و پژوهشهای مشاوره/ انجمن مشاوره ایران
  • روانشناسی/ انجمن ایرانی روانشناسی
  • کتابداری و اطلاع­رسانی/ کتابخانه مرکزی و مرکز اسناد آستان قدس رضوی

با استفاده از جدول تعیین حجم نمونه مورگان، برای 73 عنوان مقاله (کتابداری    20 عنوان، روانشناسی 22 عنوان و علوم­تربیتی 31 عنوان مقاله) حجم نمونه پژوهش         63 عنوان مقاله است؛ و از آنجا که تعداد مقاله های سه رشته با هم برابر نبود، تعداد مقاله‌های هر رشته براساس فرمول زیر محاسبه و تعیین شد:

تعداد مقاله های هر رشته در نمونه=  حجم نمونه×

حجم جامعه آن طبقه

حجم کل جامعه

 

 

با روش نمونه­گیری تصادفی طبقه­ای، در رشته کتابداری 17 عنوان مقاله، رشته روانشناسی 19عنوان و در رشته علوم­تربیتی 27 عنوان مقاله انتخاب شد.

گردآوری داده­ها

برای تهیه سیاهة واژه­های غیرمجاز از متون مورد مطالعه، اولین گام، تفکیک واژگان این متون بود. برای رسیدن به این هدف، مراحل زیر انجام پذیرفت:

1. تهیه متن الکترونیکی

در اولین گام نسخه الکترونیکی مقاله های منتشرشده در آخرین شماره مجله‌های علمی و پژوهشی در سه رشته مورد مطالعه در سال 1385 در محیط نرم­افزاری Word که امکان تفکیک واژگان متن در آن وجود دارد، تهیه شد.

2. تفکیک واژگان

برای استفاده از اصول به دست آمده و استخراج واژه­های غیرمفهومی از میان دیگر واژه­ها، واژگان هر یک از مقاله های حجم نمونه (63 مقاله) تفکیک شد. تفکیک واژگان متن هر یک از مقاله ها به صورت ماشینی و با استفاد از فرامین موجود در نرم افزار Word صورت پذیرفت. سپس واژگان تفکیک­ شده هر متن براساس معیارهای زبانشناسی، قواعد دستوری و آیین نگارش فارسی ازلحاظ نوع و بار معنایی به ­صورت دستی بررسی و ویرایش گردید. به این ترتیب، در تایپ مجدد متن مقاله ها و در تفکیک واژگان، معیارهای زیر مورد استفاده قرارگرفت:

  • · همه صیغه­ها، وجوه و انواع فعل، به­صورت یک واژه ←  فراهم شده­است، رفته بودم
  • · افعال مرکب به­صورت یک واژه ← بناکرد
  • · افعال پیشوندی به­صــورت یـک واژه ← ازدســـت­داده­است
  • · مصدرهای مرکب به­صورت یک واژه  ← پیش رفتن
  • · اسامی مرکب به­صورت یک واژه ← آیین نامه
  • · اسامی پیشوندی به­صورت یک واژه ← بی­گناه ، به سرعت
  • · اسامی میانوندی به­صورت یک واژه ← خودبه­خود
  • · پاره­های غیرمستقل و واژه­های ترکیبی به­صورت یک واژه ← همکار
  • · عبارتهایی که به­عنوان گروه اسمی، گروه قیدی، گروه حرف اضافه  شناخته می‌شوند، چون براساس مفهومی که حامل آن هستند غیرقابل تفـکـیـک می­باشند، به‌ صورت یک واژه ← محمدحسین دیانی، شنای صدمتر
  • · نام­آواها به­صورت یک واژه ← جیک­جیک ، وزوز
  • · فاصله درمورد افعال حذف می­شوند ← می­گیرد
  • · فاصله درمورد  علامت جمع (ها، های، هایی) حذف شده و شمارش نمی­شوند ← ماشین­ها
  • · فاصله درمورد تکواژهای صرفی ( تر، ترین) حذف شده و شمارش نمی­شوند ← خوشبخت ترین
  • · آیه­های قرآن و واژه­های انگلیسی (خارجی) درصورت وجود به دلیل غیرفارسی بودنشان حذف می­شوند.
  • · اختصارات حذف­شده و شمارش نمی­شوند ← ج. Cm   ( داورپناه و بلندیان، 1386)

3.شمارش بسامد واژگان

برای شمارش واژگان مرتب­شده هرمتن، از دستور Word Count استفاده­شد.

 

یافته­های پژوهش

با استفاده از داده­های گردآوری شده به سؤالهای پژوهش پاسخ داده شد که توضیح آن به شرح زیر است:

1. معیار­های نحوی و معنایی شناسایی واژه­های غیرمفهومی در زبان فارسی کدام است؟

با مطالعه متون و کتابهای مربوط به حوزه زبانشناسی[30]، دستور زبان فارسی[31] و متون مربوط به تهیه و تدوین اصطلاحنــامه­ها ساخت واژگانی زبان فارسی مورد مطالعه قرارگرفت؛ سپس اصول و قواعدی مشخص و مستدل استـــخراج شد که با استناد به آنها، شناسایی و استخراج واژه­های کم­معنا یا بدون معنا در زبان فارسی امکان پذیر خواهد بود. این اصول و قواعد عبارتند از:

  • به کوچکترین واحد معنادار که در ساخت واژه مشخص می گردد، تکواژ گفته می­شود.
  • تکواژها از دید کم ­و ­بیشی در تعداد بسامد (کاربرد) به دو گروه محدود یا بسته و نامحدود یا باز تقسیم می­شوند.
  • تکواژهای زبان از نظر ایفای نقش به دو گروه تکواژهای قاموسی و تکواژهای دستوری تقسیم می­شوند.
  • § تکواژهای قاموسی معنای مستقلی داشته و بر اشیا، اعمال و کیفیات خاص که قابل حس و لمس و درک هستند دلالت دارند. تعداد اجزا و آحاد این گروه از واژه­ها، ثابت، معیّن و محدود نیست و فهرست آنها در زبان باز است.
  • § تکواژهای دستوری اغلب به تنهایی به­کار نمی­روند (کارکرد دستوری دارند) و معنای آنها با پیوستن به تکواژهای دیگر آشکار می­شود. این گروه دارای شمار معیّن و ثابتی از اعضا و اجزا هستند. فهرست این تکواژها بسته و محدود است.
  • هرچه تعداد آحاد و تکواژها بیشتر باشد، بسامد آنها کمتر می­شود.
  • هرچه تعداد آحادِ تکواژها کمتر باشد، بسامـد آنها (یعنی میزان کاربرد آنها در جمله های مختلف) بیشتر می­شود.
  • تکواژی که متعلق به گروه محدود و بسامد آن بالا باشد، تکواژ قاموسی است.
  • تکواژهای دستوری شامل ضمایر، قیود، حروف، اصوات، اعداد و افعال معین می­باشند.

در پایان، بر اساس معیارهای ذکر شده در بالا، می­توان چنین استنباط نمود که، افعال (معین و همراه شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علایم سجاوندی به عنوان واژه نمایه ها ظاهر نمی شوند. این قواعد مبنایی را برای شناسایی و تهیه فهرست واژه‌های بازدارنده در زبان فارسی فراهم­می­کند.

 

  1. واژه­های غیرمفهومی در زبان فارسی که بتواند در نمایه­سازی خودکار مدارک فارسی هر یک از حوزه های مورد مطالعه نادیده گرفته­شود، کدام است؟

به منظور شناسایی واژه های غیرمفهومی با توجه به معیارهای استخراج شده ذیل سؤال اول پژوهش، ابتدا نوع دستوری واژگان بررسی شد. برای تعیین نوع دستوری واژه ها از فرهنگهای لغت فارسی به فارسی ـ لغتنامه دهخدا، فرهنگ معین و فرهنگ سخن ـ استفاده شد. در تعیین نو ع دستوری واژه هایی که در این سه فرهنگ وجود نداشت، از کتابهای دستور زبان فارسی و مشورت با صاحب نظران استفاده گردید. چون برخی از واژه­ها دارای چندین نقش دستوری هستند، ملاک ما در انتخاب واژه بازدارنده آن نوع دستوری از واژه بود که براساس اصول استخراج شده در سؤال اول پژوهش، جزء واژه­های غیرمفهومی زبان فارسی قرار می­گیرند. به این ترتیب، نوع دستوری تک­تک 248552 واژه تشکیل دهندة متون مورد مطالعه مشخص شد. فهرست درهم­کرد این واژه­ها به جهت کوتاه تر شدن، بدون ذکر نوع دستوری، براساس بسامد واژه­ها به ترتیب از بیشترین به کمترین میزان تکرار در جدول شماره 1 ارائه شده است.

جدول شماره 1. فهرست درهم­کرد واژه­های بازدارنده سه رشته مورد مطالعه

 

 

  1. و
  2. در
  3. به
  4. که
  5. از
  6. این
  7. را
  8. است
  9. با
  10. برای
  11. آن
  12. خود
  13. نیز
  14. آنها
  15. بر
  16. یا
  17. بین
  18. یک
  19. می‌شود
  20. دو
  21. بود
  22. تا
  23. دارد
  24. دیگر
  25. شد
  26. شده­است
  27. هر
  28. هستند
  29. دارند
  30. می‌باشد
  31. بنابراین
  32. باید
  33. براساس
  34. آنان
  35. همچنین
  36. بیشتر
  37. یکی/ یکی­از
  38. میان
  39. نسبت­­به
  40. یعنی
  41. ما
  42. می‌تواند
  43. می‌توان
  44. سه
  45. نیست
  46. به­صورت
  47. یک
  48. ازنظر
  49. برخی/ برخی­از
  50. چنین
  51. به­عنوان
  52. اول
  53. درباره
  54. بسیار
  55. درمورد
  56. باشد
  57. چه
  58. شود
  59. اگر
  60. کلى
  61. می‌شوند
  62. همین
  63. چون
  64. جهت
  65. زیر
  66. زیاد
  67. دیگری
  68. گردید
  69. اما
  70. بسیارى/ بسیارى از
  71. دوم
  72. کمتر
  73. تنها
  74. وی
  75. هریک/ هریک­از
  76. لذا
  77. آنچه
  78. می‌گردد
  79. بوده­است
  80. بلکه
  81. روی
  82. بالا
  83. حتی
  84. شده
  85. زیرا
  86. پس­از
  87. اینکه
  88. ولى
  89. بدون
  90. مستقیم
  91. بودند
  92. همان
  93. همه
  94. تمام
  95. نه
  96. یکدیگر
  97. بهتر
  98. به­ترتیب
  99. شده‌اند
  100. درنتیجه
  101. کم
  102. می‌توانند
  103. مشخص
  104. هم
  105. بدین
  106. به­ویژه
  107. پایین
  108. چگونه
  109. فقط
  110. البته
  111. بالاتر
  112. چهار
  113. سوم
  114. چند
  115. شدند
  116. آشکار
  117. زمانی
  118. علاوه­بر
  119. بعضی/ بعضی­از
  120. کاملا
  121. همانطورکه
  122. فوق
  123. آیا
  124. بطوریکه
  125. می‌باشند
  126. درخصوص
  127. ازلحاظ
  128. به­وسیله
  129. بیش­از
  130. کل
  131. هیچ
  132. برروی
  133. خارج/ خارج­از
  134. بعداز
  135. ازآنجاکه
  136. بوده
  137. مثلا
  138. پس
  139. درواقع
  140. درست
  141. نبود
  142. بدین­ترتیب/ به­این­ترتیب
  143. عالی
  144. کامل
  145. عاشقانه
  146. ...1

 

 

[32]نتایج بررسی این سوال پژوهشی نشان­ داد از مجموع 248552 واژه به کار رفته در مقاله های مورد بررسی در هر سه رشته 97280 واژه (1291 واژه بدون احتساب بسامد)، به عنوان واژه­های غیرمفهومی در سه رشته مورد مطالعه شناخته شدند. از لحاظ نوع دستوری می­توان بیان­داشت که قیدها (9/45%)، افعال (04/14%)، حروف ربط (6/09%)، حروف اضافه (7/7%)، اعداد (25/4%)، ضمایر (01/4%) و ادات (07/%) به ­ترتیب بیشترین حجم از واژه­های غیرمفهومی در سه رشته را به خود اختصاص داده اند.

3. واژه­های غیر مفهومی چه حجمی از متون زبان فارسی هر یک از حوزه‌های مورد مطالعه را تشکیل می­دهند؟

پس از شناسایی و استخراج فهرست واژه­های بازدارنده هر یک از مقاله های سه حوزة مورد مطالعه، نسبت واژه­های بازدارنده هر مقاله به تعداد کل واژه­های آن مقاله محاسبه گردید که نتایج به دست ­آمده در جدول شماره 2  نشان داده شده­است.

جدول شماره 2 .درصد واژه­های بازدارنده هرمقاله درسه رشتة مورد مطالعه

رشته­های مورد مطالعه

بدون احتساب علایم سجاوندی

با احتساب علایم سجاوندی

واژه‌های متن

واژه‌های

بازدارنده

درصد واژه‌های بازدازنده

واژه‌های متن

واژه‌های بازدارنده

درصد واژه‌های بازدارنده

رشته علوم تربیتی

121963

48738

96/39

135956

63463

67/46

رشته روانشناسی

63112

24344

57/38

72037

33359

30/46

رشته کتابداری

63477

24198

12/38

72224

33239

02/46

هر سه رشته

248552

97280

94/38

380217

130061

41/46

 

یافته­های جدول بالا نشان می­دهد در رشتة علوم تربیتی 96/39% (بدون احتساب علایم سجاوندی)، در رشته روانشناسی 57/38% (بدون احتساب علایم سجاوندی) و در رشته کتابداری 12/38% از تعداد 248552 واژه (بدون احتساب علایم سجاوندی) از متون این رشته­ها را واژه­های بازدارنده تشکیل می­دهد.

به­طورکلی، از تعداد 248552 واژه ( بدون احتساب علایم سجاوندی) که پیکرة زبانی مورد مطالعه را تشکیل می­دهد، 97280 واژه که 94/38% کل واژه‌ها را شامل می‌شود، جزء واژه­های بازدارنده هستند. درصورتی که با احتساب علایم سجاوندی، از 380217 واژه مورد بررسی، تعداد واژه بازدارنده به 130061 واژه خواهد رسید که     41/46% کل واژه­ها را تشکیل می­دهد. به این ترتیب، مشخص می­شود که علایم سجاوندی حدود 7% از کل یک متن را تشکیل می­دهند.

 

4. بین سیاهه واژه­های غیرمفهومی انگلیسی و واژه­های غیرمفهومی به دست آمده در این پژوهش چه وجوه تشابه و تفاوتی وجود دارد؟

همان گونه که از پیشینة پژوهش برمی­آید، دربارة واژ­ه­های بازدارنده زبان انگلیسی مطالــعات گوناگونی صـورت گرفته­است. فهرست حاصل از مطالعة «فاکس» (1992) و فهــرست استاندارد SMART که هر دو نمـونه­هایی از فهرست واژه­های بازدارنده در حوزه عمومی می­باشند، بیشتر از فهرستهای دیگر در تحقیقات بعدی مورد استناد قرارگرفته­است. ازآنجاکه فهرست SMART  قابل دستیابی نبود، فهرست عمومی فاکس برای مقایسه بین فهرست واژه­های بازدارنده انگلیسی و فارسی مورد استفاده قرارگرفت.

مقایسه صورت­گرفته بین فهرست پژوهش حاضر و فهرست فاکس نشان داد برای 231 واژه از 421 واژه بازدارنده فهرست فاکس، 363 معادل فارسی در فهرست به دست آمده وجود دارد. همان طورکه قبلاً ذکر شد، فهرست واژه­های بازدارنده حاصل از پژوهش حاضر از میان واژه­های پیکره زبانی سه رشته علوم تربیتی، روانشناسی و کتابداری و اطلاع­رسانی استخراج شده­است؛ درحالی­که فهرست حاصل از پژوهش فاکس یک پیکره عمومی است. از سوی دیگر، به دلیل اینکه فاکس فهرست خود را براساس بسامد واژه تهیه کرده است، بسیاری از صورتهای مختلف فعلهای انگلیسی و صفتهای ساده، تفضیلی  و عالی نیز در فهرست او دیده می­شود. لیکن  پژوهش حاضر چون براساس قواعد دستور زبان تهیه شده است، تنها افعال کمکی و معین را در بین واژه­های بی­معنا و کم­معنا قرار داده ­است؛ به همین دلیل اغــلب واژه­هایی که در فهرست فاکس فاقد معادل فارسی هستند، جزء گروه افعال می باشند. ضمن اینکه صفتها از این حیث مستثنا بوده و همگی جزء کلیدواژه‌ها محسوب می‌شوند. بیشترین برابری بین واژه‌های فهرست فاکس و فهرست فارسی حاصل از پژوهش حاضر، به حروف ربط، اضافه (حروف اضافه ساده) و قیدهای مختص اختصاص دارد. ضمایر متصل «م، ت، ش، مان، تان، شان» معادل واژه های منفصل ... Me، His، Her می‌باشند که به دلیل اینکه واژه مجزا نیستند، در فهرست واژه‌های بازدارنده فارسی قرار نمی‌گیرند.

5. توزیع بسامد واژه­­های غیرمفهومی در رشــته­های علوم­تربیتی، روانشناسی و کتابداری و اطلاع­رسانی  چگونه است؟

نتایج اجرای آزمون کای اسکور بر روی فهرست حاصل از سه حوزة مورد مطالعه، نشان داد از میان 1291 واژه بازدارنده، 379 واژه یعنی 35/29% از کل واژه‌ها دارای توزیع یکسانی بین سه رشته مورد مطالعه می­باشند. به عبارت دیگر، در عین ­اینکه این واژه­ها در هر سه رشته مورد مطالعه کاربرد دارند، میزان تکرار آنها (بسامد واژه ها) در هر سه رشته تقریباً مشابه است. این واژه­ها جزء واژه­های پربسامد در هر سه رشته مورد مطالعه می‌باشند؛ به طوری که واژه­های «و، در، که، به، از، است، را، این، با و برای» 10 واژة پربسامد در هر سه رشته است.

از سوی دیگرP-Value  ی 269 واژه  یعنی 83/20% واژه­ها، کمتر از 0/05% می‌باشد که نشان­دهنده آن است که این تعداد واژه فاقد توزیع بسامدی یکسان در سه رشته مورد مطالعه می­باشند. به عبارتی، احتمال رخداد هریک­از واژه­های این گروه که از دید دستور زبان فارسی بیشتر از میان حروف اضافه، ربط قیود خاص و افعال پربسامد زبان فارسی می­باشند، در یکی از سه رشتة مورد مطالعه بیشتر از دو رشته دیگر است؛ به این معنا که احتمال استفاده و کاربرد این واژه در یک رشته خاص بیشتر از رشته­های دیگر بوده و در آن رشته متداول­تر است. برای 644 واژه باقی مانده، به دلیل اینکه تنها در یکی از سه رشته مورد مطالعه رخ داده بودند، آزمون کای اسکور قابل اجرا نبود. این دسته از واژه­ها منحصراً مربوط به همان رشته خاص می­باشند.

 

نتیجه­گیری

از آنجا که تهیة فهرست واژه­های بازدارنده ­ای که مبتنی بر ساخت زبان مورد مطالعه باشد، مستلزم استخراج معیارهای نحوی و معنایی زبان مورد مطالعه است، ابتدا این معیارها شناسایی و مشخص گردید افعال (معین و همراه شونده)، قیدها، ضمایر، حروف، اصوات، اعداد و علایم سجاوندی به­عنوان واژه نمایه ها ظاهر نمی شوند. در سایر پژوهشهای صورت گرفته، بیشتر از شیوة بسامد واژگانی استفاده شده و تنها ابوالخیر (2003) در پایان­نامه خود فهرستی عمومی از واژه­های بازدارنده زبان عربی را بر اساس دستور زبان عربی، تهیه نموده است. اما در پژوهشهایی که بر مبنای بسامد واژگانی بوده است نیز برخی از نقشهای دستوری به عنوان واژه های بازدارنده معرفی شده اند که با پژوهش حاضر تناسب دارد. به طوری­که «لوان» (نقل شده در :نیاکان، 1383)، در پژوهش خود حروف ربط و حروف تعریف را جزء واژه­های بی­معنایی می داند که بسامد بالایی دارند. «ساووی» (1999 و 2007) نیز در پژوهشهای خود پس­از تعیین پربسامدترین واژه­ها و حذف تمامی اسامی و صفاتی که با موضوعات اصلی پیکره های مورد مطالعه مرتبط بودند، حروف اضافه، ربط، تعریف، ضمایر ملکی، شخصی و اشکال فعل Be را به عنوان واژه­های پربــسامد و بی­معنا معرفی می­­­­­­­­­­­­­کند.

بررسی واژه­های غیرمفهـومی زبان فارسی در سه حوزة علوم تربیـتی، روانشــناسی و کتابـداری و اطلاع­رسانی مشخص ساخت از بین مجموع 248552 واژه تشکیل دهنده متن مقاله های مورد بررسی در هر سه رشته، 97280 واژه (1291 واژه بدون احتساب بسامد)، به عنوان واژه­های غیرمفهومی در سه رشتة مورد مطالعه شناخته شدند. با مقایسه نتایج پژوهش حاضر و موارد ذکر شده می­توان به این مطلب پی­برد که میزان واژه­های غیرمفهومی معیّن شده با این روش بسیار بیشتر از فهرستهایی است که در سایر پژوهشها استخراج گردیده­است و این نتیجه احتمالاً به دلیل تفاوت در شیوة استخراج واژه­های غیرمفهومی است؛ به نحوی که بیشترین میزان واژه­های غیرمفهومی در زبان انگلیسی توسط «فرانسیس و کوسرا» مشتمل بر 425 واژه و تقریباً 33% واژه­های غیرمفهومی شناسایی شده در مطالعه «تقوا» تنها ناظر بر گروه فعلی است و تعداد آنها نیز بسیار اندک می­باشد. در پژوهش «پوراسماعیل و رستمی» نیز تنها 204 واژه فارسی به­عنوان واژه بازدارنده استخراج شده است. می­توان چنین نتیجه گرفت که با استفاده­ از این شیوه، تعداد واژه­هایی که به عنوان واژه­های غیرمفهومی شناسایی می شوند، افزایش می­یابد.

نتایج نشان داد از بین 100 واژه پربسامد در هر رشته، 67 واژه در بین هر سه رشته تکرار شده است و تنها میزان تکرار آنها اندکی متفاوت است. بررسی حجم واژه­های غیرمفهومی متون زبان فارسی در هر یک­ از رشته­های مورد مطالعه نیز نشان داد واژه­های بازدارنده 94/38% کل واژه ها را شامل می شود. «فراکز و بیزا ـ یاتس» (1992) عنوان کردند واژه­های بازدارنده احتمالا بین 20 تا 30% واژه­های درون یک متن انگلیسی را شامل می­شود. «سیروتکین و ویلبور» (1992) با اجرای آزمون آماری خود در مجموعه مدارک مورد بررسی تعداد 203040 واژه موجود در این مدارک را به 50508 واژه کاهش دادند. «یمـین و ویلبور» (1996) با استـفاده ­از روش ویلبور و سیروتکین نشان دادند با حذف    87% واژه­های بازدارنده در یکی از چهار مجموعة مورد مطالعة خود، صرفه­جویی            63 درصدی زمان، 74 درصدی حجم فایل مقلوب و در نهایت بهبود دقت بازبابی تا      10% حاصل می‌گردد. «ساووی» (1999) نشان داد با تعیین واژگان غیرمفهومی حجم فایل مقلوب بین 21 تا 35% کاهش می­یابد. ازآنجاکه پژوهش حاضر بر اساس ساختار زبانی و واژگانی زبان فارسی صورت­گرفته، تعداد واژه­هایی که می­توانند به­ عنوان واژة بازدارنده در نظرگرفته شود، افزایش می­یابد. از سوی دیگر، می­توان نتیجه­گرفت که میزان واژه­های بازدارنده در متون زبان فارسی بیشتر از متون زبان انگلیسی است. این نتایج نشان می­دهد میزان حشو و زواید در متون زبان فارسی زیاد است.

پرداختن به وجوه تشابه و تفاوت بین سیاهة واژه­های غیرمفهومی انگلیسی و واژه‌های غیرمفهومی فارسی نیز یکی دیگر از اجزای پژوهش حاضر بود. نتایج به دست آمده نشان داد برای 231 واژه از 421 واژه بازدارنده فهرست فاکس، تعداد 363 معادل فارسی در فهرست به دست آمده وجود دارد. بیشترین برابری بین واژه­های فهرست فاکس و فهرست فارسی حاصل از پژوهش حاضر به حروف ربط، اضافه (حروف اضافه ساده) و قیدهای مختص اختصاص دارد.  ضمایر متصل «م، ت، ش، مان، تان و شان» معادل واژه‌های منفصل ...Her, His, Me  است که به دلیل اینکه واژه مجزا نیستند، در فهرست واژه­های بازدارنده فارسی قرار نمی­گیرند.

بررسی توزیع بسامد واژه­های غیرمفهومی در رشته­های مورد مطالعه نشان داد P-Value  ی 269 واژه یعنی 83/20% واژه­ها، کمتر از 0/05 % است که به این معناست که این تعداد واژه فاقد توزیع بسامدی یکسان در سه رشته مورد مطالعه می­باشند. به عبارتی، احتمال رخداد هر یک­ از واژه­های این گروه که از دید دستور زبان فارسی بیشتر از میان حروف اضافه، ربط قیود خاص و افعال پربسامد زبان فارسی می­باشند، در یکی از سه رشته مورد مطالعه بیشتر از دو رشته دیگر است؛ به این معنا که احتمال استفاده و کاربرد این واژه­ها در یک رشته خاص بیشتر از رشته­های دیگر بوده و در آن رشته متداول­تر است. بررسی توزیع بسامدی واژه های غیرمفهومی شناسایی شده نشان داد تعداد قابل توجهی واژه در این فهرست وجود دارد که بسامد پایینی دارند، بنابراین می توان نتیجه گرفت که استفاده از روش بسامد واژگانی در شناسایی واژه های بازدارنده احتمالا نتواند در زبان فارسی کارایی لازم را داشته باشد.

به طور کلی، می­توان بیان داشت که نتایج به دست­آمده از پژوهشهای انجام شده در حوزة ذخیره و بازیابی اطلاعات نشان داد واژه­های بازدارنده به­عنوان یکی از ضروری ترین بخشها در نمایه­سازی و چکیده­نویسی پایگاه های اطلاعاتی، نقش مهمی در کاهش حجم پایگاه های اطلاعاتی و نرم­افزارهای اطلاع­رسانی ایفا می­کنند و سبب تسهیل در امر بازیابی، افزایش میزان مانعیت مدارک بازیابی شده، کاهش زمان جستجو و ... می­شوند.



1. Index Term.

2. Timo Lahtinen.

3. Automatic Indexing.

4. Natural language.

5. Marie- Francine Moens.

1. Brian C. Vickery and Elian Vickery.

2. Lexical Analysis.

3. Stemming.

4. Threshold Value.

5. Brian C. Vickery and Elian Vickery.

1. Feng Zou and Others.

1. H. P. Luhn.

2. Boxendal.

3. George Zipf.

4. Christopher Fox.

5. Francis and Kucera.

6. Van Rijsbergen.

7. Bazemen.

1. W.  John Wilbur and  Karl Sirotkin.

2. Yang Yiming an W. John Wilbur.

3. Word - based Matching.

4. Craig N. Berg.

5. H. P. Edmondson and R.E. Wyllys.

1. Jacques Savoy.

2. Tin Kam Ho.

3. Jacques Savoy and  Rasolofo.

1. Feng Zou And Others.

2. Fotis Lazarinis.

3. Kazem Taghva, Russel  Bechley and Mohammad Sadeh.

1. باقری، مهری(1367). «مقدمات زبانشناسی». تبریز: دانشگاه تبریز.

صفوی، کورش(1360). «درآمدی بر زبانشناسی». تهران: بنگاه ترجمه و نشر.

نجفی، ابوالحسن(1380). «مبانی زبانشناسی و کاربرد آن در زبان فارسی». تهران: نیلوفر.

هادسن، گرور(1383). «مباحث ضروری و بنیادین زبانشناسی مقدماتی (ضرورت زبانشناسی مقدماتی)». ترجمه علی بهرامی. تهران: رهنما.

پالمر، فرانک(1366). «نگاهی تازه به معنی شناسی». ترجمه کورش صفوی. تهران: مرکز.

مشکوة الدینی، مهدی(1382). دستور زبان فارسی بر پایه نظریه گشتاری (ویرایش 2). مشهد: فاطمی.

2. شفائی، احمد(1363). «مبانی علمی دستور زبان فارسی». تهران: نوین.

بابک، علی(1383). «دستور زبان فارسی پژوهشی معاصر». تهران: دانشگاه آزاد اسلامی مشهد: سخن.

مشکوة­الدینی، مهدی(1384). «دستور زبان فارسی (واژگان و پیوندهای ساختی)». تهران: سمت.

وحیدیان کامکار، تقی؛ عمران، غلامرضا، (1385). دستور زبان فارسی (1). تهران: سازمان مطالعه و تدوین کتب علوم انسانی(سمت).

ناتل خانلری، پرویز (1359). دستور زبان فارسی (با تجدیدنظر). تهران: توس.

مشکوة الدینی، مهدی (1384). دستور زبان فارسی. واژگان و پیوندهای ساختی. تهران: سازمان مطالعه و تدوین کتب علوم انسانی(سمت).

معین، محمد(1378). فرهنگ فارسی (متوسط): شامل یک مقدمه و سه بخش لغات، ترکیبات خارجی، اعلام .... تهران: امیرکبیر.

مرزبان راد، علی(1378). دستور سودمند. تهران: دانشگاه صنعتی امیرکبیر.

محتشمی، بهمن(1370). دستور کامل زبان فارسی. تهران: اشراقی.

صهبا، عبدالرشید (1371). حرفهای ربط، اضافه، نشانه در دستور زبان فارسی برای استفاده دانش آموزان، دانشجویان و پژوهندگان. تهران: غزل.

غلامعلی زاده، خسرو(1374). ساخت زبان فارسی. تهران: احیاء الکتاب.

فرشیدورد، خسرو(1382). دستور مفصل امروز. تهران: سخن.

فرشیدورد، خسرو(1386). دستور برای لغت سازی: فرهنگ پیشوندها و پسوندهای فارسی به همراه گفتارهایی درباره دستور زبان فارسی. تهران: زوار.

کلباسی، ایران(1380). ساخت اشتقاقی در فارسی امروز. تهران: پژوهشکده علوم انسانی و مطالعات فرهنگی.

دهخدا، علی اکبر(1383). لغتنامه. (با همکاری محمد معین، جعفر شهیدی). تهران: موسسه لغتنامه دهخدا.

خطیب رهبر، خلیل(1379). دستور زبان فارسی: کتاب  حرف اضافه و ربط مشتمل بر تعریف و تقسیم و شرح اصطلاحات و معانی و کاربرد حروف. تهران: مهتاب.

خطیب رهبر، خلیل(1381). دستور زبان فارسی: برای پژوهش دانشجویان و ادب دوستان در آثار شاعران و نویسندگان بزرگ ایران. تهران: مهتاب.

باطنی، محمدرضا(1382). توصیف ساختاری دستوری زبان فارسی بر بنیاد یک نظریه عمومی زبان. تهران: امیرکبیر

انوری، حسن(1381). فرهنگ بزرگ سخن. تهران: سخن.

انوری، حسن؛ احمدی گیوی، حسن (1377). دستور زبان فارسی 2 (ویرایش 2). تهران: فاطمی

احمدی گیوی، حسن(1380).  دستور تاریخی فعل. تهران: قطره.

1. برای مشاهده ادامه این فهرست به نسخه الکترونیکی قرار داده شده در سایت کتابخانه آستان قدس رضوی بخش نشریات مراجعه فرمائید.

- پور اسماعیل، کیومرث و نسرین رستمی (1384). لیست کلمات ایست فارسی. بازیابی شده2 در آذر 1385 از Ccc.sharif.edu/~shesmail/resources/stopwords:pdf

- داورپناه، محمدرضا و صدیقه بلندیان (1386). تحلیل متن مقالات فارسی و امکان نمایه سازی ماشینی آنها براساس قانون زیف. فصلنامه پژوهش در مسائل تعلیم و تربیت: ویژه نامه کتابداری و اطلاع رسانی، دور دوم.

- گیلوری، عباس (1379). نمایه سازی خودکار: گذشته، حال، آینده. پیام کتابخانه، 10(4)، 25-  17.

- نیاکان، شهرزاد (1383). نمایه سازی ماشینی. تهران: مرکز اطلاعات و مدارک علمی ایران.

- ویکری، برایان و الینا ویکری (1380). علم اطلاع رسانی در نظر و عمل. ترجمه عبدالحسین فرج پهلو، مشهد: انتشارات دانشگاه فردوسی.

- هادسن، گرور(1383). مباحث ضروری و بنیادین زبانشناسی مقدماتی (ضرورت زبانشناسی مقدماتی) (علی بهرامی، مترجم). تهران: رهنما.

- وحیدیان کامیار، تقی و غلامرضا عمران (1385). دستور زبان فارسی (1). تهران: سازمان مطالعه و تدوین کتب علوم انسانی(سمت).

- ناتل خانلری، پرویز (1359). دستور زبان فارسی (با تجدیدنظر). تهران: توس.

- نجفی، ابوالحسن(1380). مبانی زبانشناسی و کاربرد آن در زبان فارسی. تهران: نیلوفر.

- مشکوة الدینی، مهدی (1382). دستور زبان فارسی برپایه نظریه گشتاری (ویرایش2). مشهد: فاطمی.

- ـــــــــــــــــــــــــــــ (1384). دستور زبان فارسی. واژگان و پیوندهای ساختی. تهران: سازمان مطالعه و تدوین کتب علوم انسانی (سمت).

- معین، محمد (1378). فرهنگ فارسی (متوسط): شامل یک مقدمه و سه بخش لغات، ترکیبات خارجی، اعلام .... تهران: امیرکبیر.

- مرزبان راد، علی (1378). دستور سودمند. تهران: دانشگاه صنعتی امیرکبیر.

- محتشمی، بهمن (1370). دستور کامل زبان فارسی. تهران: اشراقی.

- صفوی، کورش (1360). درآمدی بر زبانشناسی. تهران: بنگاه ترجمه و نشر.

- صهبا، عبدالرشید (1371). حرفهای ربط، اضافه، نشانه در دستور زبان فارسی برای استفاده دانش آموزان، دانشجویان و پژوهندگان. تهران: غزل.

- غلامعلی زاده، خسرو (1374). ساخت زبان فارسی. تهران: احیاء الکتاب.

- فرشیدورد، خسرو (1382). دستور مفصل امروز. تهران: سخن.

- فرشیدورد، خسرو (1386). دستور برای لغت سازی: فرهنگ پیشوندها و پسوندهای فارسی به همراه گفتارهایی درباره دستور زبان فارسی. تهران: زوار.

- کلباسی، ایران (1380). ساخت اشتقاقی در فارسی امروز. تهران: پژوهشکده علوم انسانی و مطالعات فرهنگی.

- شفاعی، احمد (1363). مبانی علمی دستور زبان فارسی. تهران: نوین.

- دهخدا، علی اکبر (1383). لغتنامه. (با همکاری محمد معین، جعفر شهیدی). تهران: موسسه لغتنامه دهخدا.

- خطیب رهبر، خلیل (1379). دستور زبان فارسی: کتاب  حرف اضافه و ربط مشتمل بر تعریف و تقسیم و شرح اصطلاحات و معانی و کاربرد حروف. تهران: مهتاب.

- ـــــــــــــــــــــ (1381). دستور زبان فارسی: برای پژوهش دانشجویان و ادب دوستان در آثار شاعران و نویسندگان بزرگ ایران. تهران: مهتاب.

- بابک، علی (1383). دستور زبان فارسی پژوهشی معاصر. مشهد: سخن گستر.

- باطنی، محمدرضا (1382). توصیف ساختاری دستوری زبان فارسی بر بنیاد یک نظریه عمومی زبان. تهران: امیرکبیر

- انوری، حسن (1381). فرهنگ بزرگ سخن. تهران: سخن.

- انوری، حسن و حسن احمدی گیوی (1377). دستور زبان فارسی 2 (ویرایش 2). تهران: فاطمی

- احمدی گیوی، حسن (1380).  دستور تاریخی فعل. تهران: قطره.

 

- Savoy, Jacues(1999). A stemming procedure and stop word list for general French corpora. Journal of the American society for information science; 50(1),p. 944-952.

 

- Savoy, Jacues(2006). Searching strateies for the Bulgarian language. Information retrieval; 10(6), p. 509-529.

 

- Sirotkin, Karl; Wilbur, W John(1992). The automatic identification of stop words. Journal of Information Science; 18 (1) , p.45-55.

 

- Taghva, Kazem; Bechley, Russel; Sadegh, Mohammad(2003). Alist of farsi stop words. Retrieved  November 29, 2006, from: www.isri.unlv.edu/publications/isripub/Taghva2003-01.ps

 

- Yang, Yiming; Wilbur, John(1996). Using corpus statistics to remove redundant words in text categorization. Journal of the American Society for Information Science; 47 (5), p.357-69.

 

- Lahtinen, T. (2000). Automatic Indexing: an approach using an index term corpus and combining linguistic and statistical methods. PhD thesis, University of Helsinki. Retrieved  November 29, 2006, from,

 

- Lazarinis, Fotis(2007). Engineering and utilizing a stop word list in Greek web. Journal of the American society for information science and technology;58(11), p. 1645-1652

 

- Moens, Marie  - Francine(2003). Automation indexing and abstracting of document texts. Second edition. Massachusetts: Kluwer academic publisher.

 

- Berg, Criage N.(1997). DEVELOPINGA CORPUS SPECIFICSTOP-LIST USING QUANTITATIVE COMPARISON. PhD thesis, Graduate school of
Logistics and acquisition management,  Retrieved  November 20, 2006, from, research.airuniv.edu/papers/ay1997/afit/berg_cn.pdf/ ethesis.helsinki.fi/julkaisut/hum/yleis/vk/lahtinen/ - 3k

 

- zou, Feng; wang, Fu lee; Deng,Xiaotie; Han, Song;  Wang, Lusheng ( 2006). Stop word list construction in Chinese Langugege Processing. Retrieved  November 20, 2006, from, WWW.utdallas.edu /~fxz063000  /- 14k

 

- Fox, Cristopher(1990). A stop list for general text. Retrieved  November 20, 2006, from, www.informatik.uni-trier.de/ley/indice/a-tree.pdf

 

- Abu-El Khair, Ibrahim Hassan(2003). PhD thesis, University of Pittsburg,   Retrieved  June 18 , 2007, from, www.mons.edu.eg. pcvs/13702/13102.asp

 

- Ho. Tin Kam(1999). Fast identification of stop words for font learning and keyword spotting. Retrieved  November 22, 2006, from