بررسی مشکلات ریخت‌شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران و جهاد دانشگاهی

نوع مقاله: مقاله پژوهشی

نویسندگان

دانشجوی کارشناسی ارشد علوم کتابداری و اطلاع رسانی دانشگاه شیراز

چکیده

این پژوهش به بررسی مسائلی پرداخته است که پایگاههای مقاله‌های فارسی در جستجوی ریختهای مختلف یک کلمه با آن روبرو هستند. برای پاسخگویی به سؤالهای پژوهش، از روش پیمایش مقایسه‌ای استفاده شده است. جامعه پژوهش عبارت است از سه پایگاه مقاله‌های فارسی «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری»، «جهاد دانشگاهی»، و «پژوهشگاه  اطلاعات و مدارک  علمی ایران». محققان سیاهه‌ای شامل 17 کلیدواژه  را با دقت در متون فارسی انتخاب نموده‌اند که هرکدام از آنها نمایانگر یک مورد از چالشهای زبان فارسی در برخورد با فناوری نوین هستند. سپس کلیدواژه‌ها در جعبه جستجوی پایگاه‌های مذکور وارد و نتایج هر کدام نیز ثبت گردید. این بررسی نشان داد چالشهای ریختیِ شناخته شدة زبان فارسی، تأثیر زیادی بر بازیابی اطلاعات در هر یک از سه پایگاه مورد نظر دارد. همچنین، هیچ‌کدام از این سه پایگاه  به شیوه ای جامع و قابل ملاحظه به حل مسائل ریخت شناسی واژگان فارسی نپرداخته اند و هر پایگاه به صورت جداگانه از میان 17 چالش پیش رو تنها به رفع تعداد محدودی از آنها پرداخته است.
 

کلیدواژه‌ها


مقدمه

کتابداران از مدتها پیش دریافتند بین تحلیل موضوعی مطالب و زبانشناسی، رابطه‌ای مستقیم و الزامی وجود دارد. این رابطه با پیدایش علم اطلاع‌رسانی و کاربرد رایانه در این رشته، شتاب و اهمیت بیشتری یافت. امروزه اطلاع‌رسانی و اصطلاح‌شناسی شاخه‌هایی از علوم را تشکیل می‌دهند که ارتباطی نزدیک و مداوم بین آنها برقرار است. دانش اطلاع‌رسانی در حوزة فعالیت خود عمدتاً با اطلاعات نوشتاری، که زبان وسیلة اصلی انتقال آن است، سر و کار دارد. هسته اصلی هر زبان ویژه، اصطلاحات علمی یا واژگان آن است. این اصطلاحات برای ارتباط علمی و انتقال صحیح اطلاعات به کار گرفته می شود و چنانچه دچار هرج و مرج و نابسامانی شود، زبان تفهیم و تفاهم و جریان درست اطلاعات مختل می‌گردد. کتابداران و اطلاع‌رسانان که رابط بین تولیدکنندگان و مصرف‌کنندگان اطلاعات هستند، پیش از سایر متخصصان ضرورت استاندارد کردن واژگان علوم را دریافتند و همزمان با توسعه بانکهای اطلاعاتی، به رعایت آن اصرار ورزیدند (مرتضایی، 1381).

ما اکنون در دورانی به سر می بریم که با حجم عظیمی از اطلاعات در موضوعات متنوع روبرو هستیم. این کثرت اطلاعات در محیطهای الکترونیکی و بخصوص وب، گرچه باعث تسهیل دستیابی کاربران به  اطلاعات مورد نیاز شده، مستلزم به‌ کارگیری شیوه‌ها و تمهیدات خاص در بازیابی آنهاست.

از آنجا که زبان فارسی، در مواجهه با محیط الکترونیکی، از جهت شیوه نگارشی، دارای مشکلاتی است که  بر کیفیت کاوش در محتویات آن تأثیر می‌گذارد، تأًثیر برطرف سازی این موانع در طراحی هر پایگاه اطلاعاتی فارسی زبان بر میزان بازیابی رکوردهای مرتبط، چه از لحاظ کمیّت و چه از لحاظ محتوای رکوردهای بازیابی شده، برکسی پوشیده نیست. از این رو، پژوهش حاضر سعی دارد با در نظر گرفتن عمده‌ترین مشکلات نگارشی در زبان فارسی و نتایج بازیافت هر کدام در سه پایگاه اطلاعاتی «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری»، «پژوهشگاه اطلاعات و مدارک علمی ایران» و «پایگاه اطلاعات علمی جهاد دانشگاهی» توانایی این پایگاه‌ها را در شیوه برخورد با این مشکلات و یا برطرف کردن چالشهای مربوط، مقایسه کند.

تعریف ریخت‌شناسی[1]: بررسی ساخت کلمه و اجزای تشکیل‌دهندة آن که شامل پایه، پیشوند، میانوند و پسوند می‌شود.

 

معایب خطوط رایج جهان

به طور کلی، نقایصی در خطوط رایج جهان وجود دارد که می‌توان آنها را بدین‌گونه طبقه‌بندی کرد:

1- صداهای یکسان به وسیله حروف مختلفی نوشته می شود. در فارسی صدای «س» به سه صورت (س، ص، ث) و صدای «ز» چهار صورت (ز، ذ، ض، ظ) دارد؛ در زبان فرانسه کلمه «سن» پنج شیوه نگارش دارد که اگر صورتهای جمع را نیز به حساب بیاوریم، ده شکل می‌شود: (saint, ceint, sein, seing, sain).

2- بسیاری از حروف نوشته می‌شوند، ولی خوانده نمی‌شوند؛ یعنی نشانه‌هایی بی‌فایده در نوشتن به کار می‌رود. در فارسی نوشتن «واو معدوله»[2] و «هاء غیر ملفوظ» از این قبیل است. در انگلیسی نمونه این مورد بسیار است مانند High که دو حرف آخر آن به کلی از تلفظ ساقط است، یا K در کلمه know (ناتل خانلری، 1373).

3- چند صدای مختلف با یک حرف نمایانده می شود:

city/cook or ginder/girl

4- یک صدای واحد، به صورت مجموعه‌ای از چند حرف نگاشته می‌شود:

 shoot/character/nation/physics/coat 

5- بعضی صداها معادل حرفی ندارند. مثلا صدای y قبل از u شنیده می‌شود، ولی نوشته نمی‌شود:                                                                 

 cute/futle/utility

6- گاهی یک حرف نماینده مجموعه‌ای از صداهاست؛ مانند حرف x در کلمه box که صدای /ks/ می‌دهد (یارمحمدی، 1364).

 

ویژگیهای زبان و خط فارسی

زبان و نگارش فارسی از ویژگیهای متنوعی برخوردار است که هر کدام از آنها به نوعی می‌تواند بر بازیابی اطلاعات در پایگاه­های فارسی زبان تأثیر بگذارد. در ادامه، به برخی ویژگیهای شاخص و تأثیرگذار در بازیابی اطلاعات به زبان فارسی اشاره می شود:

1. سه مصوت کوتاه یعنی حرکات زیر و زبر و پیش(  َ     ِ    ُ) را از نگارش حذف می‌کنیم و این باعث می‌شود به جای اینکه از خط و نوشتار پی به معنا ببریم، از معنای کلمه و جایگاه آن در جمله، آن را درست بخوانیم؛ مانند کلمات (کَرَم، کَرَم، کِرِم، کُر‏ُم، کِرْم) و (مَلَک، مَلِک، مُلک، مِلک) و یا سه کلمه (حَکَم، حُکم، حِکَم)  و نیز ننوشتن مصوتهای کوتاه در داخل متن باعث می‌شود برای تلفظ صحیح، از لاتین کلمات به صورت پانویس متن آورده شود که همین امر باعث اتلاف وقت و انرژی می‌شود. البته، همین لاتین‌نویسی هم قاعده خاصی ندارد و هر ناشر و نویسنده‌ای سلیقه خاص خودش را برای آوانویسی حروف فارسی به لاتین دارد. به عنوان نمونه، برای نشان دادن حرکت فتحه و الف و آ هیچ‌گونه هماهنگی در کتابها و بخصوص فرهنگهای مختلف دیده نمی‌شود. هر چند برخی معتقدند همین ننوشتن حرکات مزیتی است و موجب تندنویسی می‌شود.

2. برای یک حرف چند علامت مختلف داریم مانند علامتهای (س،ص، ث) که هر سه در فارسی یکسان خوانده می‌شوند و همچنین (ذ، ز، ض، ظ) و نیز (ت، ط). البته این امر در زبان انگلیسی هم وجود دارد، چنانکه «ف» ممکن است به شکلهای «F. GH. PH. » باشد.

3. یک علامت را برای دلالت بر چند حرف مختلف استعمال می‌کنیم، مانند «و» که پنج مورد نوشتن دارد یکی برای بیان ضمه در کلمات «خوش» و «تو». دیگر بیان مصوت ممدود یا «واو ماقبل مضموم» مانند «شور» و «او». سوم بیان حرف صامت «واو» در کلماتی چون «آواز» و «والی» و «عفو». چهارم بیان حرف مصوت مرکبی که در کلمات "نو" و "جوشن" و مانند آنهاست. پنجم حرفی که در زبان کنونی خوانده نمی‌شود مانند «واو معدوله» در کلمات «خواهر» و «خواستن».

4. حرفهایی وجود دارد که در بعضی از کلمات هنگام نوشتن حذف می‌شود؛ مانند «الف» در کلمات «اسحق» و "اسمعیل" و "الله". در عین حال حذف این حروف دائمی نیست و بیشتر به سلیقه نگارشی افراد بستگی دارد؛ مانند اسماعیل یا اسحاق.

5. نقطه‌‌هایی متعدد در بالا و پایین حرف که هم سبب دشواری و هم موجب اشتباه در خواندن می‌شود. اهمیت بیش از حد نقطه درخط فارسی هنگام تشخیص نوری کاراکترها [3] (اُ. سی. آر. ) اشکال اساسی تولید می‌کند. به عنوان مثال، کلمات زیر را در نظر بگیرید که با یک یا چند نقطه عوض می‌شوند (بُر، بَر، پُر، پَر، تَر، پُز، پَز، بُز، تِز).

6.  خط فارسی از راست به چپ نوشته می‌شود و این امر نیز به نوبة خود مشکلاتی به وجود می‌آورد، از جمله نبود هماهنگی و ایجاد مشکل در نوشتن متون ریاضی و شیمی، نت ‌های موسیقی، دستورات شطرنج؛ خط تصویری یعنی علایم گرافیکی که در کل جهان استفاده می‌شود؛ مانند علایم راهنمایی و رانندگی همگی از چپ به راست نگاشته می شود.

7. پیوسته‌نویسی و جدا‌نویسی کلمات مرکب که در اکثر موارد به صورت سلیقه‌ای اعمال می‌شود مانند تنوع استفاده از «می» چسبان و غیر چسبان و یا تنوع نحوة به کار بردن «علامتهای جمع ‹ها، ان، جات› ، هم، هیچ، که، (ضمایر شخصی متصل مان، تان، شان)، شناسی، را، چه، چون، تر، ترین، بی (پیشوند نفی)، به، ای (نشانه ندا)، آن و این» در کلمات به صورت پیوسته و یا جداگانه: (آنچه ، آن چه)؛ (همچنانکه، همچنان‌که)؛ (جنابعالی، جناب‌عالی)؛ (هیچکس، هیچ‌کس)‏‎؛ (میتواند، می‌تواند)؛ (آن ها، آنها) در این مورد کلماتی که پیشوند و یا پسوند دارند نیز در شکلهای مختلف نوشته می‌شوند. برخی از کلمات در دو شکل متصل‌نویسی و منفصل‌نویسی به دو شکل مختلف ظاهر می‌شوند. مانند «علاقمند و علاقه‌مند؛ اندیشمند و اندیشه‌مند».

مصدرها و فعلهای مرکب و اسمهای مشتق از آنها نیز به دو صورت متصل و منفصل نوشته می‌شوند؛ مانند «نگه‌داشتن و نگهداشتن».  در جستجوی مطالب از اینترنت این مورد تولید اشکال می‌کند، چنانکه جستجوی «هیچ‌کس» نتایج متفاوتی را با جستجوی «هیچکس» می‌آورد  و یا جستجوی «کتاب‌شناسی» و «کتابشناسی» در موتور جستجوی گوگل نتایج متفاوتی را ارائه می‌کند.

8. سی و دو حرف الفبای فارسی همراه با چهار علامت مد، همزه، تنوین، تشدید به 130 شکل مختلف ظاهر می‌شوند و تفاوت این اشکال در اتوماسیون خط فارسی تولید اشکال می‌کند. «تنوع و تعدد نویسگان[4]، یادگیری زبان و خط فارسی را برای آموزگار و آموزنده دشوار و برای نوآموز توانفرسا می‌سازد. تعداد زیاد نویسگان در رابطه با خودکارسازی زبان توسط رایانه مشکلاتی در خصوص تعداد و ترتیب قرار گرفتن نویسگان در جدولهای کد ایجاد می‌کند و طراحان کد در جای دادن این تعداد نویسه در جدولها با مسئله کمبود جا رو به رو هستند. هر چند مشکل جا با کد 16 بیتی حل شده است، اما مسائل دیگری همچنان باقی می‌مانند که احتیاج به برطرف شدن دارند» (محقق زاده و زارعیان،1383).

9. نوشتن ک و گ (کـ گـ ک گ گ ک) در شکلهای مختلف نیز باعث سردرگمی و عدم جستجوی صحیح می‌شود.

10. در اغلب اوقات یک فاصله اضافی معنای متفاوت و یا متضادی را می‌دهد (مثل مادر ، ما  در).

11. سه کرسی مختلف برای حرفهای مختلف الفبا باعث می‌شود در مقایسه با اکثر زبانها تعداد سطرهای هر صفحه به مراتب بیشتر گردد، چون برخی حروف روی خط کرسی قرار می‌گیرند و برخی پایین خط کرسی و برخی بالای خط کرسی مثل (ا ب م ).

12. از آنجا که حروف در نوشتن اغلب به صورت چسبیده و پیوسته نوشته می‌شوند، تشخیص حرف به حرف نوشته به وسیلة رایانه را، دچار مشکل می‌کند.

13. در اُ. سی. آر. فارسی همچنین اعداد نیز مشکل‌ساز هستند، چنانکه صفر در فارسی یک نقطه کوچک است که می‌تواند رایانه را به اشتباه بیندازد و نیز اعداد 1 و 2 و 3 بسیار شبیه هم هستند و تفاوتشان در یک دندانه کوچک است.

14. تنوع املایی یا تنوع در رسم‌الخط بعضی از کلمات که همه شکلهای آن نیز درست است مانند «اتاق و اطاق» و یا «امپراتور و امپراطور». و کلماتی که فقط یک شکل آنها صحیح است، ولی شکل ناصحیح آن نیز زیاد استفاده می‌شود، مانند « ذغال و زغال؛ خوشنود و خشنود». البته این جدا از تنوع در مفهوم کلمات است که در دیگر زبانها نیز وجود دارد، یعنی برای بعضی از مفاهیم ممکن است کلمات متنوعی استفاده شود؛ مانند «کامپیوتر و رایانه».

15. به کار بردن همزه درصورتهای مختلف مانند (مسأله، مسئله)‍؛ (مسئول، مسوول).

16. استفاده از « ا» و « آ » به جای یکدیگر مانند (فرایند و فرآیند).

17. شکلهای مختلف ضبط نامهای بیگانه در فارسی: ورود واژه ‌های بیگانه معمولا از راه ورود پدیده‌های فرهنگی نو در عرصه ‌های مختلف فنی، علمی، اجتماعی، سیاسی و هنری و .... و یا از طریق افراد دو زبانه انجام می‌گیرد که به وام‌گیری زبان معروف است و کم و بیش در تمام زبانها وجود دارد. واژه‌های بیگانه اغلب برای پرکردن خلأ واژه‌های علمی و یا ارتباطی سودمندند، اما وجود آنها مسائلی از قبیل چگونگی ضبط آنها در زبان وام را به‌ وجود می‌آورد. برای ضبط واژه‌های به وام گرفته شده به سبب اختلاف فاحش نشانه‌های الفبای فارسی با نشانه‌های الفبای خارجی، مشکلات جدی وجود دارد. از جمله اینکه الفبای فارسی آوانگار نیست و به همین جهت در ضبط دقیق تلفظ واژه‌های زبان فارسی نیز ناتوان است. این ناتوانی در ضبط واژه‌های بیگانه به مراتب بیشتر است. در مورد برگردان اسامی خارجی به خط فارسی نیز قاعده خاصی وجود ندارد و هر کس بنا بر سلیقه و ذوق خود این کار را انجام می‌دهد، در نتیجه یک کلمه واحد به شکلهای مختلف نوشته می‌شود. برای مثال (اتومبیل و اتوموبیل)؛ (کلسیم، کلسیوم، کالسیوم) و یا اسم Franklin به صورت (فرانکلین، فرانکلن، فرنکلین، فرنکلن) ضبط شده است.

18. استفاده یا استفاده نکردن از «ی» در کلمات مختوم به «الف» مانند (موسی و موسا).

19. استفاده یا استفاده نکردن از «ء» برای کلمات مختوم به های بیان حرکت در حالت مضاف مانند (خانه مسکونی و خانهء مسکونی و یا خانه‌ی مسکونی).

20. استفاده یا استفاده نکردن از اعراب برای کلمات.

21. انواع مختلف جمع برای یک واژه مفرد: به عنوان مثال، جمع بستن یک واژه با علایم جمع فارسی وعلایم جمع عربی مانند (معلم، معلمین، معلمان، معلم‌ها).

22. تنوینهای زبان عربی نیز از جمله دشواریهای رعایت اصل همخوانی نوشتاری و گفتاری هستند.

23. در نگارش یاء وحدت یا نکره در آخر کلماتی که به هاء مختفی یا غیر ملفوظ ختم می‌شوند، سه نوع املا‌ دیده می‌شود. (خانه‌ای، خانه‌یی، خانة).

24.کلمه‌های عربی در شکلهای گوناگون در زبان فارسی نوشته می‌شوند. (مبدا، مبداء)؛ (ابتدا، ابتداء)؛ (نسبتاً، نسبته، نسبتا) و ....

25. وجود دندانه‌های متعدد در کلمات، خواندن کلمات و بخصوص در  او.سی.آر. فارسی اشکال ایجاد می‌کند؛ مانند کلمات: نشستن و استشهاد.

26. حروف فارسی اغلب مشابهند و با اندکی غفلت به جای هم نوشته می‌شوند و مطلب را به کلی دگرگون می‌کنند، مانند (در، رد، ور) (راثی ساربانقلی، 1384).

بنابراین، با در نظر گرفتن موارد فوق می توان چنین استنباط کرد که این ویژگیها در زبان فارسی  با  وجود اینکه در خواندن متن اشکال کمی به وجود می‌آورند و هر آشنای به زبان فارسی به راحتی می‌تواند آنها را بخواند، در فناوری امروزه و تجزیه و تحلیل کلمات به کمک رایانه اشکال اساسی تولید می‌کنند و چنانچه قاعده‌ای جامع و مانع برای آنها وضع گردد، بزرگ‌ترین مشکل خط فارسی حل می‌شود. منظور اینکه، برای مثال خواندن سه کلمه «بی‌حوصلگی، بیحوصلگی، بی‌حوصله‌گی» مشکلی ایجاد نمی‌کند. اما در محیط الکترونیکی و شبکه اینترنت برای بازیابی این کلمه باید برای تمام شکلهای آن، جستجو را انجام دهیم (البته اگر از تمام شکلهای نوشتاری آن آگاهی داشته باشیم).

 

بیان مسئله و اهمیت پژوهش

امروزه روش غالب در جستجوی اطلاعات از پایگاه­های اطلاعاتی، روش کلیدواژه ای است. اما جستجو به این روش، دشواریهای خاص خود را دارد. چنانچه فردی به دنبال اطلاعاتی در مورد «کتابشناسی» باشد، این کلیدواژه را می تواند به سه شکل بنویسد: «کتابشناسی، کتاب‌شناسی و کتاب­شناسی». از آنجا که پایگاه­های اطلاعاتی، نظامهایی تطبیق دهنده هستند، دقیقاً همان کلمه­ای را بازیابی خواهند کرد که وارد جعبه جستجو شده است. بنابراین، برای هرکدام از این شکلها، تعداد نتایج متفاوتی بازیابی خواهد شد. چنانچه کاربری تنها یک شکل از این سه مورد را به کار ببرد، اطلاعاتی را که به شکلهای دیگر نوشته شده است، از دست خواهد داد. از این رو، در این مقاله سعی خواهد شد تا مشکلات ریخت‌شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران و پایگاه اطلاعاتی جهاد دانشگاهی بررسی و در پایان پیشنهادهایی برای بهبود کارایی پایگاه‌های اطلاعاتی فارسی ارائه شود.

 

 

هدفهای پژوهش

  1. بررسی برخی چالشهای ریختی شناخته شده زبان فارسی، بر میزان بازیابی اطلاعات در  سه پایگاه اطلاعاتی فارسی مورد بررسی
  2. مقایسه میزان توانایی سه پایگاه در رفع چالشهای ریختی مدنظر.

 

پیشینة پژوهش

از آنجا که پیشینه­های یافت شده برای این پژوهش به دو دسته مشکلات نگارشی در زبان فارسی و مشکلات نگارشی در سایر زبانها قابل دسته‌بندی است، هر دو گروه را جداگانه بررسی خواهیم کرد.

الف) پیشینه‌های مرتبط در زبان فارسی

«حرّی» (1372) در مقالة خود با عنوان «کامپیوتر و رسم‌الخط فارسی» بیان می‌دارد که یکی از متغیرهای عمده در ذخیره و بازیابی اطلاعات فارسی، رسم الخط یا شیوه خط فارسی است. گرچه حروف و کلمات به عنوان ورودی و خروجی هر سیستم رایانه‌ای در هر زبان اهمیت دارند، خط فارسی به دلیل ویژگی آن، در رویارویی با رایانه دارای مسائل پیچیده تری است. وی معتقد است پنج مورد که اختصاصاً به مسئله پیوند میان زبان فارسی و رایانه مربوط می‌شود، از این قرار است: هماهنگ کردن حروف، استفاده از تکواژها، استفاده از سیاهه آماده، پیوند ساختگی میان کلمات، هماهنگی رسم‌الخط.

«سمائی و همکاران» (1379) در طرح پژوهشی با عنوان «یکسان‌سازی شیوه رسم‌الخط اسامی ترکیبات شیمیایی در زبان فارسی» تلاش کرده‌اند شیوة نگارش اسامی ترکیبات شیمیایی و بخصوص ترکیبات آلی در زبان فارسی و معضلات  مربوط به آن را بررسی و الگوهایی برای یکسان نویسی آنها پیشنهاد کنند.

«نشاط» (1379)، در بررسی خود  با عنوان «مسائل رسم الخط فارسی در رویارویی با فناوری نوین اطلاعاتی»  سعی دارد با استفاده از شواهد موجود و الزامهای مربوط به زبان نظامهای رایانه‌ای به عنوان وجه غالب فناوریهای نوین و نیز ناسازگاری میان این دو ، تصویری از وضع موجود را عرضه و راه‌ حلهای ممکن را ارزیابی کند.

«مرتضایی» (1381) در مقاله‌ای با عنوان «مسائل زبان و خط فارسی در ذخیره و بازیابی اطلاعات» مشکلات گوناگونی را که در جریان ذخیره و بازیابی اطلاعات و ایجاد پایگاه های اطلاعاتی به زبان فارسی به وجود می‌آید، بررسی کرده است.

«محقق‌زاده و زارعیان» (1383) در مقاله‌ای با عنوان «ارائه راه‌حل برای برخی مسائل اتوماسیون و نگارش فارسی» ضمن برشمردن ایرادهایی که در مورد پردازش خط فارسی به وسیلة رایانه به وجود می‌آید، پیشنهادهایی را برای این مشکل ارائه می‌کند.

«بی‌جن خان» (1383) در مطالعه خود نقش پیکره های زبانی را در نوشتن دستور زبان بررسی و نقدهایی را بر پیکره های زبانی مطرح کرده است. وی به رابطة دستور زبان و پیکره زبانی اشاره و نرم‌افزاری را برای انواع جستجو در پیکره‌ها، تجزیه و تحلیل آماری داده‌ها و در نهایت گزارش‌گیری از داده‌های آماده‌سازی شده، معرفی می‌کند. وی در نتیجة تحقیق خود بیان می‌دارد که با استفاده از این روش علاوه بر اینکه می‌شود ساخت احتمالی نظامهای زبانی را مطالعه کرد، یافته‌های زبانشناسی نظری را هم می‌توان در حوزة دستور زبان در قالب فرضیه های زمانی محک زد.

«راثی ساربانقلی» (1384) در مقاله  خود با عنوان «مشکلات جستجو و بازیابی اطلاعات به زبان فارسی در اینترنت، مطالعه موردی: کاربران مرکز اینترنت دانشگاه آزاد اسلامی واحد شبستر» مشکلات جستجو و بازیابی اطلاعات به زبان فارسی در اینترنت توسط کاربران مرکز اینترنت دانشگاه آزاد اسلامی شبستر را بررسی نمود. نتایج پژوهش نشان داد بیشتر مشکل کاربران در جستجو، توجه نکردن به شکلهای مختلف نوشتاری واژه و استفاده نکردن از عملگر OR  می‌باشد.

«عبدالهی نورعلی» (1386) در پژوهش خود با عنوان «کندوکاو مسائل ریخت‌شناسی زبان فارسی در بازیابی اطلاعات از جستجوگرهای وب» به بررسی مسائلی پرداخته است که جستجوگرهای فارسی در کاوش ریخت‌شناسی مختلف یک کلمه با آن روبرو هستند. برای این مهم از سه جستجوگر بین‌المللی گوگل، یاهو و آلتاویستا[5] که امکان جستجو به زبان فارسی را دارند، استفاده شد. نتایج نشان داد هیچ کدام از جستجوگرها، چالشهای زبان شناختی زبان فارسی را در جهت بهبود کاوش، مورد توجه قرار نداده اند. با توجه به دستاوردهای حاصل از پژوهش، الگویی برای ایجاد اصلاحات در شیوة نگارش فارسی ارائه شد تا از این طریق بتوان پردازش متون رایانه ای را تسهیل نمود.

ب) پیشینه‌های مرتبط در سایر زبانها

«هدلاند[6] و دیگران» (2000) ویژگیهای زبان سوئدی را از نظر بازیابی بررسی کردند. آنها مطالعه‌ای مقایسه‌ای بر روی زبانهای سوئدی، فنلاندی و انگلیسی انجام دادند تا میزان ابهامهای لغوی را در این زبانها معیّن کنند. محققان پیشنهاد می‌کنند برچسب‌گذاری ادات سخن جهت بازیابی کلمات هم نگاشت، می‌تواند مفید باشد.

«مونز و دوریکه»[7] (2002) با تمرکز بر اثرات تحلیلهای ریخت‌شناسی همچون ریشه‌سازی و جداسازی کلمات مرکب، کارآیی بازیابی اطلاعات را بررسی کردند. این مطالعه بر روی زبانهای هلندی، آلمانی و ایتالیایی انجام شده است. نتایج نشان داد بازیابی اطلاعات حدود 25% برای زبان آلمانی، 69% برای زبان هلندی و 25% برای زبان ایتالیایی بهبود یافت.

«درویش»[8] (2002) روشی را برای ایجاد یک تحلیلگر ریخت‌شناسی ارائه می‌دهد. این تحلیلگر توانایی تولید ریشه‌های احتمالاتی یک کلمه را خواهد داشت. در این نظام، قواعد ریشه‌سازی خودکار مورد استفاده قرار گرفته است. محقق برای ارزیابی این نظام، آن را با یک تحلیلگر ریخت‌شناسی عربی موجود در بازار مقایسه کرده است.

«مقداد»[9] (2005) در یک پژوهش، عملکرد سه ابزار جستجوی عمومی را با سه جستجوگر عربی (که اختصاصاً مسائل زبان شناختی عربی را لحاظ می‌کنند) مقایسه کرد. نتایج نشان داد جستجوگرهای عمومی، نظیر آلدوب[10]، آلتاویستا و گوگل در بازیابی مدارک عربی، ناقص عمل می‌کنند. همچنین، نتایج این تحقیق، نیاز به تحقیقات بیشتر در زمینة عملی بودن ابزارهای جدید بازیابی اطلاعات در جستجوگرها را نشان داد.

«تاث»[11] (2006) به بررسی قابلیتهای زبان شناختی جستجوگرهای انگلیسی و مجاری پرداخت. محقق سه ابزار جستجوی انگلیسی به نامهای گوگل، آلتاویستا و آلدوب را با پنج جستجوگر محلی مقایسه نمود. تحلیل داده‌ها بر پایه چند شاخص انجام شد که عبارت بودند از: ریشه‌سازی، بازیابی لهجه‌های مختلف، کوتاه‌سازی و جستجوی مترادفها. نتایج حاکی از آن بود که جستجوگرهای محلی، مسائل زبان مجاری را بهتر از جستجوگرهای انگلیسی مورد توجه قرار داده‌اند. ابزارهای انگلیسی زبان، لهجه‌های مختلف زبان مجاری را به خوبی پشتیبانی نمی‌کردند، که این امر به بازیابی ضعیف اطلاعات منجر می‌شد.

 

پرسشهای پژوهش

1-  چالشهای ریختی شناخته شده زبان فارسی چه تأثیری بر بازیابی اطلاعات در هر یک از سه پایگاه مورد نظر داشته است؟

2-  کدام‌ یک از سه پایگاه مورد نظر، چالشهای ریختی مورد نظر را در الگوریتمهای بازیابی خود مورد توجه قرار داده اند؟

 

روش­شناسی پژوهش

این پژوهش با استفاده از روش پیمایش مقایسه­ای انجام پذیرفته است. داده‌های جدولها نیز بر اساس آمار توصیفی بررسی شده است. زمان گردآوری داده­ها مهر 87 بود. از آنجا که  این سه پایگاه از جمله پایگاه‌های مهمی هستند که  مقاله‌های فارسی را نمایه می‌کنند، در پژوهش حاضر مورد بررسی  قرار گرفتند.

شیوة اجرای تحقیق بدین شکل است که ابتدا  سیاهه­ای مشتمل بر 17 چالش نگارشی در زبان فارسی با استفاده از متون موجود شناسایی شد. سپس برای هریک از آنها مصداقهای موجود در زبان فارسی انتخاب و  بررسی گردید. مصداقها به صورت کلیدواژه هایی در سه پایگاه جستجو شد تا اطمینان حاصل شود دست کم یک پیشینه برای آن چالش وجود  داشته باشد. این کلیدواژه ها به عنوان وسیله گردآوری داده ها به کار گرفته شده اند و  نتایج هر یک از جستجوها در قالب تعداد رکوردهای یافت شده برای هر واژه در هر سه پایگاه، در جدول شماره 1 ارائه شده است.

شایان ذکر است، برای اطمینان از اینکه  بازیابی‌های هم تعداد یک محتوا دارند، رکوردهای بازیابی شده به صورت گزینشی با هم مقایسه گردید.

در بعضی موارد نیز برای کنترل رخداد یک واژه از کنترل مدارک همپوشان در سه پایگاه استفاده شد؛ بنابراین تا حد امکان از نبود رویداد یک واژه در سه پایگاه اطمینان حاصل شد، لذا مقدار صفر در جدول یک به معنای یافت نشدن رکورد برای ریخت مورد نظر در پایگاه است.

در جدول شماره 2، نسبت تعداد رخدادهای مختلف واژگان به صورت  دو به دو برای  هر واژه در هر یک از سه پایگاه محاسبه گردید. همان‌طور که مشاهده می‌شود، در صورت یکسان بودن تعداد نتایج، برچسب «یک» و در غیر این صورت برچسب «غیر از یک» به هر کدام داده شد. بنابراین، مفهوم «یک» در آن جدول به احتمال قوی به معنای یکسان بودن رکوردهای بازیابی شده از دو صورت واژه در پایگاه مورد نظر است. برای مثال، در مرکز منطقه ای اطلاع رسانی علوم و فناوری، برای واژه «محمد» 13982 رکورد و برای واژه «محمّد» نیز 13982 رکورد بازیابی شد؛ لذا نسبت «یک» میان این دو واژه در این پایگاه برقرار است.

جدول 1. آمار نتایج بازیابی شده برای هرکدام از مشکلات زبان فارسی به تفکیک پایگاه ها

ردیف

مشکل

مشکل ریخت‌شناسی

پایگاه

مرکز منطقه‌ای

ایرانداک

جهاد دانشگاهی

1

تشدید

محمد

13982

12881

86

محمّد

13982

0

0

2

همزة پایانی

املا

8

2

62

املاء

12

1

1

3

نشانه‌های جمع

معلمان

401

140

103

معلمین

18

0

18

4

برگرداندن کلمات خارجی

آمریکا

4507

676

30

امریکا

572

33

6

5

های غیر ملفوظ

واژگان

509

53

65

واژه گان

0

0

0

6

تنوین

 

واقعاً

107

0

1

واقعا

107

34

3

7

همزه متصل به یای وحدت

رضایی

1149

721

1187

رضائی

222

140

6

8

استفاده از "ا" و"آ" به جای هم

درآمد

970

172

146

درامد

1

2

3

9

الف مقصوره

اسحاق

97

37

1

اسحق

20

14

2

10

پیوسته نویسی ، بی فاصله نویسی یا جدانویسی ترکیبات

کتابشناسی

683

42

5

کتاب شناسی

145

22

2

کتاب‌شناسی

683

22

0

11

تای منقوط

مشکات

13

2

9

مشکوه

1098

26

21

مشکوة

8

0

1

12

صامت میانجی«ی»

دو استقامت

2

3

2

دو‌ی استقامت

0

1

0

13

تنوع صورتهای درست یک کلمه

اتاق

3589

103

41

اطاق

21

4

4

14

همزه به صورتهای مختلف

مسئول

77

13

17

مسؤول

0

1

17

15

تنوع در تلفظ

داود

1154

441

5

داوود

356

172

2

16

خط تیره

اقتصادی اجتماعی

4881

295

13

اقتصادی - اجتماعی

1

295

22

17

نقطه بین سرنامها

اچ آی وی

14

23

5

اچ. آی. وی

0

23

0

جدول2. مقایسه نسبت ریختهای مختلف هر واژه در پایگاه های مختلف

ردیف

مشکل

نسبت ریخت کلمات به یکدیگر

نسبت تعداد ریخت بازیابی شده کلمات به تفکیک پایگاه

مرکز منطقه‌ای

ایرانداک

جهاد دانشگاهی

1

تشدید

محمد/ محمّد

1

غیر از یک

غیر از یک

2

همزه پایانی

املا/ املاء

غیر از یک

غیر از یک

غیر از یک

3

نشانه های جمع

معلمان/معلمین

غیر از یک

غیر از یک

غیر از یک

4

برگرداندن کلمات خارجی

آمریکا/امریکا

غیر از یک

غیر از یک

غیر از یک

5

های غیر ملفوظ

واژگان/واژه گان

غیر از یک

غیر از یک

غیر از یک

6

تنوین

واقعاً/واقعا

1

غیر از یک

غیر از یک

7

همزه متصل به یای وحدت

رضایی/رضائی

غیر از یک

غیر از یک

غیر از یک

8

استفاده از "ا" و"آ" به جای هم

درآمد/درامد

غیر از یک

غیر از یک

غیر از یک

9

الف مقصوره

اسحاق/اسحق

غیر از یک

غیر از یک

غیر از یک

10

پیوسته نویسی ، بی‌فاصله نویسی یا جدانویسی ترکیبات

کتابشناسی/کتاب شناسی

غیر از یک

غیر از یک

غیر از یک

کتاب شناسی/ کتاب‌شناسی

غیر از یک

1

غیر از یک

کتابشناسی/کتاب‌شناسی

1

غیر از یک

غیر از یک

11

تای منقوط

مشکات/مشکوه

غیر از یک

غیر از یک

غیر از یک

مشکوه/مشکوة

غیر از یک

غیر از یک

غیر از یک

مشکات/مشکوة

غیر از یک

غیر از یک

غیر از یک

12

صامت میانجی«ی»

دو استقامت/دوی استقامت

غیر از یک

غیر از یک

غیر از یک

13

تنوع صورتهای درست یک کلمه

اتاق/اطاق

غیر از یک

غیر از یک

غیر از یک

14

همزه به صورتهای مختلف

مسئول/مسؤول

غیر از یک

غیر از یک

1

15

تنوع در تلفظ

داود/داوود

غیر از یک

غیر از یک

غیر از یک

 

خط تیره

اقتصادی - اجتماعی/ اقتصادی- اجتماعی

غیر از یک

1

غیر از یک

16

نقطه بین سرنام

اچ آی وی/ اچ. آی. وی.

غیر از یک

1

غیر از یک

17

تعداد موارد حل شده

 

3

3

1

یافته‌های پژوهش

    با استفاده از آمارهای داده شده در جدولهای فوق، می‌توان در پاسخ به سؤالهای پژوهش چنین بیان داشت:

1-   چالشهای ریختی شناخته شده زبان فارسی چه تأثیری بر بازیابی اطلاعات در هر یک از سه پایگاه مورد نظر داشته است؟

باید گفت، بر اساس اطلاعات ارائه شده در جدول شماره 1، شاهدیم که هر شکل نوشتاری کلمه در زبان فارسی نتایج متعددی را در هر پایگاه اطلاعاتی در پی دارد. به طور مثال، به بررسی تأثیری که الف مقصوره  و لحاظ یا عدم لحاظ آن در کلمه «اسحاق» داشته است، خواهیم پرداخت:

طبق آمار به دست آمده از جدول شماره 1، برای کلمه «اسحاق» در دو شکل نوشتاری مختلف شاهدیم که چنانچه برای نوشتن این کلمه از الف مقصوره استفاده نشود، نتایج به دست آمده در سه پایگاه مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران، و جهاد دانشگاهی به ترتیب تعداد رکوردهای بازیابی شده 97، 37 و 1 می باشد و چنانچه در حالتی دیگر برای نوشتن کلمه «اسحاق» از الف مقصوره استفاده شود و شکل نوشتن این کلمه در جعبه جستجوی پایگاه به شکل «اسحق» باشد، نتیجه متفاوتی به دست خواهد آمد، به طوری که در این حالت رکوردهای بازیابی شده در سه پایگاه مدنظر به ترتیب 20، 14، 2 می‌باشد. بدین ترتیب، متوجه می‌شویم مشکل ریختی الف مقصوره در هر سه پایگاه اطلاعاتی فارسی باعث اختلاف در تعداد رکوردهای بازیابی شده، می شود و چنانچه کلمه «اسحق» را به جای کلمه «اسحاق» در جعبه جستجوی پایگاه اطلاعاتی مرکزمنطقه ای اطلاع رسانی علوم و فناوری وارد کنیم، 77 رکورد و در پایگاه اطلاعاتی پژوهشگاه اطلاعات و مدارک علمی ایران 23 رکورد اطلاعات را از دست خواهیم داد و بدین طریق این عامل باعث ریزش رکوردهای اطلاعاتی مفید خواهد شد، اما در پایگاه جهاد دانشگاهی با شکل «اسحاق» 1 رکورد و با شکل «اسحق» 2 رکورد بازیابی شده است؛ یعنی افزایش تعداد رکورد رخ داده است. بنابراین، شاهدیم که چگونه شکلهای متنوع نوشتار کلمات می تواند باعث کاهش یا افزایش تعداد رکوردهای بازیابی شده در پایگاه­های فارسی زبان شوند.

2-  کدام‌ یک از سه پایگاه مورد نظر، چالشهای ریختیِ ذکر شده را در الگوریتمهای بازیابی خود مورد توجه قرار داده اند؟

بر اساس اطلاعات موجود در جدول شماره 2، شاهدیم که هیچ کدام از سه پایگاه فارسی مورد نظر، به شیوه‌ای جامع چالشهای ریخت شناسی زبان فارسی را در جهت بهبود نتایج کاوش مورد توجه قرار نداده‌اند، اگرچه در بعضی موارد تساوی تعداد رکوردهای بازیابی شده در ریختهای مختلف یک واژه را به احتمال قوی می‌توان به منزلة رفع آن چالش  خاص در الگوریتم بازیابی پایگاه در نظر گرفت، اما
نمونه‌هایی از این دست برای هر پایگاه نسبت به حجم مشکلات ریخت‌شناسی موجود، درصد بسیار اندکی را به خود اختصاص می دهد. به طور مثال، از میان     17 چالش موجود که در جدولهای فوق طرح شد، پایگاه مرکز منطقه ای اطلاع‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران، و جهاد دانشگاهی به ترتیب موفق به حل سه، سه و یک مورد از مسائل ریخت شناسی زبان فارسی شدند. پایگاه‌های مذکور از میان تمامی چالشهای ریخت شناسی مطرح شده تنها برای موارد زیر چاره جویی نموده اند:

پایگاه مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری: تنوین، تشدید، پیوسته‌نویسی و بی‌‌فاصله‌نویسی؛ پژوهشگاه اطلاعات و مدارک علمی ایران: جدانویسی و بی فاصله نویسی، خط تیره، نقطه بین سرنام‌ها؛ پایگاه جهاد دانشگاهی:  همزه به صورتهای مختلف.

 

نتیجه‌گیری

بدیهی است، پردازش بهتر و سریع­تر متون فارسی با استفاده رایانه در زمانه ما یک ضرورت اساسی به نظر می رسد. پایگاه های اطلاعاتی که با استفاده از زبان و شیوه خط کنونی به ذخیره و بازیابی اطلاعات می پردازند، نمی توانند کارایی مطلوبی داشته باشند و این شکلهای متنوع نوشتار کلمات می تواند باعث کاهش یا افزایش تعداد رکوردهای بازیابی شده در پایگاه­های فارسی زبان شود. بر این اساس، شاهدیم که پایگاه‌های اطلاعاتی فارسی با وجود عمر نسبتاً کوتاه، با مشکلات بسیاری دست به گریبانند، که اگر هر چه زودتر چاره‌اندیشی نشود، با توجه به هجوم اطلاعات دیگر، مهار آن آسان نخواهد بود. نتایج بررسی نشان داد هیچ‌کدام از سه پایگاه فارسی مورد نظر، به شیوه‌ای جامع چالشهای زبانشناختی زبان فارسی را در جهت بهبود نتایج کاوش مورد توجه قرار نداده‌اند. اگرچه در بعضی موارد تساوی تعداد رکوردهای بازیابی شده در ریختهای مختلف یک واژه را می‌توان به منزلة رفع آن چالش خاص در نظر گرفت، اما نمونه‌هایی از این دست برای هر پایگاه نسبت به تعدد مشکلات ریخت‌شناسی موجود، درصد بسیار اندکی را به خود اختصاص می‌دهد. به طور مثال، از میان 17 چالش موجود که در جدولهای فوق طرح شد، پایگاه مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران، و جهاد دانشگاهی به ترتیب موفق به حل سه، سه  و یک مورد از مسائل ریخت‌شناسی زبان فارسی شدند.

 

 

پیشنهادها

با توجه به اینکه هر کدام از سه پایگاه مورد بررسی توانسته در سطحی محدود بر برخی از چالشهای ریخت‌شناسی واژگان فارسی فایق آید، و با در نظرگرفتن این نکته که مشکل حل شده هر پایگاه با سایر پایگاه­ها متفاوت است و این  سه پایگاه مورد نظر در کشور ما از پایگاه های علمی معتبر به شمار رفته و  هر روز نیز  بر تعداد کاربران آنها افزوده می شود، متأسفانه اغلب کاربران از آنچه به هنگام جستجو در این پایگاه ها رخ می‌دهد، آگاهی ندارند. از این‌رو، آگاهی نداشتن و همچنین تنوع صورت نوشتاری، تأثیر زیادی بر از دست دادن مدارک مربوط در هر یک از سه پایگاه اطلاعاتی مورد بررسی دارد. بنابراین، پیشنهاد می‌شود طراحان پایگاه‌های اطلاعاتی فارسی در نشستی پیرامون این موضوع به ارائه تجربه‌ها و یافته‌های خود پرداخته و از دستاوردهای دیگران در این حیطه بهره ببرند. همچنین می توان هنگام طراحی پایگاه‌ها، آنها را به اصطلاحنامه مجهز نمود تا کاربران از ریختهای مختلف واژه به اصطلاح پذیرفته شده راهنمایی شوند. همین‌طور طراحان می توانند تمهیداتی را دربارة چگونگی استفاده از پایگاه و الگوریتمهای مرتبط با مسائل ریختی واژگان به کاربرده شده برای جستجو در اختیار کاربران قرار دهند تا از این طریق آنها راحت‌تر به جستجو بپردازند و بتوانند حداکثر نتایج دلخواه خود را بیابند. به نظر می‌رسد همکاری بین متخصصان زبان شناسی با متخصصان عرصه بازیابی اطلاعات به منظور جهت دهی تحقیقاتی در این زمینه بسیار ضروری است.



1. Morphology.

1. واو معدوله، واوی است که در این زمان عموماً نوشته می‌شود ولی خوانده نمی‌شود، مانند خواهش. اما در زمانهای قدیم آن را با کیفیت خاصی تلفظ می‌کرده‌اند و چون در هنگام تلفظ ضمه به فتحه عدول می‌کرده است، آن را واو معدوله نامیده‌اند. هنوز در برخی از لهجه‌ها تلفظ آن به صورت قدیم مانده است. پیش از واو معدوله همیشه حرف «خ» و پس از آن یکی از حروف «د. ر. ز. س. ش. ن. و. ه. ی» آمده است.

1. optical character recognition(ocr).

1. نویسگان، جمع نویسه معادل Characters

[5]. Altavista.

[6]. Hedlund.

[7]. Monz & De Rijke.

[8]. Darwish.

[9]. Moukdad.

[10]. Altheweb.

[11].Toth.

- بی جن خان، محمود (1383). نقش پیکره­های زبانی در نوشتن دستور زبان، معرفی یک نرم‌افزار رایانه‌ای.  مجله زبان­شناسی، 19 (2)، 48-67.

- راثی ساربانقلی و محمد صابر (1384). مهارت در جستجوی اطلاعات فارسی از اینترنت.  مجله الکترونیکی نما، 5 (1)، بازیابی 22 آبان 1387، از

   http://www.irandoc.ac.ir/Data/E_J/vol5/rasi.htm

- حری، عباس (1372). کامپیوتر و رسم‌الخط فارسی. پیام کتابخانه. 3 (1)، 6-11.

- سمائی، مهدی (1379). یکسان‌سازی شیوه رسم‌الخط اسامی ترکیبات شیمیائی در زبان فارسی. طرح پژوهشی، مرکز اطلاعات و مدارک علمی ایران، تهران.

- عبدالهی نورعلی، محمدصادق (1386). کندوکاو مسائل ریخت شناسی زبان فارسی در بازیابی اطلاعات از جستجو گرهای وب. پایان نامه کارشناسی ارشد کتابداری و اطلاع رسانی، دانشگاه شیراز، شیراز.

- محقق‌زاده، محمدصادق و کاظم زارعیان (1383). ارائه راه‌حل برای برخی مسایل اتوماسیون نگارش فارسی. فصلنامه اطلاع‌رسانی، 19( 3-4 )، 1-10.

- مرتضایی، لیلا (1381). مسائل زبان و خط فارسی در ذخیره‌سازی و بازیابی اطلاعات. فصلنامه اطلاع‌رسانی، 17 (1-2)، 1-7.

- ناتل خانلری، پرویز (1373). زبان‌شناسی و زبان فارسی. تهران: توس.

- نشاط، نرگس (1379). مسائل رسم‌الخط فارسی در رویارویی با فناوری نوین اطلاعاتی. در فهرست­های رایانه‌ای، کاربرد و توسعه. مجموعه مقالات همایش کاربرد و توسعه فهرست­های رایانه‌ای در کتابخانه­های ایران، آبان  27-28، (401-408). مشهد: دانشگاه فردوسی مشهد.

- یارمحمدی، لطف الله (1364). درآمدی به آواشناسی. تهران: مرکز نشر دانشگاهی.

- Darwish, K. (2002). Building a Shallow Arabic Morphological Analyzer in One Day. Annual Meeting of the ACL, Proceedings of the ACL-workshop on Computational approaches to Semitic languages. Philadelphia, 19-28.

- Hedlund, T., Pirkola, A. ,& Kalervo, J. (2001). Aspects of Swedish morphology and Semantics from the perspective of mono- and cross-language information retrieval. Information Processing and Management,37,147-161.

- Retrieved November 3, 2008, from http://www.dcs.shef.ac.uk /nlp/clarity/papers/SWEIR-Hedlund-IPM01.pdf .

- Monz, C. , & De Rijke, M. (2002). Shallow Morphological Analysis in Monolingual Information Retrieval for Dutch, German, and Italian. Evaluation of Cross-Language Information Retrieval Systems: Second Workshop of the Cross language Evaluation Forum, CLEF 2001, Darmstadt, Germany.

- Moukdad, H. (2005). Lost In cyberspace: How Do Search Engines Handle Arabic Queries?.The international information & library review,37(4),237-394.

- Toth, E. (2006). Exploring the Capabilities of English and Hungarian  Search Engine for Various Queries. Libri, 56, 38-47.