تحلیل چالشهای پیوسته‎نویسی و جدانویسی واژگان فارسی در ذخیره و بازیابی اطلاعات در پایگاه‌های اطلاعاتی

آخشیک سادات, سمیه; فتاحی, رحمت الله

تحلیل چالشهای پیوسته‎نویسی و جدانویسی واژگان فارسی در ذخیره و بازیابی اطلاعات در پایگاه‌های اطلاعاتی

نوع مقاله : مقاله پژوهشی

نویسندگان

سمیه آخشیک سادات ¹

رحمت الله فتاحی ²

¹ دانشجوی دورة دکترای کتابداری و اطلاع‌رسانی، دانشگاه فردوسی مشهد.

² استاد گروه کتابداری و اطلاع‌رسانی، دانشگاه فردوسی مشهد

چکیده

مقدمه: ویژگیهای خاصّ دستوری و نگارشی زبان و خط فارسی، دشواریهایی را در ذخیره و بازیابی اطلاعات در محیط رایانه‎ای پدید آورده است. رسم‌الخط فارسی نیز از یک‌سو به علت اختلاف نظر پدیدآورندگان متون و از سوی دیگر پیچیدگیهای ذاتی خود، به‎هنگام ذخیره، جستجو و بازیابی چالشهای متعددی را برای طراحان و نمایه‎سازان پایگاه‌ها، کاربران و پدیدآورندگان منابع به‌وجود آورده است.
روش بررسی: این پژوهش به روش تحلیل محتوا انجام شد.100 عنوان از پایان‎نامه‎های موجود رشته کتابداری و اطلاع‌رسانی به منزله نمونه‌ای از متون فارسی در پایگاه‌های اطلاعاتی پژوهشگاه‌های علوم و فناوری اطلاعات ایران و مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری و از هر پایگاه 50 عنوان به‎صورت تصادفی انتخاب شد. با استفاده از دستور خط فارسی مصوب فرهنگستان زبان، کلماتی که درست یا نادرست نوشته شده بود، از یکدیگر تفکیک و در مرحله بعد، عنوانهای مورد نظر در هر دو پایگاه و با حالتهای متفاوت کلمات مرکب، جستجو گردید و در نهایت، نتایج بازیابی در پایگاه‌ها، ارزیابی و مقایسه شد.
یافته‎ها: نتایج این بررسی نشان داد 2/71% از کلمات عنوانها به صورت درست و 8/28% نادرست نگارش شده‎اند. همچنین، مشخص شد 6/51% این کلمات، دو جزئی و 5/47% سه جزئی هستند و اغلب نویسندگان پایان‎نامه‎ها، در مورد نحوة نگارش کلماتی که 2 جزئی و مشتق می‎باشند، دچار خطا شده‎اند. در پایگاه اطلاعاتی مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری، تنها حالت ثبت شده عنوانها به بازیابی عنوان مورد نظر ‎انجامید و در پایگاه اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران، تنها 58% عنوانها با تغییر رسم‌الخط همچنان بازیابی شدند.
نتیجه‎گیری: این پژوهش نشان داد پایگاه اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران نسبت به پایگاه اطلاعاتی مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری، در بازیابی عنوان پایان نامه‌ها در حالتهای مختلف پیوسته و جدا نوشته شده، بهتر عمل می‎کند. همچنین، باید به نویسندگان پایان‌نامه‌ها، استفاده از قواعد یکدست ملی بویژه در نگارش کلمات 2 جزئی و مشتق تأکید شود.

کلیدواژه‌ها

خط فارسی

ذخیره و بازیابی

پایگاه‌های اطلاعاتی

رسم‌الخط

پیوسته‌نویسی

جدانویسی

در این جستار کوتاه سعی شده با نگاه به ویژگی پیوسته‎نویسی و جدانویسی واژگان فارسی در محدودة عنوانهای پایان‎نامه‎های کتابداری و اطلاع‌رسانی و بررسی این مشکل در دو پایگاه اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران و مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری، وضعیت توجه نویسندگان و همچنین پایگاه‌های مورد نظر به این بخش از رسم‌الخط بررسی و راهکارهایی برای حلّ این مشکلات ارائه شود.

مقدمه

به استناد مرکز آمار جهانی اینترنت، هرچند زبان انگلیسی هنوز هم جزء ده زبان اول دنیای اینترنت است^{^[1]}، تعداد مدارک غیر انگلیسی و کاربران غیر انگلیسی زبان در وب در حال افزایش است. این وضعیت، مطالعه و طراحی سیستمهای بازیابی برای این زبانهای مختلف را ناگزیر ساخته است. چنان‌که «آل احمد و دیگران»^{^[2]} (2008) نیز به این مسئله اشاره کرده‌اند، زبان فارسی به‎عنوان زبان رسمی ایران، افغانستان و تاجیکستان سبب شده منابع زیادی از وب به این زبان تولید شود و کاربران فارسی زبان به دلایل مختلفی در جستجوهای خود از این زبان استفاده کنند، اما به دلیل غالب بودن زبان انگلیسی در اینترنت، جستجو به زبانهای غیرانگلیسی از جمله فارسی، مسائل و مشکلات مختلفی جدا از مشکلات عمومی اینترنت به همراه دارد (راثی، 1384). مشکلات زبان فارسی از یک سو و اهمیت یافتن روزافزون موضوع رایانه و خط و زبان فارسی، که در همه زمینه‎های کاربردی و تحقیقاتی و حتی در زندگی عموم مردم رسوخ یافته، از سوی دیگر، همانطور که «صامتی و بی‎جن‎خان» (1389، نوزده) نیز بیان می‎کنند، سبب شکل‎گیری پژوهشهای زیادی در این حوزه شده است.

دشواریهای زبان فارسی در ارتباط با حوزة ذخیره و بازیابی اطلاعات را می‎توان از نظرگاه‌های مختلفی دسته‎بندی نمود. مقالة حاضر که با دیدگاه ساختاری به مسائل رسم‌الخط فارسی پرداخته است، به‌طور مشخص بر ویژگی پیوسته و جدانویسی کلمات فارسی تأکید دارد. کلماتی که به دو شکل پیوسته و جدا نوشته می‎شوند، هر چند مشکلات کمی در خواندن متن به وجود می‌آورند و هر آشنای به زبان فارسی به راحتی می‌تواند آنها را بخواند، در نظامهای ذخیره و بازیابی اطلاعات، مشکلات زیادی ایجاد می‎کنند. از این رو، نیازمند توجه از سوی پدیدآورندگان متون و منابع و نیز طراحان و نمایه‎سازان پایگاه‌های اطلاعاتی می‎باشند.

پیوسته‎نویسی و جدانویسی در رسم‌الخط فارسی

فرهنگستان زبان و ادب فارسی در باب پیوسته‌نویسی و یا جدانویسی ترکیبات در زبان فارسی، سه فرض را متصور است (دستور خط فارسی، 1388، ص 38) که در ادامه به آنها اشاره شده است. در پژوهش حاضر بر مبنای این دستورالعملهای فرهنگستان عمل شده است.

تدوین قواعدی برای جدانویسی همه کلمات مرکب و تعیین موارد استثنا.
تدوین قواعدی برای پیوسته‌نویسی همه کلمات مرکب و تعیین موارد استثنا.
تدوین قواعدی برای جدانویسی الزامی بعضی از کلمات مرکب و پیوسته‌نویسی بعضی دیگر و دادن اختیار در خصوص سایر کلمات به نویسندگان.

فرهنگستان در تدوین و تصویب دستور خط فارسی، فرض سوم را برگزیده و تنها موارد الزامی جدانویسی و یا پیوسته‎نویسی را مشخص کرده است:

الف)کلمات مرکبی که الزاماً پیوسته نوشته می‎شوند. به عنوان مثال، مرکبهای بسیط‎گونه مانند یکشنبه و کلماتی که جزء دومشان با «آ» آغاز می‎شود و تک هجایی هستند و موارد دیگر که در متن دستور خط فارسی به‎طور کامل توضیح داه شده‎اند.

ب) کلمات مرکبی که الزاماً جدا نوشته می‎شوند. مانند ترکیبهای اضافی، مصدر مرکب و غیره... .

در عین حال، چنان‌که اشاره شد، نویسندگان، ویراستاران و ناشران آثار فارسی تاکنون از شیوه‌ها و رسم الخط‌های مختلفی استفاده کرده‌اند و متون موجود فارسی با همین گوناگونی در پایگاه‌های اطلاعاتی و در وب ذخیره شده است. به همین سبب، جستجو و بازیابی متون فارسی با چالشهای فراوان همراه است.

ضرورت و هدفهای پژوهش

نظام نحوی یا ساختاری هر زبان، مهم‌ترین شاخص استقلال و تمایز یک زبان از زبانهای دیگر است که بر پایة واژگان زبان شکل می‌گیرد (نوبهار، 1388). زبان فارسی، در مقایسه با سایر زبانهای دنیا، ماهیت متفاوت و ویژه (Oroumchian , et al. , 2007) و نیز نظام ساختاری پیچیده‎ای دارد. به همین دلیل، طراحی سیستمهای ذخیره و بازیابی برای آن نیازمند ملاحظات ویژه‎ای است. این تفاوتها نه تنها در ساختار زبان، بلکه در خط فارسی نیز وجود دارد (دستور خط فارسی، 1388، ص.1). متأسفانه، نبود استاندارد و تنوع رسم‌الخط و مفاهیم در زبان فارسی (شهیدی و دیگران 1384) سبب پراکندگی سبک و سیاق نگارشی برای این زبان شده است. بی‌توجهی برخی از پدیدآورندگان به این ویژگیهای خط فارسی بویژه در متون و منابع علمی و گاه بی‎توجهی طراحان پایگاه‌های اطلاعاتی و موتورهای جستجو، اغلب به ناکارآمدی این پایگاه‌ها در جستجو و بازیابی منجر شده است. آنچه ضرورت پرداختن به این پژوهش را آشکار می‎سازد، شناسایی مسائل مربوط به پیوسته و جدانویسی در نگارش فارسی و میزان توجه به این مسائل در ذخیره و بازیابی اطلاعات و متون فارسی است. براساس این ضرورت، هدف از پژوهش حاضر، شناسایی کاستیهایی است که از نظر رسم‌الخط فارسی و از جنبه ویژگیهای ترکیب و جدانویسی کلمات در زبان فارسی، در عنوانهای پایان‎نامه‎های کتابداری انعکاس یافته است. همچنین، میزان توجه طراحان و نمایه‎سازان پایگاه‌های اطلاعاتی پژوهشگاه‌های علوم و فناوری اطلاعات ایران و مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری به این ویژگیهای کلمات فارسی به منظور تلاش برای بهینه‎سازی این پایگاه‌های اطلاعاتی، از دیگر هدفهایی است که این پژوهش دنبال می‎کند.

مسئله پژوهش

رسم‌الخط فارسی، چنان‌که «حرّی» (1376) نیز اشاره می‎کند، یکی از متغیرهای عمده در ذخیره و بازیابی اطلاعات به زبان فارسی است و در دهه‎های اخیر نیز مسبب بیشترین اختلاف نظر در مورد شیوه املای کلمات بوده است (شهیدی و دیگران، 1384). دشواریهای حاکم بر نحوة نگارش واژه‎های فارسی، علاوه بر این‌که سبب ناهماهنگی متون می‎شود، برای جستجوگران محیط وب نیز مسائلی را پیش روی می‎نهد. بی‌توجهی کاربران (راثی، 1384)، پدیدآورندگان متون و منابع و نیز طراحان و نمایه‎سازان پایگاه‌های اطلاعاتی فارسی به ویژگیهای پیوسته‎نویسی و جدانویسی واژگان در کنار سایر مسائل رسم‌الخط فارسی، می‎تواند سبب بروز مشکلات زیادی در ذخیره و بازیابی اطلاعات شود. بر این اساس، پژوهش حاضر در پی آن است تا میزان رعایت اصول رسم‌الخط فارسی از جنبة پیوسته‎نویسی و جدانویسی را با محدود نمودن به حوزة کتابداری و اطلاع‌رسانی و صرفاً به پایان‎نامه‎هایی که به‎عنوان نمونه برای این‎کار انتخاب شده‎اند، بررسی کند. همچنین، روشهایی را که ممکن است برخی پایگاه‌های اطلاعاتی در این زمینه اتخاذ نموده باشند، شناسایی و بر مبنای یافته‎های حاصل، ضمن نشان دادن وضعیت حال حاضر، پیشنهادها و راهکارهایی عملی ارائه نماید.

پیشینة پژوهش

بررسی پژوهشهای انجام گرفته در حوزة بازیابی اطلاعات به زبان فارسی بیانگر این است که این مقوله از دیرباز مورد توجه صاحب‌نظران و پژوهشگران علوم کتابداری و اطلاع‌رسانی، رایانه و زبانشناسی بوده است. نگاه به فعالیتهایی که در این زمینه صورت گرفته، از گستردگی مشکلات و دشواریهای زبان فارسی و ابعاد مختلف آن حکایت دارد که در حوزة بازیابی به‎عنوان مسئله رخ نموده و لزوم تلاش برای رفع آنها را ضروری می‎سازد^{^[3]}. در ادامه، برخی از این پژوهشها در حوزه‎های ریشه‎یابی، پیوسته‎نویسی و جدانویسی و نیز شکلهای مختلف نوشتاری واژگان فارسی، دسته‎بندی و بیان می‌شود.

جدانویسی و پیوسته‌نویسی: مرور پیشینه در این حوزه، نشان از فعالیتهای اندک صورت گرفته دربارة مشکلات جدانویسی و پیوسته‎نویسی دارد. اغلب این پژوهشها، مسائل مطرح در این زمینه را شناسایی نموده‌اند؛ مانند پژوهشی که «شهیدی و همکارانش» (1384) برای یافتن روشی برای رفع چالشهای محتوا کاوی در وبهای فارسی زبان انجام دادند و در نهایت، برخی از مهم‌ترین چالشهای خط فارسی را برشمردند که در بین آنها می‎توان اشاره‎هایی به ویژگیها و مسائل ترکیب و جدانویسی واژگان را نیز ملاحظه نمود. عمده‎ترین راه حلهایی که این پژوهشگران ارائه دادند، عبارت است از: انتخاب مناسب سرعنوانهای موضوعی در وب‌سایتهای فارسی، استمداد از علم اصطلاح‌شناسی در نمایه‌سازی ماشینی، تعریف یک استاندارد برای مفاهیم و رسم‌الخط فارسی در وب، استفاده از مفرد و جمع در نمایه‌سازی و استفاده از یک واسط کاوش فارسی برای رفع چالشهای رسم‌الخطی.

البته در این زمینه، پژوهشی را «کاشفی و همکارانش» (Kashefi, et al., 2010) با عنوان بهینه‎سازی‌یابش مدارک مشابه در بازیابی اطلاعات به زبان فارسی انجام دادند و در آن به شناسایی بیش از 300 پسوند و ترکیبهای کلمات و کارآمدی حذف پیشوندها از متون فارسی به هنگام بازیابی آنها پرداختند. در این پژوهش، از چهار روش استفاده شد؛ نمایه‌سازی معانی پنهان، مدل فضای برداری، هم‎آیندی و شینگلینگ^{^[4]}. نتیجه نشان داد با حذف پیشوندها، میزان بازیابی مدارک مشابه، بهبود و بازیافت این منابع به‎طور قابل ملاحظه‎ای افزایش می‎یابد.

ریشه‎یابی واژگان: ریشه‎یابی، که عبارت است از قرار دادن واژه‎های یک زبان در دسته‎های معنایی یکسان، در بسیاری از زمینه‎های پردازش زبان طبیعی. همچنین پردازش زبان فارسی، مدنظر است. پژوهشی که «رحیم طرقی و همکارانش» (Rahimtoroghi, et al., 2010) در زمینة ریشه‎یابی مبتنی بر قواعد دستوری برای زبان فارسی انجام دادند نیز شاهد این مدعاست. این پژوهشگران، برمبنای قواعد دستور زبان، الگوریتم ریشه‌یابی را طراحی نمودند که از ساختار کلمات و قواعد املایی آنها برای شناسایی ریشه هر کلمه استفاده می‌کند. بر این اساس، 33 قاعدة دستوری شناسایی شد. نتایج نشان داد استفاده از این ریشه‎یاب در سیستمهای بازیابی اطلاعات در مورد زبان فارسی، دقت نتایج بازیابی شده را به میزان 8/4% افزایش و اندازة فایل نمایه‎سازی شده را تا 6% کاهش‎ می‎دهد.

توجه به ریشه‎یابی گاه در کنار سایر بررسیهای زبانشناختی قرار گرفته است. به‎عنوان مثال، می‎توان به پژوهش «کریم‎پور و دیگران» (Karimpour, et al., 2009) اشاره نمود. دراین پژوهش، از مدل بازیابی Idri و از برچسب‌زن اجزای جملة TNT با استفاده از 40 برچسب پیکرة «بی‎جن‎خان»^{^[5]} استفاده شد. بر این اساس، بهبود عملکرد الگوریتمهای بازیابی ارزیابی گردید. همچنین، تأثیر ریشه‎یابی به‎عنوان یکی دیگر از بخشهای کار این پژوهشگران، بررسی شد. یافته‎های این تحقیق نشان داد هرچند استفاده از برچسب زنی ارکان سخن ممکن است تأثیر اندکی در اثر بخشی نتایج بازیابی شده داشته باشد، زمانی‎که این روش همراه با ریشه‎یابی به کار می‎رود، دقت نتایج بازیابی شده به‎میزان قابل توجهی افزایش می‎یابد.

در مورد تأثیر ریشه‎یابی در متون زبان فارسی، پژوهش دیگری توسط «دلامیک و ساووی» (Delamic and Savoy, 2009) انجام گرفته که با هدف ارزیابی راهبردهای مختلف نمایه‎سازی و ریشه‎یابی، استفاده از سیاهة واژگان بازدارنده و یک ریشه‌یابی سبک را پیشنهاد می‎کنند. در این پژوهش، از مدلهای بازیابی متعدد از جمله Okapi, DFR, LM و نیز دو مدل کلاسیک فضای برداری یعنی tf idf و نیز Lnu-ltc برای ارزیابی راه حلهای ارائه شده، استفاده گردید. آنچه در این پژوهش مورد توجه است، نگاه ویژه به رسم‌الخط فارسی و پیشنهاد یک ریشه یاب برای این خط است که رایج‌ترین پسوندهای مورد استفاده و حالتهای جمع لغتها را استخراج و در نهایت سیاهة واژگان بازدارنده‎ای شامل 881 کلمه را پیشنهاد می‎کند که مدیریت و کنترل آنها می‌تواند در بازیابی به زبان فارسی، کمک قابل توجهی باشد.

شکلهای مختلف نوشتاری واژگان: توجه به این‌که واژه‎های فارسی شکلهای مختلف نگارشی دارند، و مسائلی که وجود این اشکال پیش روی بازیابی اطلاعات در وب می‎نهد، در پژوهش «عبدالهی نورعلی» (1386) نیز تأکید شد. وی مسائل ریخت‎شناسی زبان فارسی در بازیابی اطلاعات از جستجوگرهای وب را بررسی کرد و با استفاده از جستجوگرهای گوگل، آلتاویستا و یاهو، جستجوهایی را به زبان فارسی انجام داد و دریافت که این جستجوگرها، به دشواریهای زبان فارسی در بازیابی اطلاعات نپرداخته و تلاشی برای بهبود نتایج انجام نداده‎اند.

برخی نیز به‎طور مشخص، مسائل زبان و خط فارسی در ذخیره و بازیابی اطلاعات را بررسی کردند. از آن جمله، «مرتضایی» (1381) است که نمونه‎هایی از دشواریهای زبان و خط فارسی را در بازیابی اطلاعات بر می‎شمارد. همچنین، وی به مهم‌ترین دشواریهای زبان فارسی که سبب کندی مراحل ذخیره و بازیابی و نیز کاهش بازیافت می‎شوند نیز پرداخته و معتقد است راهکارهایی از قبیل یکسان سازی واژه‎ها، کاربرد دستورالعمل‎هایی یکدست در تمامی واحدهای چاپ و نشر و هوشمند‌سازی جستجو می‎تواند به حلّ این مسائل کمک کند.

برخی دیگر نیز به‎عنوان جزئی از پژوهش خود، توجه به این بُعد را نیز از نظر دور نداشته‎اند. از آن جمله، تحقیقی است که «گل تاجی و بذرگر» (1389) در زمینة بررسی مشکلات ریخت‌شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‎ای علوم اطلاع‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران و جهاد دانشگاهی انجام دادند و با انتخاب و جستجوی کلیدواژه‎هایی که هرکدام بیانگر نوعی از چالشهای زبان فارسی بود، این کلیدواژه‎ها را در پایگاه‌های موردنظر جستجو کردند. نتایج این پژوهش نشان داد هیچ‎یک از این سه پایگاه، به شیوه‎ای جامع و قابل ملاحظه به حل مسائل ریخت‎شناسی واژگان فارسی نپرداخته‎اند. موارد مورد توجه پایگاه‌های مورد بررسی در این پژوهش، به ترتیب زیر ذکر شده است: پایگاه مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری: تنوین، تشدید، پیوسته‌نویسی و بی‌‌فاصله‌نویسی؛ پژوهشگاه اطلاعات و مدارک علمی ایران: جدانویسی و بی فاصله‌نویسی، خط تیره، نقطه بین سرنام‌ها؛ پایگاه جهاد دانشگاهی: همزه به صورتهای مختلف.

نگاهی به پیشینة پژوهشهایی که بیان شد، نشان می‌دهد مسائل خط و زبان فارسی در پیوند با ذخیره و بازیابی اطلاعات را می‎توان از ابعاد مختلف بررسی کرد. ویژگیهای خاص حاکم بر نگارش خط فارسی سبب شده تا بررسی دقیقتر هرکدام از آنها و مسائلی که در ذخیره و بازیابی پدید می‎آورند، بیش از پیش اهمیت یابد. به نظر می‎رسد آگاهی از این ضرورت در بین متخصصان حوزه‎های مرتبط، بویژه متخصصان علم کتابداری و اطلاع‌رسانی، به وجود آمده است و زمان آن فرا رسیده تا راه‎حلهایی دقیق و موشکافانه برای هریک از این دشواریها ارائه شود. پژوهش حاضر با این رویکرد و با هدف قرار دادن یکی از این معضلات، که عبارت است از ویژگیهای ترکیب و جدانویسی واژگان فارسی، و به منظور یافتن راهی برای گذر از چالشهای آن در حوزة کتابداری و اطلاع‌رسانی، انجام یافته است.

سؤالهای پژوهش

پژوهش حاضر در پی یافتن پاسخ سؤالهای زیر انجام شده است:

اصول پیوسته‎نویسی و جدانویسی به‎عنوان یکی از مسائل رسم‌الخط فارسی، تا چه میزان در عنوانهای پایان‎نامه‎های حوزه کتابداری و اطلاع‌رسانی رعایت شده است؟
به لحاظ شکل دستوری، کلیدواژه‎های جدا یا پیوسته نوشته شده، جزء کدام نوع (اسم، صفت، قید، فعل) هستند؟
پایگاه‌های اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران و مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری با توجه به ویژگیهای پیوسته‎نویسی و جدانویسی واژگان در عنوانهای پایان‎نامه‎ها چگونه عمل می‎کنند؟

طرح پژوهش

در این پژوهش که به روش تحلیل محتوا انجام شده است، 100 عنوان از پایان‎نامه‎های موجود رشته کتابداری و اطلاع‌رسانی به منزلة نمونه‌ای از متون فارسی در پایگاه‌های موردنظر و از هر پایگاه 50 عنوان به‎صورت تصادفی انتخاب شد. به این ترتیب که ابتدا سیاهه‎ای از دانشگاه‌های مجری رشتة کتابداری و اطلاع‌رسانی در مقاطع تحصیلات تکمیلی در ایران جمع‎آوری و پس از آن از طریق جستجوی نام استادان راهنما، به عنوانهای پایان‎نامه‎ها دست یافته شد. همچنین، عنوانهایی که در یک پایگاه یافت می‎شدند، به‎منظور جلوگیری از تکرار یافته‎ها به‎هنگام جستجو در پایگاه دوم، در صورت بازیابی از سیاهه کنار گذاشته شدند. جستجوی اسمها با هدف شناسایی کلمات مرکبی که قابلیت پیوسته‎ و جدانویسی داشتند، انجام شد. تمام کلمات عنوانهای این پایان‎نامه‎ها بررسی و سیاهه‎ای از کلماتی که ویژگی مورد نظر را به لحاظ رسم‌الخطی دارا بودند، فراهم شد. پس از این مرحله، بر اساس دستور خط فارسی مصوب فرهنگستان (1388) کلماتی که درست یا نادرست نوشته شده بودند از یکدیگر تفکیک، و از نظر تعداد اجزا و نوع (مرکب، مشتق و مرکب- مشتق) تحلیل شدند. گفتنی است، تعداد کلماتی که قاعده‎ای برای آنها در فرهنگستان وجود نداشت و در مورد آنها اختیار به نویسنده داده شده بود، بسیار ناچیز بود، با این‎حال، به هنگام جستجو، به‎عنوان کلمة خنثی در نظر گرفته شدند. روایی این کار با مشورت استاد راهنما تأیید گردید. در مرحلة سوم، عنوانهای موردنظر در هر دو پایگاه و با حالتهای متفاوت کلمات مرکب، جستجو شد. نتایج بازیابی در پایگاه‌های اطلاعاتی پژوهشگاه‌های علوم و فناوری اطلاعات ایران و مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری، ارزیابی و مقایسه و در نهایت نتایجی حاصل شد که پاسخ سؤالهای تحقیق را شکل داد.

یافته‎های پژوهش

با بررسی عنوانهای مورد نظر، مشخص شد این عنوانها در کل شامل 1547 کلمه می‎باشند. در پی دستیابی به هدفهای پژوهش مبنی بر شناسایی کاستیهای نگارشی از دیدگاه رسم‌الخطی مورد توجه در عنوانهای پایان‎نامه‎های کتابداری و اطلاع‌رسانی، پس از بررسی کلمات و مطابقت آنها با دستور خط فارسی مصوب فرهنگستان زبان، آنهایی که از نظر رسم‌الخطی قابلیت پیوسته و جدانویسی را داشتند، در سیاهه‎ای جداگانه تنظیم شدند که تعداد آنها، 316 کلمه، حدود 4/20% کلّ کلمات عنوانها بود. پس از آن، با توجه به قواعد فرهنگستان، به تفکیک کلماتی پرداخته شد که بر این اساس درست و نادرست نوشته شده بودند.

نتایج این بررسی برای یافتن پاسخ سؤال اول این پژوهش، نشان داد نگارش 225 کلمه (2/71%) درست، 91 کلمه دیگر (8/28%) نادرست است. این وضعیت در جدول 1 نیز آورده شده است.

جدول 1. فراوانی کلمات عنوانها و دارای ویژگی پیوسته و جدانویسی

تعداد کلّ کلمه‎های عنوانها		کلمه‎های دارای ویژگی مورد نظر		کلمه‎های درست		کلمه‎های نادرست
فراوانی	درصد	فراوانی	درصد	فراوانی	درصد	فراوانی	درصد
1547	100	316	42/20	225	2/71	91	8/28

در شکل 1 نیز نسبت کلمات درست و نادرست از کل کلماتی که مرکب بودند، نشان داده شده است.

شکل 1. نسبت کلمات با رسم‌الخط درست و نادرست

در مورد سؤال دوم، بررسی کلمات موردنظر نشان داد اغلب این کلمات (بیش از 95%) اسم و حدود 5% دیگر، ضمیر می‎باشند. از آنجا که در عنوان فعل به‎کار نمی‎رود و نیز متون علمی بندرت دارای قید یا صفت هستند، نبود چنین کلماتی که ویژگی پیوسته و جدانویسی را نیز داشته باشند، قابل توجیه است. همچنین برای بررسی بهتر، کلمات دارای ویژگی پیوسته و جدانویسی به لحاظ ساختاری نیز تفکیک و به سه دسته تقسیم شدند:

1- کلمات مشتق: آنهایی هستند که یک جزء آنها معنای قاموسی و اجزای دیگر معنای دستوری دارند.

2- کلمات مرکب: آنهایی هستند که از دو جزء یا بیشتر تشکیل شده‌اند و تمامی اجزا دارای معنای قاموسی می‎باشند.

3- کلمات مشتق _- مرکب: آنهایی هستند که دو جزء‎ یا بیشتر از آنها معنای قاموسی و بقیة اجزایشان معنای دستوری دارد.

بر این اساس، حدود 35% کلمات، مشتق، بیش از 18% مرکب و نزدیک به 42% نیز مشتق- مرکب بودند که جدول 2 و شکل 2 بیانگر این وضعیت است.

جدول 2. تفکیک کلمات از نظر ساختاری

نوع کلمه	فراوانی	درصد
مشتق	111	1/35
مرکب	59	7/18
مشتق _- مرکب	146	2/46
مجموع	316	100

شکل 1. نسبت کلمات مورد بررسی از نظر ساختاری

همچنین، تعداد اجزای این کلمات نیز بررسی شد. چنان‌که جدول 3 و شکل 3 نیز نشان می‎دهند، مشخص شد بیشتر این کلمات، دو جزئی (6/51%) و سه جزئی (5/47%) هستند و کلمات چهار جزئی، درصد بسیار اندکی از کلمات موردنظر را تشکیل می‎دهند.

جدول 3. تعداد اجزای کلمات مورد بررسی

جدول اجزای کلمه	فراوانی	درصد
2 جزئی	163	6/51
3 جزئی	150	5/47
4 جزئی و بیشتر	3	0/9
مجموع	316	100

شکل 3. نسبت اجزای کلمات مورد بررسی

با بررسی کلمات استخراج شده از عنوانهای بررسی شده، همان‌طور که جدول 4 نیز نشان می‎دهد، مشخص شد اغلب نویسندگان پایان‎نامه‎ها، در مورد نحوة نگارش کلماتی که 2 جزئی و مشتق می‎باشند، دچار خطا شده‎اند.

جدول 4. میزان اشتباه نویسندگان در رسم‌الخط کلمات به تفکیک اجزا و نوع کلمه

تعداد اجزای کلمه	درصد نادرستی (فراوانی نسبی)
2 جزئی	03/38
3 جزئی	33/17
4 جزئی و بیشتر	66/66
نوع کلمه	درصد نادرستی (فراوانی نسبی)
مشتق	58/67
مرکب	56/13
مشتق _- مرکب	49/18

در مرحلة بعد، به‎منظور دستیابی به هدف دوم این پژوهش و پاسخگویی بهسؤال سوم، عنوانهای مربوط به هر پایگاه، با «جستجوی عنوانی» به طور عمدی در حالتهای درست و نادرست از سوی پژوهشگر جستجو شد؛ به این ترتیب که در عنوانهایی که کلمات به صورت نادرست نوشته شده بود، جستجو با شکل صحیح رسم‌الخطی و همچنین در عنوانهایی که کلمات به‌طور درست به‎کار رفته بود، جستجو با شکل اشتباه رسم‌الخطی نیز انجام شد. گفتنی است، این روش برای هر دو پایگاه اطلاعاتی و در مورد تمامی عنوانها انجام گرفت. چنان‌که جدول5 نیز نشان می‎دهد، در پایگاه اطلاعاتی مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری، با اعمال هریک از تغییرات مورد اشاره به هنگام جستجو، عنوان مورد نظر بازیابی نشد و تنها حالت ثبت شدة^{^[6]} عنوانها به بازیابی عنوان مورد نظر می‎انجامید. در انجام همین جستجوها در مورد 50 عنوان مورد نظر از پایگاه اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران، 29 عنوان (58%) با تغییر رسم‌الخط (درست به نادرست و برعکس) همچنان بازیابی شد، اما 21 عنوان دیگر که 42% باقیمانده را تشکیل می‎داد، با این تغییرات، بازیابی نشدند. علت تغییر نوع رسم‌الخط از درست به نادرست و برعکس، این بود که ممکن است کاربر هنگام جستجوی عنوانی در هر حالتی به صورت پیوسته یا ترکیبی، واژه را جستجو کند و پایگاه‌های اطلاعاتی باید توانایی جستجوی مورد نظر از سوی کاربر را بدون توجه به میزان اطلاع وی از نحوة نگارش صحیح کلمات، داشته باشند.

بر این اساس، می‎توان عملکرد ذخیره و بازیابی پایگاه اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران را در مقایسه با پایگاه اطلاعاتی مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری، مناسب‌تر قلمداد نمود؛ هرچند یافته‎ها نشان داد این پایگاه نیز در زمینه ذخیره‎سازی و بازیابی کلمات فارسی با ویژگیهای پیوسته و جدانویسی، یکپارچه عمل‌نکرده است. نتایج حاصل از جستجوهای عنوانی در دو پایگاه، در جدول 5 آورده شده است.

جدول 5. نتایج حاصل از جستجوی عنوانهای پایان‎نامه‎ها در حالتهای مختلف رسم‌الخطی در دو پایگاه مورد بررسی

پایگاه نتیجه	پژوهشگاه علوم و فناوری اطلاعات ایران		مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری
پایگاه نتیجه	فراوانی	درصد	فراوانی	درصد
بازیابی نشده	21	42	50	100
بازیابی شده	29	58	0	0
مجموع	50	100	50	100

بحث و نتیجه‎گیری

پیچیدگیهای رسم‌الخط فارسی، از یک‌سو سبب‌ساز آشفتگیهایی در ذخیره و بازیابی (صامتی و بی‎جن خان، 1389، ص. نوزده؛ شهیدی و دیگران، 1384 وOroumchian, et al., 2007) و همچنین جستجوی اطلاعات به زبان فارسی در اینترنت شده و از سوی دیگر به دلیل تأثیرهای هم‌فرسایی مشکلات بر یکدیگر، چالشهای این حوزه را چند برابر ساخته است. به‎عنوان نمونه، تأثیر ترکیب و جدانویسی را بر مرزبندی و تعیین حدود کلمه می‎توان مثال زد. اگر در رسم‌الخط فارسی، مطابق قواعد استاندارد عمل نشود، مشکل مرزبندی کلمات فارسی دو چندان می‎شود، زیرا به دلیل مشکلات عدم شناسایی مرز دقیق کلمات، چالشهای عمده‎ای برای ریشه‎یابی کلمات و الگوریتمهای ریشه‎یابی پدید می‎آید که با استفاده از دستورالعملهای استاندارد برای ترکیب و جدانویسی کلمات، بخشی از این چالشها حل و در صورت آشفتگی رسم‌الخط، مشکلات دیگری که به آنها اشاره شد، افزون خواهد شد. این پژوهش با هدف شناسایی بخشی از مشکلات خط فارسی که بر ذخیره و بازیابی اطلاعات از پایگاه‌های اطلاعاتی تأثیر می‎گذارند، در محدوده کوچکی انجام شد. در بازنگری دوباره نتایج این پژوهش با بخشی از پیشینه که ارتباط نزدیکتری با موضوع دارند، می‎توان به نتایج قابل توجهی رسید.

نتایج پژوهش حاضر با پژوهش «عبداللهی نورعلی» (1386) همخوان است. در آن پژوهش نشان داده شد که به مسائل ریخت‌شناسی زبان فارسی در بازیابی اطلاعات از جستجوگرهای گوگل، یاهو و آلتاویستا پرداخته نشده است و در این‌جا مشخص شد که یک نمونه از این مسائل ریخت‌شناسی، یعنی پیوسته و جدانویسی، در پایگاه‌های اطلاعاتی فارسی نیز مورد بی‎توجهی قرار گرفته است. به‎عبارت دیگر، به مسائل ریخت‎شناسی زبان فارسی نه تنها در جستجوگرهای غیر فارسی، بلکه در پایگاه‌های اطلاعاتی فارسی نیز پرداخته نشده است. البته در سالهای اخیر، حرکتهایی از سوی طراحان جستجوگرهای وب مبنی بر پیشنهاد عبارتهای جستجو و نیز پیشنهاد شکلهای مختلف نگارشی کلمه و عبارت مورد جستجو، صورت گرفته است که تا اندازه‎ای می‎تواند برخی از مشکلات خط فارسی را از بین ببرد و پایگاه‌های اطلاعاتی فارسی زبان نیز می‎توانند از این ایده‎ها بهرة لازم را ببرند.

چنان‌که نتایج این پژوهش نشان داد، جستجو در حالتهای مختلف پیوسته و جدای واژگان عنوانی هرچند در پایگاه‌های اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران به طور کامل به جامعیت بازیابی نمی‎انجامد، همراه نمودن کلمة مورد نظر با تعداد بیشتری از واژه‎های عنوان از سوی جستجوگر، در برخی موارد به بازیابی عنوان مورد نظر می‎انجامد. بر مبنای این یافته‎ها که در بخش قبل نیز شرح داده شد، هرچند نتایج پژوهش «گل تاجی و بذرگر» (1389) در مورد بی‌توجهی برخی پایگاه‌های اطلاعاتی فارسی به مسائل ریخت‌شناسی زبان فارسی تأیید می‎شود، نتایج پژوهش حاضر نشان از آن دارد که برخلاف آنچه در پژوهش «گل تاجی و بذرگر» آمده است، پایگاه‌های اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران و نیز مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری، به ویژگی پیوسته و جدانویسی کلمات توجه نشان نداده‎اند.

همچنین، این پژوهش تأییدی است بر آنچه «مرتضایی» (1381) مبنی بر تأثیر استاندارد نبودن شکل نوشتاری کلمات در عدم مطلوبیت و جامعیت جستجو، ذکر می‌کند.

با توجه به مشکلات نگارش خط فارسی که به برخی از آنها اشاره شد، ضرورت اندیشیدن در مورد راهکارهای برطرف کردن آن بویژه در محیطهای الکترونیکی جدید، بیش از پیش آشکار است. بدیهی است، نمی‎توان به بهانة این دشواریها، خط غنی فارسی را به همین شکل از وب کنار گذاشت، بلکه باید موشکافانه ابعاد مختلف خط و نیز زبان فارسی را بررسی و راه حلهای مناسبی طراحی نمود. در مورد مشکل ترکیب و جدانویسی، مانند سایر پیچیدگیهای این خط، نمی‎توان یک راهکار منحصر ارائه داد. تلفیقی از آنچه در ادامه آمده است، می‎تواند به رفع بخشی از پیچیدگیها کمک کند. این راهکارها در دو بخش قابل ارائه است.

1- راهکارهایی برای رعایت فراگیر قواعد یکدست ملی

_- توجه و حساسیت نویسندگان و پدیدآورندگان متون و منابع به زبان فارسی، در رعایت قواعدی که فرهنگستان زبان و ادب فارسی تدوین نموده است. چنان‌که اشاره شد، رعایت این قواعد، دستِ کم در مواردی که قاعده‎ای مشخص و از پیش تعیین شده وجود دارد، همان‌طور که «حرّی» (1372) نیز خاطر نشان می‎سازد، نه تنها کاری پایه‎ای است، بلکه به سبب یکدستی حاکم، به‎هنگام طرح‌ریزی در نمایه‌سازی و طراحی الگوریتمهای ذخیره و بازیابی، به حلّ عالمانه‎تر مسائل نیز خواهد انجامید. البته، باید توجه داشت حتی با فرض اینکه رعایت این قواعد، ضمانت اجرایی لازم را داشته باشد، بی‎قاعده بودن برخی حالتهای رسم‌الخطی و اختیار نویسندگان، بخش عمده‎ای از مشکلات را حل نشده باقی می‎گذارد. البته باید توجه داشت، با توجه به اینکه زبان فارسی در کشورهایی مانند افغانستان و تاجیکستان هم کاربرد دارد، با رعایت قواعد رسم‌الخط ملی به‎نظر می‎رسد برخی مشکلات برای سایر جستجوگران فارسی زبان در خارج از ایران که با این قواعد نا آشنا هستند، همچنان باقی خواهد ماند.

_- پیش‎فرض نهادن جدانویسی در مواردی که اختیار به نویسندگان داده شده است. چنان‌که در ابتدای مقاله اشاره شد، سه مفروضه برای مواجهه با مشکلات نوشتاری خط فارسی قابل طرح است. سومین آنها، یعنی«تدوین قواعدی برای جدانویسی الزامی بعضی از کلمات مرکب و پیوسته‌نویسی بعضی دیگر و دادن اختیار در خصوص سایر کلمات به نویسندگان»، هرچند با ارائه قواعد _- و البته با شرط رعایت آنها از سوی نویسندگان _- کمک قابل توجهی به یکدستی خط فارسی و رفع مشکلات جستجو و بازیابی می‌کند، با توجه به اینکه راه‎حلهای بینابینی ارائه داده و موارد زیادی را به نویسنده می‎سپارد، به ابهام و چند دستگی در این زمینه منجر می‌گردد. حتی با تصور اینکه تمام پدیدآورندگان متون و منابع در وب مطابق با قواعد استاندارد رسم‌الخط فارسی بنویسند، باز هم زمانی‎که انتخاب شکل نگارش کلمه رسماً به سلیقة نویسنده سپرده شود، مشکلات پردازشی زبان آغاز خواهد شد. این دشواریها نه تنها در مورد کلماتِ با ویژگیهای ترکیب و جدانویسی وجود دارد، بلکه سایر چالشهایی را که نگارش خط فارسی با آن مواجه است، شامل شده و بر ابهام و پیچیدگی نمایه‎سازی، جستجو و بازیابی اطلاعات به زبان فارسی می‎افزاید. رویکرد پیشنهادی پیش‎فرض نهادن جدانویسی در مواردی که اختیار به نویسندگان داده شده است، می‎تواند برخی از مشکلات پیوسته و جدانویسی را برطرف کند. نمونه‎هایی از این مشکلات، عبارتند از: شروع شدن جزء دوم با الف، هم مخرج بودن جزء اول با حرف آغازین جزء دوم، نامأنوس بودن کلمه در حالت پیوسته‌نویسی، بسامد زیاد جزء آغازین کلمه و ابهام در اجزای ترکیب به هنگام پیوسته‌نویسی.

2- راهکارهای ذخیره و پردازش واژگان

_- در این زمینه، متخصصان زبانشناسی، علوم رایانه و علوم کتابداری و اطلاع‌رسانی می‎توانند انواع رویکردها و روشهای پردازش هوشمند واژگان فارسی را برگزینند که به ذخیره و پردازش بهینه به قصد بازیابی جامع‌تر و در عین حال دقیق‌تر که کاستیهای ناشی از نبود یکدستی در جدانویسی و پیوسته‌نویسی است، کمک کند. برخی راه حلها در قسمت پایانی پژوهش حاضر ارائه شده است. استفاده از یافته‌های پژوهشی و رویکردهای عملی که در مورد سایر زبانها بویژه زبان عربی اعمال شده، می‎تواند به این هدف کمک کند.

پیشنهادهای پژوهش

پیشنهادهای پژوهش به تفکیک در دو بخش آمده‎اند: پیشنهادهای عملی و پیشنهادهای پژوهشی.

الف) پیشنهادهای عملی

_- پیشنهاد می‎شود نویسندگان و پدیدآورندگان منابع، خود را ملزم به رعایت قواعد رسم‌الخط فارسی کنند^{^[7]}. به نظر می‎رسد پایگاه‌های اطلاعات علمی فارسی، نمایه‎سازی را بر اساس کلمات استخراج شده از متون انجام می‎دهند. بر همین اساس، رعایت این قاعده‎ها حداقل در مورد عنوانها، چکیده و کلیدواژه‎های متون علمی، ضرورت بیشتری دارد. این کار گذشته از آن‌که تلاشی برای حفظ پویایی و یکدستی خط فارسی به‌شمار می‌رود، برای طراحان و نمایه‎سازان پایگاه‌های اطلاعاتی مشکلات کمتری را پدید می‎آورد.

_- به نمایه‎سازان پایگاه‌های اطلاعاتی فارسی زبان و بخصوص پایگاه‌های اطلاع‌رسانی مرکز منطقه‎ای اطلاع‌رسانی علوم و فناوری و پژوهشگاه علوم و فناوری اطلاعات ایران توصیه می‌شود با بهره‎مندی از نتایج پژوهشهای انجام شده در شورای عالی اطلاع‌رسانی ایران در زمینه خط و زبان فارسی، الگوریتمهای نمایه‎سازی خود را متناسب سازند و در جهت بهینه‎سازی نتایج جستجو و کمک به کاربران پایگاه، از امکانات کمکی مانند قابلیتهای پیشنهاد واژگان^{^[8]} استفاده کنند.

_- به پایگاه‌های اطلاعاتی توصیه می‎شود برای بازیابی کلماتی که ویژگیهای ترکیب و جدانویسی را دارند، از الگوریتمهای N-Geram استفاده کنند.

ب) پیشنهادهای پژوهشی

_- انجام پژوهشی به روش تحلیل محتوا در زمینة بسامد شکلهای مختلف جدانویسی و پیوسته نویسی در حوزه‎های موضوعی مختلف در متون زبان فارسی تا مشخص شود شکل رایج در هر حوزة موضوعی چگونه است و چه راه حلی را می‌توان برای ذخیرة بهتر واژگان زبان فارسی در پیش گرفت.

_- تفکیک مهم‌ترین چالشهای سطوح آوایی، واژگانی و ساختاری در زبان و خط فارسی و انجام پژوهشهایی مشابه برای یافتن مشکلات موجود در پایگاه‌های اطلاعاتی.

_- شناسایی و دسته‎بندی نوع واژگان مورد جستجو در پایگاه‌های اطلاعاتی فارسی به‎منظور بررسی پربسامدترین اشتباه‌های رایج کاربران به هنگام پرس و جو در این پایگاه‌ها با هدف طراحی نظامی هوشمند برای بازیابی.

_- شناسایی مشکلات مشابه رسم‌الخط فارسی و عربی به‎منظور مقایسة میزان توجه، استفاده از راهکارهای احتمالی و نیز الگوبرداری از پایگاه‌های اطلاعاتی زبان عربی.

[1]. برای اطلاعات بیشتر نگاه کنید به: http://www.internetworldstats.com/stats7.htm

[2]. AleAhmad, et al.

[3]. برای اطلاعات بیشتر، نگاه کنید به: نشاط، نرگس (1379). «مسائل رسم‌الخط فارسی در رویارویی با فنّاوری نوین اطلاعاتی». در مجموعه مقالات فهرستهای رایانه‌ای: کاربرد و توسعه. به کوشش رحمت الله فتاحی. مشهد: دانشگاه فردوسی: تهران: مرکز اطلاع‌رسانی جهاد.

[4]. الگوریتم شینگلینگ (Shingling) یکی از روشهای موجود در زمینة شناسایی متون تقریباً یکسان است که برای شناسایی کلماتی که حجم زیادی از آنها جزئیات بی‌اهمیت است، به‌کار می‌رود. برگرفته از:

http://www.farsipaper.ir/group/d1fe51a944a24a179e6649b78cc369f3

[5]. پیکره‌ای برچسب گذاری شده که برای تحقیقات پردازش زبان طبیعی در زبان فارسی مناسب است. این مجموعه از اخبار روزانه و متون رایج، از 4300 موضوع مختلف جمع‌آوری شده و شامل 2.6 میلیون واژة برچسب‌گذاری شده است. برگرفته از:

http://ece.ut.ac.ir/dbrg/bijankhan

[6]. حالت ثبت شده، نحوة درج عنوان پایان‌نامه در پایگاه مربوط است. حین این پژوهش، عنوانهایی که با غلطهای املایی و تایپی ثبت شده بودند در پایگاه اطلاعاتی مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری نیز وجود داشت که نگارنده ناگزیر این عنوانها را با همان اشتباه‌های ثبتی جستجو نمود.

[7]. دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی را می‌توانید در http://www.persianacademy.ir/fa/das.aspx مشاهده نمایید.

[8]. این قابلیت هم اکنون در برخی موتورهای جستجو از جمله گوگل و یاهو و نیز پایگاه‌های اطلاعاتی وجود دارد.

- حری، ع. (1372). کامپیوتر و رسم‌الخط فارسی. مجله پیام کتابخانه. تاریخ بازیابی: 3/9/1390. قابل بازیابی در:

www.noormags.com/view/fa/articlepage/396231

- دستور خط فارسی (1388). مصوب فرهنگستان زبان و ادب فارسی. تهران: فرهنگستان زبان و ادب فارسی (نشر آثار).

- راثی، م. (1384). مشکلات جستجو و بازیابی اطلاعات به زبان فارسی در اینترنت، مطالعه موردی کاربران مرکز اینترنت دانشگاه آزاد اسلامی واحد شبستر. تاریخ بازیابی: 25/9/1390. قابل بازیابی در:

http://www.aqlibrary.org/index.php?module=TWArticles&file=index&func=view_ pubarticles&did=885&pid=10

- شهیدی، م، م، صدیقی و ک، زمانی‎فر (1384). روشی برای رفع چالش‎های محتواکاوی در وب‎های فارسی زبان. تاریخ بازیابی: 3/9/1390. قابل بازیابی در:

www4.irandoc.ac.ir/etela-art/21/shahidi.pdf

- صامتی، ح و م، بی‎جن‎خان (1389). پیشگفتار. زبان فارسی و رایانه: برگزیده مقالات کنفرانس بین‌المللی سالانه انجمن کامپیوتر ایران، کنفرانس مهندسی برق ایران، همایش زبانشناسی اسران، کارگاه زبان فارسی و رایانه (تا خرداد 1386). تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاه‌ها (سمت).

- عبدالهی نورعلی، م. (1386). کندوکاو مسائل ریخت‌شناسی زبان فارسی در بازیابی اطلاعات از جستجوگرهای وب. پایان‌نامه کارشناسی ارشد کتابداری و اطلاع‌رسانی، دانشگاه شیراز.

- گل تاجی، م و س، بذرگر (1389). بررسی مشکلات ریخت‌شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی ایران و جهاد دانشگاهی. تاریخ بازیابی: 3/9/1390. قابل بازیابی در:

http://www.aqlibrary.ir/index.php?module=TWArticles&file=index&func=view_ pubarticles&did=885&pid=10

- مرتضایی، ل (1381). مسائل زبان و خط فارسی در ذخیره‌سازی و بازیابی اطلاعات. فصلنامه اطلاع‌رسانی. دوره 17شماره2و1؛ پاییز و زمستان 1380.

- نوبهار، (1388). آیا باید جدا نوشت؟ تاریخ بازیابی: 3/9/1390. قابل بازیابی در:

www.aicit.org/jcit/ppl/11_april.pdf

- AleAhmad, A., Amiri, H., Rahgozar, M., Oroumchian, F. (2008). Experiments with English-Persian Text Retrieval. Retrieved: Retrieved 9 July 2012. Available in: khorshid.ut.ac.ir/~a.aleahmad/Files/inews22.pdf

- Dolamic, L., Savoy , J., (2009). Persian Language, is Stemming Efficient. Retrieved9 July 2012 Available in:

http://www.uni-weimar.de/medien/webis/research/events/tir-09/tir09-papers-final/dolamic09-persian-language-is-stemming-efficient.pdf.

- Kashefi, O., Mohseni, N., Minaei, B. (2010). Optimizing Document Similarity Detection in Persian Information Retrieval. Journal of Convergence Information Technology. Retrieved 9 July 2012. Available in: www.aicit.org/jcit/ppl/11_april.pdf

- Karimpour, R., (2008) .Using Part of Speech Tagging in Persian Information Retrieval. Retrieved 9 July 2012. Available in:

www.clef-campaign.org/2008/.../Karimpour-paperCLEF2008.pdf

- Oroumchian, F., AleAhmad, A., Hakimian, P., Mahdikhani., F., (2007). F N-Geram and Local Context Analysis for Persian Text Retrieval. Retrieved 9 July 2012. Available in:

http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=04555345

- Rahimtoroghi, E., Faili, H., Shakeri, A., (2010). A Structural Rule-based Stemmer for Persian. Retrieved 9 July 2012 Available in:

http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5734090