مروری بر دشواریهای زبان فارسی در محیط دیجیتال و تاثیرات آنها بر اثر بخشی پردازش خودکار متن و بازیابی اطلاعات

نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشیار گروه علم اطلاعات ودانش شناسیدانشگاه شیراز

2 دانشجوی دوره کارشناسی ارشد

چکیده

هدفهای پژوهش: زبان فارسی، به سبب ویژگیهای خاصّ آن و در عین حال نهادینه نشدن سبک نگارش استاندارد، در رویارویی با محیطهای الکترونیکی، با دشواریهایی روبه‎روست که تأثیری بسزا بر اثربخشی بازیابی اطلاعات می‎گذارد. پژوهش حاضر می‎کوشد تا با بررسی متون و پیشینه‎های موجود، چالشهای نگارش فارسی، تأثیر آنها بر اثربخشی بازیابی اطلاعات، و پیشنهاد‎های ارائه شده در جهت رفع این دشواریها را مورد بحث و بررسی قرار دهد.
اهمیت پژوهش: با تحلیل و مرور جامع متونی که دربارة چالشهای نگارش فارسی در محیطهای دیجیتال نگارش یافته است، می‎توان دانشی را که تاکنون در این باره گرد آمده است به تصویر کشید و کاستیها و پیشرفتهای به دست آمده در این زمینه را آشکار ساخت.
روش پژوهش: روش پژوهش حاضر، متن‎پژوهی با رویکرد تحلیل محتواست که از روشهای پژوهش کیفی به شمار می‎آید. «پاراگراف»، «جمله» و «کلمه» به عنوان واحد تحلیل انتخاب شد، زیرا ممکن بود هر دشواری یا راهکار تنها در یک کلمه یا عبارت مورد اشاره قرار گرفته یا در جمله یا پاراگراف شرح داده شده باشد.
یافته‎ها: آثار مورد بررسی، بیش از ٤٠ دشواری نگارشی را در رابطه با جستجو و بازیابی اطلاعات فارسی ذکر کرده‎اند. این گونه‎گونی نگارشی به نایکدستی و تطور بسیار در نگارش فارسی می‎انجامد که می‎تواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متأثر سازد. در نتیجه، ضروری است در طراحی الگوریتمهای سامانه‎های جستجو و بازیابی فارسی، به‎هنجارسازی تنوعات و چنددستیهای نگارشی و دستوری مد نظر قرار گیرد. تدوین استاندارد نگارش فارسی، استفاده از سیاهه‎های از پیش تعیین شده، تجهیز پایگاه اطلاعاتی به اصطلاحنامه و فرهنگهای املایی، و تدوین دستنامه یا راهنمای جستجو، از جمله راهکارهای ارائه شده است. این راهکارها با وجود جامع نبودن، کم و بیش اثربخش به نظر می‎رسند.
نتیجه‎گیری: از آنجا که راهکارهای انسانی، نیازمند مشارکت فعّالانه و آموزش نویسندگان متون (تایپیستها و کاربران) است و از روندی بلندمدت و هزینه‎بر برخوردار است، حرکت به سوی راهکارهای خودکارسازی پردازش متن و نمایه‎سازی، ضروری است.

کلیدواژه‌ها


مقدمه
خواندن و نگارش فارسی به دلیل ویژگیهای خاصّ این زبان، در پاره‎ای موارد با دشواریهایی همراه است که در رویارویی با رایانه، دو چندان می‎گردد. ورود ناگهانی رایانه به گستره‎ای وسیع از فعالیتهای مختلف اجتماعی، فرهنگی، اقتصادی و فنی، مجال آن را به صاحب نظران نداده است که راهکاری بنیانی و جامع برای مقابله با چالشهای شیوة نگارش بیندیشند و به کار گیرند (حری،1372). نبود استاندارد شیوة نگارش جامع و مورد قبول همگان، به نایکدستی و ناهماهنگی دروندهی اطلاعات در پایگاه‎های اطلاعاتی، وب‎سایتها، وب‎لاگها و دیگر منابع دیجیتالی انجامیده که آن نیز به نوبة خود جستجوی فارسی را با مشکلاتی چند همراه ساخته است. این دشواریها بویژه در دنیای وب و با رشد سریع انتشارات الکترونیکی فارسی بر وب، چشمگیر بوده است. شیوه‎نامه‎ای که فرهنگستان ادب و زبان فارسی در سالهای اخیر برای یکدستی نگارش فارسی ارائه کرده نیز نتوانسته است از این دشواریها بکاهد، زیرا این شیوه‎نامه به دلیل ناهماهنگی درونی، هدف قرار دادن عامه مردم و در نتیجه کاهش دقت و پرهیز از وضع قانون برای برخی استثناها، وضع قانون برای پیوسته یا جدانویسی برخی کلمات مرکب و واگذار کردن سایر موارد به سلیقة نویسندگان و در نهایت نپرداختن به همة دشواریهای نگارشی، مورد انتقاد بوده است (طرح جامع پیکره زبان...، 1388؛ فرهنگستان زبان و ادب فارسی، ۱۳۸۳؛ سرمستانی، 1388؛ اشرف‌زاده، 1381). از سوی دیگر، الزام‎آور نبودن به کارگیری این دستورها باعث می‎شود پذیرش و نهادینه شدن این سبک، فرایندی بسیار بلندمدت، اگر نگوییم ناشدنی، باشد.
مسئلة پژوهش
دسترسی آسان به انبوهی از اطلاعات، دستاورد حضور اطلاعات در محیطهای الکترونیکی بخصوص وب است. در کنار این مزیّت، مسئله بازیابی اثربخش اطلاعات رخ می‎نماید. اثربخشی بازیابی زمانی حاصل می‎شود که نیاز کاربر هرچه بیشتر و بهتر برآورده گردد؛ بدین معنا که شمار بیشتری از مدارک با درجه ربطِ هرچه بیشتر با موضوعِ مورد نظر وی بازیابی گردد. اهمیت این مسئله زمانی که اطلاعات به زبانی چون فارسی مورد نیاز باشد، دوچندان می‎گردد. زیرا شیوة نگارش زبان فارسی، به سبب ویژگیهای خاصّ آن و در عین حال نداشتن سبکی استاندارد، در رویارویی با محیطهای الکترونیکی، با دشواریهایی روبه‎روست که تأثیری بسزا بر اثربخشی بازیابی اطلاعات می‎گذارد.
به طور کلی، مطالعات در این حوزه بر سه محور کلی متمرکز است: ١) آزمایش تأثیر تکنیکها یا ابزارهای خاصّ بر اثربخشی بازیابی ٢) طراحی و آزمایش تکنیکها، الگوریتمها یا ابزارهای خاص ٣)‎ بررسی دشواریهای نگارش فارسی و تأثیر آنها بر اثربخشی بازیابی اطلاعات. آخرین محور، در دو دستة تحقیقاتی و نظری مد نظر قرار گرفته است. در این میان، مطالعات نظری از اهمیتی بنیادین برخوردارند، زیرا شناسایی دشواریهای نگارش فارسی در مطالعات بازیابی اطلاعات عمدتاً بر پایة آرا و نظریات صاحب نظران در این گونه تحقیقات بنیان می‎شود. از این رو، موفقیت طراحی الگوریتمها و سامانه‎های بازیابی اطلاعات فارسی در لحاظ کردن همة قواعد زبانشناختی و نگارشی، به جامعیت و قوّت اعتبار این آثار بستگی خواهد داشت. تحلیل و مرور جامع متونی که در این باره به رشته تحریر درآمده است، ضمن ارائه اطلاعات درباره دیدگاه صاحب‎نظران این حوزه، دانشی را که تاکنون در این باره گرد آمده است به تصویر می‎کشد و نقاط تاریک و روشن آن را آشکار می‎کند و طراحان سامانه‎ها و پایگاه‎های اطلاعات فارسی را با مقتضیات جستجو و بازیابی به این زبان آشناتر می‎سازد. با توجه به اهمیت این امر، بررسی حاضر که به روش متن‎پژوهی انجام می‎گیرد، می‎کوشد تا با مرور آثار و پژوهشهای پیشین، دشواریهای نگارش فارسی را شناسایی کند و تأثیر این دشواریها را بر بازیابی مؤثر اطلاعات بسنجد. در پایان نیز پیشنهاد‎های ارائه شده برای رفع این دشواریها را مورد بحث و بررسی قرار می‎دهد.
هدفهای پژوهش
پژوهش حاضر می‎کوشد تا هدفهای زیر را محقق سازد:
1- شناسایی دشواریهای زبان فارسی در ذخیره و بازیابی اطلاعات در محیطهای دیجیتالی
2- بررسی میزان اهمیت دشواریهای زبان فارسی به لحاظ فراوانی آنها در ادبیات مربوط
3- شناسایی راهکارهای ارائه شده به منظور کاهش یا رفع این دشواریها
4- تحلیل میزان اثربخشی راهکارهای ارائه شده در پژوهشهای مورد بررسی.
روش پژوهش

روش پژوهش حاضر، متن‎پژوهی با رویکرد تحلیل محتواست. برای یافتن آثار پیرامون دشواریهای ذخیره و بازیابی اطلاعات به زبان فارسی در محیطهای دیجیتالی، در تاریخ 20 اسفند 1389 جستجویی در منابع کتابخانه‎ای، پایگاه‎های اطلاعاتی و نیز منابع وبی صورت گرفت. منابع شناسایی شده، پس از بررسی اولیه به جهت اطمینان از ربط با مسئلة در دست مطالعه، به منظور تحلیل محتوا مورد مطالعه قرار گرفت. از آنجا که ممکن بود هر دشواری یا راهکار تنها مورد اشاره قرار گرفته یا در جمله یا پاراگراف شرح داده شده باشد، پاراگراف، جمله و کلمه به عنوان واحد تحلیل انتخاب شد.
روش گردآوری اطلاعات
به منظور شناسایی پژوهشهای انجام شده در زمینة دشواریهای ذخیره و بازیابی اطلاعات به زبان فارسی، راهبردهای جستجویی متشکل از سه گروه اصطلاحات ناظر بر دشواریها، ذخیره و بازیابی اطلاعات و زبان فارسی تدوین شد: ١)‎ «مشکلات»، «دشواری»، «سختیها»، «مسائل»، و «چالشها»؛ ٢) «ذخیره اطلاعات»، «ذخیره‌سازی اطلاعات»، «بازیابی اطلاعات»، «سازماندهی اطلاعات» و ٣)‎ «فارسی». به منظور شناسایی جامع آثار، از فهرست منابع در پایان آثار نیز استفاده شد. در نهایت، آثار بسیاری به زبان فارسی و انگلیسی شناسایی و متن کامل آنها تحلیل شد. بررسی این منابع نشان داد تنها 16 اثر به طور بینادین مشکلات نگارش فارسی را به طور ویژه از منظر ذخیره و بازیابی در محیط دیجیتالی مد نظر قرار داده‎اند. لازم به ذکر است، شماری از پژوهشها بر معایب نگارش فارسی به طور مطلق متمرکز شده‎اند و به هدف بررسی دشواریها از منظر بازیابی اطلاعات به رشته تحریر درنیامده‎اند (برای نمونه، نگاه کنید به ٦ -1٩). در پژوهش حاضر، این گونه آثار مد نظر قرار نگرفت.
پیشینة پژوهش
پژوهشها پیرامون زبان فارسی
چنان که بیان شد، پژوهشهای بسیاری در زمینة بازیابی اطلاعات در زبان فارسی انجام شده است که شمار اندکی از آنها به طور بنیادین و جامع به بررسی چالشهای نگارش فارسی پرداخته‎اند. با توجه به آنکه این دسته آثار در بخش یافته‎ها معرفی خواهند شد، از مرور آنها در این بخش خودداری می‎شود.
«سمایی» (1379) به بررسی حالات مفرد و جمع در زبان فارسی پرداخت. «راثی ساربانقلی» (1384) با بررسی مشکلات جستجو و بازیابی اطلاعات فارسی در اینترنت در یکی از واحدهای دانشگاه آزاد نشان داد کاربران به شکلهای مختلف نوشتاری توجهی ندارند و از عملگر«OR» استفاده نمی‎کنند. «عبداللهی» (1386) با بررسی چالشهای ریخت‎شناسی زبان فارسی در بازیابی اطلاعات از جستجوگرهای گوگل، یاهو، و آلتاویستا نشان داد هیچ یک از جستجوگرهای مذکور، چالشهای زبان‎شناختی فارسی را به منظور بهبود کاوش مورد توجه قرار نداده‎اند. در نهایت، الگویی برای ایجاد اصلاحات در شیوة نگارش فارسی ارائه شد. «گل‎تاجی و بذرگر» (1389) با بررسی مشکلات ریخت‎شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‎ای اطلاع‎رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی‎ایران و جهاد دانشگاهی، نشان دادند چالشهای ریختی شناخته شدة زبان فارسی، تأثیر بسیاری بر بازیابی اطلاعات در هر یک از سه پایگاه مورد نظر دارد. همچنین، هیچ یک از این سه پایگاه به شیوه‎ای جامع و قابل ملاحظه به حل مسائل ریخت‎شناسی واژگان فارسی نپرداخته‎اند.
پژوهشهای بسیاری به طراحی و/ یا آزمایش تکنیکها و راهکارهایی برای خودکارسازی و بهبود اثربخشی بازیابی فارسی پرداخته‎اند. برای نمونه، «یوسفان و همکاران» از طریق تحلیل ریخت‎شناختی، به ریشه‌یابی برخی واژه‎های عربی در زبان فارسی پرداخته‎اند (یوسفان و همکاران، 2010)‎. برخی دیگر ریشه‌یاب فارسی طراحی کرده‎اند (تقوا و همکاران، 2005؛ مهراد و برنجیان، 2011؛ تشکری و همکاران، 2002؛ موسوی میانگاه، 2006؛ برنجکوب و همکاران، 2009). «موسوی میانگاه» (2007) کوشیده است راهکاری برای مشکل تکثّر معانی واژگان فارسی به هنگام ترجمة ماشینی ارائه دهد. در پژوهشهای دیگر، ساخت هستی‎شناسی فارسی به روشهای مختلف از جمله بازمهندسی اصطلاحنامه و بر پایة ویکی‎پدیا به منظور افزایش دقت بازیابی بررسی و/یا آزمایش شده است (شهیدی و همکاران، 1384؛ خسروی و وظیفه‎دوست، 1386؛ فرهودی و همکاران، 2009). «کیوان و همکاران» (2006) برنامة پرشیانت را برای کاربردهای مختلف در پردازش زبان طبیعی فارسی طراحی کردند. «ایرانپور مبارکه و مینایی بیدگلی» (2009) تکنیکی جدید را برای ریشه‌یابی افعال در متون فارسی ارائه کرده‎اند که می‎تواند در پیش‎پردازش زبانشناختی و متن‎کاوی از جمله به منظور برچسب‎زنی ادات سخن و تشخیص مرز جملات به کار رود. در پژوهشی دیگر، روشی برای نمایه‎سازی چندنویسه‎ای متون فارسی پیشنهاد شده است (دانش و همکاران، 2011). کارآیی فنون پردازش زبان طبیعی در بازیابی چندزبانه در تحقیقی دیگر مورد آزمایش قرار گرفت (علیزاده و فتاحی، 2010). همچنین، نشان داده شد که برچسب‎گذاری ادات سخن تنها زمانی تأثیری قابل توجه بر اثربخشی بازیابی دارد که با ریشه‌یابی همراه باشد (کریم‎پور و همکاران، 2009).‎ راهکارهایی اکتشافی برای بهبود صحت نتایج برچسب‎زنی ادات سخن نیز آزمایش شده و تأثیر مثبت آنها بویژه برای واژه‎های ناشناخته تأیید شده است (محترمی و همکاران، 2008). آزمایش تکنیکهای نمایه‎سازی چندنویسه‎ای و گسترش پرسش نشان داده است تکنیک نمایه‎سازی چهارنویسه‎ای مبتنی بر مدل فضای برداری، نتیجه‎ای قابل قبول و تکنیک گسترش پرسش «تحلیل محتوای محلی» بهترین نتیجه را برای بازیابی فارسی به همراه خواهد داشت (آل احمد و همکاران، 2007). در پژوهشی دیگر، راهکارهایی برای ریشه‌یابی زبان فارسی و همچنین بومی‎سازی یا سفارشی کردن بخشهایی از موتور جستجو که متأثر از ساختار زبان است، ارائه شده است (طرح جامع پیکره زبان...، 1388)‎. «گزنی» (1385) سامانه‎ای را برای استخراج خودکار عبارتهای کلیدی از متون فارسی به منظور به‎کارگیری در طراحی سامانه‎های بازیابی طراحی کرده است. در پژوهشی دیگر، تکنیکی برای انتخاب مفهوم درست اصطلاحات پرسش در بازیابی انگلیسی– فارسی پیشنهاد شده است که در آن احتمالات ترجمه بر پایة گرافهای مفاهیم اصطلاحات پرسش محاسبه می‎شود (تیموریان و همکاران، 2009). ساخت پیکرة متن فارسی برای به کارگیری در پژوهشهای بازیابی اطلاعات، در کانون توجه دسته‎ای از پژوهشها بوده است. برای نمونه، ساخت پیکرة موضوعی فارسی، مجموعة افعال فارسی و پیکرة متن استاندارد «همشهری» را می‎توان نام برد (خلیفه سلطان و همکاران، 2010الف؛ 2010ب؛ آل احمد و همکاران، 2009).
به طور کلی، مرور پژوهشها نشان می‎دهد پیشرفتها و دستاوردهای بزرگی در حوزة بازیابی اطلاعات فارسی حاصل شده است. با این حال، شمار پژوهشهایی که به طور ویژه و بنیادین به مشکلات نگارش فارسی در الگوریتمهای بازیابی، خواه در پایگاه‎های اطلاعاتی تخصصی، خواه در موتورهای کاوش عمومی‎وب بپردازند، اندک است. از این رو، نیاز شدیدی برای انجام پژوهشهای بیشتر، به منظور شناسایی جامع‎تر و عمیق‎تر چالشهای نگارش فارسی، میزان تأثیر آنها بر اثربخشی بازیابی اطلاعات، ارزیابی راهکارهای پیشنهادی و ارائة راهکارهای جدید، وجود دارد.
پژوهشها پیرامون دیگر زبانها
تحقیقات بسیاری دربارة سبک نگارش و تأثیر آن بر بازیابی اطلاعات در زبانهای دیگر انجام شده است. برای نمونه، نشان داده شده است که برچسب‎زنی ادات سخن می‎تواند از ابهامهای لغوی کلمات هم‎نگاشت در زبان سوئدی بکاهد (هدلاند و همکاران، 200). در پژوهشی دیگر، تأثیر مثبت تحلیلهای ریخت‎شناختی مانند ریشه‎سازی و جداسازی کلمات مرکب، بر نتایج بازیابی در زبانهای هلندی، آلمانی و ایتالیایی تأیید شده است (مونتس و دی ریژکه، 2002). همچنین، نتایج بازیابی در موتورهای کاوش عمومی‎که مسائل زبان‎شناختی و ریخت‎شناختی لهجه‎ها یا زبانهای غیرانگلیسی مانند روسی، فرانسوی، مجاری،‏ عربی و عبری را لحاظ نمی‎کنند، مناسب نیست (بارایلان و گاتمن، 2002؛ مقداد، 2005؛ مقداد و لارج، 2001؛ مقداد و سویی، 2005). «لازارینیس و همکاران» (2009) با مروری بر آثار پیرامون دشواریهای بازیابی به زبانهای غیرانگلیسی، پرسشهای فرارو و راهکارهای ممکن برای رفع آنها و همچنین زمینه‎های پژوهشهای آینده را شرح داده‎اند.

جدول1. دشواریهای ذخیره و بازیابی رایانه‎ای به زبان فارسی و توزیع آنها در متون

ردیف
چالش
فراوانی متون
ردیف
چالش
فراوانی متون
1
تشدید (معیّن/ معین)
5
23
گوناگونی معادلهای علمی
2
2
همزة پایانی (املاء/ املا)
3
24

(عدم)استفاده از «ء» بعد از« های» بیان حرکت در حالت مضاف (خانۀ مردم / خانه مردم(

4
3
تنوع شیوة دگرنویسی (امریکا / آمریکا)
7
25
تنوع نگارش یای وحدت نکره بعد از «های» مختفی (خانه‌ایی / خانه‌یی/ خانۀ)
4
4
های غیر ملفوظ (مورچگان/مورچه‎گان)
2
26
عدم تمایز حروف بزرگ و کوچک در ابتدای جمله
1
5
همزة متصل به «یای» وحدت (عطایی/ عطائی)
3
27
شباهت اعداد (صفر و نقطه / 1 و 2 و 3)
3
6
استفاده از «آ» و «ا» به جای هم (درآمد/ درامد)
5
28

تعدد حروف دندانه‎دار (پیشینیان)

4
7
تنوع حروف (اطاق/ اتاق)
6
29

تعدد نقطه‎های حروف (ث ش پ)

5
8
الف کوتاه (تقوی/ تقوا)
7
30
شباهت شکل حروف (ک گ / ت ث / ر ز)
5
9

تای نقطه‎دار (مشکوه/ مشکات / مشکوة)

3
31

ناتوانی در نشان دادن تلفظ‎های باستانی و میانه، گویشها و لهجه‎ها

2
10

«ی» صامت میانجی (پرتوی آفتاب/ پرتو آفتاب)

2
32

یکسانی نشانة واژة بستهای ربطی فعل «بودن» و «م» مالکیت (پدرم =پدر من / پدر هستم)

1
11
خط تیره (اقتصادی اجتماعی/ اقتصادی- اجتماعی)
1
33

یکسانی علامت نکره و اسم ساز و صفت ساز (اجتماعی: اجتماع+‎ی نکره؛ اجتماعی بودن)

1
12

نقطه در سرنامها (اچ. آی. وی/ اچ‎آی‎وی)

1
34

آرایش آزاد سازه‎های جمله (دیروز من کتاب خریدم/ من دیروز کتاب خریدم)

1
13

پیوسته‎نویسی (سرهم یا با نیم‎فاصله) یا جدا نویسی (کتاب شناسی / کتابشناسی/ کتاب‎شناسی)

13
35

فقدان پایانه‎های تصریفی نمایانگر حالت کلمه‎ در جمله (این کار- خانه را خراب کرد. این کارخانه- را خراب کرد. این- کارخانه را خراب کرد.)

1
14

تنوع نشانه‎های جمع (عاقلان/ عقلا / عاقلها)

8
36
اختیاری بودن فاعل ([علی] به مدرسه رفت)
1
15
تنوین (واقعا/واقعاً/ واقعن)
4
37

اشتقاق صفر و تغییر مقولة واژگانی کلمه‎ها (انتخابها در شرایطی بد بود/ بد و خوب را تشخیص داد.)

1
16

فاصلة بین حروف یک واژه به اشتباه یا به عمد (دوا زده/ دوازده؛ کدگذاری/کد گذاری)

7
38

واژه‎های به وام گرفته یا ترجمه شده (کامپیوتر/ رایانه)

1
17
املاهای مختلف همزه (مسئول/ مسؤول)
6
39

مترادف‎ها (درست/ صحیح)

1
18
تفاوت در آوا / اعراب (مَرد/ مُرد، دیر (زمان) / دیر [صومعه])
8
40

اسامی‎عامیانه، تجاری، مشهور یا علمی

1
19
تعدد شکلهای یک حرف (عـ ـعـ ـع ع)
8
41
کسرة اضافه (پدر او را تحسین کرد/ پدرِ او را تحسین کرد)
3
20
یکسانی تلفظ برخی حروف (س ص ث)
6
42
آوانویسی به جای ترجمه (سورس/ منبع)
1
21
نوشتن «ک» و «گ» با سرکش و بی آن (ک/ ک)
3
43

همنام‌ها و هم‎آواها شیر (ماده نوشیدنی، حیوان، ابزار)

1
22
نگارش از راست به چپ
7
     


یافته‎های پژوهش
چالشهای نگارش فارسی در محیط دیجیتال
جدول 1 مشکلات نگارش زبان فارسی در بازیابی اطلاعات و همچنین شمار پژوهشهایی را که به هر مشکل پرداخته‎اند، برای درک بهتر اهمیت هریک از دیدگاه نویسندگان، گرد آورده است. آثار مورد بررسی روی هم رفته 43 چالش نگارشی را نام برده‎اند. چالشهای دیگری نیز ذکر شده بود که به نظر نمی‎رسد تأثیر مستقیم بر بازیابی اطلاعات داشته باشد. مانند وجود «و» ناخواندنی در کلماتی چون «خواهش»، «خواندن» یا تلفظهای مختلف یک حرف (مثل خوش/ او / والی). این دو ویژگی تنها در برنامه‎های تشخیص و پردازش صوت یا در صورت ضعف یا خطای املایی تایپیست یا کاربر می‎تواند اثرگذار باشد. چنان‎که از فراوانی متون مورد بررسی برمی‎آید، آنها بیش از همه به مسئله «پیوسته‎نویسی، یا جدانویسی» پرداخته‎اند. پس از آن، «تنوع نشانه‎های جمع» (، «تفاوت در آوا / اعراب‎گذاری»، «تنوع دگرنوشته‎ها»، «الف کوتاه»، «فاصلة بین حروف واژه»، و «نگارش از راست به چپ» فراوانی بالایی دارند [برای نمونه نگاه کنید به حری، 1372؛ راثی ساربانقلی، 1384الف؛ 1384ب؛ عبداللهی نورعلی، 1386؛ گل تاجی و بذرگر، 1389، محقق زاده و زارعیان، 1383؛ اسلامی، 1381؛ مرتضایی، 1381؛ جرات و سمایی، 1383؛ معصومی همدانی، 1381؛ صدیق بهزادی، 1377؛ حسینی بهشتی، 1382؛ مرعشی، 1383).
نوع و خاستگاه چالشها
چالشهای برشمرده در متون را می‎توان به سه سطح معنایی، نحوی، و ریخت‎شناختی تقسیم کرد. برخی مشکلات، بیش از آنکه به ریخت‎شناسی فارسی بازگردند، به دستور زبان فارسی مربوط می‎شوند. برای نمونه، اختیاری بودن فاعل در جمله‎های فارسی یا آرایش آزاد سازه‎های جمله. چالشهای معنایی را می‎توان به تنوع واژگان و غنای زبان و همچنین وابستگی به زبانهای بیگانه نسبت داد. تنوع در کاربرد واژه می‎تواند بر اثربخشی بازیابی اطلاعات تأثیر گذارد. برای نمونه، واژه‎های وام گرفته، مترادفها، آوانویسی واژه‎های خارجی به جای ترجمۀ آنها و چنددستی در نگارش یا تنوع واژگان به کار گرفته برای تبیین اسامی‎مشهور یا علمی، می‎تواند جامعیت جستجو را بویژه در محیطهای وبی که امکان استفاده از اصطلاحنامه یا دیگر ابزارهای مهار واژگان وجود ندارد، تحت تأثیر قرار دهد. آشکار است که این مشکلات، مختص زبان فارسی نیست، با این حال، به دلیل وابستگی زیاد زبان فارسی به زبانهای خارجی و نبود استانداردی برای آوانویسی واژگان خارجی، به نظر می‎رسد این مسئله بازیابی فارسی را به شدت با دشواری روبرو سازد. به منظور کاهش تأثیر این عوامل، کاربر باید به هنگام جستجو، واژگان را با همة تنوع آنها مد نظر داشته باشد تا بتواند در پیوندی انفصالی، آنها را در یک راهبرد جستجو کند و بدین ترتیب، تا جایی که ممکن است به جامعیت بیشتر نزدیک شود.
دسته‎ای دیگر از چالشها به تنوع ریخت‎شناختی نگارش فارسی باز می‎گردد که به نگارش، عدم نگارش یا تنوع در نگارش حروف، علایم یا اعراب منجر می‎شود (مانند همزة پایانی یا میانی، «های» غیرملفوظ، «ی» ک پیش از «یای» وحدت، الف (کوتاه یا بلند)، تای نقطه‎دار، «ی» صامت میانجی، خط تیره، نقطه، فاصله یا نیم فاصله). به نظر می‎رسد حدس زدن و اعمال تمامی‎این جزئیات برای کاربر در راهبرد جستجو دشوار باشد. با این حال، با توجه به قاعده‎مندی بسیاری از این ریختها، می‎توان در الگوریتم جستجو، واژه‎ها را به نحوی بهنجار کرد که واژه صرف نظر از ریختهای مختلف آن، بازیابی شود. تنوع فونتها بویژه تفاوت بین فونتهای قدیمی‎و جدید (با نگارش فارسی و عربی) به دسته‎ای دیگر از مشکلات دامن می‎زند که به ظاهر به ریخت‎شناسی کلمه باز می‎گردد، اما در واقع به تفاوت نویسه‎های فارسی و عربی مربوط می‎شود (مثل عربی (بی‎سرکش) و ک فارسی (با سرکش) یا ی فارسی و عربی).
بدین ترتیب، مشاهده می‎شود که برخی چالشها، مانند تنوع مترادفها و املاهای واژگان، ذاتی هر زبانی است، اما برخی مانند حذف یا درج حرف همزه یا «ی»به سرشت زبان فارسی یا استاندارد نبودن نگارش آن باز می‎گردد. همچنین، ریشة بروز این چالشها را می‎توان در مراحل مختلف چرخة حیات یک مدرک علمی‎از مرحلة تایپ متن به هنگام تولید مدرک، تا آخرین مرحله که دروندهی عبارت جستجوست، یافت. نبود استاندارد نگارش فارسی و در نتیجه سلیقه‎ای عمل کردن نویسندگان یا تایپیستها، نبود صفحه‎کلید و کدهای استاندارد، عادت به آسان‎نویسی و رعایت نکردن پیچیدگیهای نگارش به هنگام تایپ می‎تواند به چنددستی در نگارش واژگان نویسندگان، تایپیستها، نمایه‎سازان و کاربران منجر شود (عبداللهی نورعلی، 1386؛ محقق‎زاده و زارعیان، 1383).
نوع تأثیر و فعالیت متأثر از چالشها
آشکار است که بدون بهنجارسازی چالشهای نگارشی و دستوری در الگوریتمهای سامانه‎های جستجو و بازیابی فارسی، اثربخشی بازیابی مطلوب نخواهد بود. در بسیاری از موارد، انتخاب یکی از صورتهای نگارشی و نادیده گرفتن دیگری، سبب کاهش بازیافت می‎شود. افزون بر این، گاهی چنددستی در شیوة نگارش، به ریزش کاذب نیز منجر می‎شود. برای مثال، جستجو به دنبال واژة «معین» بدون تشدید، نه تنها به از دست رفتن مدارکی حاوی این واژه با نگارش تشدیددار، بلکه به بازیابی مدارک حاوی واژه «معین» (به معنی «کمکی») منجر می‎شود. به عنوان نمونه‎ای دیگر، بی‎دقتی در فاصله‎گذاری بین کلمات مرکب حاوی حروف نا‎چسبان (مثل کدگذاری)، می‎تواند به انفصال یا اتصال کاذب، تغییر معنی (حری،1372) و در نهایت ریزش کاذب بینجامد. از این گذشته، اصل چسبیده‎نویسی حروف در فارسی،‎ که بر خلاف لاتین جدا جدا نوشته نمی‎شوند، تشخیص مرز بین حروف را دشوار می‎سازد. این خود می‎تواند دقت تایپیست یا جستجوگر به هنگام ورود داده را کاهش دهد یا به بروز خطاهای مکرر در نرم‎افزارهای تشخیص نوری نویسه، منجر شود.
به همین ترتیب، شیوة اعراب‎گذاری می‎تواند به بازیابی واژه‎هایی با املای مشابه اما آوای متفاوت و در نتیجه ریزش کاذب منجر شود. این امر می‎تواند امکان بهنجارسازی اعراب و علایم در الگوریتمهای جستجو را نیز محدود سازد. علاوه بر این، ناتوانی خط فارسی در نشان دادن تلفظ واژه‎های ایران باستان و میانه و نیز گویشها و لهجه‎ها، حتی با نشانه‎ها، کاهش بازیافت اطلاعات را در پی‎خواهد داشت. همچنین، ممکن نبودن تمایز بین اسم خاص و عام در زبان فارسی، برای مثال نبود حروف دوگانة بزرگ و کوچک، می‎تواند به‎ریزش کاذب بینجامد. برای نمونه، در جستجوی «حافظ» (شاعر قرن هشتم هجری) که یک اسم خاص است، همه مدارکی که واژة «حافظ» به معنای عام در آنها وجود دارد نیز بازیابی می‎شوند. آشکار است که با شیوة کنونی نگارش متن، نمی‎توان الگوریتمهای جستجو را به نحوی طراحی کرد که با تمایز خودکار بین اسامی‎خاص و عام، دقت جستجو را افزایش دهند.
هر یک از این چالشها، بسته به فراوانی رویداد آنها - در متن یا در عبارت جستجو - نتایج بازیابی را با درجات متفاوتی متأثر می‎سازند. برای نمونه، همان‎گونه که «مانینگ و همکاران» می‎نویسند، بسیاری از کاربران پرسشها را بدون علایم آوایی می‎نویسند. این کار برای بالا بردن سرعت، از روی تنبلی یا محدودیت نرم‎افزاری، یا به دلیل عادتهایی بازمانده از روزگار گذشته که استفاده از متن غیر اسکی در بسیاری از نظامهای رایانه‎ای دشوار بود، صورت می‎گیرد (مانینگ، راگاوان و شوتس، 2008). از این رو، احتمال می‎رود علایمی‎مانند اعراب‎گذاری، همزة پایانی و تشدید، در هر دو دستة کاربران و تایپیستها، به یک اندازه نادیده گرفته شود. در نتیجه، این موارد در مقایسه با تنوع در املا، همزة میانی، پیوسته یا جدانویسی واژه‎های مرکب، گوناگونی برابرنهادهای علمی، و دگرنویسی مشکل کمتری را به لحاظ جامعیت بازیابی پیش می‎آورند، با این حال، در مواردی ریزش کاذب را افزایش می‎دهند.
همچنین، سطح تأثیر این چالشها به لحاظ عملیات و فعالیتهای مختلف، متفاوت است. برای نمونه، رعایت نکردن اعراب‎گذاری نه تنها در مرحلة درونداد اطلاعات (به هنگام تولید مدرک یا جستجو) رخ می‎نماید و نتایج جستجو را متأثر می‎سازد، بلکه به هنگام پردازش خودکار نوشتار، بویژه در زمینة بازسازی گفتار و ترجمة ماشینی مشکلاتی را به همراه دارد. معلوم نیست برای یک صورت نوشتاری واحد، کدام زنجیرة واجی را باید در نظر گرفت. همچنین، تشخیص تلفظ صحیح واژه برای برنامه‎های گویا دشوار خواهد بود. یا به عنوان نمونه‎ای دیگر، یکسانی تلفظ برخی حروف مانند «س»، «ث»، و «ص» باعث کُندی و پیچیدگی کار پردازش نوشتار می‎گردد، زیرا برنامة پردازشگر نوشتار ناچار است دائم به واژگان مراجعه و برای هر کدام از واحد‎های نوشتار، یک صورت واجی از واژگان اخذ کند (اسلامی، 1381). یا به عنوان نمونه‎ای دیگر، آشکار است که وجود دندانه‎ها و نقطه‎های متعدد، چسبیدگی و شباهت شکل برخی حروف، ورود داده‎ها را به شکل دستی و خودکار دچار مشکل می‎کند؛ بدین ترتیب که دقت تایپیست یا کاربر در ورود صحیح املای واژه را کاهش می‎دهد و تشخیص نوری نویسه‎ها را هم دشوار می‎سازد. این امر در مورد اعداد نیز صادق است (مانند شباهت صفر و نقطه و همچنین ١، 2 و 3) (راثی ساربانقلی، 1384الف).
افزون بر این، پردازش خودکار متن می‎تواند در اثر وجود چندین چیدمان نویسه‎ای در متن با دشواریهایی روبه رو شود. برای نمونه، بر خلاف متن فارسی که از راست به چپ چیده می‎شود، متون ریاضی، شیمی، نت‌های موسیقی، و دستورهای شطرنج از چپ به راست نوشته می‎شوند. از این رو، گاه در یک متن چندین بار جهت چیدمان نویسه‎ها تغییر می‎کند. نرم‎افزار پردازش خودکار ناچار است بارها جهت خواندن را از راست به چپ و بالعکس تغییر دهد. آشکار است که در این میان امکان بروز خطا بسیار افزایش می‎یابد. علاوه بر این، یکسانی علامت نکره و اسم ساز و صفت‌ساز، یکسانی نشانة واژه‎بست‌های ربطی فعل«بودن» و «م» مالکیت، اختیاری بودن فاعل، نبود نشانة نوشتاری برای کسرة اضافه و آرایش آزاد سازه‎های جمله باعث می‎شود تشخیص مرز و نقش گروه‎های نحوی برای پردازش خودکار متن یا ترجمة ماشینی با چالش روبه رو شود (اسلامی، 1381). آشکار است، وقتی چند مورد از این چالشها در یک اصطلاح یا عبارت واحد روی دهد، اثربخشی بازیابی کمتر شده و ضرورت تدوین راهبرد پیچیده‎ای برای جستجو بیشتر و در عین حال انجام آن دشوارتر می‎شود. برای نمونه، در جستجو به دنبال واژة «دایرة‎المعارف»، مستلزم پیوند انفصالی چندین املا در یک راهبرد واحد است تا جامعیت جستجو تضمین گردد: ١- سه شکل مختلف حرف «ی» عربی (با دو نقطه زیرین)، فارسی و ئ؛ ٢- دو شکل مختلف «ه» (تای گرد نقطه‎دار و بدون نقطه) ٣- گسسته نویسی و پیوسته‎نویسی «ه» (بی‎فاصله، با فاصله یا نیم فاصله).
جامعیت چالشهای معرفی شده در آثار
با نگاهی به آنچه تاکنون بیان شد، روشن می‎شود شمار بسیاری از چالشها در آثار مورد بررسی معرفی شده‎اند. با این حال، نمی‎توان نسبت به جامعیت آنها مطمئن بود، زیرا برخی چالشها در این متون نادیده گرفته شده یا به‎طور گذرا به آن پرداخته شده است. احتمال می‎رود با پژوهشهای زبانشناختی بیشتر بتوان به نمونه‎های دیگری نیز دست یافت. برای مثال، مسائلی چون«یکسانی علامت نکره و اسم ساز و صفت ساز» و یا «یکسانی نشانة واژه بستهای ربطی فعل «بودن» و «م» مالکیت»، با وجود تأثیر بسزایی که می‎توانند در میزان موفقیت و ثمربخشی جستجو داشته باشند، کمتر مورد توجه بوده‎اند. همچنین، به برخی موارد در متون هیچ‎گونه اشاره‎ای نشده است:
1. استفاده از مصوتهای کوتاه به جای مصوت بلند «و» یا «ا» (مانند کوه/که؛ گوهر/گهر؛ کاه/که)
2. کاربرد دو مصوت کوتاه و بلند « ُ» و «و» به جای هم (مانند خرسند و خورسند؛ خرجین/ خورجین)
3. یکسانی واژه‎بستهای ربطی فعل «بودن»و «ی» وحدت یا نکره (مانند «خانه‎ای»، که در آن «ای» می‎تواند نقش فعلی (در خانه هستی) یا نشانة نکره (یک خانه) داشته باشد)
4. تأثیر به‎کارگیری فونتهای قدیمی‎و جدید که ذاتی زبان فارسی نبوده، بلکه از پویایی و تنوع فناوری سرچشمه می‎گیرد، چندان مد نظر قرار نگرفته است. این چالش در بخش بعد به اختصار شرح داده خواهد شد.
نقش نوع فونت
نقش کدگذاری و نوع فونت، تنها در (طرح جامع)‎ به طور گذرا مورد اشاره قرار گرفته است. این امر بویژه از آن رو اهمیت دارد که کاربر به دلیل شباهت نمایش این فونتها، متوجه تفاوت نویسه‎ای آنها با هم نیست. از این رو،‎ احتمال این که به هنگام جستجو در پی لحاظ کردن هر دو نوع فونت باشد، بسیار اندک و در نتیجه احتمال از دست دادن منابع بسیار زیاد است. مثال بارزی در این باره، حرف «ی» است که به دو شیوه کدگذاری می‎شود. بسته به این که در صفحه کلید، کدام نوع فونت به عنوان پیش‎گزیده به کار رفته باشد، دسته‎ای از منابع با فونتِ دیگر بازیابی نخواهند شد. دو چالش « ک در شکلهای مختلف»، و نیز «تای نقطه‎دار» که در متون به آنها اشاره شده است، می‎تواند ناشی از تنوع در فونتهای مورد استفاده در رایانه‎های مختلف باشد. تأثیر تفاوت فونت بر جامعیت نتایج را با جستجو در اینترنت می‎توان آشکارا دید. برای مثال، جستجو با حرف کاف (بدون سرکش) در گوگل به دنبال واژه «کودکان» به بازیابی 54 میلیون و 900 هزار پیشینه منجر شد. اما حاصل جستجو به دنبال همین واژه با کاف سرکش‎دار 32 میلیون و 700 هزار پیشینه بود که تفاوت چشمگیری را نشان می‎دهد. همچنین، جستجو به دنبال کلیدواژه «روانشناسی» با یای عربی (با دو نقطه در زیر) به بازیابی 325 میلیون و با یای فارسی (بدون نقطه) به 618 هزار پیشینه انجامید (جستجو به تاریخ 25 بهمن ماه 1390). اگر کاربر این دو نوع حرف را با پیوند انفصالی جستجو نکند، بخش عمده‎ای از نتایج را از دست خواهد داد. البته، تدوین راهبرد جامع جستجو در چنین شرایطی بسیار دشوار خواهد بود، زیرا ممکن است فرد راهکار دسترسی به هر دو نوع فونت را نداند. نکتة دیگر در مورد تفاوت صفحه‎ کلیدها یا برنامه‎ها به لحاظ شیوة تعریف یک نویسه است. برای نمونه، شیوة اعمال نیم‎فاصله که برای پیشگیری از چسبیدن دو جزء یک واژه مرکب به هم اعمال می‎شود، در محیطهای مختلف با هم متفاوت است. در واژه‎پرداز وُرد ، نیم فاصله را می‎توان به دو شیوة Shift+ Space و نیز Ctrl + (_) درج کرد. حال آنکه در رابط کاربر گوگل تنها شیوة نخست اعمال می‎شود و شیوة دوم با «فاصله» یکسان تلقی می‎شود. اگر کاربر از این تفاوتها آگاه نباشد، به سادگی می‎تواند بخشی از منابع را از دست بدهد.
راهکارهای ارائه شده در متون
هریک از پژوهشهای مورد بررسی برای رفع یا تقلیل این مشکلات نگارش فارسی در محیط دیجیتالی، راهکارهایی را ارائه نموده‎اند (جدول2). برخی، راهکارهایی بنیانی برای حلّ ریشه‎ای این مشکلات هستند و برخی ناظر بر یک یا چند مشکل نگارشی محدود. هر راهکار را می‎توان به یک یا چند مرحلة خاص از چرخة حیات مدرک یعنی پیش از بازیابی، و به هنگام بازیابی نسبت داد. دستة اول، راهکارهایی است برای نویسندگان و تایپیستها به هنگام تولید مدرک یا ذخیره‎سازی آن. همچنین، این راهکار می‎تواند به هنگام نمایه‎سازی به منظور تولید بازنمونهای مدرک نیز به کار گرفته شود. بنابراین، مخاطب این راهکارها، گاه کاربران، گاه نمایه سازان، و گاه هر دو قشر می‎باشند. راهکارهای دستة دوم، متوجه تمام افرادی است که در محیطهای دیجیتالی به جستجوی اطلاعات می‎پردازند.
این راهکارها ناظر به دو روش کلیِ ایجاد ابزارها و قواعد برای استانداردسازی نگارش متن (مدرک، اصطلاحات نمایه و اصطلاحات پرسش) است. در راهکار «هماهنگی رسم الخط» تأکید بر آن است که مرجعی قابل اطمینان، استانداردی را برای شیوة نگارش تصویب و عرضه کند و اجرای آن نیز الزام آور باشد تا بتوان مرز و شیوة نگارش کلمات را تابع قاعدة واحدی کرد. برای تحقق چنین امری، پیشنهاد شده است فرهنگستان زبان کمیته‎ای را مأمور تدوین راهکاری برای شیوه خط فارسی کند. راهکار دیگر، استفاده از سیاهة آماده است. در این شیوه، به کمک سیاهه‎ای از پیش تعیین شده، احتمالات گوناگون شیوة نگارش از طریق ارجاعات با یکدیگر مرتبط می‎شود. پیشنهادی دیگر، تدوین فرهنگ جامع املایی است که در آن فهرستی جامع از واژه‎های دارای گوناگونی املایی گردآوری و برای ایجاد یکدستی و هماهنگی، به همة سازمانها ابلاغ شود و در کتابهای آموزشی و رسمی‎اعمال گردد. راهکار دیگر، تدوین اصطلاحنامه‎های تخصصی در زبان فارسی است که حاوی اصطلاحات معیار در هر رشته و شیوه نوشتاری مورد قبول باشد. این راهکار نیازمند اقدامهایی مؤثر، هماهنگ و حساب شده از طرف سازمانهای ذیربط است (حری، 1372؛ عبداللهی نورعلی، 1386؛ مرتضایی، 1381).
دسته‎ای دیگر از راهکارها قواعدی را برای یکدستی نگارش فارسی پیشنهاد می‎کنند. برای نمونه، در روش هماهنگ کردن حروف، همة حروف به شکل مستقل، بزرگ و در کنار هم نوشته می‎شوند (مثلاً « م ا س ت» به جای « ماست»). پیشنهادی دیگر، ناظر بر نگارش تکواژها به طور مستقل است. پیشنهاد تکمیلی برای بهبود این کار آن است که تکواژها با فاصله‎ای تعریف شده نسبت به یکدیگر، متفاوت با فاصلة معمول میان کلمات نوشته شوند (برای مثال، «من زبان شناس‎ی نه می‎دان م». یعنی نخست، تکواژهای تشکیل دهنده هر کلمه شناسایی و از هم جدا می‎شوند، با این حال، بی‎فاصله نوشته می‎شوند (حری،1372). برخلاف برخی که فراهم کردن امکان اعراب گذاری را در واژه‎پردازهای فارسی پیشنهاد می‎کنند، برخی حذف تمامی نشانه‎های اعراب گذاری در نگارش را پیشنهاد می‎کنند، برخی نیز آوانگاری حروف (یعنی تکرار حرف مشدد به جای علامت تشدید، نوشتن نون خیشومی‎از روی زبر زنجیره به روی زنجیره نوشتار در مورد تنوین (محقق‌زاده و زارعیان، 1383).
راهکار دیگر، استفاده از هر دو شکل مفرد و جمع در نمایه‎سازی است. با این حال، معنای صورت جمع و مفرد برخی کلمات در زبان تخصصی متفاوت است. برای نمونه، «آثار باستانی» رایج‎تر از «اثر باستانی» است، «منسوجات نظامی» را نمی‎توان به شکل مفرد «منسوج» به کار برد. در واژة «مهمات» ارتباط معنایی صورت مفرد و جمع ضعیف شده است (سمایی، 1379). نگاشت یکسان حروفی مانند «ا» و «آ» از دیگر پیشنهادهاست. از آنجا که بین نگارش این دو مصوت کوتاه و بلند تمایزی وجود ندارد، با حذف علامت مد روی الف، املای کلماتی چون آرام، آن، انار، و ابر یکسان خواهد شد و تمایز بین این دو مصوت کوتاه و بلند در نمایش گرافیکی از میان می‎رود. همچنین، چیدمان از چپ به منظور یکدستی چیدمان انواع دروندادهای متنی، عددی و علایم پیشنهاد شده است. بدین ترتیب، یکدستی چیدمان از چپ نه تنها باعث هماهنگی زبان و متون ریاضی و شیمی، نتهای موسیقی، خط تصویری یا علائم گرافیکی مورد استفاده در سراسر جهان می‎شود، بلکه نگارش و مطالعه را هم برای انسان و هم برای ماشین ساده می‎سازد (محقق‌زاده و زارعیان، 1383). همچنین، تجهیز پایگاه اطلاعاتی به اصطلاحنامه می‎تواند کاربران را از ریختهای مختلف واژه به اصطلاح پذیرفته شده راهنمایی کند. ایجاد تمهیداتی برای آموزش و راهنمایی کاربران دربارة استفاده از پایگاه، راهکار دیگری برای بهبود راهبردهای جستجوست (گل تاجی و بذرگر، 1389).
تحلیل راهکارهای ارائه شده در متون
گرچه راهکارهای ارائه شده در مجموع بهترین راهکارهای ممکن را تشکیل می‎دهند، با این حال، همان‌گونه که برخی نویسندگان خود نیز اذعان داشته‎اند هر راهکار به گونه‎ای قابل انتظار از جامعیت به دور است و در عین حال دارای کاستیهای خاص خود است. برای نمونه، در راهکار هماهنگ نوشتن حروف (حری، 1372)، احتمال خطا بسیار کاهش می‎یابد، با این حال، احتمال اقبال به این شیوه نگارش اندک است. زیرا مستلزم تغییر رفتار و نگرش کاربران است. بویژه، احتمال مقاومت در برابر آن، به دلیل دوری از شیوه سنتی نگارش فارسی، بیم گسستن پیوند با گذشته و دشواری خواندن متون کهن فارسی وجود دارد. البته می‎توان نمایش و ذخیره‎سازی متن به شیوه‎های متفاوت صورت گیرد، به نحوی که اولی به روش متعارف و دومی به روش «هماهنگ شدة پیشنهادی» روی دهد. اما حتی در این صورت نیز این راهکار تنها بخشی از دشواریهای نگارش را رفع می‎کند و چالشهایی چون کلمات مرکب، اعراب‎گذاری، تفاوت در املا، عدم تمایز بین اسامی‎خاص و عام همچنان به قوّت خود باقی خواهد ماند. از سوی دیگر، در این روش به دلیل نیاز به تقطیع حروف، زمان زیادی به هنگام ذخیره‌سازی، کاوش و همچنین نمایش متن صرف می‎شود که کارآیی سامانه را کاهش می‎دهد. در راهکار استفاده از تکواژ‎ها نیز همان‎گونه که حرّی خود تأکید می‎کند، تعیین تکواژ‎ها نیازمند دانشی است که تنها نزد متخصصان یا پژوهندگان زبان‎شناسی است. از این رو، عملیاتی کردن این راهکار به سادگی ممکن نیست (حری،1372).
کاستی راهکار استفاده از سیاهة آماده، به پویایی زبان باز می‎گردد. در بهترین حالت، سیاهة آماده تنها در نقطه‎ای از زمان کامل است و هیچ‎گاه به نقطة کمال خود نخواهد رسید. از این رو، به بازنگری مستمر نیاز دارد. همچنین، بیم آن می‎رود که در دراز مدت، به دلیل بی‎دقتی یا سلیقه‎ای عمل کردن، سیاهه دچار ناهماهنگی شود. از این گذشته، کارآیی سامانه به لحاظ فضا و زمان کاهش می‎یابد، زیرا به ناچار حجمی رو به رشد از واژگان و صورتهای مختلف آن در سامانه ذخیره می‎شود و از آنجا که هر فقره اطلاعات هنگام بازیابی ناگزیر باید از غربال سیاهة مورد نظر بگذرد، زمان کاوش اطلاعات افزایش یافته، کار بازیابی کُند می‎شود. اما این شیوه را می‎توان در نبود مرجعی واحد و موثّق برای یکسان‎سازی شیوة نگارش، جایگزینی مناسب تلقی کرد(حری،1372).
در راهکار پیوند ساختگی میان کلمات، که بر تعریف فاصله‎های درونی اجزای کلمه استوار است، این اشکال عمده وجود دارد که قبل از درونداد اطلاعات، متخصصان باید کلماتی را که احتمال جدا یا پیوسته نوشتن اجزای آنها می‎رود، شناسایی و با کد مربوط مجهز کنند. در این روش، امکان پردازش خودکار متن نیست، زیرا عملیات مقدماتی باید قبل از ورود صورت گیرد و از طریق صفحه کلید به نظام خورانده شود. اما این روش، همان‎گونه که حرّی بیان می‎دارد، برای حلّ مسائل مقطعی برنامه‎های فارسی موجود مطلوب است(حری،1372).
در روش هماهنگی رسم الخط، تأکید بر تدوین و تصویب رسم الخط واحد و الزامی‎کردن اجرای آن است(حری،1372). آشکار است که این راهکار، نه تنها از منظر بازیابی اطلاعات که به لحاظ رفع آشفتگی و چندگونگی نگارش و در نتیجه بقا و اعتلای زبان فارسی، بسیار ارزشمند است. با این حال، وابستگی آن به تغییر رفتار و عادات کاربران اثربخشی آن را در کوتاه مدت زیر سؤال می‎برد. حتی اگر با ابلاغ قوانین و مقررات استاندارد نگارش، افراد را به رعایت نگارش تجویز شده وادار کنیم، باز هم نهادینه شدن آن بسیار به طول خواهد انجامید. به طور کلی، پیشنهادهایی از این دست، به ایجاد تغییراتی زیربنایی و گسترده در بافتاری نزدیک به بیش از یک هزار ساله نیاز دارند. بویژه، این گونه راهکار‎ها نیازمند هم‎رأیی و همراهی تودة مردم - خواه عوام یا خواص - است که چه بسا لزوم این تغییرات اساسی را درک نکنند. از سوی دیگر، از آنجا که ابتکار فردی جای خود را به نگارش دستوری خواهد داد، با پراگماتیک زبان مغایر خواهد بود، چه، زبان در بستر عملی و در جریان طبیعی خود، راه بقای خود را می‎یابد و چندان با روشهای دستوری سازگار نیست. از این رو، این راهکارها بیشتر متناسب هدفهای راهبردی و بلندمدت است، که آن نیز مستلزم نقش‎آفرینی بنیادین‎ترین نهاد یعنی نظامهای آموزش و پرورش است. از سوی دیگر، به نظر می‎رسد جمع میان این 5 راهکار به دلیل به کارگیری مبناهای متفاوت برای تقطیع عناصر زبان‎شناختی دشوار است. در پیشنهاد نگارش هماهنگ حروف، حرف به عنوان عنصر اصلی مبنا قرار گرفته است و در پیشنهاد دوم، تکواژ. اما در پیشنهادهای بعدی، مبنای تقطیع کلمه است. اگر بپذیریم که این تدابیر برای یافتن راهی روشن به منظور برقراری ارتباط انسان – ماشین - انسان است و کاربران رایانه عمدتاً افرادی با تخصصهای گوناگون هستند که قصد ارتباط کلامی با یکدیگر دارند، بنابراین، کوچکترین واحد معنادار برای آنها کلمه است، نه حرف یا تکواژ. از این گذشته، راهکار تهیة سیاهة آماده و همچنین پیوند ساختگی میان کلمات به دلیل وابستگی به مداخلة نیروی انسانی، با روند خودکارسازی پردازش متن در تعارض است. از این لحاظ، هماهنگ کردن رسم‌الخط فارسی، معقول‌تر از سایر پیشنهادها به نظر می‎رسد(حری،1372). با این حال، این راهکار نیز همان‎گونه که گفته شد، به دلیل دستوری بودن و نیاز به نهادینه شدن در میان کاربران، در کوتاه مدت به بار نخواهد نشست.

جدول2. راهکارهای پیشنهادی در مراحل مختلف چرخه زندگی مدرک

مرحله
راهکار پیشنهادی
مرحلة پیش از بازیابی

ایجاد ابزارهایی برای استانداردسازی نگارش به هنگام تولید مدرک

تدوین فرهنگ جامع املایی

تدوین اصطلاحنامه‎های تخصصی در زبان فارسی

تدوین اصول برگردان کلمات خارجی

هماهنگ کردن رسم الخط

ایجاد ابزارهایی برای ارتقای نگارش به هنگام تولید بازنمونهای مدرک

استفاده از سیاهة آماده

ایجاد نظامهای ریشه‌یابی در فارسی

تجهیز واژه‎پرداز‎های فارسی به غلط‎یاب املایی

هماهنگ کردن حروف

استفاده از تکواژها

حذف اعراب‎گذاری

چپ‎نویسی

استفاده از هر دو صورت مفرد و جمع در نمایه‌سازی

کاهش شمار نویسگان با قایل شدن دو حالت بزرگ و کوچک برای حروف

نگارش واژه محور و قرار دادن فاصله بین کلمات برای تعیین مرز بین آنها

نشانه‎گذاری اسامی‎خاص از طریق تفکیک حالت بزرگ و کوچک حروف

قرار دادن نشانة یکسان برای حروف دارای چند تلفظ مانند س، ث، ص

قرار دادن نشانة نوشتاری خاص برای کسرة اضافه در همه شرایط

قرار دادن نشانة جداگانه برای «ی» نکره و «ی» تکیه بر اسم ساز و صفت ساز

قرار دادن نشانة جداگانه برای واژه بستهای ربطی فعل«بودن»

قرار دادن نشانه«-» در بین کلمات ترکیبی

 مرحلة ذخیره‎سازی

ایجاد ابزارهایی برای ارتقای نگارش / نمایه‎سازی

درج حروفی که خوانده ولی نوشته نمی‎شوند

عدم تمایز بین «ا» و «آ»

پیوند ساختگی میان کلمات

قواعد یکدستی نگارش

واگذاری حل مشکل کلمات ترکیبی به رایانه

بی‎فاصله‌نویسی کلمات مرکب

درج نکردن فاصله میان مقلوب عبارتهای اسمی‎مانند«زردکوه»

درج نکردن فاصله میان عبارتها و واژه‎های لاتین که دقیقا منعکس کننده لفظ خارجی است، مانند «سوپرساب» و نه «سوپر ساب»

درج فاصله قبل و بعد از حرف ربط، مانند «مواد دیداری و شنیداری»

درج فاصله قبل و بعد از حرف ربط، مانند «مواد دیداری و شنیداری»

مرحلة بازیابی

تجهیز پایگاه اطلاعاتی به اصطلاحنامه

آموزش و راهنمایی کاربران

استفاده از واسط کاوش فارسی برای رفع چالشهای رسم‎الخط و مفهومی‎

به همین ترتیب، روش چیدمان چپ‎نویس (محقق‎زاده و زارعیان، 1383) از همین کاستیِ نیاز به تغییر عادتها و نهادینه شدن در طول زمان رنج می‎برد. با این حال، این روش را می‎توان بر ذخیره‎سازی متن و نه لزوما نمایش آن پیاده کرد. بدین ترتیب، خواندن متن برای رایانه ساده‎تر می‎شود و کاربر نیز با روش مألوف خود به خواندن متن نمایش داده شده می‎پردازد. البته، این تمایز بین سبک ذخیره‎سازی و نمایش، به الگوریتمی پیچیده نیاز دارد که خواه ناخواه کارآیی سامانه را متأثر خواهد ساخت.
روش کاهش شمار نویسگان پیشنهاد می‎کند که از میان شکلهای متعدد برای یک حرف، تنها دو حالت بزرگ و کوچک را برای هر حرف بپذیریم. هر چند این پیشنهاد در جهت کاهش شمار نویسگان و حل مشکل کمبود کلید بر صفحه کلید بسیار مفید به نظر می‎رسد، حالت کوچک و بزرگ پیشنهادی برای این حروف، تفاوتی چشمگیر ندارند (نگاه کنید به محقق‎زاده و زارعیان، 1383). علاوه بر این، شکل بزرگ و کوچک حروفی چون «د»، «ذ»، «ر»، «ز»، «ژ»، «و» و «ء» هم برای انسان و هم برای رایانه (به هنگام تشخیص نوری نویسه‎ها) تقریباً قابل تشخیص نیست. همچنین، موفقیت این روش نیز در گروِ تغییر در رفتار و نگرش کاربران است.
روش دیگر، پیشنهاد یکسان‎سازی نگارش حروفی مانند «س»، «ث» و «ص» است که در زبان فارسی تلفظ یکسان دارند. به نظر می‎رسد این راهکار و دیگر راهکارهایی از این دست مانند نوشتن حروفی که خوانده اما نوشته نمی‎شوند، با گرایشهای نگارشی نسل جدید نیز انطباق داشته باشد. نگاهی گذرا به نوشته‎های فارسی در جای جای اینترنت روشن می‎سازد کاربر جوان بیش از آن‌که به املای کلمه توجه داشته باشد، آن را با آوانویسی ساده می‎کند. برای مثال، فراوانی املای «راجب» به جای «راجع به» نمونه‎ای از این گرایش است که یا ناشی از املای ضعیف است یا تمایل به ساده‎سازی و ساده‎نویسی املای فارسی. به نظر می‎رسد کاربر امروز با این رفتار - آگاه یا ناخودآگاه - نشان می‎دهد که ضرورتی برای رعایت نگارش عربی نمی‎شناسد و مایل است پیچیدگی نگارش تنها بر حسب ضرورت زبان فارسی روی دهد و نه ضرورتهای برخاسته از زبان مبدأ. با این حال، این گونه راهکارها هدف اصلی زبان را به چالش می‎کشد. زیرا، نه تنها رسالت اصلی زبان را که برقراری ارتباط است محقق نمی‎کند و باعث گسست در درک خواننده می‎گردد، بلکه به دوگانگی متون چاپی و رایانه‎ای نیز منجر می‎شود، که این امر آسیب شدیدی به ارتباطات و نیز فرهنگ نوشتاری وارد می‎سازد.
از طرفی، با توجه به آمیختگی شدید زبان عربی و فارسی، تغییر املایی این واژه‎ها به منظور هماهنگی با رسم الخط فارسی، سبب از بین رفتن و یا دگرگونی معنای آنها و در نتیجه ابهام، بدفهمی‎و حتی گاهی درک نشدن واژه توسط خواننده می‎گردد و درصد ریزش کاذب را در نتایج بازیابی نیز افزایش می‎دهد. برای مثال، اگر واژه «قالب» به معنای «شکل» به صورت «غالب» نگارش شود، معنی «پیروز» از آن برداشت می‎شود، یا نگارش واژه «صبور» به صورت «سبور»، برای خواننده کاملاً نامأنوس بوده، ممکن است سبب درک نشدن آن شود. علاوه بر این، روی آوردن به چنین راهکاری، موجب گسستی عمیق بین حال و گذشتة ادبی، فرهنگی و تاریخی می‎شود و تردید بسیاری را بر جای می‎گذارد.
حرکت به سوی خودکارسازی پردازش متن فارسی
چنان‎که گفته شد، به طور کلی دو دسته راهکار ایجاد ابزار و استانداردسازی تولید متن را می‎توان در جهت کاهش دشواریهای بازیابی فارسی به کار گرفت. ایجاد و تدوین ابزارهایی چون اصطلاحنامه‎ها، فرهنگهای املایی و قواعد نگارش استاندارد، گامی‎مؤثر در افزایش اثربخشی بازیابی به شمار می‎آید. این ابزارها، ضمن توسعة معنایی اصطلاحات جستجو و نمایه، می‎توانند با هدف یکسان‎سازی نگارش و از بین بردن گوناگونی نحوی و ریخت‎شناختی نیز به کار روند. یکسان‎سازی نگارش می‎تواند متن مدرک، اصطلاحات نمایه یا اصطلاحات پرسش را در برگیرد. از این رو، این روش را می‎توان در هر مرحله‎ای از چرخة زندگی اطلاعات، از تولید، ذخیره‎سازی، نمایه‎سازی گرفته تا جستجو و بازیابی، اعمال کرد. اما این راهکار زمانی بیشترین بازده را خواهد داشت که بیش از آنکه به قضاوت و تصمیم کاربر یا تغییر عادتها و رفتار وی وابسته باشد، بر خودکارسازی پردازش متن، نمایه‎سازی، یا ترجمة ماشینی استوار باشد. چه در روش خودکار، می‎توان صورتهای متغیر کلمه را صرف نظر از عادتهای نگارشی افراد، یکدست و بهنجار کرد.
همان‎گونه که در متن اشاره شد، با توجه به قاعده‎مندی بسیاری از چالشها مانند اعراب، علایم جمع، همزة پایانی و برخی وندهای اسم‎ساز و صفت‎ساز، می‎توان در الگوریتمهای جستجو، این واژه‎ها را به نحوی بهنجار کرد که واژه صرف نظر از ریختهای مختلف آن، بازیابی شود. آشکار است که به سادگی نمی‎توان به الگوریتمی‎تمام‎عیار با اثربخشی مطلق دست یافت. برای نمونه، در مورد علامت جمع، شاید بتوان واژه‎های جمع و مفرد را با حذف «ها» و «ان» یکسان کرد. با این حال، زمانی که این علایم بخشی از واژه باشند، مانند «تنها»، «رها»، «زمان»، «نان» یا «انسان» احتمال بروز خطا می‎رود. البته در برخی از این موارد، این امکان وجود دارد که با فنون سنجش در الگوریتم، در صورتی که تعداد نویسه‎ها کمتر از دو نویسه باشد، بهنجارسازی را اعمال نکرد. برای نمونه‎ای دیگر، همان‎گونه که پیشتر ذکر شد، در برخی موارد بهنجارسازی صورت جمع با صورت مفرد کلمه باعث تغییر معنا می‎شود (مانند مصالح / مصلحت). همچنین، همیشه نمی‎توان شکلهای بلند یک واژه را به شکل کوتاه آن یا برعکس بهنجار کرد، زیرا در پاره‎ای موارد شکل اختصاری با واژه‎ای دیگر هم‎املا می‎شود یا معنای آن به کلی تغییر می‎کند. (مانند کوه/که؛ آگاهی/آگهی). با این حال، باید توجه داشت که بروز درصدی از خطا ذاتیِ هر گونه روش «اکتشافی» است و حتی در الگوریتمهای موفق و رایجی مانند پرتر نیز ممکن است روی دهد. از این‎رو، پیش از طراحی این گونه الگوریتمها، بررسی قاعده‎مندیهای نگارش زبان فارسی و درصد واژه‎هایی که این قاعده‎مندیها را نقض می‎کنند، می‎تواند ما را نسبت به میزان رواداری این الگوریتمها آگاه سازد.
ایجاد الگوریتمهای ریشه‌یابی کلمات فارسی که در متون نیز آمده بود، به بخشی از راهکارهای خودکارسازی پردازش متن اشاره دارد. چنانچه منظور از ریشه‌یابی حذف وندهای کلمه باشد می‎تواند بسیار راهگشا باشد، زیرا در زبان فارسی، واژه‎سازی بیشتر به کمک پیشوندها و پسوندها صورت می‎گیرد که ریخت واژه را چندان دستخوش تغییرات بنیادین نمی‎کند. با این حال، چنانچه منظور از ریشه‌یابی طراحی الگوریتمی‎برای یافتن بن‎واژه باشد، کار یافتن قاعده‎مندیها دشوارتر خواهد شد، زیرا تغییر ریخت واژگان در فارسی، بیشتر بر واژگان وام گرفته عربی روی می‎دهد. برای مثال، جمع مکسر، یا صرف کلمه در بابهای مختلف (مانند تعمیر یا استعمار). آشکار است که تقلیل این صورتهای صرف شده به ریشة آنها نه به سادگی ممکن است و نه مطلوب، زیرا در بسیاری از موارد جمع مکسر یا صرف کلمه در بابی دیگر به تغییری بنیادین در معنا می‎انجامد. از این گذشته، به‎کارگیری فنون بازیابی روادار بویژه فنون تصحیح املا که نسبت به گونه‎گونی ریختی یا صرفی واژه نیرومند باشد، از دیگر راهکارهای ممکن است. در این فنون، املاهای مختلف، خواه ناشی از اشتباه کاربر باشد یا تنوع املایی واژه، به یک ریخت واحد تقلیل می‎یابد و در نتیجه همة احتمالات ممکن مورد جستجو قرار می‎گیرد (مانینگ، راگاوان و شوتس، 2008). فنون تصحیح املا بر بازیابی فارسی در گوگل به کار گرفته شده است. برای نمونه، جستجو به دنبال «یگتا» یا «اسربخشی» ضمن ارائه نتایج حاصل از جستجوی این دو املای غلط، نتایج مربوط به واژة «یکتا» یا «اثربخشی» را نیز پیشنهاد می‎دهد.
نتیجه‎گیری
به طور کلی، ٤٣ گروه چالش نگارشی در متون معرفی شده است. آنچه بیش از همه مد نظر پژوهشگران بوده مسئله «پیوسته یا جدانویسی»، «تنوع نشانه‎های جمع»، «تفاوت در آوا / اعراب‎گذاری»، «تنوع دگرنوشته‎ها»، «الف کوتاه»، «فاصلة بین حروف واژه»، و «نگارش از راست به چپ» بوده است. برخی از چالشها نیز کمتر مورد توجه قرار گرفته یا به طور کلی نادیده گرفته شده است. با توجه به اینکه در هر گروه ممکن است بیش از دو شکل املایی روی دهد، آشکار خواهد شد نگارش فارسی اصولا به شیوه‎ای بسیار متنوع صورت می‎گیرد. آشکار است که این گونه‎گونی نگارشی به نایکدستی و دگرگونی بسیار در نگارش فارسی می‎انجامد که می‎تواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متأثر سازد.
اگرچه راهکارهای ارائه شده در متون از کاستیهایی بویژه نداشتن جامعیت رنج می‎برند، کم و بیش اثربخش به نظر می‎رسند. با این حال، با توجه به اینکه راهکارهای انسانی نیازمند مشارکت فعالانة نویسندگان متون (تایپیستها و کاربران) است و از روندی کُند، بلندمدت و هزینه‎بر برخوردار است، ضروری است راهکارهای خودکارسازی پردازش متن و نمایه‎سازی بیش از پیش مورد تأکید قرار گیرد. مرور آثار پژوهشی در بخش پیشینة پژوهش نشان داد شمار پژوهشها در حوزه طراحی و آزمایش تکنیکها، ابزارها و الگوریتمهای خودکارسازی بازیابی زیاد است که نشان از پیشرفتها و دستاوردهای روزافزون در این حوزه دارد. با این حال، دانش اندکی در مورد میزان به‎کارگیری این فنون در سامانه‎های اطلاعاتی مختلف و میزان اثربخشی آنها در بافتار عملی در دست است. از این رو، ضروری است ضمن آنکه در طراحی سامانه‎های فارسی به این چالشها توجه می‎شود، مطالعات مقدماتی به منظور سنجش میزان اثربخشی و همچنین هزینه - سودمندی راهکارها انجام شود. چه، طراحی الگوریتمی‎که تنها به ازای درمان یک چالش نادر یا ناچیز، پیچیدگی زیادی را بر سامانه تحمیل کند، به کاهش کارآیی آن و افزایش هزینه - سودمندی منجر خواهد شد. از این رو، یکی از گامهای بنیادین در پژوهشهای بازیابی فارسی، بررسی میزان رویداد هر یک از چالشها و میزان تأثیر آنها بر اثربخشی بازیابی است.
گام بنیادین دیگر در این راستا، تدوین شیوه‎نامة نگارش فارسی، اصطلاحنامه‎ها و فرهنگهای املایی در محیط دیجیتالی است. مشارکت متخصصان موضوعی، زبان و ادب فارسی، رایانه و کتابداری در این امر ضروری است. کتابخانه ملی یکی از سازمانهای مهم و تأثیرگذار است که می‎تواند در تدوین استانداردها با طراحان پایگاه‎های اطلاعاتی و نرم‎‎افزارها مشارکت کند. با توجه به آنکه این راهکار در بلندمدت به بار می‎نشیند، پیشنهاد می‎شود هم‎زمان با اقدامهای پژوهشی و زیربنایی، اقدامهای عملی نیز از سوی کتابخانه‎ها و مراکز اطلاع‎رسانی به منظور افزایش بهره‎وری پایگاه‎ها و سامانه‎های اطلاعاتی صورت گیرد. برای نمونه، تدوین دستنامه یا راهنمای جستجو می‎تواند کاربران را در رابطه با تدوین راهبردهای جستجوی موفق آموزش دهد. لازم است در این راهنما، در کنار شرح فنون و تسهیلات جستجو مانند امکانات جبر بولی و جز آن، نکات مهمّ نگارش فارسی مؤثر بر اثربخشی بازیابی اطلاعات آموزش داده شود. همچنین، در طراحی پایگاه‎های اطلاعاتی، الگوریتمهای متفاوت بسته به نوع پایگاه و پوشش موضوعی آن به کار گرفته شود. برای نمونه، در برخی رشته‎های علمی‎مانند شیمی‎و ریاضی، فرمول‎نویسی مشکل غالب است، حال آنکه در متون مذهبی یا متون فارسی- عربی، احتمالاً اعراب‎گذاری تأثیر بسزایی بر بازیابی اطلاعات خواهد داشت.

اسلامی، م (1381). دشواریهای پردازش رایانه‎ای خط فارسی. نشر دانش. 19 (3): 28-32.
 اشرف‎زاده، ب (١٣٨١)‎. ایرادهای «قواعد کلی» فرهنگستان (2). بازیابی شده به تاریخ ١٥ آذر ماه ١٣٩٠ از نشانی http://ashrafzaade.persianblog.ir/post/48
 باطنی، م (1372). رابطه خط و زبان. آدینه. 78و79: 70-71.
 جرأت، ع. و س. سمایی (1383). «چرا جهانی نمی‎شویم؟ نگاهی به مشکلات خط فارسی زمینه با فناوری اطلاعات»، ابتکار (4 بهمن).
 حری، ع (1372). کامپیوتر و رسم الخط فارسی. پیام کتابخانه. 3 (1): 6-11.
 حسینی بهشتی، م (1382). کاربرد اصطلاح شناسی و واژه گزینی در نمایه‌سازی ماشینی و بازیابی اطلاعات. علوم اطلاع‎رسانی. 18 (3): 31-44.
 خیام، م (1386). خط فارسی کارایی علمی‎و فنی ندارد. حیات نو (17 تیر).
 دشتی، الف (1383). «بررسی سه پیشنهاد در شیوه نگارش خط فارسی: حتا، مثلن، خاهر»، شرق (10 تیر).
 راثی ساربانقلی، م.ص (1384ب). مهارت در جستجوی اطلاعات فارسی از اینترنت. ارتباط علمی. 5 (1): 16-28.
 ـــــــــــــــ (1384الف). بررسی مشکلات جستجو و بازیابی اطلاعات به زبان فارسی از اینترنت با مطالعه موردی بر روی کاربران مرکز اینترنت دانشگاه آزاد اسلامی‎واحد شبستر. پایان نامه کارشناسی ارشد کتابداری و اطلاع‎رسانی، دانشگاه آزاد اسلامی، واحد تهران شمال.
 رجایی، م (1372). خط فارسی به اصلاحات بنیادی نیاز دارد. آدینه. 80: 69-71.
 زندی مقدم، ز. (1388). نکاتی دربارة شیوه نگارش چند تکواژ دستوری زبان فارسی. نامۀ فرهنگستان. 3: 203-220
 سرمستانی، ج (1388). ‎کاستیها و نادرستیهای دستور خط فارسی فرهنگستان. بازیابی شده به تاریخ ١٥ آذر ماه ١٣٩٠ از نشانی http://vista.ir/?view=context&id=309089
 سمایی، م (1379). مفرد و جمع در نمایه سازی. علوم اطلاع‎رسانی.16 (1و2): 27-31.
 شهیدی، م، صدیقی، م، زمانی فر،ک (١٣٨٤) روشی برای رفع چالش‎های محتواکاوی در وب‎های فارسی زبان فصلنامه علوم و فناوری اطلاعات ٢١ (٢): ٤٧- ٦٩
 صدیق بهزادی، م (1371). ناهماهنگی ضبط نامهای بیگانه در فارسی. فرهنگ.کتاب سیزدهم:103-116.
 ـــــــــــــــ (1375). زبان فارسی در تبادل اطلاعات کتابشناختی. نامۀ فرهنگستان. 8: 70-81.
 صنعتی، م (1371). دشواری‎های زبان فارسی با کامپیوتر. آدینه. 72: 56- 57.
 ضیاء، الف (1381). شیوة خط فارسی، دیدگاهی دیگر. چیستا. 190: 794-797.
 طباطبایی، ع (1381). در دشواری‎های رایانه‎ای زبان فارسی. نشر دانش. 106:36-38.
 طرح جامع پیکره زبان فارسی با موضوع فاز اول مطالعاتی ایجاد پیکره متنی زبان فارسی: ارایه مشاوره در پروژه‎های ذخیره و بازیابی اطلاعات متون زبان فارسی (١٣٨٨). ویرایش ١. طرح مصوب شورای عالی اطلاع‎رسانی و دانشگاه علم و صنعت، بازیابی شده به تاریخ 2 تیر ماه از نشانی http://arooz.net/attachments/059_20-IR.pdf
 عبداللهی نورعلی، م.ص (1386). کند و کاو مسائل ریخت شناسی زبان فارسی در بازیابی اطلاعات از جستجوگر‎های وب. پایان نامه کارشناسی ارشد کتابداری و اطلاع‎رسانی، دانشگاه شیر از، شیراز.
 فرهنگستان زبان و ادب فارسی (۱۳۸۳). دستور خط فارسی. تهران: فرهنگستان زبان و ادب فارسی
 کابلی، الف (1372). احیای نشانة اضافه. آدینه. 80: 68-69.
 گزنی، ع (1385) استخراج خودکار عبارتهای کلیدی از متون مقاله‎های فارسی. کتابداری و اطلاع‎رسانی، ٩(٣): 97- ١٠٨
 گل تاجی، م. و س بذرگر (1389). بررسی مشکلات ریخت شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه‎ای اطلاع‎رسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمی‎ایران و جهاد دانشگاهی. کتابداری و اطلاع‎رسانی. 13 (2):191-214
 محقق‎زاده، م.ص. و زارعیان، ک (1383). ارائه راه حل برای برخی مسائل اتوماسیون نگارش فارسی. اطلاع‎رسانی، 19 (3- 4): 1-10.
 مرتضایی، ل (1381). مسائل زبان و خط فارسی در ذخیره و بازیابی اطلاعات. اطلاع‎رسانی، 17 (1-2): 1-7.
 مرعشی، ع (1383). خط فارسی چگونه با اینترنت کنار علمی‎آید؟. رشد تکنولوژی آموزشی. 161: 33-35.
 معصومی‎همدانی، ح (1381). خط فارسی و رایانه. نشر دانش. 101: 2.
 AleAhmad, A, Hakimian, P, Mahdikhani, F and Oroumchian, F, (2007) N-gram and local context analysis for Persian text retrieval, 9th International Symposium on Signal Processing and Its Applications - ISSPA 2007, Sharjah, United Arab Emirates, 12-15 February 2007.
 AleAhmad, A., Amiri, H., Darrudi, E., Rahgozar, M., Oroumchian, F. (2009). Hamshahri: A standard Persian text collection.Knowledge Based Systems, 22(5): 382-387, DOI: 10.1016/j.knosys.2009.05.002
 Alizadeh, H., Fattahi, R. (2010) International Journal of Information Science and Management. 8 (2): 89-98.
 Bar-Ilan,J. & Gutman,T(2002). How do Search engines Handle Non- English Queries? A Case Study. Retrieved 10/5/2011 from Science Direct database.
 Berenjkoob, M., Mehri, M., Khosravi, H., Nematbakhsh, Ma. (2009). A Method for Stemming and Eliminating Common Words for Persian Text Summarization. In the proceedings of the International Conference on Computer Engineering and Technology.978-1-4244-4538-7/09/$25.00 ©2009IEEE. Retrieved 7 June 2012 from http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5313836
 Danesh, M., Minaei, B. and Kashefi, O. (2011) Challenging Massive Information Retrieval in Persian. International Journal of Information and Education Technology (1) 3: 212-220.
 Farhoodi,M., Mahmoudi, M., Zare Bidoki, AM., Yari, AR., and Azadnia, M. (2009). Query Expansion Using Persian Ontology Derived from Wikipedia. World Applied Sciences Journal 7 (4): 410-417.
 Hedlund, T. et al (2000). Aspects of Swedish Morphology and Semantics from the Perspective of Mono- and Cross-Language Information Retrieval. Retrieved 10/12/2011 from Elsevier database.
 Iranpour Mobarakeh, M., and Minaei-Bidgoli, B., (2009). Verb Detection in Persian Corpus. International Journal of Digital Content Technology and its Applications 3 (1): 58-65. Retrieved 7 June 2012 from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.184.8313&rep=rep1&type=pdf
 Karimpour, R., Ghorbani, A., Pishdad, A., Mohtarami, M., Aleahmad, A., Amiri, H. & Oroumchian, F. (2009), Improving Persian information retrieval system using stemming and part of speech tagging, in Evaluating Systems for Multilingual and Multimodal Information Access: 9th Workshop of the Cross-Language Evaluation Forum, 17-19 Sept. 2008, Aarhus, Denmark, Lecture Notes in Computer Science, vol. 5706, pp. 89-96.
 Keyvan, F. Borjian, H., Kasheff, M. and Fellbaum, C. (2006) Developing PersiaNet: The Persian Wordnet. In Petr Sojka, Key-Sun Choi, Christiane Fellbaum, Piek Vossen (Eds.): GWC 2006, Proceedings, pp. 315–318. Retrieved 7 June 2012 from http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.148.7473&rep=rep1&type=pdf
 Khalifehsoltani, SN., Cholmaghani, A., Vahdani, A., and Moallemi, R. (2010a)Towards Acquisition of a Thematic Persian Corpus from the Tebyan Portal: TebCorp. In the proceedings of 2nd International Conference on Computer Engineering and Technology ,978-1-4244-6349-7/10/$26.00 _c 2010 IEEE Pp: v7-682-686
 Khalifehsoltani, SN., Cholmaghani, A., Vahdani, A., and Moallemi, R. (2010b) Building a Large Per sian Verb Collection: A Generative Approach. In the proceedings of 2nd International Conference on Computer Engineering and Technology, 978-1-4244-6349-7/10/$26.00 _2010 IEEE Pp: v7-687-691.
 Khosravi, F. and Vazifedoost, A. (1386) Creating a Persian ontology through thesaurus reengineering for organizing the Digital Library of the National Library of Iran. Faslnameh – ye- Ketaab, 70 (Summer 1386): 19-36.
 Lazarinis, F., Vilares, J., Tait, J. Efthimiadis, EN. (2009). Current research issues and trends in non-English Web searching.Information Retrieval, 12:230–250. DOI 10.1007/s10791-009-9093-0.
 Manning CD.; Raghavan, P.; Schutze, H. (2008)Introduction to Information Retrieval. Cambridge: Cambridge University Press
 Mehrad, J. and Berenjiann S. R. (2011). Providing a Persian Language Singular-Stemmer System (RICeST Stemmer). International Journal of Information Science and Management, 1(2): 13-22.
 Mohtarami, M., Amiri, Hadi., Oroumchian, F. & Rahgozar, M. 2008, ‘Using heuristic rules to improve Persian part of speech tagging accuracy’, International Conference on Information and Knowledge Engineering, Universal Conference Management Systems and Support, California, USA.
 Monz,C. & De Rijke,M (2002).Shallow Morphological Analysis in Monolingual Information Retrieval for Deutch, German, and Italian. In proceedings of Evaluation of Cross- Language Evaluation forum, CLEF 2001. September 3-4 2001. Darmstadt, Germany.
 Mosavi Miangah, T. (2006): Automatic lemmatization of Persian words, Journal of Quantitative Linguistics, 13:01, 1-15. DOI: 10.1080/09296170500500884.
 Mosavi Miangah, T. (2007) Solving the Polysemy Problem of Persian Words. In Proceedings of the Corpus Linguistics Conference (CL2007). Retrieved 7 June 2012 from ucrel.lancs.ac.uk/publications/CL2007/paper/8_Paper.pdf
 Moukdad, H (2005). Lost in Cyberspace: How do Search Engines Handle Arabic Queries? The International Information & Library Review, 37(4): 237-394.
 Moukdad, H. and Cui, H. (2005). How Do Search Engines Handle Chinese Queries?. Webology, 2 (3). Retrieved 10 June 2012 from http://www.webology.org/2005/v2n3/a17.html
 Moukdad, H. and Large, A. (2001). Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designed for English Do the Job? Libri, 51: 63–74.
 Taghva, K., Beckley, R. and Sadeh, M. (2005) “A Stemming Algorithm for the Farsi Language,” in Proceedings of the International Conference on Information Technology: Coding and Computing (ITCC'05) - I (01).
 Tashakori,M. Meybodi, MR., and Oroumchian, F. (2002). Bon: The Persian Stemmer EurAsia-ICT 2002: Information and Communication Technology. Lecture Notes in Computer Science, 2002, Volume 2510/2002, 487-494, DOI: 10.1007/3-540-36087-5_57.
 Teymoorian, F., Mohsenzadeh, M., and Seyyedi, MA. (2009) English-Persian Text Retrieval Using Concept Graph. In the proceedings of the International Conference on Computer Engineering and Technology 978-1-4244-4520-2/09/$25.00 ©2009 IEEE: 447-451.
 Tóth, E. (2006). Exploring the Capabilities of English and Hungarian Search Engines for Various Queries. Libri, 56: 38–47
 Yoosofan, A., Rahimi, A., Rastgoo, M. and Mojiri, MM. (2010). Automatic Stemming of Some Arabic Words Used in Persian through Morphological Analysis without a Dictionary. World Applied Sciences Journal, 8 (9): 1078-1085. Retrieved 7 June 2012 from www.idosi.org/wasj/wasj8(9)/7.pdf