نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشیار گروه علم اطلاعات ودانش شناسیدانشگاه شیراز
2 دانشجوی دوره کارشناسی ارشد
چکیده
کلیدواژهها
مقدمه
خواندن و نگارش فارسی به دلیل ویژگیهای خاصّ این زبان، در پارهای موارد با دشواریهایی همراه است که در رویارویی با رایانه، دو چندان میگردد. ورود ناگهانی رایانه به گسترهای وسیع از فعالیتهای مختلف اجتماعی، فرهنگی، اقتصادی و فنی، مجال آن را به صاحب نظران نداده است که راهکاری بنیانی و جامع برای مقابله با چالشهای شیوة نگارش بیندیشند و به کار گیرند (حری،1372). نبود استاندارد شیوة نگارش جامع و مورد قبول همگان، به نایکدستی و ناهماهنگی دروندهی اطلاعات در پایگاههای اطلاعاتی، وبسایتها، وبلاگها و دیگر منابع دیجیتالی انجامیده که آن نیز به نوبة خود جستجوی فارسی را با مشکلاتی چند همراه ساخته است. این دشواریها بویژه در دنیای وب و با رشد سریع انتشارات الکترونیکی فارسی بر وب، چشمگیر بوده است. شیوهنامهای که فرهنگستان ادب و زبان فارسی در سالهای اخیر برای یکدستی نگارش فارسی ارائه کرده نیز نتوانسته است از این دشواریها بکاهد، زیرا این شیوهنامه به دلیل ناهماهنگی درونی، هدف قرار دادن عامه مردم و در نتیجه کاهش دقت و پرهیز از وضع قانون برای برخی استثناها، وضع قانون برای پیوسته یا جدانویسی برخی کلمات مرکب و واگذار کردن سایر موارد به سلیقة نویسندگان و در نهایت نپرداختن به همة دشواریهای نگارشی، مورد انتقاد بوده است (طرح جامع پیکره زبان...، 1388؛ فرهنگستان زبان و ادب فارسی، ۱۳۸۳؛ سرمستانی، 1388؛ اشرفزاده، 1381). از سوی دیگر، الزامآور نبودن به کارگیری این دستورها باعث میشود پذیرش و نهادینه شدن این سبک، فرایندی بسیار بلندمدت، اگر نگوییم ناشدنی، باشد.
مسئلة پژوهش
دسترسی آسان به انبوهی از اطلاعات، دستاورد حضور اطلاعات در محیطهای الکترونیکی بخصوص وب است. در کنار این مزیّت، مسئله بازیابی اثربخش اطلاعات رخ مینماید. اثربخشی بازیابی زمانی حاصل میشود که نیاز کاربر هرچه بیشتر و بهتر برآورده گردد؛ بدین معنا که شمار بیشتری از مدارک با درجه ربطِ هرچه بیشتر با موضوعِ مورد نظر وی بازیابی گردد. اهمیت این مسئله زمانی که اطلاعات به زبانی چون فارسی مورد نیاز باشد، دوچندان میگردد. زیرا شیوة نگارش زبان فارسی، به سبب ویژگیهای خاصّ آن و در عین حال نداشتن سبکی استاندارد، در رویارویی با محیطهای الکترونیکی، با دشواریهایی روبهروست که تأثیری بسزا بر اثربخشی بازیابی اطلاعات میگذارد.
به طور کلی، مطالعات در این حوزه بر سه محور کلی متمرکز است: ١) آزمایش تأثیر تکنیکها یا ابزارهای خاصّ بر اثربخشی بازیابی ٢) طراحی و آزمایش تکنیکها، الگوریتمها یا ابزارهای خاص ٣) بررسی دشواریهای نگارش فارسی و تأثیر آنها بر اثربخشی بازیابی اطلاعات. آخرین محور، در دو دستة تحقیقاتی و نظری مد نظر قرار گرفته است. در این میان، مطالعات نظری از اهمیتی بنیادین برخوردارند، زیرا شناسایی دشواریهای نگارش فارسی در مطالعات بازیابی اطلاعات عمدتاً بر پایة آرا و نظریات صاحب نظران در این گونه تحقیقات بنیان میشود. از این رو، موفقیت طراحی الگوریتمها و سامانههای بازیابی اطلاعات فارسی در لحاظ کردن همة قواعد زبانشناختی و نگارشی، به جامعیت و قوّت اعتبار این آثار بستگی خواهد داشت. تحلیل و مرور جامع متونی که در این باره به رشته تحریر درآمده است، ضمن ارائه اطلاعات درباره دیدگاه صاحبنظران این حوزه، دانشی را که تاکنون در این باره گرد آمده است به تصویر میکشد و نقاط تاریک و روشن آن را آشکار میکند و طراحان سامانهها و پایگاههای اطلاعات فارسی را با مقتضیات جستجو و بازیابی به این زبان آشناتر میسازد. با توجه به اهمیت این امر، بررسی حاضر که به روش متنپژوهی انجام میگیرد، میکوشد تا با مرور آثار و پژوهشهای پیشین، دشواریهای نگارش فارسی را شناسایی کند و تأثیر این دشواریها را بر بازیابی مؤثر اطلاعات بسنجد. در پایان نیز پیشنهادهای ارائه شده برای رفع این دشواریها را مورد بحث و بررسی قرار میدهد.
هدفهای پژوهش
پژوهش حاضر میکوشد تا هدفهای زیر را محقق سازد:
1- شناسایی دشواریهای زبان فارسی در ذخیره و بازیابی اطلاعات در محیطهای دیجیتالی
2- بررسی میزان اهمیت دشواریهای زبان فارسی به لحاظ فراوانی آنها در ادبیات مربوط
3- شناسایی راهکارهای ارائه شده به منظور کاهش یا رفع این دشواریها
4- تحلیل میزان اثربخشی راهکارهای ارائه شده در پژوهشهای مورد بررسی.
روش پژوهش
روش پژوهش حاضر، متنپژوهی با رویکرد تحلیل محتواست. برای یافتن آثار پیرامون دشواریهای ذخیره و بازیابی اطلاعات به زبان فارسی در محیطهای دیجیتالی، در تاریخ 20 اسفند 1389 جستجویی در منابع کتابخانهای، پایگاههای اطلاعاتی و نیز منابع وبی صورت گرفت. منابع شناسایی شده، پس از بررسی اولیه به جهت اطمینان از ربط با مسئلة در دست مطالعه، به منظور تحلیل محتوا مورد مطالعه قرار گرفت. از آنجا که ممکن بود هر دشواری یا راهکار تنها مورد اشاره قرار گرفته یا در جمله یا پاراگراف شرح داده شده باشد، پاراگراف، جمله و کلمه به عنوان واحد تحلیل انتخاب شد.
روش گردآوری اطلاعات
به منظور شناسایی پژوهشهای انجام شده در زمینة دشواریهای ذخیره و بازیابی اطلاعات به زبان فارسی، راهبردهای جستجویی متشکل از سه گروه اصطلاحات ناظر بر دشواریها، ذخیره و بازیابی اطلاعات و زبان فارسی تدوین شد: ١) «مشکلات»، «دشواری»، «سختیها»، «مسائل»، و «چالشها»؛ ٢) «ذخیره اطلاعات»، «ذخیرهسازی اطلاعات»، «بازیابی اطلاعات»، «سازماندهی اطلاعات» و ٣) «فارسی». به منظور شناسایی جامع آثار، از فهرست منابع در پایان آثار نیز استفاده شد. در نهایت، آثار بسیاری به زبان فارسی و انگلیسی شناسایی و متن کامل آنها تحلیل شد. بررسی این منابع نشان داد تنها 16 اثر به طور بینادین مشکلات نگارش فارسی را به طور ویژه از منظر ذخیره و بازیابی در محیط دیجیتالی مد نظر قرار دادهاند. لازم به ذکر است، شماری از پژوهشها بر معایب نگارش فارسی به طور مطلق متمرکز شدهاند و به هدف بررسی دشواریها از منظر بازیابی اطلاعات به رشته تحریر درنیامدهاند (برای نمونه، نگاه کنید به ٦ -1٩). در پژوهش حاضر، این گونه آثار مد نظر قرار نگرفت.
پیشینة پژوهش
پژوهشها پیرامون زبان فارسی
چنان که بیان شد، پژوهشهای بسیاری در زمینة بازیابی اطلاعات در زبان فارسی انجام شده است که شمار اندکی از آنها به طور بنیادین و جامع به بررسی چالشهای نگارش فارسی پرداختهاند. با توجه به آنکه این دسته آثار در بخش یافتهها معرفی خواهند شد، از مرور آنها در این بخش خودداری میشود.
«سمایی» (1379) به بررسی حالات مفرد و جمع در زبان فارسی پرداخت. «راثی ساربانقلی» (1384) با بررسی مشکلات جستجو و بازیابی اطلاعات فارسی در اینترنت در یکی از واحدهای دانشگاه آزاد نشان داد کاربران به شکلهای مختلف نوشتاری توجهی ندارند و از عملگر«OR» استفاده نمیکنند. «عبداللهی» (1386) با بررسی چالشهای ریختشناسی زبان فارسی در بازیابی اطلاعات از جستجوگرهای گوگل، یاهو، و آلتاویستا نشان داد هیچ یک از جستجوگرهای مذکور، چالشهای زبانشناختی فارسی را به منظور بهبود کاوش مورد توجه قرار ندادهاند. در نهایت، الگویی برای ایجاد اصلاحات در شیوة نگارش فارسی ارائه شد. «گلتاجی و بذرگر» (1389) با بررسی مشکلات ریختشناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقهای اطلاعرسانی علوم و فناوری، پژوهشگاه اطلاعات و مدارک علمیایران و جهاد دانشگاهی، نشان دادند چالشهای ریختی شناخته شدة زبان فارسی، تأثیر بسیاری بر بازیابی اطلاعات در هر یک از سه پایگاه مورد نظر دارد. همچنین، هیچ یک از این سه پایگاه به شیوهای جامع و قابل ملاحظه به حل مسائل ریختشناسی واژگان فارسی نپرداختهاند.
پژوهشهای بسیاری به طراحی و/ یا آزمایش تکنیکها و راهکارهایی برای خودکارسازی و بهبود اثربخشی بازیابی فارسی پرداختهاند. برای نمونه، «یوسفان و همکاران» از طریق تحلیل ریختشناختی، به ریشهیابی برخی واژههای عربی در زبان فارسی پرداختهاند (یوسفان و همکاران، 2010). برخی دیگر ریشهیاب فارسی طراحی کردهاند (تقوا و همکاران، 2005؛ مهراد و برنجیان، 2011؛ تشکری و همکاران، 2002؛ موسوی میانگاه، 2006؛ برنجکوب و همکاران، 2009). «موسوی میانگاه» (2007) کوشیده است راهکاری برای مشکل تکثّر معانی واژگان فارسی به هنگام ترجمة ماشینی ارائه دهد. در پژوهشهای دیگر، ساخت هستیشناسی فارسی به روشهای مختلف از جمله بازمهندسی اصطلاحنامه و بر پایة ویکیپدیا به منظور افزایش دقت بازیابی بررسی و/یا آزمایش شده است (شهیدی و همکاران، 1384؛ خسروی و وظیفهدوست، 1386؛ فرهودی و همکاران، 2009). «کیوان و همکاران» (2006) برنامة پرشیانت را برای کاربردهای مختلف در پردازش زبان طبیعی فارسی طراحی کردند. «ایرانپور مبارکه و مینایی بیدگلی» (2009) تکنیکی جدید را برای ریشهیابی افعال در متون فارسی ارائه کردهاند که میتواند در پیشپردازش زبانشناختی و متنکاوی از جمله به منظور برچسبزنی ادات سخن و تشخیص مرز جملات به کار رود. در پژوهشی دیگر، روشی برای نمایهسازی چندنویسهای متون فارسی پیشنهاد شده است (دانش و همکاران، 2011). کارآیی فنون پردازش زبان طبیعی در بازیابی چندزبانه در تحقیقی دیگر مورد آزمایش قرار گرفت (علیزاده و فتاحی، 2010). همچنین، نشان داده شد که برچسبگذاری ادات سخن تنها زمانی تأثیری قابل توجه بر اثربخشی بازیابی دارد که با ریشهیابی همراه باشد (کریمپور و همکاران، 2009). راهکارهایی اکتشافی برای بهبود صحت نتایج برچسبزنی ادات سخن نیز آزمایش شده و تأثیر مثبت آنها بویژه برای واژههای ناشناخته تأیید شده است (محترمی و همکاران، 2008). آزمایش تکنیکهای نمایهسازی چندنویسهای و گسترش پرسش نشان داده است تکنیک نمایهسازی چهارنویسهای مبتنی بر مدل فضای برداری، نتیجهای قابل قبول و تکنیک گسترش پرسش «تحلیل محتوای محلی» بهترین نتیجه را برای بازیابی فارسی به همراه خواهد داشت (آل احمد و همکاران، 2007). در پژوهشی دیگر، راهکارهایی برای ریشهیابی زبان فارسی و همچنین بومیسازی یا سفارشی کردن بخشهایی از موتور جستجو که متأثر از ساختار زبان است، ارائه شده است (طرح جامع پیکره زبان...، 1388). «گزنی» (1385) سامانهای را برای استخراج خودکار عبارتهای کلیدی از متون فارسی به منظور بهکارگیری در طراحی سامانههای بازیابی طراحی کرده است. در پژوهشی دیگر، تکنیکی برای انتخاب مفهوم درست اصطلاحات پرسش در بازیابی انگلیسی– فارسی پیشنهاد شده است که در آن احتمالات ترجمه بر پایة گرافهای مفاهیم اصطلاحات پرسش محاسبه میشود (تیموریان و همکاران، 2009). ساخت پیکرة متن فارسی برای به کارگیری در پژوهشهای بازیابی اطلاعات، در کانون توجه دستهای از پژوهشها بوده است. برای نمونه، ساخت پیکرة موضوعی فارسی، مجموعة افعال فارسی و پیکرة متن استاندارد «همشهری» را میتوان نام برد (خلیفه سلطان و همکاران، 2010الف؛ 2010ب؛ آل احمد و همکاران، 2009).
به طور کلی، مرور پژوهشها نشان میدهد پیشرفتها و دستاوردهای بزرگی در حوزة بازیابی اطلاعات فارسی حاصل شده است. با این حال، شمار پژوهشهایی که به طور ویژه و بنیادین به مشکلات نگارش فارسی در الگوریتمهای بازیابی، خواه در پایگاههای اطلاعاتی تخصصی، خواه در موتورهای کاوش عمومیوب بپردازند، اندک است. از این رو، نیاز شدیدی برای انجام پژوهشهای بیشتر، به منظور شناسایی جامعتر و عمیقتر چالشهای نگارش فارسی، میزان تأثیر آنها بر اثربخشی بازیابی اطلاعات، ارزیابی راهکارهای پیشنهادی و ارائة راهکارهای جدید، وجود دارد.
پژوهشها پیرامون دیگر زبانها
تحقیقات بسیاری دربارة سبک نگارش و تأثیر آن بر بازیابی اطلاعات در زبانهای دیگر انجام شده است. برای نمونه، نشان داده شده است که برچسبزنی ادات سخن میتواند از ابهامهای لغوی کلمات همنگاشت در زبان سوئدی بکاهد (هدلاند و همکاران، 200). در پژوهشی دیگر، تأثیر مثبت تحلیلهای ریختشناختی مانند ریشهسازی و جداسازی کلمات مرکب، بر نتایج بازیابی در زبانهای هلندی، آلمانی و ایتالیایی تأیید شده است (مونتس و دی ریژکه، 2002). همچنین، نتایج بازیابی در موتورهای کاوش عمومیکه مسائل زبانشناختی و ریختشناختی لهجهها یا زبانهای غیرانگلیسی مانند روسی، فرانسوی، مجاری، عربی و عبری را لحاظ نمیکنند، مناسب نیست (بارایلان و گاتمن، 2002؛ مقداد، 2005؛ مقداد و لارج، 2001؛ مقداد و سویی، 2005). «لازارینیس و همکاران» (2009) با مروری بر آثار پیرامون دشواریهای بازیابی به زبانهای غیرانگلیسی، پرسشهای فرارو و راهکارهای ممکن برای رفع آنها و همچنین زمینههای پژوهشهای آینده را شرح دادهاند.
جدول1. دشواریهای ذخیره و بازیابی رایانهای به زبان فارسی و توزیع آنها در متون
ردیف
|
چالش
|
فراوانی متون
|
ردیف
|
چالش
|
فراوانی متون
|
1
|
تشدید (معیّن/ معین)
|
5
|
23
|
گوناگونی معادلهای علمی
|
2
|
2
|
همزة پایانی (املاء/ املا)
|
3
|
24
|
(عدم)استفاده از «ء» بعد از« های» بیان حرکت در حالت مضاف (خانۀ مردم / خانه مردم( |
4
|
3
|
تنوع شیوة دگرنویسی (امریکا / آمریکا)
|
7
|
25
|
تنوع نگارش یای وحدت نکره بعد از «های» مختفی (خانهایی / خانهیی/ خانۀ)
|
4
|
4
|
های غیر ملفوظ (مورچگان/مورچهگان)
|
2
|
26
|
عدم تمایز حروف بزرگ و کوچک در ابتدای جمله
|
1
|
5
|
همزة متصل به «یای» وحدت (عطایی/ عطائی)
|
3
|
27
|
شباهت اعداد (صفر و نقطه / 1 و 2 و 3)
|
3
|
6
|
استفاده از «آ» و «ا» به جای هم (درآمد/ درامد)
|
5
|
28
|
تعدد حروف دندانهدار (پیشینیان) |
4
|
7
|
تنوع حروف (اطاق/ اتاق)
|
6
|
29
|
تعدد نقطههای حروف (ث ش پ) |
5
|
8
|
الف کوتاه (تقوی/ تقوا)
|
7
|
30
|
شباهت شکل حروف (ک گ / ت ث / ر ز)
|
5
|
9
|
تای نقطهدار (مشکوه/ مشکات / مشکوة) |
3
|
31
|
ناتوانی در نشان دادن تلفظهای باستانی و میانه، گویشها و لهجهها |
2
|
10
|
«ی» صامت میانجی (پرتوی آفتاب/ پرتو آفتاب) |
2
|
32
|
یکسانی نشانة واژة بستهای ربطی فعل «بودن» و «م» مالکیت (پدرم =پدر من / پدر هستم) |
1
|
11
|
خط تیره (اقتصادی اجتماعی/ اقتصادی- اجتماعی)
|
1
|
33
|
یکسانی علامت نکره و اسم ساز و صفت ساز (اجتماعی: اجتماع+ی نکره؛ اجتماعی بودن) |
1
|
12
|
نقطه در سرنامها (اچ. آی. وی/ اچآیوی) |
1
|
34
|
آرایش آزاد سازههای جمله (دیروز من کتاب خریدم/ من دیروز کتاب خریدم) |
1
|
13
|
پیوستهنویسی (سرهم یا با نیمفاصله) یا جدا نویسی (کتاب شناسی / کتابشناسی/ کتابشناسی) |
13
|
35
|
فقدان پایانههای تصریفی نمایانگر حالت کلمه در جمله (این کار- خانه را خراب کرد. این کارخانه- را خراب کرد. این- کارخانه را خراب کرد.) |
1
|
14
|
تنوع نشانههای جمع (عاقلان/ عقلا / عاقلها) |
8
|
36
|
اختیاری بودن فاعل ([علی] به مدرسه رفت)
|
1
|
15
|
تنوین (واقعا/واقعاً/ واقعن)
|
4
|
37
|
اشتقاق صفر و تغییر مقولة واژگانی کلمهها (انتخابها در شرایطی بد بود/ بد و خوب را تشخیص داد.) |
1
|
16
|
فاصلة بین حروف یک واژه به اشتباه یا به عمد (دوا زده/ دوازده؛ کدگذاری/کد گذاری) |
7
|
38
|
واژههای به وام گرفته یا ترجمه شده (کامپیوتر/ رایانه) |
1
|
17
|
املاهای مختلف همزه (مسئول/ مسؤول)
|
6
|
39
|
مترادفها (درست/ صحیح) |
1
|
18
|
تفاوت در آوا / اعراب (مَرد/ مُرد، دیر (زمان) / دیر [صومعه])
|
8
|
40
|
اسامیعامیانه، تجاری، مشهور یا علمی |
1
|
19
|
تعدد شکلهای یک حرف (عـ ـعـ ـع ع)
|
8
|
41
|
کسرة اضافه (پدر او را تحسین کرد/ پدرِ او را تحسین کرد)
|
3
|
20
|
یکسانی تلفظ برخی حروف (س ص ث)
|
6
|
42
|
آوانویسی به جای ترجمه (سورس/ منبع)
|
1
|
21
|
نوشتن «ک» و «گ» با سرکش و بی آن (ک/ ک)
|
3
|
43
|
همنامها و همآواها شیر (ماده نوشیدنی، حیوان، ابزار) |
1
|
22
|
نگارش از راست به چپ
|
7
|
یافتههای پژوهش
چالشهای نگارش فارسی در محیط دیجیتال
جدول 1 مشکلات نگارش زبان فارسی در بازیابی اطلاعات و همچنین شمار پژوهشهایی را که به هر مشکل پرداختهاند، برای درک بهتر اهمیت هریک از دیدگاه نویسندگان، گرد آورده است. آثار مورد بررسی روی هم رفته 43 چالش نگارشی را نام بردهاند. چالشهای دیگری نیز ذکر شده بود که به نظر نمیرسد تأثیر مستقیم بر بازیابی اطلاعات داشته باشد. مانند وجود «و» ناخواندنی در کلماتی چون «خواهش»، «خواندن» یا تلفظهای مختلف یک حرف (مثل خوش/ او / والی). این دو ویژگی تنها در برنامههای تشخیص و پردازش صوت یا در صورت ضعف یا خطای املایی تایپیست یا کاربر میتواند اثرگذار باشد. چنانکه از فراوانی متون مورد بررسی برمیآید، آنها بیش از همه به مسئله «پیوستهنویسی، یا جدانویسی» پرداختهاند. پس از آن، «تنوع نشانههای جمع» (، «تفاوت در آوا / اعرابگذاری»، «تنوع دگرنوشتهها»، «الف کوتاه»، «فاصلة بین حروف واژه»، و «نگارش از راست به چپ» فراوانی بالایی دارند [برای نمونه نگاه کنید به حری، 1372؛ راثی ساربانقلی، 1384الف؛ 1384ب؛ عبداللهی نورعلی، 1386؛ گل تاجی و بذرگر، 1389، محقق زاده و زارعیان، 1383؛ اسلامی، 1381؛ مرتضایی، 1381؛ جرات و سمایی، 1383؛ معصومی همدانی، 1381؛ صدیق بهزادی، 1377؛ حسینی بهشتی، 1382؛ مرعشی، 1383).
نوع و خاستگاه چالشها
چالشهای برشمرده در متون را میتوان به سه سطح معنایی، نحوی، و ریختشناختی تقسیم کرد. برخی مشکلات، بیش از آنکه به ریختشناسی فارسی بازگردند، به دستور زبان فارسی مربوط میشوند. برای نمونه، اختیاری بودن فاعل در جملههای فارسی یا آرایش آزاد سازههای جمله. چالشهای معنایی را میتوان به تنوع واژگان و غنای زبان و همچنین وابستگی به زبانهای بیگانه نسبت داد. تنوع در کاربرد واژه میتواند بر اثربخشی بازیابی اطلاعات تأثیر گذارد. برای نمونه، واژههای وام گرفته، مترادفها، آوانویسی واژههای خارجی به جای ترجمۀ آنها و چنددستی در نگارش یا تنوع واژگان به کار گرفته برای تبیین اسامیمشهور یا علمی، میتواند جامعیت جستجو را بویژه در محیطهای وبی که امکان استفاده از اصطلاحنامه یا دیگر ابزارهای مهار واژگان وجود ندارد، تحت تأثیر قرار دهد. آشکار است که این مشکلات، مختص زبان فارسی نیست، با این حال، به دلیل وابستگی زیاد زبان فارسی به زبانهای خارجی و نبود استانداردی برای آوانویسی واژگان خارجی، به نظر میرسد این مسئله بازیابی فارسی را به شدت با دشواری روبرو سازد. به منظور کاهش تأثیر این عوامل، کاربر باید به هنگام جستجو، واژگان را با همة تنوع آنها مد نظر داشته باشد تا بتواند در پیوندی انفصالی، آنها را در یک راهبرد جستجو کند و بدین ترتیب، تا جایی که ممکن است به جامعیت بیشتر نزدیک شود.
دستهای دیگر از چالشها به تنوع ریختشناختی نگارش فارسی باز میگردد که به نگارش، عدم نگارش یا تنوع در نگارش حروف، علایم یا اعراب منجر میشود (مانند همزة پایانی یا میانی، «های» غیرملفوظ، «ی» ک پیش از «یای» وحدت، الف (کوتاه یا بلند)، تای نقطهدار، «ی» صامت میانجی، خط تیره، نقطه، فاصله یا نیم فاصله). به نظر میرسد حدس زدن و اعمال تمامیاین جزئیات برای کاربر در راهبرد جستجو دشوار باشد. با این حال، با توجه به قاعدهمندی بسیاری از این ریختها، میتوان در الگوریتم جستجو، واژهها را به نحوی بهنجار کرد که واژه صرف نظر از ریختهای مختلف آن، بازیابی شود. تنوع فونتها بویژه تفاوت بین فونتهای قدیمیو جدید (با نگارش فارسی و عربی) به دستهای دیگر از مشکلات دامن میزند که به ظاهر به ریختشناسی کلمه باز میگردد، اما در واقع به تفاوت نویسههای فارسی و عربی مربوط میشود (مثل عربی (بیسرکش) و ک فارسی (با سرکش) یا ی فارسی و عربی).
بدین ترتیب، مشاهده میشود که برخی چالشها، مانند تنوع مترادفها و املاهای واژگان، ذاتی هر زبانی است، اما برخی مانند حذف یا درج حرف همزه یا «ی»به سرشت زبان فارسی یا استاندارد نبودن نگارش آن باز میگردد. همچنین، ریشة بروز این چالشها را میتوان در مراحل مختلف چرخة حیات یک مدرک علمیاز مرحلة تایپ متن به هنگام تولید مدرک، تا آخرین مرحله که دروندهی عبارت جستجوست، یافت. نبود استاندارد نگارش فارسی و در نتیجه سلیقهای عمل کردن نویسندگان یا تایپیستها، نبود صفحهکلید و کدهای استاندارد، عادت به آساننویسی و رعایت نکردن پیچیدگیهای نگارش به هنگام تایپ میتواند به چنددستی در نگارش واژگان نویسندگان، تایپیستها، نمایهسازان و کاربران منجر شود (عبداللهی نورعلی، 1386؛ محققزاده و زارعیان، 1383).
نوع تأثیر و فعالیت متأثر از چالشها
آشکار است که بدون بهنجارسازی چالشهای نگارشی و دستوری در الگوریتمهای سامانههای جستجو و بازیابی فارسی، اثربخشی بازیابی مطلوب نخواهد بود. در بسیاری از موارد، انتخاب یکی از صورتهای نگارشی و نادیده گرفتن دیگری، سبب کاهش بازیافت میشود. افزون بر این، گاهی چنددستی در شیوة نگارش، به ریزش کاذب نیز منجر میشود. برای مثال، جستجو به دنبال واژة «معین» بدون تشدید، نه تنها به از دست رفتن مدارکی حاوی این واژه با نگارش تشدیددار، بلکه به بازیابی مدارک حاوی واژه «معین» (به معنی «کمکی») منجر میشود. به عنوان نمونهای دیگر، بیدقتی در فاصلهگذاری بین کلمات مرکب حاوی حروف ناچسبان (مثل کدگذاری)، میتواند به انفصال یا اتصال کاذب، تغییر معنی (حری،1372) و در نهایت ریزش کاذب بینجامد. از این گذشته، اصل چسبیدهنویسی حروف در فارسی، که بر خلاف لاتین جدا جدا نوشته نمیشوند، تشخیص مرز بین حروف را دشوار میسازد. این خود میتواند دقت تایپیست یا جستجوگر به هنگام ورود داده را کاهش دهد یا به بروز خطاهای مکرر در نرمافزارهای تشخیص نوری نویسه، منجر شود.
به همین ترتیب، شیوة اعرابگذاری میتواند به بازیابی واژههایی با املای مشابه اما آوای متفاوت و در نتیجه ریزش کاذب منجر شود. این امر میتواند امکان بهنجارسازی اعراب و علایم در الگوریتمهای جستجو را نیز محدود سازد. علاوه بر این، ناتوانی خط فارسی در نشان دادن تلفظ واژههای ایران باستان و میانه و نیز گویشها و لهجهها، حتی با نشانهها، کاهش بازیافت اطلاعات را در پیخواهد داشت. همچنین، ممکن نبودن تمایز بین اسم خاص و عام در زبان فارسی، برای مثال نبود حروف دوگانة بزرگ و کوچک، میتواند بهریزش کاذب بینجامد. برای نمونه، در جستجوی «حافظ» (شاعر قرن هشتم هجری) که یک اسم خاص است، همه مدارکی که واژة «حافظ» به معنای عام در آنها وجود دارد نیز بازیابی میشوند. آشکار است که با شیوة کنونی نگارش متن، نمیتوان الگوریتمهای جستجو را به نحوی طراحی کرد که با تمایز خودکار بین اسامیخاص و عام، دقت جستجو را افزایش دهند.
هر یک از این چالشها، بسته به فراوانی رویداد آنها - در متن یا در عبارت جستجو - نتایج بازیابی را با درجات متفاوتی متأثر میسازند. برای نمونه، همانگونه که «مانینگ و همکاران» مینویسند، بسیاری از کاربران پرسشها را بدون علایم آوایی مینویسند. این کار برای بالا بردن سرعت، از روی تنبلی یا محدودیت نرمافزاری، یا به دلیل عادتهایی بازمانده از روزگار گذشته که استفاده از متن غیر اسکی در بسیاری از نظامهای رایانهای دشوار بود، صورت میگیرد (مانینگ، راگاوان و شوتس، 2008). از این رو، احتمال میرود علایمیمانند اعرابگذاری، همزة پایانی و تشدید، در هر دو دستة کاربران و تایپیستها، به یک اندازه نادیده گرفته شود. در نتیجه، این موارد در مقایسه با تنوع در املا، همزة میانی، پیوسته یا جدانویسی واژههای مرکب، گوناگونی برابرنهادهای علمی، و دگرنویسی مشکل کمتری را به لحاظ جامعیت بازیابی پیش میآورند، با این حال، در مواردی ریزش کاذب را افزایش میدهند.
همچنین، سطح تأثیر این چالشها به لحاظ عملیات و فعالیتهای مختلف، متفاوت است. برای نمونه، رعایت نکردن اعرابگذاری نه تنها در مرحلة درونداد اطلاعات (به هنگام تولید مدرک یا جستجو) رخ مینماید و نتایج جستجو را متأثر میسازد، بلکه به هنگام پردازش خودکار نوشتار، بویژه در زمینة بازسازی گفتار و ترجمة ماشینی مشکلاتی را به همراه دارد. معلوم نیست برای یک صورت نوشتاری واحد، کدام زنجیرة واجی را باید در نظر گرفت. همچنین، تشخیص تلفظ صحیح واژه برای برنامههای گویا دشوار خواهد بود. یا به عنوان نمونهای دیگر، یکسانی تلفظ برخی حروف مانند «س»، «ث»، و «ص» باعث کُندی و پیچیدگی کار پردازش نوشتار میگردد، زیرا برنامة پردازشگر نوشتار ناچار است دائم به واژگان مراجعه و برای هر کدام از واحدهای نوشتار، یک صورت واجی از واژگان اخذ کند (اسلامی، 1381). یا به عنوان نمونهای دیگر، آشکار است که وجود دندانهها و نقطههای متعدد، چسبیدگی و شباهت شکل برخی حروف، ورود دادهها را به شکل دستی و خودکار دچار مشکل میکند؛ بدین ترتیب که دقت تایپیست یا کاربر در ورود صحیح املای واژه را کاهش میدهد و تشخیص نوری نویسهها را هم دشوار میسازد. این امر در مورد اعداد نیز صادق است (مانند شباهت صفر و نقطه و همچنین ١، 2 و 3) (راثی ساربانقلی، 1384الف).
افزون بر این، پردازش خودکار متن میتواند در اثر وجود چندین چیدمان نویسهای در متن با دشواریهایی روبه رو شود. برای نمونه، بر خلاف متن فارسی که از راست به چپ چیده میشود، متون ریاضی، شیمی، نتهای موسیقی، و دستورهای شطرنج از چپ به راست نوشته میشوند. از این رو، گاه در یک متن چندین بار جهت چیدمان نویسهها تغییر میکند. نرمافزار پردازش خودکار ناچار است بارها جهت خواندن را از راست به چپ و بالعکس تغییر دهد. آشکار است که در این میان امکان بروز خطا بسیار افزایش مییابد. علاوه بر این، یکسانی علامت نکره و اسم ساز و صفتساز، یکسانی نشانة واژهبستهای ربطی فعل«بودن» و «م» مالکیت، اختیاری بودن فاعل، نبود نشانة نوشتاری برای کسرة اضافه و آرایش آزاد سازههای جمله باعث میشود تشخیص مرز و نقش گروههای نحوی برای پردازش خودکار متن یا ترجمة ماشینی با چالش روبه رو شود (اسلامی، 1381). آشکار است، وقتی چند مورد از این چالشها در یک اصطلاح یا عبارت واحد روی دهد، اثربخشی بازیابی کمتر شده و ضرورت تدوین راهبرد پیچیدهای برای جستجو بیشتر و در عین حال انجام آن دشوارتر میشود. برای نمونه، در جستجو به دنبال واژة «دایرةالمعارف»، مستلزم پیوند انفصالی چندین املا در یک راهبرد واحد است تا جامعیت جستجو تضمین گردد: ١- سه شکل مختلف حرف «ی» عربی (با دو نقطه زیرین)، فارسی و ئ؛ ٢- دو شکل مختلف «ه» (تای گرد نقطهدار و بدون نقطه) ٣- گسسته نویسی و پیوستهنویسی «ه» (بیفاصله، با فاصله یا نیم فاصله).
جامعیت چالشهای معرفی شده در آثار
با نگاهی به آنچه تاکنون بیان شد، روشن میشود شمار بسیاری از چالشها در آثار مورد بررسی معرفی شدهاند. با این حال، نمیتوان نسبت به جامعیت آنها مطمئن بود، زیرا برخی چالشها در این متون نادیده گرفته شده یا بهطور گذرا به آن پرداخته شده است. احتمال میرود با پژوهشهای زبانشناختی بیشتر بتوان به نمونههای دیگری نیز دست یافت. برای مثال، مسائلی چون«یکسانی علامت نکره و اسم ساز و صفت ساز» و یا «یکسانی نشانة واژه بستهای ربطی فعل «بودن» و «م» مالکیت»، با وجود تأثیر بسزایی که میتوانند در میزان موفقیت و ثمربخشی جستجو داشته باشند، کمتر مورد توجه بودهاند. همچنین، به برخی موارد در متون هیچگونه اشارهای نشده است:
1. استفاده از مصوتهای کوتاه به جای مصوت بلند «و» یا «ا» (مانند کوه/که؛ گوهر/گهر؛ کاه/که)
2. کاربرد دو مصوت کوتاه و بلند « ُ» و «و» به جای هم (مانند خرسند و خورسند؛ خرجین/ خورجین)
3. یکسانی واژهبستهای ربطی فعل «بودن»و «ی» وحدت یا نکره (مانند «خانهای»، که در آن «ای» میتواند نقش فعلی (در خانه هستی) یا نشانة نکره (یک خانه) داشته باشد)
4. تأثیر بهکارگیری فونتهای قدیمیو جدید که ذاتی زبان فارسی نبوده، بلکه از پویایی و تنوع فناوری سرچشمه میگیرد، چندان مد نظر قرار نگرفته است. این چالش در بخش بعد به اختصار شرح داده خواهد شد.
نقش نوع فونت
نقش کدگذاری و نوع فونت، تنها در (طرح جامع) به طور گذرا مورد اشاره قرار گرفته است. این امر بویژه از آن رو اهمیت دارد که کاربر به دلیل شباهت نمایش این فونتها، متوجه تفاوت نویسهای آنها با هم نیست. از این رو، احتمال این که به هنگام جستجو در پی لحاظ کردن هر دو نوع فونت باشد، بسیار اندک و در نتیجه احتمال از دست دادن منابع بسیار زیاد است. مثال بارزی در این باره، حرف «ی» است که به دو شیوه کدگذاری میشود. بسته به این که در صفحه کلید، کدام نوع فونت به عنوان پیشگزیده به کار رفته باشد، دستهای از منابع با فونتِ دیگر بازیابی نخواهند شد. دو چالش « ک در شکلهای مختلف»، و نیز «تای نقطهدار» که در متون به آنها اشاره شده است، میتواند ناشی از تنوع در فونتهای مورد استفاده در رایانههای مختلف باشد. تأثیر تفاوت فونت بر جامعیت نتایج را با جستجو در اینترنت میتوان آشکارا دید. برای مثال، جستجو با حرف کاف (بدون سرکش) در گوگل به دنبال واژه «کودکان» به بازیابی 54 میلیون و 900 هزار پیشینه منجر شد. اما حاصل جستجو به دنبال همین واژه با کاف سرکشدار 32 میلیون و 700 هزار پیشینه بود که تفاوت چشمگیری را نشان میدهد. همچنین، جستجو به دنبال کلیدواژه «روانشناسی» با یای عربی (با دو نقطه در زیر) به بازیابی 325 میلیون و با یای فارسی (بدون نقطه) به 618 هزار پیشینه انجامید (جستجو به تاریخ 25 بهمن ماه 1390). اگر کاربر این دو نوع حرف را با پیوند انفصالی جستجو نکند، بخش عمدهای از نتایج را از دست خواهد داد. البته، تدوین راهبرد جامع جستجو در چنین شرایطی بسیار دشوار خواهد بود، زیرا ممکن است فرد راهکار دسترسی به هر دو نوع فونت را نداند. نکتة دیگر در مورد تفاوت صفحه کلیدها یا برنامهها به لحاظ شیوة تعریف یک نویسه است. برای نمونه، شیوة اعمال نیمفاصله که برای پیشگیری از چسبیدن دو جزء یک واژه مرکب به هم اعمال میشود، در محیطهای مختلف با هم متفاوت است. در واژهپرداز وُرد ، نیم فاصله را میتوان به دو شیوة Shift+ Space و نیز Ctrl + (_) درج کرد. حال آنکه در رابط کاربر گوگل تنها شیوة نخست اعمال میشود و شیوة دوم با «فاصله» یکسان تلقی میشود. اگر کاربر از این تفاوتها آگاه نباشد، به سادگی میتواند بخشی از منابع را از دست بدهد.
راهکارهای ارائه شده در متون
هریک از پژوهشهای مورد بررسی برای رفع یا تقلیل این مشکلات نگارش فارسی در محیط دیجیتالی، راهکارهایی را ارائه نمودهاند (جدول2). برخی، راهکارهایی بنیانی برای حلّ ریشهای این مشکلات هستند و برخی ناظر بر یک یا چند مشکل نگارشی محدود. هر راهکار را میتوان به یک یا چند مرحلة خاص از چرخة حیات مدرک یعنی پیش از بازیابی، و به هنگام بازیابی نسبت داد. دستة اول، راهکارهایی است برای نویسندگان و تایپیستها به هنگام تولید مدرک یا ذخیرهسازی آن. همچنین، این راهکار میتواند به هنگام نمایهسازی به منظور تولید بازنمونهای مدرک نیز به کار گرفته شود. بنابراین، مخاطب این راهکارها، گاه کاربران، گاه نمایه سازان، و گاه هر دو قشر میباشند. راهکارهای دستة دوم، متوجه تمام افرادی است که در محیطهای دیجیتالی به جستجوی اطلاعات میپردازند.
این راهکارها ناظر به دو روش کلیِ ایجاد ابزارها و قواعد برای استانداردسازی نگارش متن (مدرک، اصطلاحات نمایه و اصطلاحات پرسش) است. در راهکار «هماهنگی رسم الخط» تأکید بر آن است که مرجعی قابل اطمینان، استانداردی را برای شیوة نگارش تصویب و عرضه کند و اجرای آن نیز الزام آور باشد تا بتوان مرز و شیوة نگارش کلمات را تابع قاعدة واحدی کرد. برای تحقق چنین امری، پیشنهاد شده است فرهنگستان زبان کمیتهای را مأمور تدوین راهکاری برای شیوه خط فارسی کند. راهکار دیگر، استفاده از سیاهة آماده است. در این شیوه، به کمک سیاههای از پیش تعیین شده، احتمالات گوناگون شیوة نگارش از طریق ارجاعات با یکدیگر مرتبط میشود. پیشنهادی دیگر، تدوین فرهنگ جامع املایی است که در آن فهرستی جامع از واژههای دارای گوناگونی املایی گردآوری و برای ایجاد یکدستی و هماهنگی، به همة سازمانها ابلاغ شود و در کتابهای آموزشی و رسمیاعمال گردد. راهکار دیگر، تدوین اصطلاحنامههای تخصصی در زبان فارسی است که حاوی اصطلاحات معیار در هر رشته و شیوه نوشتاری مورد قبول باشد. این راهکار نیازمند اقدامهایی مؤثر، هماهنگ و حساب شده از طرف سازمانهای ذیربط است (حری، 1372؛ عبداللهی نورعلی، 1386؛ مرتضایی، 1381).
دستهای دیگر از راهکارها قواعدی را برای یکدستی نگارش فارسی پیشنهاد میکنند. برای نمونه، در روش هماهنگ کردن حروف، همة حروف به شکل مستقل، بزرگ و در کنار هم نوشته میشوند (مثلاً « م ا س ت» به جای « ماست»). پیشنهادی دیگر، ناظر بر نگارش تکواژها به طور مستقل است. پیشنهاد تکمیلی برای بهبود این کار آن است که تکواژها با فاصلهای تعریف شده نسبت به یکدیگر، متفاوت با فاصلة معمول میان کلمات نوشته شوند (برای مثال، «من زبان شناسی نه میدان م». یعنی نخست، تکواژهای تشکیل دهنده هر کلمه شناسایی و از هم جدا میشوند، با این حال، بیفاصله نوشته میشوند (حری،1372). برخلاف برخی که فراهم کردن امکان اعراب گذاری را در واژهپردازهای فارسی پیشنهاد میکنند، برخی حذف تمامی نشانههای اعراب گذاری در نگارش را پیشنهاد میکنند، برخی نیز آوانگاری حروف (یعنی تکرار حرف مشدد به جای علامت تشدید، نوشتن نون خیشومیاز روی زبر زنجیره به روی زنجیره نوشتار در مورد تنوین (محققزاده و زارعیان، 1383).
راهکار دیگر، استفاده از هر دو شکل مفرد و جمع در نمایهسازی است. با این حال، معنای صورت جمع و مفرد برخی کلمات در زبان تخصصی متفاوت است. برای نمونه، «آثار باستانی» رایجتر از «اثر باستانی» است، «منسوجات نظامی» را نمیتوان به شکل مفرد «منسوج» به کار برد. در واژة «مهمات» ارتباط معنایی صورت مفرد و جمع ضعیف شده است (سمایی، 1379). نگاشت یکسان حروفی مانند «ا» و «آ» از دیگر پیشنهادهاست. از آنجا که بین نگارش این دو مصوت کوتاه و بلند تمایزی وجود ندارد، با حذف علامت مد روی الف، املای کلماتی چون آرام، آن، انار، و ابر یکسان خواهد شد و تمایز بین این دو مصوت کوتاه و بلند در نمایش گرافیکی از میان میرود. همچنین، چیدمان از چپ به منظور یکدستی چیدمان انواع دروندادهای متنی، عددی و علایم پیشنهاد شده است. بدین ترتیب، یکدستی چیدمان از چپ نه تنها باعث هماهنگی زبان و متون ریاضی و شیمی، نتهای موسیقی، خط تصویری یا علائم گرافیکی مورد استفاده در سراسر جهان میشود، بلکه نگارش و مطالعه را هم برای انسان و هم برای ماشین ساده میسازد (محققزاده و زارعیان، 1383). همچنین، تجهیز پایگاه اطلاعاتی به اصطلاحنامه میتواند کاربران را از ریختهای مختلف واژه به اصطلاح پذیرفته شده راهنمایی کند. ایجاد تمهیداتی برای آموزش و راهنمایی کاربران دربارة استفاده از پایگاه، راهکار دیگری برای بهبود راهبردهای جستجوست (گل تاجی و بذرگر، 1389).
تحلیل راهکارهای ارائه شده در متون
گرچه راهکارهای ارائه شده در مجموع بهترین راهکارهای ممکن را تشکیل میدهند، با این حال، همانگونه که برخی نویسندگان خود نیز اذعان داشتهاند هر راهکار به گونهای قابل انتظار از جامعیت به دور است و در عین حال دارای کاستیهای خاص خود است. برای نمونه، در راهکار هماهنگ نوشتن حروف (حری، 1372)، احتمال خطا بسیار کاهش مییابد، با این حال، احتمال اقبال به این شیوه نگارش اندک است. زیرا مستلزم تغییر رفتار و نگرش کاربران است. بویژه، احتمال مقاومت در برابر آن، به دلیل دوری از شیوه سنتی نگارش فارسی، بیم گسستن پیوند با گذشته و دشواری خواندن متون کهن فارسی وجود دارد. البته میتوان نمایش و ذخیرهسازی متن به شیوههای متفاوت صورت گیرد، به نحوی که اولی به روش متعارف و دومی به روش «هماهنگ شدة پیشنهادی» روی دهد. اما حتی در این صورت نیز این راهکار تنها بخشی از دشواریهای نگارش را رفع میکند و چالشهایی چون کلمات مرکب، اعرابگذاری، تفاوت در املا، عدم تمایز بین اسامیخاص و عام همچنان به قوّت خود باقی خواهد ماند. از سوی دیگر، در این روش به دلیل نیاز به تقطیع حروف، زمان زیادی به هنگام ذخیرهسازی، کاوش و همچنین نمایش متن صرف میشود که کارآیی سامانه را کاهش میدهد. در راهکار استفاده از تکواژها نیز همانگونه که حرّی خود تأکید میکند، تعیین تکواژها نیازمند دانشی است که تنها نزد متخصصان یا پژوهندگان زبانشناسی است. از این رو، عملیاتی کردن این راهکار به سادگی ممکن نیست (حری،1372).
کاستی راهکار استفاده از سیاهة آماده، به پویایی زبان باز میگردد. در بهترین حالت، سیاهة آماده تنها در نقطهای از زمان کامل است و هیچگاه به نقطة کمال خود نخواهد رسید. از این رو، به بازنگری مستمر نیاز دارد. همچنین، بیم آن میرود که در دراز مدت، به دلیل بیدقتی یا سلیقهای عمل کردن، سیاهه دچار ناهماهنگی شود. از این گذشته، کارآیی سامانه به لحاظ فضا و زمان کاهش مییابد، زیرا به ناچار حجمی رو به رشد از واژگان و صورتهای مختلف آن در سامانه ذخیره میشود و از آنجا که هر فقره اطلاعات هنگام بازیابی ناگزیر باید از غربال سیاهة مورد نظر بگذرد، زمان کاوش اطلاعات افزایش یافته، کار بازیابی کُند میشود. اما این شیوه را میتوان در نبود مرجعی واحد و موثّق برای یکسانسازی شیوة نگارش، جایگزینی مناسب تلقی کرد(حری،1372).
در راهکار پیوند ساختگی میان کلمات، که بر تعریف فاصلههای درونی اجزای کلمه استوار است، این اشکال عمده وجود دارد که قبل از درونداد اطلاعات، متخصصان باید کلماتی را که احتمال جدا یا پیوسته نوشتن اجزای آنها میرود، شناسایی و با کد مربوط مجهز کنند. در این روش، امکان پردازش خودکار متن نیست، زیرا عملیات مقدماتی باید قبل از ورود صورت گیرد و از طریق صفحه کلید به نظام خورانده شود. اما این روش، همانگونه که حرّی بیان میدارد، برای حلّ مسائل مقطعی برنامههای فارسی موجود مطلوب است(حری،1372).
در روش هماهنگی رسم الخط، تأکید بر تدوین و تصویب رسم الخط واحد و الزامیکردن اجرای آن است(حری،1372). آشکار است که این راهکار، نه تنها از منظر بازیابی اطلاعات که به لحاظ رفع آشفتگی و چندگونگی نگارش و در نتیجه بقا و اعتلای زبان فارسی، بسیار ارزشمند است. با این حال، وابستگی آن به تغییر رفتار و عادات کاربران اثربخشی آن را در کوتاه مدت زیر سؤال میبرد. حتی اگر با ابلاغ قوانین و مقررات استاندارد نگارش، افراد را به رعایت نگارش تجویز شده وادار کنیم، باز هم نهادینه شدن آن بسیار به طول خواهد انجامید. به طور کلی، پیشنهادهایی از این دست، به ایجاد تغییراتی زیربنایی و گسترده در بافتاری نزدیک به بیش از یک هزار ساله نیاز دارند. بویژه، این گونه راهکارها نیازمند همرأیی و همراهی تودة مردم - خواه عوام یا خواص - است که چه بسا لزوم این تغییرات اساسی را درک نکنند. از سوی دیگر، از آنجا که ابتکار فردی جای خود را به نگارش دستوری خواهد داد، با پراگماتیک زبان مغایر خواهد بود، چه، زبان در بستر عملی و در جریان طبیعی خود، راه بقای خود را مییابد و چندان با روشهای دستوری سازگار نیست. از این رو، این راهکارها بیشتر متناسب هدفهای راهبردی و بلندمدت است، که آن نیز مستلزم نقشآفرینی بنیادینترین نهاد یعنی نظامهای آموزش و پرورش است. از سوی دیگر، به نظر میرسد جمع میان این 5 راهکار به دلیل به کارگیری مبناهای متفاوت برای تقطیع عناصر زبانشناختی دشوار است. در پیشنهاد نگارش هماهنگ حروف، حرف به عنوان عنصر اصلی مبنا قرار گرفته است و در پیشنهاد دوم، تکواژ. اما در پیشنهادهای بعدی، مبنای تقطیع کلمه است. اگر بپذیریم که این تدابیر برای یافتن راهی روشن به منظور برقراری ارتباط انسان – ماشین - انسان است و کاربران رایانه عمدتاً افرادی با تخصصهای گوناگون هستند که قصد ارتباط کلامی با یکدیگر دارند، بنابراین، کوچکترین واحد معنادار برای آنها کلمه است، نه حرف یا تکواژ. از این گذشته، راهکار تهیة سیاهة آماده و همچنین پیوند ساختگی میان کلمات به دلیل وابستگی به مداخلة نیروی انسانی، با روند خودکارسازی پردازش متن در تعارض است. از این لحاظ، هماهنگ کردن رسمالخط فارسی، معقولتر از سایر پیشنهادها به نظر میرسد(حری،1372). با این حال، این راهکار نیز همانگونه که گفته شد، به دلیل دستوری بودن و نیاز به نهادینه شدن در میان کاربران، در کوتاه مدت به بار نخواهد نشست.
جدول2. راهکارهای پیشنهادی در مراحل مختلف چرخه زندگی مدرک
مرحله
|
راهکار پیشنهادی
|
|
مرحلة پیش از بازیابی
|
ایجاد ابزارهایی برای استانداردسازی نگارش به هنگام تولید مدرک |
تدوین فرهنگ جامع املایی |
تدوین اصطلاحنامههای تخصصی در زبان فارسی |
||
تدوین اصول برگردان کلمات خارجی |
||
هماهنگ کردن رسم الخط |
||
ایجاد ابزارهایی برای ارتقای نگارش به هنگام تولید بازنمونهای مدرک |
استفاده از سیاهة آماده |
|
ایجاد نظامهای ریشهیابی در فارسی |
||
تجهیز واژهپردازهای فارسی به غلطیاب املایی |
||
هماهنگ کردن حروف |
||
استفاده از تکواژها |
||
حذف اعرابگذاری |
||
چپنویسی |
||
استفاده از هر دو صورت مفرد و جمع در نمایهسازی |
||
کاهش شمار نویسگان با قایل شدن دو حالت بزرگ و کوچک برای حروف |
||
نگارش واژه محور و قرار دادن فاصله بین کلمات برای تعیین مرز بین آنها |
||
نشانهگذاری اسامیخاص از طریق تفکیک حالت بزرگ و کوچک حروف |
||
قرار دادن نشانة یکسان برای حروف دارای چند تلفظ مانند س، ث، ص |
||
قرار دادن نشانة نوشتاری خاص برای کسرة اضافه در همه شرایط |
||
قرار دادن نشانة جداگانه برای «ی» نکره و «ی» تکیه بر اسم ساز و صفت ساز |
||
قرار دادن نشانة جداگانه برای واژه بستهای ربطی فعل«بودن» |
||
قرار دادن نشانه«-» در بین کلمات ترکیبی |
||
مرحلة ذخیرهسازی |
ایجاد ابزارهایی برای ارتقای نگارش / نمایهسازی |
درج حروفی که خوانده ولی نوشته نمیشوند |
عدم تمایز بین «ا» و «آ» |
||
پیوند ساختگی میان کلمات |
||
قواعد یکدستی نگارش
|
واگذاری حل مشکل کلمات ترکیبی به رایانه |
|
بیفاصلهنویسی کلمات مرکب |
||
درج نکردن فاصله میان مقلوب عبارتهای اسمیمانند«زردکوه» |
||
درج نکردن فاصله میان عبارتها و واژههای لاتین که دقیقا منعکس کننده لفظ خارجی است، مانند «سوپرساب» و نه «سوپر ساب» |
||
درج فاصله قبل و بعد از حرف ربط، مانند «مواد دیداری و شنیداری» |
||
درج فاصله قبل و بعد از حرف ربط، مانند «مواد دیداری و شنیداری» |
||
مرحلة بازیابی
|
تجهیز پایگاه اطلاعاتی به اصطلاحنامه |
|
آموزش و راهنمایی کاربران |
||
استفاده از واسط کاوش فارسی برای رفع چالشهای رسمالخط و مفهومی |
به همین ترتیب، روش چیدمان چپنویس (محققزاده و زارعیان، 1383) از همین کاستیِ نیاز به تغییر عادتها و نهادینه شدن در طول زمان رنج میبرد. با این حال، این روش را میتوان بر ذخیرهسازی متن و نه لزوما نمایش آن پیاده کرد. بدین ترتیب، خواندن متن برای رایانه سادهتر میشود و کاربر نیز با روش مألوف خود به خواندن متن نمایش داده شده میپردازد. البته، این تمایز بین سبک ذخیرهسازی و نمایش، به الگوریتمی پیچیده نیاز دارد که خواه ناخواه کارآیی سامانه را متأثر خواهد ساخت.
روش کاهش شمار نویسگان پیشنهاد میکند که از میان شکلهای متعدد برای یک حرف، تنها دو حالت بزرگ و کوچک را برای هر حرف بپذیریم. هر چند این پیشنهاد در جهت کاهش شمار نویسگان و حل مشکل کمبود کلید بر صفحه کلید بسیار مفید به نظر میرسد، حالت کوچک و بزرگ پیشنهادی برای این حروف، تفاوتی چشمگیر ندارند (نگاه کنید به محققزاده و زارعیان، 1383). علاوه بر این، شکل بزرگ و کوچک حروفی چون «د»، «ذ»، «ر»، «ز»، «ژ»، «و» و «ء» هم برای انسان و هم برای رایانه (به هنگام تشخیص نوری نویسهها) تقریباً قابل تشخیص نیست. همچنین، موفقیت این روش نیز در گروِ تغییر در رفتار و نگرش کاربران است.
روش دیگر، پیشنهاد یکسانسازی نگارش حروفی مانند «س»، «ث» و «ص» است که در زبان فارسی تلفظ یکسان دارند. به نظر میرسد این راهکار و دیگر راهکارهایی از این دست مانند نوشتن حروفی که خوانده اما نوشته نمیشوند، با گرایشهای نگارشی نسل جدید نیز انطباق داشته باشد. نگاهی گذرا به نوشتههای فارسی در جای جای اینترنت روشن میسازد کاربر جوان بیش از آنکه به املای کلمه توجه داشته باشد، آن را با آوانویسی ساده میکند. برای مثال، فراوانی املای «راجب» به جای «راجع به» نمونهای از این گرایش است که یا ناشی از املای ضعیف است یا تمایل به سادهسازی و سادهنویسی املای فارسی. به نظر میرسد کاربر امروز با این رفتار - آگاه یا ناخودآگاه - نشان میدهد که ضرورتی برای رعایت نگارش عربی نمیشناسد و مایل است پیچیدگی نگارش تنها بر حسب ضرورت زبان فارسی روی دهد و نه ضرورتهای برخاسته از زبان مبدأ. با این حال، این گونه راهکارها هدف اصلی زبان را به چالش میکشد. زیرا، نه تنها رسالت اصلی زبان را که برقراری ارتباط است محقق نمیکند و باعث گسست در درک خواننده میگردد، بلکه به دوگانگی متون چاپی و رایانهای نیز منجر میشود، که این امر آسیب شدیدی به ارتباطات و نیز فرهنگ نوشتاری وارد میسازد.
از طرفی، با توجه به آمیختگی شدید زبان عربی و فارسی، تغییر املایی این واژهها به منظور هماهنگی با رسم الخط فارسی، سبب از بین رفتن و یا دگرگونی معنای آنها و در نتیجه ابهام، بدفهمیو حتی گاهی درک نشدن واژه توسط خواننده میگردد و درصد ریزش کاذب را در نتایج بازیابی نیز افزایش میدهد. برای مثال، اگر واژه «قالب» به معنای «شکل» به صورت «غالب» نگارش شود، معنی «پیروز» از آن برداشت میشود، یا نگارش واژه «صبور» به صورت «سبور»، برای خواننده کاملاً نامأنوس بوده، ممکن است سبب درک نشدن آن شود. علاوه بر این، روی آوردن به چنین راهکاری، موجب گسستی عمیق بین حال و گذشتة ادبی، فرهنگی و تاریخی میشود و تردید بسیاری را بر جای میگذارد.
حرکت به سوی خودکارسازی پردازش متن فارسی
چنانکه گفته شد، به طور کلی دو دسته راهکار ایجاد ابزار و استانداردسازی تولید متن را میتوان در جهت کاهش دشواریهای بازیابی فارسی به کار گرفت. ایجاد و تدوین ابزارهایی چون اصطلاحنامهها، فرهنگهای املایی و قواعد نگارش استاندارد، گامیمؤثر در افزایش اثربخشی بازیابی به شمار میآید. این ابزارها، ضمن توسعة معنایی اصطلاحات جستجو و نمایه، میتوانند با هدف یکسانسازی نگارش و از بین بردن گوناگونی نحوی و ریختشناختی نیز به کار روند. یکسانسازی نگارش میتواند متن مدرک، اصطلاحات نمایه یا اصطلاحات پرسش را در برگیرد. از این رو، این روش را میتوان در هر مرحلهای از چرخة زندگی اطلاعات، از تولید، ذخیرهسازی، نمایهسازی گرفته تا جستجو و بازیابی، اعمال کرد. اما این راهکار زمانی بیشترین بازده را خواهد داشت که بیش از آنکه به قضاوت و تصمیم کاربر یا تغییر عادتها و رفتار وی وابسته باشد، بر خودکارسازی پردازش متن، نمایهسازی، یا ترجمة ماشینی استوار باشد. چه در روش خودکار، میتوان صورتهای متغیر کلمه را صرف نظر از عادتهای نگارشی افراد، یکدست و بهنجار کرد.
همانگونه که در متن اشاره شد، با توجه به قاعدهمندی بسیاری از چالشها مانند اعراب، علایم جمع، همزة پایانی و برخی وندهای اسمساز و صفتساز، میتوان در الگوریتمهای جستجو، این واژهها را به نحوی بهنجار کرد که واژه صرف نظر از ریختهای مختلف آن، بازیابی شود. آشکار است که به سادگی نمیتوان به الگوریتمیتمامعیار با اثربخشی مطلق دست یافت. برای نمونه، در مورد علامت جمع، شاید بتوان واژههای جمع و مفرد را با حذف «ها» و «ان» یکسان کرد. با این حال، زمانی که این علایم بخشی از واژه باشند، مانند «تنها»، «رها»، «زمان»، «نان» یا «انسان» احتمال بروز خطا میرود. البته در برخی از این موارد، این امکان وجود دارد که با فنون سنجش در الگوریتم، در صورتی که تعداد نویسهها کمتر از دو نویسه باشد، بهنجارسازی را اعمال نکرد. برای نمونهای دیگر، همانگونه که پیشتر ذکر شد، در برخی موارد بهنجارسازی صورت جمع با صورت مفرد کلمه باعث تغییر معنا میشود (مانند مصالح / مصلحت). همچنین، همیشه نمیتوان شکلهای بلند یک واژه را به شکل کوتاه آن یا برعکس بهنجار کرد، زیرا در پارهای موارد شکل اختصاری با واژهای دیگر هماملا میشود یا معنای آن به کلی تغییر میکند. (مانند کوه/که؛ آگاهی/آگهی). با این حال، باید توجه داشت که بروز درصدی از خطا ذاتیِ هر گونه روش «اکتشافی» است و حتی در الگوریتمهای موفق و رایجی مانند پرتر نیز ممکن است روی دهد. از اینرو، پیش از طراحی این گونه الگوریتمها، بررسی قاعدهمندیهای نگارش زبان فارسی و درصد واژههایی که این قاعدهمندیها را نقض میکنند، میتواند ما را نسبت به میزان رواداری این الگوریتمها آگاه سازد.
ایجاد الگوریتمهای ریشهیابی کلمات فارسی که در متون نیز آمده بود، به بخشی از راهکارهای خودکارسازی پردازش متن اشاره دارد. چنانچه منظور از ریشهیابی حذف وندهای کلمه باشد میتواند بسیار راهگشا باشد، زیرا در زبان فارسی، واژهسازی بیشتر به کمک پیشوندها و پسوندها صورت میگیرد که ریخت واژه را چندان دستخوش تغییرات بنیادین نمیکند. با این حال، چنانچه منظور از ریشهیابی طراحی الگوریتمیبرای یافتن بنواژه باشد، کار یافتن قاعدهمندیها دشوارتر خواهد شد، زیرا تغییر ریخت واژگان در فارسی، بیشتر بر واژگان وام گرفته عربی روی میدهد. برای مثال، جمع مکسر، یا صرف کلمه در بابهای مختلف (مانند تعمیر یا استعمار). آشکار است که تقلیل این صورتهای صرف شده به ریشة آنها نه به سادگی ممکن است و نه مطلوب، زیرا در بسیاری از موارد جمع مکسر یا صرف کلمه در بابی دیگر به تغییری بنیادین در معنا میانجامد. از این گذشته، بهکارگیری فنون بازیابی روادار بویژه فنون تصحیح املا که نسبت به گونهگونی ریختی یا صرفی واژه نیرومند باشد، از دیگر راهکارهای ممکن است. در این فنون، املاهای مختلف، خواه ناشی از اشتباه کاربر باشد یا تنوع املایی واژه، به یک ریخت واحد تقلیل مییابد و در نتیجه همة احتمالات ممکن مورد جستجو قرار میگیرد (مانینگ، راگاوان و شوتس، 2008). فنون تصحیح املا بر بازیابی فارسی در گوگل به کار گرفته شده است. برای نمونه، جستجو به دنبال «یگتا» یا «اسربخشی» ضمن ارائه نتایج حاصل از جستجوی این دو املای غلط، نتایج مربوط به واژة «یکتا» یا «اثربخشی» را نیز پیشنهاد میدهد.
نتیجهگیری
به طور کلی، ٤٣ گروه چالش نگارشی در متون معرفی شده است. آنچه بیش از همه مد نظر پژوهشگران بوده مسئله «پیوسته یا جدانویسی»، «تنوع نشانههای جمع»، «تفاوت در آوا / اعرابگذاری»، «تنوع دگرنوشتهها»، «الف کوتاه»، «فاصلة بین حروف واژه»، و «نگارش از راست به چپ» بوده است. برخی از چالشها نیز کمتر مورد توجه قرار گرفته یا به طور کلی نادیده گرفته شده است. با توجه به اینکه در هر گروه ممکن است بیش از دو شکل املایی روی دهد، آشکار خواهد شد نگارش فارسی اصولا به شیوهای بسیار متنوع صورت میگیرد. آشکار است که این گونهگونی نگارشی به نایکدستی و دگرگونی بسیار در نگارش فارسی میانجامد که میتواند اثربخشی بازیابی را بویژه از منظر کاهش دقت یا ریزش کاذب و نیز کاهش جامعیت بازیابی، متأثر سازد.
اگرچه راهکارهای ارائه شده در متون از کاستیهایی بویژه نداشتن جامعیت رنج میبرند، کم و بیش اثربخش به نظر میرسند. با این حال، با توجه به اینکه راهکارهای انسانی نیازمند مشارکت فعالانة نویسندگان متون (تایپیستها و کاربران) است و از روندی کُند، بلندمدت و هزینهبر برخوردار است، ضروری است راهکارهای خودکارسازی پردازش متن و نمایهسازی بیش از پیش مورد تأکید قرار گیرد. مرور آثار پژوهشی در بخش پیشینة پژوهش نشان داد شمار پژوهشها در حوزه طراحی و آزمایش تکنیکها، ابزارها و الگوریتمهای خودکارسازی بازیابی زیاد است که نشان از پیشرفتها و دستاوردهای روزافزون در این حوزه دارد. با این حال، دانش اندکی در مورد میزان بهکارگیری این فنون در سامانههای اطلاعاتی مختلف و میزان اثربخشی آنها در بافتار عملی در دست است. از این رو، ضروری است ضمن آنکه در طراحی سامانههای فارسی به این چالشها توجه میشود، مطالعات مقدماتی به منظور سنجش میزان اثربخشی و همچنین هزینه - سودمندی راهکارها انجام شود. چه، طراحی الگوریتمیکه تنها به ازای درمان یک چالش نادر یا ناچیز، پیچیدگی زیادی را بر سامانه تحمیل کند، به کاهش کارآیی آن و افزایش هزینه - سودمندی منجر خواهد شد. از این رو، یکی از گامهای بنیادین در پژوهشهای بازیابی فارسی، بررسی میزان رویداد هر یک از چالشها و میزان تأثیر آنها بر اثربخشی بازیابی است.
گام بنیادین دیگر در این راستا، تدوین شیوهنامة نگارش فارسی، اصطلاحنامهها و فرهنگهای املایی در محیط دیجیتالی است. مشارکت متخصصان موضوعی، زبان و ادب فارسی، رایانه و کتابداری در این امر ضروری است. کتابخانه ملی یکی از سازمانهای مهم و تأثیرگذار است که میتواند در تدوین استانداردها با طراحان پایگاههای اطلاعاتی و نرمافزارها مشارکت کند. با توجه به آنکه این راهکار در بلندمدت به بار مینشیند، پیشنهاد میشود همزمان با اقدامهای پژوهشی و زیربنایی، اقدامهای عملی نیز از سوی کتابخانهها و مراکز اطلاعرسانی به منظور افزایش بهرهوری پایگاهها و سامانههای اطلاعاتی صورت گیرد. برای نمونه، تدوین دستنامه یا راهنمای جستجو میتواند کاربران را در رابطه با تدوین راهبردهای جستجوی موفق آموزش دهد. لازم است در این راهنما، در کنار شرح فنون و تسهیلات جستجو مانند امکانات جبر بولی و جز آن، نکات مهمّ نگارش فارسی مؤثر بر اثربخشی بازیابی اطلاعات آموزش داده شود. همچنین، در طراحی پایگاههای اطلاعاتی، الگوریتمهای متفاوت بسته به نوع پایگاه و پوشش موضوعی آن به کار گرفته شود. برای نمونه، در برخی رشتههای علمیمانند شیمیو ریاضی، فرمولنویسی مشکل غالب است، حال آنکه در متون مذهبی یا متون فارسی- عربی، احتمالاً اعرابگذاری تأثیر بسزایی بر بازیابی اطلاعات خواهد داشت.