گسترش‌پذیری جستجو و بازیابی مدارک در پایگاه‏های اطلاعات علمی فارسی: مورد پژوهشی پیوسته‏ نویسی و جدانویسی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 کارشناسی ارشد، گروه علم اطلاعات و دانش شناسی، دانشکده علوم تربیتی و روانشناسی، دانشگاه شیراز، شیراز، ایران.

2 استادیار، گروه علم اطلاعات و دانش شناسی، دانشکده علوم تربیتی و روانشناسی، دانشگاه شیراز، شیراز، ایران.

چکیده

هدف: هدف این مقاله مطالعۀ میزان توجه سه پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور»، «مرکز اطلاعات علمی جهاد دانشگاهی» و «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری» به گسترش‌پذیری جستجو و بازیابی مدارک (مقالات) به صورت پیوسته‌نویسی و جدانویسی است.
روش‌شناسی: پژوهش حاضر از نظر هدف در ردیف پژوهش‌های کاربردی و از نظر طرح پژوهش از نوع تحلیل محتوا بوده است. جامعۀ آماری شامل مجموعۀ مدارک موجود در سه پایگاه‌ اطلاعات علمی فارسی بود (29142 مدرک) که با استفاده از فرمول کوکران، 432 مدرک از آنها با روش نمونه‌گیری طبقه‌ای متناسب (نسبتی) انتخاب شد. ابزار پژوهش یک سیاهۀ وارسیِ محقق‎ساخته بود. سیاهۀ وارسی شامل ده قاعده از مجموعه قاعده‌های پیوسته‌نویسی و جدانویسی کتاب «دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی» به همراه مصداق‌های «واژگان یا کلیدواژه‌های انتخابی» از هر قاعده بود که امکان رخداد جدانویسی و پیوسته‌نویسی آنها در هنگام نگارش وجود داشت.
یافته‌ها: نتایج نشان داد میان پایگاه‌های اطلاعات علمی فارسی از نظر قابلیت بازیابی مدارک با هر یک از شکل‌های نگارشی اعم از پیوسته‌نویسی و جدانویسی تفاوت وجود دارد. علاوه بر این، یافته‌ها نشان داد، تنها 3/5% از مدارک انتخابی در هنگام جستجو در پایگاه‌های اطلاعاتی مورد مطالعه با همه شکل‌های نگارشی قابل بازیابی بود. در مقابل، 7/94% مدارک انتخابی فقط با همان حالت ثبت‎شده در پایگاه بازیابی ‌شد. همچنین، مقایسۀ شکل نگارشی مصداق‌ها در عنوان، چکیده و کلمات کلیدیِ نسخۀ پی.دی.اف مدارک با اطلاعات نمایه‎شده از همان مدارک در پایگاه‌های اطلاعات علمی فارسی نشان داد، شکل نگارشی بخش قابل توجهی از مصداق‌های مدارک از حالت نگارشی نزدیک‌نویسی به جدانویسی یا پیوسته‌نویسی تغییر یافته است.
نتیجه‌گیری: با توجه به اینکه در پایگاه‌‌های مورد مطالعه چالش‌های پیوسته‌نویسی و جدانویسی به‎طور جامع و به منظور بهبود جامعیت نتایج جستجو مورد توجه‌ قرار نگرفته است، این وضعیت نامطلوب می‌تواند به ازدست‎دادن مدارکی بینجامد که با دیگر شکل‌های نگارشی در پایگاه‌های اطلاعاتی ذخیره شده‌اند.

کلیدواژه‌ها


عنوان مقاله [English]

Extensibility of searching and retrieving documents in Persian scientific databases (case study:writing words continuously and separatly)

نویسندگان [English]

  • Ayoob Ranjbar 1
  • Javad Abbaspour 2
1 MA,. Department of Knowledge and Information Science,Faculty of Education and Psychology, Shiraz University, Shiraz, Iran.
2 Assistant Prof,. Department of Knowledge and Information Science,Faculty of Education and Psychology, Shiraz University, Shiraz, Iran.
چکیده [English]

Purpose:  This article aimed to investigate the extensibility of document retrieval in the form of writing words continuously and separately in three Persian scientific databases, Magiran, SID and RICEST.
 Methodology: The research was conducted through the content analysis method. The statistical population consisted of existing documents in Persian scientific databases. Using Cochran's formula, 432 documents were chosen with the simple stratified sampling. The research tool was a researcher-made checklist contained examples (keywords) that could have the possibility of occurrence of writing words continuously and separately.
Findings: The results revealed that there was a difference between the retrieval capability of Persian scientific databases with each form of writing words continuously and separately. In addition, findings revealed that while searching in scientific databases, only 5.3 % of documents can be retrieved with each form of writing words and in contrast 94.7% of documents were retrieved only with the same state of recorded examples of documents. Also, the comparison of the writing form of the examples in the PDF version of the documents with the information provided by the same documents in the Persian Scientific Databases showed that writing form of a significant portion of the examples of documents has been altered from writing words semi-spacely to separately and continuously.
Conclusion: Present study revealed that the studied Persian Scientific Databases have not addressed the challenges of writing words continuously and separately in a comprehensive way in order to improve recall of search results; this undesirable situation may lead to loss documents which are saved in databases with other forms of writing.

کلیدواژه‌ها [English]

  • Information Retrieval
  • Persian scientific databases
  • Writing words continuously
  • Writing words separately
  • Persian script
  • Orthography
  • Magiran
  • SID
  • RICeST

مقدمه

از مهم‌ترین مسائل و چالش‌های نگارشی خط فارسی در محیط‌های الکترونیکی (روند ذخیره‌سازی و پردازش، جستجو و بازیابی اطلاعات) می‌توان به مواردی چون نگارش غیررسمی یا محاوره‌ای، استفاده از واژگان بیگانه، پیچیدگی صرفی، تنوع املایی واژگان، هم‌نگاشت‌ها[1]‌ و فاصله‌گذاری میان واژگان اشاره کرد (دانش، مینایی و کاشفی[2]،2011). در میان این چالش‌ها، در دهه‌های اخیر مسئله «فاصله‌گذاری» و به‌طور مشخص پیوسته‌نویسی و جدانویسی[3] بسیار مورد توجه قرار گرفته است؛ به‌گونه‌ای که بیشترین اختلاف‌نظرها در باب املای فارسی ‏(فرهنگستان زبان و ادب فارسی، ۱۳۸۹)‏ و بیشترین پژوهش‌ها در ارتباط با چالش‌های نگارشی زبان فارسی در محمل‌های الکترونیکی (هنرجویان،1392) را به خود اختصاص داده است. حتی، در کنار چالش‌های اعراب‎گذاری، از آن به‎عنوان یکی از مهم‌ترین و تأثیرگذارترین چالش‌ها در قلمروِ منابع الکترونیکی یاد می‌شود، به‌گونه‌ای که صاحب‌نظران مراحل بعدی پردازش متون تولیدی را منوط به حل‎شدن این دو مسئله دانسته‌اند (کاشفی، نصری و کنعانی، 1389؛ دانش و دیگران، 2011).

به‎دلیل وجود این چالش در رسم‎الخط فارسی، اگر شکل‌های مختلف نگارشی یک واژۀ مرکب اعم از پیوسته‌نویسی یا جدانویسی توسط طراحان و نمایه‌سازان پایگاه‌های اطلاعات علمی فارسی بهنجارسازی[4] نشود، کاربران با نگارش هر یک از شکل‌های نگارشی واژه، تنها به مدارکی[5] که بدان شکل نگارش یافته است، دسترسی خواهند یافت و سایر مدارک مرتبط نگارش‎یافته با دیگر شکل‌ها را از دست خواهند داد.

برای تبیین بهتر مسئله و اینکه چه ناهماهنگی‌هایی در ضبط یک واژۀ واحد در محمل‌های الکترونیکی و به‎طور اخص پایگاه‌های اطلاعاتی علمی فارسی رخ‌ می‌دهد، نگارنده از بخش «ترکیبات»[6] دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی و از قاعدۀ ده که مربوط به پیوسته‌نویسی است، واژه «کتابشناسی» را به‎عنوان نمونه انتخاب و در پایگاه استنادی علوم جهان اسلام[7] (به‎عنوان نمونه‌ای از پایگاه‌های اطلاعات علمی فارسی) جستجو کرد. نگارش این واژه به سه‎شکل «کتابشناسی» (پیوسته‌نویسی)، «کتاب‌شناسی» (نزدیک‌نویسی) و «کتاب‌ شناسی» (جدانویسی) امکان‌پذیر است. در ابتدا جستجو به شکل «کتاب شناسی» (جدانویسی) انجام شد که 362 مدرک بازیابی شد؛ ولی با تغییر شکل نگارشی واژه و واردکردن آن به شکل «کتاب‌شناسی» (نزدیک‌نویسی) و «کتابشناسی» (پیوسته‌نویسی) به ترتیب 40 و 54 مدرک بازیابی شد. توجه‎نکردن به چنین مسئله‌ای در مراحل ذخیره‌سازی و پردازش، جستجو و بازیابی اطلاعات از پایگاه‎های اطلاعات علمی فارسی، چالش‌ها و موانعی را پیش روی کاربران فارسی‎زبان در دستیابی به اطلاعات مورد نیازشان ایجاد کرده است.

مرور مطالعات انجام شده در سال‌های اخیر نشان می‌دهد میزان توجه سامانه‌های بازیابی اطلاعات به چالش‌های خط فارسی، از جمله مسئله پیوسته‌نویسی و جدانویسی، بعضاً با ذکر تعداد محدودی کلیدواژه (یک یا دو کلیدواژه) آن‌هم از قلمرو موضوعی محدود،‌ به‌منزله نمونه‌ای از متون فارسی، بررسی شده است. افزون بر این، یکسانی فراوانی تعداد مدارک بازیابی‎شده در ریخت‌های مختلف یک واژه را نشان از رفع آن چالش در سامانه‌های بازیابی اطلاعات قلمداد کرده‌اند. این در حالی است که ممکن است شکل‌های نگارشی یک واژه به‎طور همزمان در بخش عنوان، چکیده و واژگان کلیدی یک مدرک رخ داده و این مسئله باعث بازیابی دوبارۀ همان مدرک شده باشد.

علاوه بر موارد بالا، در بخش ترکیبات دستور خط فارسی فرهنگستان، 23 قاعده دربارۀ موقعیت‌های رخداد جدانویسی و پیوسته‌نویسی ذکر شده است. این در حالی است که مرور مطالعات پیشین (رمضانی، 1386؛ قدس‎نیا، زارع بیدکی، و یزدانی، 1386؛ عبدالهی و جوکار، 1388؛ گل تاجی و بذرگر، 1389؛ آخشیک و فتاحی، 1391؛ هماوندی، نوروزی و حسینی بهشتی، 1397) نشان می‌دهد پژوهشگران بدون توجه به این قاعده‌ها، گاه با درنظر‎گرفتن یک یا دو مصداق (کلیدواژه‌ یا واژگان انتخابی) آن‌هم بدون ذکر چگونگی و دلایل انتخاب آنها، چالش‌های پیوسته‌نویسی و جدانویسی و همچنین میزان تأثیر آن بر سامانه‌های بازیابی اطلاعات را بررسی کرده‎اند. در صورتی‎که به نظر می‌رسد انتخاب مصداق (کلیدواژه) از هر قاعده می‌تواند تأثیرگذاری متفاوتی بر سامانه‌های جستجو و بازیابی اطلاعات داشته باشد.

با توجه ‌به وجود چنین خلأهایی در پژوهش‌های پیشین، مقالۀ حاضر در پی آن است که با گسترش قلمرو‌های موضوعی و با درنظرگرفتن قاعده‌های بخش ترکیبات دستور خط فارسی مصوب فرهنگستان و همچنین، کنترل رخداد شکل‌های نگارشی در بخش عنوان، چکیده و واژگان کلیدی هر مدرک، وضعیت برخی از پایگاه‌های اطلاعات علمی فارسی را از نظر میزان توجه به مسئله پیوسته‌نویسی و جدانویسی بررسی و بر مبنای نتایج حاصل، پیشنهادها و راهکارهای عملی را ارائه کند. انتظار می‌رود با استفاده از نتایج این پژوهش بتوان از طریق تشخیص دقیق‌تر نقاط ضعف و قوّت پایگاه‌های اطلاعات علمی فارسی در راستای بهبود یا اصلاح الگوریتم‌های جستجو و بازیابی آنها گام برداشت. همچنین، نمایه‌سازان و طراحان سامانه‌های بازیابی اطلاعات می‌توانند با شناسایی قاعده‌های دارای تأثیرگذاری بیشتر بر کمیّت نتایج بازیابی‎شده، امکان به‎کارگیری و اعمال آنها در الگوریتم‌های نمایه‌سازی یا بازیابی را فراهم کنند. از این‎رو، مقالۀ حاضر در پی پاسخ به سؤال‌های زیر نگارش یافته است:

1. آیا میان پایگاه‌های اطلاعات علمیِ فارسی از نظر گسترش‌پذیری جستجو و بازیابی مدارک به‎صورت پیوسته‌نویسی و جدانویسی، تفاوت وجود دارد؟

2. نسبت فراوانی پایگاه‌های اطلاعات علمی فارسی از نظر گسترش‌پذیری جستجو و بازیابی مدارک به صورت پیوسته‌نویسی و جدانویسی بر حسب قاعده‌های دهگانه فرهنگستان زبان و ادب فارسی چگونه است؟

3. نسبت فراوانی شکل نگارشی مصداق‌ها در عنوان، چکیده و واژگان کلیدی نسخۀ پی‌دی‌اف مدارک با اطلاعات ارائه‎شده از همان مدارک در پایگاه‌های اطلاعاتیِ علمی فارسی، چگونه است؟

شایان ذکر است، در مقالۀ حاضر منظور از گسترش‌پذیری جستجو، توانایی پایگاه‌ اطلاعات علمی فارسی در بازیابی مدرک با هر دو حالت‌ نگارشی مصداق اعم از پیوسته‌نویسی و جدانویسی است. بنابراین، سنجش گسترش‌پذیریِ جستجو برای هر پایگاهِ اطلاعاتِ علمیِ فارسی با مشاهدۀ رویداد یک یا مجموعه‌ای از حالت‌های زیر در زمان جستجوی مصداق‌های مدارک تعیین گردید:

1. خوانش شکل نگارشی «پیوسته‌نویسی» و گسترش به حالت «جدانویسی»؛

2. خوانش شکل نگارشی «جدانویسی» و گسترش به حالت «پیوسته‌نویسی»؛

3. خوانش شکل نگارشی «جدانویسی» و گسترش به حالت «نیم‌فاصله»؛

4. خوانش شکل نگارشی «پیوسته‌نویسی» و گسترش به حالت «نیم‌فاصله»؛

5. خوانش «نیم‌فاصله» و گسترش به هر سه حالت نگارشی (پیوسته، نیم‌فاصله و جدا).

مرور پیشینه‌های پژوهش

پیشینه‌های داخلی

تاکنون ویژگی‌ها و مشکلات رسم‌الخط یا شیوۀ خط فارسی، از جمله مسئلۀ فاصله‌گذاری و تأثیرگذاری آنها بر روند سامانه‌های ذخیره و بازیابی اطلاعات، موضوع پژوهش‌های متعددی بوده است. «حرّی» ‏‏(۱۳۷۲) در مقاله‌ای نظری به تبیین چالش‌های رسم‌الخط فارسی در مواجهه با رایانه پرداخت. او راه‌حل‌های طراحی‌شده برای مقابله با چالش‌های رسم‌الخط را در پنج دستۀ کلی، یعنی 1. هماهنگ‎کردن حروف ۲. استفاده از تکواژها ۳. استفاده از سیاهۀ‌ آماده ۴. پیوند ساختگی میان واژگان و ۵. هماهنگی رسم‌الخط جای داد. او همچنین از میان راهکارهای پیشنهادی، مورد پنجم را ارجح و معقول‌تر دانست. حرّی دلیل آن را ‌چنین تبیین می‌کند که با به‎کارگیری این راهکار، به‎دلیل ضرورت برخورد با رایانه، خط فارسی شیوه‌ای واحد خواهد یافت و آشفتگی و چندگانگی فعلی رسم‌الخط از بین خواهد رفت.

«اکبری‌نژاد» ‏(۱۳۷۶) به‌واسطۀ تجربۀ کار با پایگاه‌های اطلاعاتی، در مقاله‌ای با عنوان «فاصلۀ خالی میان واژه‌ها در ذخیره و بازیابی رایانه‌ای اطلاعات» به بیان مشکلات و مسائل ایجادشده به‎دلیل فاصلۀ میان واژه‌ها و عبارت‌ها در تمام نظام‌های رایانه‌ایِ ذخیره و بازیابی اطلاعات کتاب‌شناختی به زبان فارسی پرداخت. نگارنده با اشاره به اینکه ملاک شناسایی واژه‌ها و نمایه‌سازی در نرم‌افزارهای موجود بازار، فضای خالی میان واژهاست، از مسائل و مشکلات موجود در رسم‌الخط از جمله فاصله‌گذاری میان واژه‌ها و عبارت‌ها به‌صورت فاصله، نیم‌فاصله یا بی‌فاصله، به‌عنوان عاملی تأثیرگذار (منفی) بر جامعیت مطلوب یا سرعت جستجو یاد کرده است.

«مرتضایی» ‏‏(۱۳۸۰) نیز با هدف ارائه نمونه‌هایی از تجربه‌های واژه‌گزینی در ذخیرۀ اطلاعات و به‎منظور تسریع و تسهیل ذخیره و بازیابی اطلاعات، به بررسی مسائل زبان و خط فارسی در ذخیره‌سازی و بازیابی اطلاعات پرداخت. یافته‌ها نشان داد مسائل زبان و خط فارسی سبب کندی مراحل ذخیره و بازیابی اطلاعات، کاهش نسبت بازیافت اطلاعات و همچنین تأثیر منفی بر جامعیت نتایج یک جستجو می‌شود.

از جمله پژوهش‌های دیگر می‌توان به پژوهش «راثی» ‏(۱۳۸۵)‏ اشاره کرد که با استفاده از پرسش‎نامه و با مطالعۀ موردی کاربران مرکز اینترنت دانشگاه آزاد اسلامی شبستر، مشکلات جستجو و بازیابی اطلاعات به زبان فارسی در اینترنت را بررسی کرد. پژوهش به روش پیمایشی و با رویکرد توصیفی صورت گرفت. نتایج نشان داد کاربران کمترین استفاده را از «شکل‌های مختلف نوشتاری واژه» دارند و بیشتر کاربران به این نکته توجهی نداشتند. یافته‌های پژوهشگر این فرضیه را که «بیشتر از ۵۰% موارد عدم بازیابی مطالب موردنظر در جستجوی اطلاعات به زبان فارسی، مربوط به مسائل زبان و خط فارسی است» تأیید کرد.

«قدس‌نیا، زارع بیدکی و یزدانی» ‏(۱۳۸۶)‏ در پژوهشی دیگر که با هدف سنجش تأثیرگذاری سیزده چالش از مهم‌ترین مشکلات زبان و خط فارسی بر میزان جامعیت نتایج جستجو انجام گرفت، با طراحی یک خزنده[8] یک میلیون و دویست هزار صفحه وب را بررسی کردند. نتایج پژوهش آنان نشان داد جدی‌ترین چالش‌ها و مشکلاتی که بر جامعیت نتایج جستجو تأثیرگذار است، به ترتیب شامل استفاده از «ی» فارسی و «ی» عربی نقطه‌دار چسبان به‌جای «ی» عربی آخر با ۹۴/۹۴%، استفاده از «آ» به‌جای «ا» با 44/94%  و استفاده از «ی» عربی نقطه‌دار چسبان و «ی» عربی آخر به‌جای «ی» فارسی با 98/74% است؛ همچنین استفاده از «فاصله» به‌جای «نیم‌فاصله» با 7/51% و «نیم‌فاصله» به‌جای «فاصله» با30/48% از دیگر موارد قابل توجه است.

«عبداللهی و جوکار» ‏(۱۳۸۸)‏ در مقاله‌ای به بررسی چالش‌های شیوۀ نگارش زبان فارسی در بازیابی اطلاعات از موتورهای کاوش گوگل، یاهو و آلتا ویستا پرداختند. بر این مبنا، پژوهشگران به روش پیمایشی _ ‎مقایسه‎ای و اسنادی و با استفاده از یک سیاهه شامل هفده کلیدواژه که هر یک نمایانگر یک مورد از چالش‌های زبان فارسی در بازیابی اطلاعات بود، این مطالعه را انجام دادند. یافته‌های پژوهش نشان داد موتورهای کاوش وب، شیوه‌های نگارش زبان فارسی را به‎‌منظور بهبود کاوش، مورد توجه قرار نداده‌اند و رابطۀ معناداری بین شکل واژه و نوع ابزار جستجو وجود دارد. در ارتباط با این پژوهش، نکتۀ قابل تأمل اینکه پژوهشگران برای سنجش تأثیر پیوسته‌نویسی و جدانویسی بر بازیابی اطلاعات، تنها به دو مصداق بسنده کرده‌اند و از چگونگی و دلایل انتخاب این دو مصداق نیز سخنی به‎میان نیاورده‌اند. همچنین، پژوهشگران پس از بررسی انجام‎شده در زمینۀ این چالش، به یکسان‎بودن فراوانی مدارک بازیابی‎شده اشاره کردند و از این طریق دربارۀ عملکرد موتورهای جستجو نسبت به رفع احتمالی چالش‌های رسم‌الخط فارسی، به نتیجه‌گیری پرداختند. در توضیح این مطلب باید گفت، یکسان بودن فراوانی نتایج بازیابی شده به‎معنای یکسان بودن رخداد همان مدارک نیست زیرا احتمال دارد شکل‌های مختلف یک واژه در بخش‌های مختلف یک مدرک (عنوان، چکیده و کلیدواژه‌ها) رخ داده و به بازیابی دوبارۀ آن‌ مدارک انجامیده باشد. از سوی دیگر، ممکن است فقط یک حالت نگارشی در مدرک رخ داده باشد و پایگاه اطلاعات علمیِ فارسی، امکان بهنجارسازی شکل‌های مختلف واژه را داشته باشد.

«گل‌تاجی و بذرگر» ‏(۱۳۸۹)‏ مسائل ریخت‌شناسی زبان فارسی را در سه پایگاهِ مقاله‌های فارسی «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری»، «مرکز اطلاعات علمی جهاد دانشگاهی» و «پژوهشگاه اطلاعات و مدارک علمی ایران (به اختصار ایرانداک)»[9] با استفاده از روش پیمایشی _ ‎مقایسه‌ای بررسی کردند. در این پژوهش، پژوهشگران از یک سیاهه شامل ۱۷ کلیدواژه استفاده کردند که به اعتقاد آنها هرکدام نمایانگر یک مورد از چالش‌های زبان فارسی در برخورد با فناوری‎ نوین بود. نتایج کلی پژوهش آنان نشان داد هیچ‌کدام از سه پایگاه فارسی مورد بررسی، به شیوه‌ای جامع چالش‌های زبان‌شناختی زبان فارسی را در جهت بهبود نتایج جستجو مورد توجه قرار نداده‌اند. همچنین نگارندگان در بعضی موارد تساوی تعداد رکوردهای بازیابی‌شده در ریخت‌های مختلف یک واژه را نشان از رفع آن چالش خاص در نظر گرفته‌اند. در ارتباط با پژوهش «گل‌تاجی و بذرگر» نیز موارد قابل تأملی که پیش از این دربارۀ پژوهش «جوکار و عبداللهی» اشاره شد، مصداق می‌یابد.

در مقالۀ‌ «آخشیک و فتاحی» ‏(۱۳۹۱)‏ با عنوان «تحلیل چالش‌های پیوسته‌نویسی و جدانویسی واژگان فارسی در ذخیره و بازیابی اطلاعات در پایگاه‌های اطلاعاتی»، آنها صد عنوان از پایان‌نامه‌های موجود رشتۀ کتابداری و اطلاع‌رسانی[10]را به‌منزلۀ نمونه‌ای از متون فارسی در پایگاه‌های اطلاعاتی «پژوهشگاه‌های علوم و فناوری اطلاعات ایران» و «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری» انتخاب و تحلیل محتوا کردند. سپس، از هر پایگاه ۵۰ عنوان را به‌صورت تصادفی انتخاب و عنوان‌های مربوط به هر پایگاه را با «جستجوی عنوانی» به‎طور عمدی در حالت‌های درست و نادرست جستجو کردند. نتایج پژوهش آنان نشان داد، هرچند در پایگاه‌ اطلاعاتی پژوهشگاه علوم و فناوری اطلاعات ایران 58% عنوان‌ها با تغییر شکل نگارشی مجدد بازیابی می‌شدند؛ اما در پایگاه «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری» فقط حالت ثبت‎شدۀ عنوان‌ها به بازیابی مجدد آن عنوان می‌انجامید. در ارتباط با پژوهش آنان، دو نکتۀ قابل تأمل به‎چشم می‌خورد. نخست، در این پژوهش به وضوح مشخص نشده است که منظور از حالت «جدانویسی»، نگارش با فاصلۀ کامل است یا حالت نیم‌فاصله‌نویسی؛ یا اینکه این دو حالت نگارشی یکی در نظر گرفته شده است. اگر مبنای پژوهشگران دستور خط مصوب فرهنگستان باشد، در این حالت منظور از جدانویسی حالت نیم‌فاصله‌نویسی یا نزدیک‎نویسی است. نکتۀ دوم این است که آیا در عنوان‌های انتخاب‎شده به‎عنوان حجم نمونه، واژگان شامل حالت «نیم‌فاصله‌نویسی» هم مشاهده شده است یا خیر و اگر وجود داشته، آیا در زمان جستجو در پایگاه اطلاعات علمی فارسی این حالت نگارشی هم جستجو و بررسی شده است یا خیر.

در نهایت «هماوندی، نوروزی و حسینی‌بهشتی» (1397) در پژوهشی به روش پیمایشی‎ـ تحلیلی و با استفاده از شیوۀ مشاهدۀ مستقیم، به تشریح مشکلات عمدۀ نوشتاری و معنایی زبان فارسی در استفاده از محیط‌های اطلاعاتی و تعیین میزان انطباق و توجه به این ویژگی‌ها هنگام جستجو و بازیابی در پایگاه‌های اطلاعاتی فارسی پرداختند. یافته‌های آنان نشان داد پایگاه‌های اطلاعاتی فارسی نسبت به ویژگی‌های نوشتاری و معنایی زبان فارسی، همچون پیوسته‌نویسی و جدانویسی، گوناگونی جمع‌ها، واژگان دخیل و معادل آنها توجه کافی ندارند و بسیاری از ویژگی‌های آن را در مراحل ذخیره‌سازی و پردازش اطلاعات نادیده گرفته‌اند. در ارتباط با پژوهش «هماوندی، نوروزی و حسینی‌بهشتی» موارد قابل تأملی به چشم می‌خورد که پیش از این دربارۀ پژوهش «جوکار و عبدالهی» (1388)، «گل‎تاجی و بذرگر» (1389)، و «آخشیک و فتاحی» (1391) به آن پرداخته شد. مواردی چون انتخاب و اکتفا به چند مصداق برای چالش‌های مورد بررسی، آن هم بدون ذکر دلایل انتخاب آنها.

مرور پژوهش‌های پیشین نشان داد پژوهشگران برای تعیین میزان توجه سامانه‌های بازیابی اطلاعات به چالش‌های خط فارسی، از جمله مسئله پیوسته‌نویسی و جدانویسی، گاه با ذکر تعداد محدودی مصداق (یک یا دو مصداق) آن‌ هم از قلمروِ موضوعی محدود،‌ وضعیت سامانه‌های بازیابی اطلاعات را  بررسی کرده‎اند؛ درحالی‎که با توجه به پوشش قلمروهای موضوعی متعدد در سامانه‌های بازیابی اطلاعات مورد مطالعۀ آنها، با درنظرگرفتن این جنبه می‌شد با جامعیت بیشتر و در نتیجه به شکل دقیق‌تر دربارۀ میزان تأثیر چالش‌های نگارشی قضاوت و راهکارهایی را برای اصلاح یا بهبود آنها ارائه کرد. علاوه بر خلأ فوق، پژوهشگران پس از بازیابی رکوردها در سامانۀ بازیابیِ اطلاعات، یکسانی فراوانی تعداد مدارک بازیابی‌شده در ریخت‌های مختلف یک واژه را نشان از رفع آن چالش در سامانه‌های بازیابی اطلاعات قلمداد کرده‌اند. در توضیح این شیوۀ پژوهشگران نیز باید گفت کنترل شکل‌های نگارشی یک واژه در بخش‌های یک رکورد (عنوان، چکیده و واژگان کلیدی) امری ضروری است و حتی احتمال دارد فقط یک حالت نگارشی در مدرک رخ داده باشد و سامانه‌های بازیابی به‎گونه‌ای طراحی شده‌اند که قادر به بهنجارسازی شکل‌های نگارشی یک واژه باشند.

در بخش ترکیبات دستور خط فارسی مصوب فرهنگستان، 23 قاعده دربارۀ موقعیت‌های رخداد جدانویسی و پیوسته‌نویسی ذکر شده است؛ درصورتی‌که مرور پژوهش‌های پیشین نشان می‌دهد پژوهشگران بدون ذکر چگونگی و دلایل انتخاب واژگان بیان‌کنندۀ چالش پیوسته‌نویسی و جدانویسی، بعضاً با در نظرگرفتن یک یا دو مصداق‌ها (کلیدواژه‌ها) به بررسی این چالش و همچنین میزان تأثیر آن بر سامانه‌های بازیابی اطلاعات پرداخته‌اند. در صورتی‎که به‎نظر می‌رسد انتخاب مصداق‌ها برای هر قاعده می‌تواند تأثیرگذاری متفاوتی بر سامانه‌های بازیابی اطلاعات داشته باشد. تبیین این مسائل به‌‎منزلۀ شکاف‌های پژوهشی این قلمروست که سنجش آن می‌تواند سودمند باشد. پس از مرور تحلیلی‎ _ انتقادی پیشینه‌های این مقاله، نویسندگان بر این باورند که پژوهش مشابهی با پژوهش حاضر مشاهده نشد و ضرورت انجام این پژوهش، بیش از پیش احساس می‌شود.

پیشینه‌های خارجی

در خارج ایران نیز پیرامون سایر زبان‌ها و مشکلات آنها در مواجهه با محیط‌های الکترونیکی مطالعات مشابه گوناگونی انجام شده است که در ادامه به برخی از آنها اشاره می‌شود.

«ژانگ و لین»[11] (2007) در پژوهشی پیمایشی _ مقایسه‌ای ویژگی‌های پشتیبانی چندزبانه به‌وسیله موتورهای جستجو شبکه اینترنت را بررسی کردند. یافته‌های آنان نشان داد موتورهای جستجوی گوگل، EZ2Find و Onlinelink در بین بسیاری از موتورهای جستجو مجهز به ویژگی‌های پشتیبانی چندزبانه، وضعیت مطلوب‌تری دارند.

«لازارینیس»[12] (2007) در پژوهشی با رویکرد پیمایشی، قابلیت‌های جستجوی وب‌سایت‌های الکترونیکی تجاری را دربارۀ زبان‌های غیرانگلیسی (مطالعه موردی یونانی) بررسی کرد. نتایج او نشان داد موتورهای جستجوی محلی به ریخت‌شناسی سؤال‎ها (کلیدواژه‌ها) توجهی نشان نمی‌دهد که نهایت این امر به شکست جستجوی کاربر می‌انجامد.

«لواندوفسکی»[13] (2008) در پژوهش خود با رویکرد پیمایشی توانایی موتورهای جستجوی پراستفاده و اصلی از جمله گوگل، یاهو، ام اس ان[14] و اسک[15] در تشخیص و تمایز میان مدارک به زبان آلمانی از پیشینه‌هایی با زبان انگلیسی را بررسی کرد. نتایج پژوهش او نشان داد در موتورهای کاوش گوگل و ام اس ان، وقتی نتایج به زبان خاصی محدود می‌شود، کاربر با مشکلاتی روبه‎رو می‌شود، درحالی که هیچ‎یک از موتورهای کاوش در بازیابی نتایج به زبان صفحه رابط کاربر (زبان انتخابی) با مشکل مواجه نمی‌شوند. افزون بر این، نتایج او نشان داد استفاده از صفحۀ میانجی به زبان بومی در جستجو و بازیابی اطلاعات در برخی مواقع اثرگذاری بهتری دارد و همچنین راهبرد محدودیت زبانی، همیشه در بهبود جستجو تأثیرگذار نیست.

در پژوهشی دیگر «همو»[16] با رویکرد پیمایشی یک قالب کاری برای افزایش کارایی موتورهای کاوش برای متون عربی‌دار و همچنین فاقد اعراب‌گذاری از طریق روش‌های گسترش سؤال (کلیدواژه) ارائه کرد. نتایج پژوهش او نشان داد گسترش سؤال (کلیدواژه) بر بهبود جستجو و بازیابی متون عربی تأثیرگذار است و کارایی موتورهای کاوش با استفاده از ابزارهای پیشرفتۀ پردازش زبان طبیعی، افزایش می‌یابد.

مرور پژوهش‌های خارجی نیز نشان می‌دهد این پژوهش‌ها اغلب به بررسی توانمندی‎ها و ضعف‌های سامانه‌های جستجو، با هدف شناخت و ارائه راهکارهایی برای اصلاح چالش‌های زبانی پرداخته‌اند. یافته‌های حاصل از آنها نشان می‌دهد ریخت‌شناسی واژه‌ها و عبارت‌های جستجو بر بازیابی مدارک مؤثر است و ابزارهای جستجو در هنگام بازیابی نتایج بر شکل کلیدواژه‌های جستجوشده تکیه می‌کنند که این امر در نهایت می‌تواند به شکست جستجوی کاربر منتهی شود.

 روش‌شناسی پژوهش

پژوهش حاضر از نظر هدف در ردیف پژوهش‌های کاربردی و از جنبۀ طرح پژوهش از نوع تحلیل محتواست. جامعه آماری شامل مجموعه مدارک (مقاله‎های علمی _ پژوهشی و علمی _ ترویجی) ذخیره‎شده با امکان دسترسی به نسخۀ تمام‎متن آنها در پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور»[17]، پایگاه «مرکز اطلاعات علمی جهاد دانشگاهی»[18] و پایگاه «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری»[19] است. شایان‌ذکر است، این سه پایگاه اطلاعات علمیِ فارسی به‎دلیل پوشش نسبتاً جامع متون علمیِ قلمرو‌‌های موضوعی مختلف  _ که در این پژوهش دسته‌بندی قلمروهای موضوعی «سامانه ارزیابی نشریات علمی»[20] مورد استفاده قرار گرفته است و شامل قلمروهای دام‎پزشکی، علوم انسانی، فنی و مهندسی، علوم پایه، منابع طبیعی و کشاورزی، هنر و معماری است _ و همچنین، به‎دلیل دارا بودن بیشترین فراوانی در بین پایگاه‌های اطلاعات علمیِ مطالعه‎شده در پژوهش‌های قلمروِ بازیابی اطلاعات، به‎عنوان مهم‌ترین پایگاه‌های اطلاعات علمیِ فارسی تلقی و محمل انتخاب مدارک شامل مصداق‌های «کلیدواژه‌ها» (واژگان) با قابلیت‌ پیوسته‌نویسی، نزدیک‌نویسی و جدانویسی قرار گرفتند. بر این اساس، تعداد کلّ مدارک بازیابی‎شده از سه پایگاه اطلاعات علمی فارسی مورد مطالعه 29142 مدرک است که به‎عنوان جامعۀ آماری انتخاب شد.

حجم نمونه نیز با توجه به وجود سه پایگاه اطلاعات علمی فارسی مورد مطالعه و نیاز به مقایسه شش قلمروِ موضوعی و همچنین ده قاعدۀ انتخابی (از مجموع قاعده‌های گزینش‎شدۀ بخش «ترکیبات» فرهنگستان) با استفاده از روش نمونه‌گیری طبقه‌ایِ نسبتی و فرمول کوکران برای جامعه معیّن، با خطای 05/0 و از طریق فرمول
  (دلاور، 1390) تعداد 380 مدرک تعیین شد؛ اما با توجه به هدف پژوهش، لازم بود تا این تعداد مدارک به‎عنوان نمونه در سه سطح، یعنی سه پایگاه‌‌ اطلاعات علمی فارسی مورد مطالعه، شش قلمروِ‌ موضوعی و در هر قلمروِ موضوعی نیز بین قاعده‌های دهگانۀ آنها توزیع شود. بنابراین، پس از توزیع حجم نمونه در سه سطح گفته شده، تعداد مدارک در سطح سوم یعنی به ازای هر قاعده، 75/1 مدرک به‎دست می‌آمد که این مقدار به عدد 2 گرد شد. با این عمل، حجم نمونۀ نهایی به 432 مدرک افزایش یافت. بدین‎شکل، با توزیع نمونه در سه سطحِ گفته‎شده، به ازای هر پایگاه‌ اطلاعات علمی فارسی مورد مطالعه 144مدرک، به ازای هر قلمروِ ‌موضوعی 24 مدرک و به ازای هر قاعده در هر قلمروِ‌ موضوعی نیز 2 مدرک انتخاب شد.

پس از تعیین حجم نمونۀ مدارک، با مبنا قراردادن بخش ترکیبات دستور خط فارسی مصوب فرهنگستان و با همکاری و نظر استادان رشته‌های علم اطلاعات و دانش‌شناسی و زبان‎شناسی، 23 قاعدۀ بخش ترکیبات ارزیابی شد. برخی از قاعده‌ها به‎دلایلی همچون شمّی‎بودن و دشواری تشخیص آنها (قاعده‌های 3، 5، 6 و 7 از مجموعه موارد پیوسته‌نویسی الزامی و قاعده‌های 6، 14 و 15 مجموعه موارد جدانویسی الزامی) و همچنین عدم رویداد مصداق‌ها (کلیدواژه‌ها) متناسب با آنها در اصطلاح‌نامه‌ها و فرهنگ‌های تخصصی مورد استفاده یا عدم بازیابی مدرک در زمان جستجوی آنها در پایگاه‌های اطلاعات علمی فارسی مورد مطالعه (قاعده‌های 4، 5 و 8 از موارد الزامی پیوسته‌نویسی و قاعده‌های 5، 13 و 7 از موارد جدانویسی الزامی) از مجموع قاعده‌های کنار گذاشته شد. در نهایت، ده قاعده از 23 قاعده دستور خط فارسی مصوب فرهنگستان برای ساخت سیاهۀ وارسی شامل مصداق‌ها (کلیدواژه‌ها) دارای شکل نگارشی پیوسته‌نویسی و جدانویسی انتخاب شد که از این پس، قاعده‌های دهگانه خوانده می‌شود. در بین ده قاعدۀ انتخابی، مواردی که انتخاب شکل نگارشی به نویسنده واگذار شده بود، بر مبنای کتاب «فرهنگ املایی خط فارسی»[21] چاپ 1395 عمل شد. لازم به ذکر است، از بین قاعده‌های دهگانه، دو قاعدۀ 1 و 5 به‎منظور عملیاتی‌سازی سنجش آنها، به دو قاعدۀ فرعیِ مجزا تفکیک و با حروف «الف» و «ب» از هم متمایز شدند (جدول1).

جدول1. قاعده‌های دهگانۀ دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی

قاعده 1(الف)

هنگامی‌که ترکیب پردندانه شود، ترکیب جدا ] نزدیک‌نویسی[ نوشته می‌شود، مثل آب‌شستگی

قاعده 1 (ب)

هنگامی‌که ترکیب طولانی شود، ترکیب جدا ] نزدیک‌نویسی[ نوشته می‌شود، مثل سوراخ‌کاری

قاعده 2

رسیدن حروف مشابه یا یکسان و هم‌مخرج به هم موجب جدانویسی ] نزدیک‌نویسی[ می‌شود، مثل آب‌بند، سیم‌پیچ

قاعده 3

وقتی جزء دوم با الف آغاز شود، موجب جدانویسی ] نزدیک‌نویسی[ می‌شود، مانند کم‌احساس، هم‌اسم

قاعده 4

وقتی جزء دوم با «آ» آغاز شود و تک‌هجایی باشد، موجب جدانویسی  ] نزدیک‌نویسی[ می‌شود و درصورتی‌که جزء دوم بیش از یک هجا داشته باشد، از قاعده خاصی پیروی نمی‌کند و گاهی جدا و گاهی پیوسته نوشته می‌شود که در این حالت شکل ارجح واژه بر اساس فرهنگ املایی خط فارسی انتخاب می‌شود، مثل بتن‌آرمه، زبان‌آموزی

قاعده 5 (الف)

ختم‌شدن واژه اول در ترکیب به حروف پیوند ناپذیر موجب جدانویسی  ] نزدیک‌نویسی[ می‌شود، مثل کشتارگاه.

قاعده 5 (ب)

ختم شدن واژه اول در ترکیب به «های» غیرملفوظ موجب جدانویسی ] نزدیک‌نویسی[ می‌شود، مثل قفسه‌سینه.

قاعده 6

ترکیب‌های اضافی (موصوف و صفت/ مضاف و مضاف‌الیه) جدا نوشته می‌شوند، مثل جسم‌زرد

قاعده 7

وقتی یک جزء واژه مرکب عدد باشد، موجب جدانویسی] نزدیک‌نویسی[ ترکیب می‌شود، مثل هشت‌بهشت

قاعده 8

واژگان مرکبی که از ترکیب با پیشوند ساخته می‌شود، همیشه جدا ] نزدیک‌نویسی[ نوشته می‌شود، مگر مرکب‌هایی که با پیشوند‌های «به»، «بی» و «هم» با رعایت استثناهایی- صفحات 22-23 دستور خط فارسی- ساخته می‌شود. در این حالت نیز در صورت مواجهه با واژگانی که اختیار به نویسنده واگذار شده باشد، از فرهنگ املایی خط فارسی استفاده می‌شود، مثل همبندی، بی‌حسی موضعی

قاعده 9

واژگان مرکبی که از ترکیب با پسوند ساخته می‌شود، همیشه پیوسته نوشته می‌شود، مگر هنگامی‌که مطابق با قاعده 2، 4 و 7 ساخته شوند، مثل نوسانگر، شالیزار

قاعده 10

یک جزء واژه مرکب صفت فاعلی یا مفعولی باشد، جدا ] نزدیک‌نویسی[ نوشته می‌شود، مثل اجل‌رسیده، تنظیم‌کننده

 

در مرحلۀ بعد لازم بود به تفکیک قاعده‌های دهگانه، مصداق‌ها (واژگان یا کلیدواژه‌های انتخابی) مورد نیاز هر قاعده انتخاب شود. بدین‎منظور، از اصطلاح‌نامه‌های تخصصی و در صورت نبود اصطلاح‌نامه در هر یک از قلمرو‌های موضوعی (تنها در دام‎پزشکی) از فرهنگ تخصصی آن قلمرو استفاده شد. پس از یافتن هر یک از اصطلاحات یا واژگان مورد نظر (به‎عنوان مصداق موردنظر)،‌ اصطلاح یا واژه در هر سه پایگاه‌ اطلاعات علمی فارسی جستجو ‌شد و در صورت بازیابی بیش از یک مدرک به ازای هر مصداق و همچنین رویداد آن در هر سه پایگاه اطلاعات علمی فارسی، اصطلاح یا لغت برای قاعده مورد نظر انتخاب ‌شد. در نهایت، مصداق‌های انتخابی برای هر قاعده از قاعده‌های دهگانه به تفکیک در یک سیاهۀ وارسی قرار گرفت. لازم به ذکر است، در این مرحله به‎دلیل حجیم‎بودن اصطلاح‌نامه‌ها و فرهنگ‌ تخصصی، عملاً مرور تمامی صفحات آنها امکان‌پذیر نبود. بدین‎منظور، ابتدا اصطلاح‌نامه‌ها و فرهنگ تخصصی بر حسب حروف الفبا و مقدار حجم لغات هر حرف الفبا، به سه سطح بزرگ، متوسط و کوتاه تقسیم شد. سپس، از هر یک از سطوح تعیین‎شده به روش تصادفی ساده، یک حرف الفبا انتخاب و آنگاه برای هر قلمروِ موضوعی، فرایند جستجو برای مصداق‌های موردنظر برحسب قاعده‌های دهگانه انجام ‌شد.

در گام بعد، با مدّنظر قرار دادن سیاهۀ وارسی تهیه‎شده در مرحلۀ قبل، به هر یک از پایگاه‌های اطلاعاتی مورد مطالعه مراجعه شد و مصداق‌ها با تمام شکل‌‌های نگارشی در کادر جستجوی ساده سه پایگاه اطلاعات علمی فارسی مورد مطالعه جستجو گردید[22]. شایان‌ذکر است، به‎دلیل عدم پشتیبانی و شناسایی پایگاه‌های اطلاعاتی مورد مطالعه (به‎جز پایگاه اطلاعات علمی فارسی «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری») از حالت نیم‌فاصله در هنگام جستجو و در نتیجه عدم بازیابی مدارک دارای شکل نگارشی نزدیک‌نویسی، این حالت تنها در این بخش از پژوهش از فهرست مجموع حالت‌های مورد مطالعه کنار گذاشته شد.

 در مرحلۀ پیشین، از بین مجموع مدارک بازیابی‎شده، به‎ازای هر یک از حالت‌های نگارشی (پیوسته‌نویسی یا جدانویسی)، تعداد یک مدرک و در صورتی‎که هیچ مدرکی با حالت نگارشی موردنظر در پایگاه اطلاعات علمی فارسی بازیابی نمی‌شد، هر دو مدرک از حالت نگارشی دیگر به‎عنوان نمونه انتخاب می‌شد (در مجموع دو مدرک برای هر قاعده از هر قلمرو موضوعی). چنان‎که می‌دانید، در روش نمونه‌گیری تصادفی ساده، احتمال و شانس انتخاب‎شدن برای همۀ اعضای جامعه برابر و مستقل از یکدیگر است. این نوع نمونه‌گیری را به سه شیوه می‌توان انجام داد: الف) قرعه‌کشی ب) جدول اعداد تصادفی ج) استفاده از نرم‌افزارهای آماری (ولیخانی و سرافراز، 1394). از این‎رو، پژوهشگر برای انتخاب دو مدرک از بین مجموع مدارک بازیابی‌شده برای هر مصداق، از روش نمونه‌گیری تصادفی ساده و از نرم‌افزار تولید اعداد تصادفی[23] استفاده کرد. شایان ذکر است، بدین شکل فرایند انتخاب و گردآوری 432 مدرک موردنیاز به‎عنوان حجم نمونه صورت پذیرفت.

در گام آخر، به‎منظور سنجش و ثبت قابلیت پایگاه‌های اطلاعات علمی فارسی از نظر بازیابی مدارک با هر یک از شکل‌های نگارشی مصداق‌ها اعم از پیوسته‌نویسی یا جدانویسی، ابتدا به هر یک از 432 مدرک انتخاب‎شده به‎عنوان نمونه در پایگاه‌های اطلاعات علمی فارسی مراجعه شد و فرایند تحلیل محتوا در عنوان، چکیده و واژگان کلیدی هر مدرک انجام و پس از اطمینان از عدم رخداد همزمان چند شکل نگارشی مصداق در بخش چکیده، عنوان و واژگان کلیدی پایگاه اطلاعات علمی فارسی موردنظر، مدارکی که با هر دو حالت نگارشی مصداق‎ها اعم از پیوسته‌نویسی (سرهم‌نویسی) و جدانویسی (فاصله کامل) قابل بازیابی بود، این ویژگی به‎عنوان حالت «گسترش‌پذیری جستجو» برای پایگاه اطلاعات علمی فارسی موردنظر در نظر گرفته می‌شد؛ در غیر این صورت، به‎عنوان حالت «گسترش‌ناپذیری جستجو» ثبت گردید.

یافته‌ها

چنان‎که جدول2 نشان می‌دهد، در مجموع پایگاه‌های مورد بررسی تنها 23 مدرک (3/5%) با حالت گسترش‌پذیری جستجو بازیابی ‌شدند. در مقابل، 409 مدرک (7/%94) با حالت گسترش‌ناپذیری جستجو بازیابی شدند.

 

 

 

 

جدول 2. قابلیت پایگاه‌های اطلاعات علمی فارسی از نظر گسترش جستجو و بازیابی مدارک به صورت پیوسته‌نویسی و جدانویسی

پایگاه

گسترش‌ جستجو

کل

X2                                   (df=2)               P

p

گسترش‌

پذیری جستجو

گسترش‌ ناپذیری

جستجو

 

SID

فراوانی مشاهده‌شده

0

144

144

 

 

 

767/12**    0 002/

 

 

 

 

 

 

 

002/0

 

 

 

 

فراوانی مورد انتظار

7/7

3/136

144

درصد در درون پایگاه اطلاعات علمی فارسی

0

100

100

MAGIRAN

فراوانی مشاهده‌شده

13

131

144

فراوانی مورد انتظار

7/7

3/136

144

درصد در درون پایگاه اطلاعات علمی فارسی

9

91

100

RICEST

فراوانی مشاهده‌شده

10

134

144

فراوانی مورد انتظار

7/7

3/136

144

درصد در درون پایگاه اطلاعات علمی فارسی

9/6

1/93

100

کل

فراوانی مشاهده‌شده

23

409

432

 

 

فراوانی مورد انتظار

23

409

432

درصد در درون پایگاه‌های اطلاعاتی

3/5

7/94

100

*P<       05/0**P<01/0

چنان‎که می‌دانید، آزمون مجذور خی را می‌توان هم برای رابطه و هم تفاوت بین متغیرهای اسمی یا مقوله‌هایی به‎کار برد که دو یا بیش از دو ارزش داشته باشند. این نوع آزمون تنها می‌تواند در رابطه با تعداد یا فراوانی‌ها به‎کار رود (دلاور، 1390). از این‎رو، برای بررسی معناداری تفاوت میان فراوانی در حالت گسترش‌پذیری جستجو و گسترش‌ناپذیری جستجوی مصداق‌ها مدارک از آزمون مجذور خی استفاده شد. با توجه به مقدار مجذور خی به‎دست‎آمده (767/12,x2=002/0P=)، تفاوت معناداری میان پایگاه‌های اطلاعات علمی فارسی در دو دستة گسترش‌پذیری جستجو و گسترش‌ناپذیری جستجوی مصداق‌های مدارک وجود داشت. پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» بیشترین فراوانی را در گسترش‌ناپذیری جستجوی مصداق‌های مدارک و همچنین کمترین فراوانی را در گسترش‌پذیری جستجوی مصداق‌های مدارک به خود اختصاص داده بود؛ و در مقابل، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» بیشترین فراوانی را در گسترش‌پذیری جستجوی مصداق‌های مدارک و کمترین فراوانی را در گسترش‌ناپذیری جستجوی مصداق‌های مدارک داشت.

علاوه بر یافتۀ بالا، نتایج به‎دست‎آمده از توزیع فراوانی قابلیت پایگاه‌های اطلاعات علمی فارسی از نظر گسترش جستجو و بازیابی مدارک به‎صورت پیوسته‌نویسی و جدانویسی بر حسب قاعده‌های دهگانۀ فرهنگستان زبان و ادب فارسی نشان داد، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» در مصداق‌های مربوط به قاعده‌های1، 2، 5 و 9 قادر است با هر یک از شکل‌های نگارشی مصداق‌ها‌ اعم از پیوسته‌نویسی و جدانویسی مدارک مورد نظر را دوباره بازیابی کند؛ بدین‎شکل که پایگاه اطلاعات علمی فارسی مذکور از کلّ 13 مدرک به‎دست‎آمده با حالت گسترش‌پذیری جستجو، در 9 مدرک شامل شکل نگارشی جدانویسی مصداق، قادر به بازیابی مجدد این مدارک حتی با حالت جستجوی پیوسته‌نویسی مصداق است (گسترش پیوسته‌نویسی به جدانویسی) و در 4 مدرک دیگر که دارای شکل نگارشی پیوسته‌نویسی از مصداق‌ها بود، پایگاه اطلاعات علمی فارسی قادر به بازیابی دوبارۀ مورد نظر حتی با حالت جستجوی جدانویسی مصداق‌ها بود (گسترش جدانویسی به پیوسته‌نویسی).

در مقابل، پایگاه اطلاعات علمی فارسی «مرکز منطقه‌ای اطلاع‌رسانی علوم و فناوری» در قاعده‌های بیشتری (1، 2، 3، 8، 9 و 10)، از نظر توانایی بازیابی مدارک با هر یک از شکل‌های نگارشی در دامنه‌‌ای محدودتر نسبت به پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» جای داشت؛ بدین‎ترتیب که در کلّ مدارک به‎دست آمده با حالت گسترش‌پذیری جستجو (10 مدرک) با بررسی عنوان، چکیده و واژگان کلیدی در هر ده مدرک، فقط شکل نزدیک‌نویسی مصداق‌ها روی داده بود و پایگاه اطلاعات علمی فارسی مذکور در صورت جستجوی مصداق‌ها با حالت جدانویسی، علاوه بر بازیابی مدارک شامل شکل نگارشی جدانویسی، مدارک دارای شکل نگارشی نزدیک‌نویسی را هم بازیابی می‌کرد. شایان‌ذکر است، پایگاه اطلاعات علمی فارسی «مرکز اطلاعات علمی جهاد دانشگاهی» به دلیل فراوانی صفر برای گسترش‌پذیری جستجو و در نتیجه ناتوانی در بازیابی مدارک با هر یک از شکل‌های نگارشی مصداق‌ها، در این قسمت گزارش نشده است (جدول3).

جدول 3. قابلیت پایگاه‌های اطلاعات علمی در گسترش‌پذیری جستجو به تفکیک قاعده‌های دهگانه

پایگاه‌های اطلاعاتی

شماره قاعده                          قابلیت پایگاه

فراوانی

درصد

MAGIRAN

1 الف

 

گسترش پیوسته به جدا

2

4/15

1 ب

 

گسترش پیوسته به جدا

2

4/15

2

 

گسترش پیوسته به جدا

3

23

5 الف

 

گسترش جدا به پیوسته

2

4/15

9

 

گسترش پیوسته به جدا

2

4/15

 

گسترش جدا به پیوسته

2

4/15

کل

 

 

 

13

100

RICEST

1 الف

 

گسترش جدا به نیم‌فاصله

2

20

2

 

گسترش جدا به نیم‌فاصله

1

10

3

 

گسترش جدا به نیم‌فاصله

2

20

8

 

گسترش جدا به نیم‌فاصله

2

20

9

 

گسترش جدا به نیم‌فاصله

2

20

10

 

گسترش جدا به نیم‌فاصله

1

10

کل

 

 

 

10

100

 

علاوه بر یافتۀ بالا، مقایسۀ شکل نگارشی مصداق‌ها در بخش عنوان، چکیده و واژگان کلیدی نسخۀ پی.دی.اف[24] هر مدرک با اطلاعات ارائه‎شده از همان مدرک در پایگاه‌های اطلاعات علمی فارسی نشان داد، شکل نگارشی بخش قابل توجهی از مصداق‌های مدارک تغییر کرده است (جدول4).

جدول 4. توزیع فراوانی تغییرات شکل نگارشی مصداق‌ها (کلیدواژه‌های انتخابی) از مدرک به پایگاه‌های اطلاعات علمی فارسی

پایگاه                         تغییرات شکل نگارشی مصداق (از مدرک به پایگاه اطلاعاتی)

فراوانی

درصد

SID

 

پیوسته به جدا

1

7/0

نیم‌فاصله به پیوسته

1

7/0

پیوسته و جدا به جدا

1

7/0

پیوسته، نیم‌فاصله و جدا به پیوسته و جدا

1

7/0

نیم‌فاصله به پیوسته، نیم‌فاصله و جدا

2

4/1

نیم‌فاصله به نیم‌فاصله و جدا

2

4/1

پیوسته و جدا به پیوسته و جدا

4

8/2

نیم‌فاصله و جدا به جدا

7

9/4

پیوسته به پیوسته

33

9/22

نیم‌فاصله به جدا

41

5/28

جدا به جدا

51

4/35

کل

144

100

MAGIRAN

 

نیم‌فاصله و جدا به پیوسته و جدا

1

7/0

پیوسته به جدا

2

4/1

نیم‌فاصله و جدا به جدا

2

4/1

پیوسته به پیوسته و جدا

4

8/2

پیوسته و جدا به پیوسته و جدا

7

9/4

نیم‌فاصله به پیوسته

8

6/5

نیم‌فاصله به پیوسته و جدا

8

6/5

پیوسته به پیوسته

34

6/23

نیم‌فاصله به جدا

34

6/23

جدا به جدا

44

6/30

کل

144

100

RICEST

 

نیم‌فاصله به نیم‌فاصله و پیوسته

1

7/0

پیوسته و نیم‌فاصله به جدا

1

7/0

نیم‌فاصله به نیم‌فاصله و جدا

1

7/0

پیوسته به جدا

4

8/2

نیم‌فاصله و جدا به جدا

4

8/2

نیم‌فاصله به پیوسته، نیم‌فاصله و جدا

4

8/2

پیوسته و جدا به پیوسته و جدا

5

5/3

نیم‌فاصله به پیوسته و جدا

6

2/4

نیم‌فاصله به پیوسته

9

3/6

نیم‌فاصله به نیم‌فاصله

9

3/6

نیم‌فاصله به جدا

24

7/16

پیوسته به پیوسته

35

3/24

جدا به جدا

41

5/28

کل

144

100

 

با توجه به جدول4 در پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» از مجموع 144 مدرک، در 88 مدرک شکل نگارشی مصداق‌ها تغییری نکرده بود؛ اما در 56 مدرک دیگر، شکل نگارشی مصداق‌ها تغییر داشت. این وضعیت تقریباً با همین نسبت در پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» نیز مشاهده می‌شود؛ بدین ترتیب که در 85 مدرک شکل نگارشی مصداق‌ها بدون تغییر، اما در 59 مدرک دیگر شکل نگارشی مصداق‌ها تغییر یافته بود. پایگاه اطلاعات علمی فارسی «مرکز منطقه‌ای اطلاع‎رسانی علوم و فناوری» متفاوت با دو پایگاه اطلاعات علمی فارسی دیگر بود؛ به‎گونه‌ای که در 90 مدرک، تغییری در شکل نگارشی مصداق‌ها روی نداده بود و تنها در 54 مدرک شکل نگارشی مصداق‌ها بین نسخۀ پی.دی. اف مدرک با پایگاه اطلاعات علمی فارسی متفاوت بود.

بحث و نتیجه‌گیری

به‎طور خلاصه، یافته‌های پژوهش حاضر نشان داد پایگاه‌های اطلاعات علمی فارسی در هنگام جستجو از شکل نگارشی نزدیک‌نویسی و در نتیجه بازیابی مدارک دارای صرفاً شکل نگارشی نزدیک‌نویسی پشتیبانی نمی‌کنند؛ بدین‎ترتیب که هنگام جستجو با این حالت نگارشی در پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» همان مدارک دارای شکل نگارشی جدانویسی بازیابی می‌شوند و مدارک دارای صرفاً شکل نگارشی نزدیک‌نویسی بازیابی نمی‌شدند. در پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی»، علاوه بر بازیابی مدارک دارای شکل نگارشی جدانویسی، مدارک دارای یکی از اجزای مصداق‌ها (کلیدواژه‌ها) هم بازیابی می‌‌‌‌شدند و این امر موجب ریزش کاذب[25] قابل توجه در مدارک بازیابی‎شده می‌گردید. این یافته با یافته‌های پژوهش‌ «گل‌تاجی و بذرگر» (1389) همسو نیست. در این پژوهش، پژوهشگران یکسان بودن تعداد مدارک بازیابی‎شده با حالت‌های جدانویسی و نزدیک‌نویسی را به بهنجارسازی شکل‌ نگارشی از سوی پایگاه‌های اطلاعاتی نسبت داده‌اند؛ درحالی‌که یافته‌های پژوهش حاضر نشان می‌دهد از دلایل احتمالی یکسان‎بودن تعداد کلّ مدارک بازیابی‎شده، می‌تواند به عدم پشتیبانی پایگاه اطلاعات علمی فارسی از شکل نگارشی نزدیک‌نویسی و یا به رخداد همزمان چند شکل نگارشی مصداق در بخش‌های مختلف یک مدرک اعم از عنوان، چکیده و واژگان کلیدی بازگردد.

علاوه‌ بر این، نتایج نشان داد میان قابلیت پایگاه‌های اطلاعات علمی فارسی از نظر بازیابی مدارک با هر یک از شکل‌های نگارشی اعم از پیوسته‌نویسی و جدانویسی تفاوت وجود دارد. بدین‎ترتیب که پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» با بیشترین فراوانی در گسترش‌پذیری جستجو نسبت به سایر پایگاه‌های اطلاعات علمی فارسی از عملکرد مطلوب‌تری برخوردار است؛ به‎گونه‌ای که در مدارک به‎دست‎آمده با حالت گسترش‌پذیری جستجو در این پایگاه اطلاعات علمی فارسی، با جستجوی مصداق‌های آنها با هر یک از حالت‌های جدانویسی یا پیوسته‌نویسی، مدارک مورد نظر دوباره قابل بازیابی است. در مقابل، پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» با کمترین فراوانی در گسترش‌پذیری جستجوی مصداق‌های مدارک نسبت به دو پایگاه اطلاعات علمی فارسی دیگر، از وضعیت نامطلوبی برخوردار بود؛ بدین‎ترتیب که با اعمال هر یک از تغییرها در شکل نگارشی به هنگام جستجو، مدارک موردنظر بازیابی نمی‌شد و تنها جستجوی مصداق‌ها با همان حالت ثبت‎شده در مدارک به بازیابی دوبارۀ آنها می‌انجامید.

از این‎رو، نتایج کلیِ به‎دست‎آمده این بخش از پژوهش با یافته‌های پژوهش‌های «مرتضایی» (1381)، «عبدالهی و جوکار» ‏(۱۳۸۸)، «گل‌تاجی و بذرگر» ‏(۱۳۸۹)، «آخشیک و فتاحی» ‏(۱۳۹۱)، «هماوندی و دیگران» ‏(۱۳۹7) هم‌راستاست؛ بدین‎شکل که نتایج این بخش از پژوهش مهر تأییدی است بر یافته‌های «مرتضایی» (1381) مبنی بر اینکه استاندارد نبودن شکل نوشتاری واژگان در عدم مطلوبیت و جامعیت نتایج جستجو تأثیر می‌گذارد. یافته‌های پژوهش «عبدالهی و جوکار» (1388) نیز نشان داد بین شکل نوشتاری واژه و ابزار جستجو رابطه وجود دارد؛ بدین‎معنا که به‎کار بردن یک شکل خاص از کلیدواژه و استفاده از یک ابزار جستجوی خاص، بر بازیابی اطلاعات تأثیرگذار خواهد بود. به‎عنوان مثال، جستجوی شکل پیوسته‌نویسی مصداق «سوراخکاری» در پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» می‌تواند به بازیابی مدارکی بینجامد که تنها شکل پیوسته‌نویسی مصداق در آن روی داده است و در مقابل، در پایگاه‌های اطلاعاتی دیگر همچون «بانک اطلاعات نشریات کشور» جستجو با همان شکل پیوسته مصداق «سوراخکاری» می‌تواند به بازیابی مدارک دارای دو شکل نگارشی جدا و پیوسته منتهی شود. در کنار یافته‌های این دو پژوهش، یافته‌های «گل‌تاجی و بذرگر» (1389)، «آخشیک و فتاحی» (1391)، «هماوندی و دیگران» (1397) نیز به‎طور کلی نشان داد پایگاه‌های اطلاعات علمی فارسی به مسائل ریخت‌شناسی زبان فارسی از جمله پیوسته‌نویسی و جدانویسی توجه چندانی نشان نداده‌اند.

افزون بر موارد بالا، نتایج به‎دست‎آمده از توزیع فراوانی قابلیت پایگاه‌های اطلاعات علمی فارسی از نظر گسترش جستجو و بازیابی مدارک به صورت پیوسته‌نویسی و جدانویسی بر حسب قاعده‌های دهگانه فرهنگستان زبان و ادب فارسی نشان داد، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» قادر است برخی مصداق‌های انتخابی مربوط به قاعده‌های 1، 2، 5 و 9 با هر یک از شکل‌های نگارشی مصداق‌ها‌ اعم از پیوسته‌نویسی و جدانویسی مدارک مورد نظر را بازیابی کند. به‎عنوان مثال، در قاعدۀ 9 که مربوط به ترکیب‌های دارای پسوند است، با جستجوی مصداق‌ها «حسگر» و «نوسانگر»، پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» قادر است با هر دو حالت جدانویسی و پیوسته‌نویسی، مدارک موردنظر را بدون توجه به شکل نگارشی دوباره بازیابی کند. از دلایل این امر می‌تواند این نکته باشد که پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» احتمالاً از روش‌های خاصی جهت بهنجارسازی شکل‌های مختلف یک مصداق در برخی قاعده‌های نگارشی استفاده می‌کند[26].

در مقابل، پایگاه اطلاعات علمی فارسی «مرکز منطقه‌ای اطلاع رسانی علوم و فناوری» در قاعده‌های بیشتری (1، 2، 3، 8، 9 و 10)، ولی از نظر توانایی بازیابی مدارک با هر یک از شکل‌های نگارشی، در دامنه‌‌ای محدودتر نسبت به پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» جای داشت؛ بدین‎ترتیب که در صورت جستجوی مصداق‌ها با حالت جدانویسی در پایگاه اطلاعات علمی فارسی مذکور، علاوه بر بازیابی مدارک شامل شکل نگارشی جدانویسی از مصداق به بازیابی مدارک دارای شکل نگارشی نزدیک‌نویسی مصداق نیز می‌انجامید. به‎عنوان مثال، در قاعده 1 که مربوط به جدانویسی ترکیب‌های طولانی و پردندانه است، با جستجوی شکل جدانویسی مصداق «آب شستگی»، پایگاه اطلاعات علمی فارسی مذکور قادر بود، علاوه بر بازیابی مدارک دارای آن شکل، مدارک دارای شکل نزدیک‌نویسی مصداق (آب‌شستگی) را هم بازیابی نماید. این نتایج با یافته‌های به‎دست آمده از پژوهش «آخشیک و فتاحی» (1391) مغایرت دارد. نتایج پژوهش آنان نشان داد پایگاه اطلاعات علمی فارسی «مرکز منطقه‌ای اطلاع رسانی علوم و فناوری» به ویژگی‌های پیوسته‌نویسی و جدانویسی توجه‌ نشان نداده است و تنها حالت ثبت‎شدۀ عنوان مدارک به بازیابی دوبارۀ آن می‌انجامد، درحالی‌که یافتۀ پژوهش حاضر نشان داد پایگاه اطلاعات علمی فارسی مورد نظر در مواردی که مدرک ذخیره‎شده در پایگاه اطلاعات علمی فارسی دارای شکل نگارشی نزدیک‌نویسی از مصداق (واژه یا کلیدواژه انتخابی) باشد، در صورت جستجوی مصداق مورد نظر با شکل نگارشی جدانویسی، پایگاه  همچنان قادر به بازیابی مدرک مورد نظر است. با وجود این، در ارتباط با رویکرد پایگاه «مرکز منطقه‌ای اطلاع رسانی علوم و فناوری» در بهنجارسازی حالت‌های نگارشی یک مصداق می‌توان گفت از آنجاکه یکی از مشکلات مهمّ خط فارسی در باب واژگان مرکب، مسئله «مشخص نبودن مرز دقیق واژگان مرکب» است ‏(مرتضایی، ۱۳۸۰؛ ‫رمضانی، ۱۳۸۶؛ ‫آخشیک و فتاحی، ۱۳۹۱)، این راهکار پایگاه اطلاعات علمی فارسی بالا ضمن افزایش جامعیت نتایج بازیابی‎شده می‌تواند سبب همارایی نادرست واژگان شده و در نتیجه به ریزش کاذب در مدارک بازیابی‎شده منتهی شود. نتایج به‎دست‎آمده از مقایسۀ شکل نگارشی مصداق‌ها در عنوان، چکیده و واژگان کلیدی نسخه پی.دی. اف مدارک با اطلاعات ارائه‎شده از همان مدارک در پایگاه‌های اطلاعات علمی فارسی نیز نشان داد، شکل نگارشی بخش قابل توجهی از مصداق‌های مدارک تغییر یافته است؛ بدین‎ترتیب که در دو پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» و پایگاه اطلاعات علمی «مرکز اطلاعات علمی جهاد دانشگاهی» از مجموع 144 مدرک برای هر پایگاه اطلاعات علمی فارسی، به ترتیب شکل نگارشی 56 و 59 مصداق تغییر یافته است و بیشترین تغییرات و عدم یکدستی نیز مربوط به مدارک دارای شکل نگارشی نزدیک‌نویسی است که احتمالاً در زمان درون‌برد[27] به درون پایگاه اطلاعات علمی فارسی به شکل نگارشی جدا یا پیوسته تغییر یافته است و در سایر تغییرات نگارشی که از فراوانی کمتری برخوردار است، شکل نگارشی مصداق‌ها از حالت نگارشی «پیوسته به جدا» تغییر یافته است.

در پایگاه اطلاعات علمی فارسی «مرکز منطقه‌ای اطلاع‎رسانی علوم و فناوری» وضعیت کمی متفاوت‌ بود و نسبت به دو پایگاه اطلاعات علمی فارسی دیگر پراکندگی و بی‌نظمی بیشتری در ناهمسانی شیوۀ نگارشی مصداق‌ها بین فایل پی.دی. اف مدارک و پایگاه اطلاعات علمی فارسی مشاهده شد؛ ‌اما مشابه دو پایگاه اطلاعات علمی فارسی دیگر، بیشتر این تغییرات مربوط به مدارک دارای شکل نگارشی نزدیک‌نویسی بود که در پایگاه اطلاعات علمی فارسی عمدتاً به شکل نگارشی جدا یا پیوسته تغییر یافته بود. بنابراین، با توجه به اطلاعات و یافته‌های به‎دست‎آمده از این بخش از پژوهش می‌توان گفت آنچه از یک مدرک جهت جستجو و بازیابی مدارک در پایگاه‌های اطلاعات علمی فارسی قرار داده می‌شود، رفتار اولیۀ نگارندۀ مدارک نیست. این تغییرها و عدم یکدستی در شکل نگارشی مصداق‌ها بین مدارک (عنوان، چکیده و واژگان کلیدی) و همان اطلاعات در پایگاه اطلاعات علمی فارسی، به چند دلیل احتمالی می‌تواند روی ‌داده باشد که توضیح آن در ادامه می‌آید.

مقاله‌های مجله‎های علمی عمدتاً به شکل نسخه ورد[28] و پی‌.دی. اف در اختیار پایگاه‌های اطلاعات علمی فارسی قرار می‌گیرد و نمایه‌سازان پایگاه‌های اطلاعاتی نیز به شکل متداول (کپی و درج[29])، بخش عنوان، چکیده و واژگان کلیدی، هر مقاله را به درون نرم‌افزار مدیریت محتوای پایگاه‌های اطلاعاتی وارد می‌کنند‌‌. این شیوۀ ورود اطلاعات، در صورت عدم پشتیبانی و شناسایی شکل نگارشی نزدیک‌نویسی، می‌تواند از دلایل احتمالی بروز خطا و در نتیجه تبدیل‎شدن شکل نزدیک‌نویسی عمدۀ مصداق‌ها به حالت جدانویسی باشد. علاوه‌ بر این، از آنجاکه بخش‌های چکیده، عنوان و واژگان کلیدی مقاله‎های فاقد فایل ورد، توسط گروه تایپیست هر پایگاه اطلاعات علمی فارسی تایپ می‌شود، از دیگر دلایل احتمالی تفاوت و عدم یکدستی شکل نگارشی مصداق‌ها، همچون تغییر شکل نگارشی مصداق‌ها از حالت «جدا به پیوسته» یا «پیوسته به جدا» بین نسخه پی.دی. اف مدرک و پایگاه اطلاعات علمی فارسی، می‌تواند ناشی از این مسئله باشد. علاوه ‌بر این، در پایگاه اطلاعات علمی فارسی «مرکز منطقه‌ای اطلاع رسانی علوم و فناوری»، عامل احتمالی دیگری در ایجاد این ناهماهنگی در شکل نگارشی مصداق‌ها دخیل است؛ پایگاه اطلاعات علمی فارسی مذکور برای بخش واژگان کلیدی تعداد معینی کلیدواژه در نظر گرفته است و در صورت نبود کلیدواژه یا کم‎بودن آن از حدّ تعیین‎شده، نمایه‌سازان پایگاه اطلاعات علمی فارسی مذکور، تعدادی کلیدواژۀ جدید به بخش کلیدواژه‌ها اضافه می‌کنند. این مسئله نیز می‌تواند از دیگر دلایل احتمالی تفاوت و ناهماهنگی شکل نگارشی مصداق‌ها بین نسخه پی.دی. اف مدارک و پایگاه اطلاعات علمی فارسی باشد.

به‎طور خلاصه، بنا بر یافته‌ها و مطالعه‌های پیشین می‌توان این‌گونه جمع‌بندی کرد که هرچند دو پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» و «مرکز منطقه‌ای اطلاع رسانی علوم و فناوری» در برخی مصداق‌ها مربوط به قاعده‌های دهگانه به مسئله پیوسته‌نویسی و جدانویسی توجه نشان داده‌اند و در نتیجه قادر به بازیابی مدارک با دیگر شکل‌‌های نگارشی مصداق‌ها‌ست؛ اما با توجه به اینکه تنها 23 مدرک معادل 3/5% از مدارک در هنگام جستجو با هر یک از شکل‌های نگارشی قابل بازیابی است و در مقابل 409 مدرک دیگر معادل 7/94%، تنها با همان حالت ثبت شده مصداق‌ها مدارک قابل بازیابی است، می‌توان نتیجه گرفت پایگاه‌های اطلاعات علمی فارسی چالش‌های پیوسته‌نویسی و جدانویسی را بهمنظور بهبود جامعیت نتایج جستجو چندان مورد توجه قرار نداده‌اند. این بی‌توجهی در کنار تغییرهای شکل نگارشی واژگان در زمان ورود اطلاعات مدارک (عنوان، چکیده و واژگان کلیدی) به درون پایگاه‌های اطلاعاتی علمی فارسی، می‌تواند نایکدستی ‌در شکل نگارشی مصداق‌های مدارک را تشدید کند. در نهایت، کاربران بالقوۀ این قبیل پایگاه‌های اطلاعاتی در صورت جستجو با یک شکل نگارشی، از دستیابی جامع به مدارک مورد نیازشان بازمی‌مانند.

پیشنهادهای پژوهش

پیشنهادهای کاربردی

با توجه به نتایج به‎دست‎آمده از پژوهش حاضر، پیشنهادهای زیر می‌تواند در جهت بهبود یا رفع چالش‌های پیش روی پایگاه‌های اطلاعات علمی فارسی، مؤثر واقع شود.

آگاه‌سازی کاربران نسبت به چالش‌های رسم‌الخط فارسی و همچنین چگونگی استفاده از پایگاه‌های اطلاعات علمی فارسی. به عنوان نمونه، «اختصاصی سازی صفحه ورود پایگاه اطلاعات علمی فارسی برای هر کاربر، جهت آگاهی از قلمرو موضوعی کاربران و سنجش گرایش نگارشی کاربران هر قلمرو موضوعی و در نتیجه اعمال آنها در فرایندهای بعدی ذخیره، پردازش و بازیابی مدارک مرتبط»، «نمایش یک پیغام یا یک فیلم آموزشی کوتاه، جهت آشنایی کاربران با راهبردهای‌ جستجو و همچنین وجود مسائل و چالش‌های رسم‌الخط فارسی تأثیرگذار بر بازیابی مدارک در پایگاه اطلاعات علمی فارسی»، «نمایش یک پیام به کاربر در صورت جستجو با یک شکل نگارشی و یا پایین بودن تعداد نتایج بازیابی شده از یک حد معین» و «آگاه‌سازی کاربران نسبت به تکرار جستجو با دیگر شکل‌های نگارشی یک واژه، با قرار دادن متنی پیش‌فرض در درون جعبه جستجو»؛

برگزاری نشست‌هایی از سوی طراحان پایگاه‌های اطلاعات علمی فارسی. پیشنهاد می‌شود طراحان پایگاه‌های اطلاعات علمی فارسی نشست‌هایی را با هدف ارائه تجربه‌ها و بهره‌مندی از دستاوردهای یکدیگر در زمینۀ رفع یا بهبود چالش‌های خط و زبان فارسی در محمل‌های الکترونیکی برگزار کنند.

رفع خطاهای احتمالی و اشتباهات انسانی در زمان درون‌برد مدارک (چکیده، عنوان و واژگان کلیدی) به درون پایگاه‌های اطلاعات علمی فارسی. پیشنهاد می‌شود طراحان و نمایه‌سازان پایگاه‌های اطلاعاتی ضمن توجه به رخداد مسئله بالا، نسبت به رفع آن اقدام کنند. همچنین، پیشنهاد می‌شود آن دست از مدارکی که بخش عنوان،‌ چکیده و واژگان کلیدی آنها از سوی گروه تایپیست پایگاه‌های اطلاعاتی حروف‌چینی مجدد می‌شود، قبل از انتقال به محیط پایگاه اطلاعات علمی فارسی از نظر غلط‌های املایی و همچنین واژگان دارای چند شکل نگارشی اعم از پیوسته‌نویسی و جدانویسی ویراستاری شوند.

به‎کارگیری روش N-gram در الگوریتم‌های نمایه‌سازی پایگاه‌های اطلاعات علمی فارسی. از آنجاکه این نوع نمایه‌سازی نیازی به اطلاعات قبلی دربارۀ مفاهیم یا زبان متن مورد نظر ندارد (دانش و دیگران، 2011) پیشنهاد می‌شود طراحان پایگاه‌های اطلاعات علمی فارسی برای نمایه‌سازی واژگان مرکب یا دارای چند شکل نگارشی نیز از این شیوۀ نمایه‌سازی استفاده کنند.

امکان‌سنجی به‎کارگیری قاعده‌های دهگانه در الگوریتم‌های نمایه‌سازی یا بازیابی مدارک. با به‎کارگیری این قاعده‌ها در سامانه‌های بازیابی می‌توان روند نمایه‌سازی خودکار را قاعده‌مندتر و به‎تبع آن روند بازیابی مدارک را بهبود بخشید. به‎عنوان مثال، با به‎کارگیری قاعده دو در الگوریتم‌های نمایه‌سازی می‌توان به مدرک شامل واژه «آب بندی» دیگر شکل‌های نگارشی آن، از جمله «آببندی» و «آب‌بندی» را هم به طور خودکار اضافه کرد و به این شکل باعث گسترش نمایه‌ در پایگاه اطلاعات علمی فارسی شد.

به‎کارگیری قابلیت «پیشنهاد واژگان جستجو» در پایگاه‌های اطلاعات علمی فارسی. این راهکار در حال حاضر توسط گوگل و همچنین برخی پایگاه‌های اطلاعاتی فارسی مورد استفاده قرار می‌گیرد و تا اندازه‌ای توانسته است به نزدیک‌تر کردن رفتار نگارشی کاربران با نگارندگان پایگاه‌های اطلاعاتی و در نتیجه بهبود جامعیت نتایج کمک کند.

پیشنهادهای پژوهشی

  • پیشنهاد می‌شود در پژوهشی مشابه با استفاده از روش استفاده‎شده در این پژوهش، به بررسی موتورهای کاوش (فارسی/ غیرفارسی) از نظر میزان توجه به چالش‌های پیوسته‌نویسی و جدانویسی در زبان و خط فارسی انجام گیرد؛
  • با توجه به تشابه و نزدیکی خط فارسی و عربی، پیشنهاد می‌شود در پژوهشی به بررسی پایگاه‌های اطلاعاتی عربی پرداخته شود. با انجام این پژوهش می‌توان به مقایسۀ میزان توجه، استفاده از راهکارهای احتمالی و همچنین الگوبرداری از پایگاه‌های اطلاعاتی عربی پرداخت.


[1].  Homographs

[2].  Danesh, Minaei and Kashefi

[3].  در عمده کتاب‎های دستور زبان فارسی از جمله کتاب «دستورخط فارسی مصوب فرهنگستان زبان و ادب فارسی» منظور از «جدانویسی» حالت نیم‌فاصله‌نویسی یا نزدیک‌نویسی است؛ این در حالی است که در این مقاله منظور از جدانویسی استفاده از فاصلۀ کامل بین اجزای یک واژه واحد است و در جایی نیز که منظور حالت نیم‌فاصله بوده، از واژه «نزدیک‌نویسی» استفاده شده است.

[4].  Normalization

[5].  در این پژوهش منظور از «مدرک/ مدارک»، مقاله یا مقالات علمی _ پژوهشی و علمی _ ترویجی نمایه شده در پایگاه‌های اطلاعات علمی فارسی مورد مطالعه است.

[6].  در کتاب دستور خط فارسی مصوب فرهنگستان «ترکیبات» شامل واژگان مرکب و مشتق است.

[7].  ISC (Islamic World Science Citation Center)

[8].  Spider

[9].  نام پیشین این پایگاه  مرکز اطلاعات و مدارک علمی ایران بوده است.

[10].  علم اطلاعات و دانش‌شناسی

[11].  Zhang & Lin

[12].  Lazarinis

[13].  Lewandowski

[14].  MSN

[15].  Ask

[16].  Hammo

[17].  Magiran; (www.magiran.com)

[18].  Scientific information Database (SID); (www.sid.ir)

[19].  Regional information center for science and technology (RICeST); (www.ricest.ac.ir)

[20].  قابل‌دسترس در: http://journals.msrt.ir

[21].  صادقی، علی‌اشرف؛ و زندی‌مقدم، زهرا. (۱۳۹5). فرهنگ املایی خط فارسی بر اساس دستور خط فارسی مصوب فرهنگستان زبان و ادب فارسی. تهران: فرهنگستان زبان و ادب فارسی . قابل دسترس در وبگاه فرهنگستان زبان و ادب فارسی:

http://persianacademy.ir/fa/X2903952.aspx

[22].  به منظور اجتناب از تغییراتی که ممکن است به علت روزآمدسازی پایگاه‌های اطلاعاتی پیش آید، فرایند جستجو طی یک روز انجام شد.

[23].  این نرم‌افزار از طریق آدرس www.spss-iran.com:// https  قابل دسترسی است.

[24].  PDF

[25].  خروجی و برونداد غیرمرتبطی که در نتیجه اجرای راهبرد کاوش در سیستم بازیابی اطلاعات تولید می‌شود. محاسبه ریزش کاذب از طریق فرمول زیر(یوسفی، 1376): مدارک بازیابی شده مرتبط _ تعداد کل مدارک بازیابی شده =ریزش کاذب.

[26].  به‌رغم مکاتبه‌ای که با تیم پشتیبانی فنی پایگاه اطلاعات علمی فارسی «بانک اطلاعات نشریات کشور» انجام شد، اما تیم مربوطه به دلیل مسائلی رقابتی با سایر پایگاه‌های اطلاعات علمی فارسی حاضر به معرفی روش‌های مورد استفاده نشدند.

[27].  Import

[28].  Word

[29].  Paste

-   آخشیک، سمیه سادات و فتاحی، رحمت الله (۱۳۹۱). «تحلیل چالش‌های پیوسته نویسی و جدا نویسی واژگان فارسی در ذخیره و بازیابی اطلاعات در پایگاه‌های اطلاعاتی»، کتابداری و اطلاع رسانی، (3)، 9-30.

-     اکبری‌نژاد، سعید (۱۳۷۶). «فاصله خالی میان واژه‌ها در ذخیره و بازیابی رایانه ای اطلاعات». مطالعات ملی کتابداری و سازماندهی اطلاعات، 1(8)، 49-56.

-     حری، عباس (۱۳۷۲).«کامپیوتر و رسم الخط فارسی». تحقیقات اطلاع رسانی و کتابخانه‌های عمومی، 1(3)، 6-11.

-     دلاور، علی (1390). احتمالات و آمار کاربردی در روانشناسی و علوم تربیتی. تهران: رشد.

-   راثی، محمد‌صابر (۱۳۸۵). «مشکلات جست و جو و بازیابی اطلاعات به زبان فارسی در اینترنت، مطالعه موردی: کاربران مرکز اینترنت دانشگاه آزاد اسلامی واحد شبستر»، مطالعات ملی کتابداری و سازماندهی اطلاعات، 1(17)، 179-196.

-   ‏‫رمضانی، مریم (۱۳۸۶). بررسی مشکلات رسم الخط فارسی در بازیابی منابع از وب از دیدگاه کاربران و ارائه راه حل برای این مشکلات (پایان‌نامه کارشناسی ارشد)، دانشکده دانشگاه الزهرا، دانشکده علوم تربیتی و روانشناسی، تهران.

-     سرمد، زهره؛ بازرگان، عباس و حجازی، الهه (1395). روش‌های تحقیق در علوم رفتاری، تهران: آگه، 1395.

-   ‏‫عبدالهی، محمدصادق و جوکار، عبدالرسول (۱۳۸۸). «چالش‌های شیوۀ نگارش زبان فارسی در بازیابی اطلاعات از موتورهای کاوش وب». مطالعات تربیتی و روان شناسی، 10(2)، 180-201.

-     ‏‫فرهنگستان زبان و ادب فارسی. (۱۳۸۹). دستور خط فارسی‌. ‏تهران‌: ‏فرهنگستان زبان و ادب فارسی، گروه نشر آثار.

-   ‏‫قدس نیا، پدرام؛ زارع بیدکی، علی محمد و یزدانی، ناصر (۱۳۸۶). «بررسی آماری تأثیر برخی از مشکلات زبان فارسی بر جامعیت نتایج جستجو در موتور‌های جستجو»، مقاله ارائه شده در سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران.

-     ‏‫کاشفی، امید؛ نصری، میترا و کنعانی، کامیار (۱۳۸۹). خطایابی املایی خودکار در زبان فارسی، (شورای عالی اطلاع‌رسانی). تهران: شورای عالی اطلاع‌رسانی، دبیرخانه.

-   ‏‫گل‌تاجی، مرضیه و بذرگر، سعیده (۱۳۸۹). بررسی مشکلات ریخت شناسی زبان فارسی در سه پایگاه اطلاعاتی مرکز منطقه ای اطلاع رسانی علوم و فناوری پژوهشگاه اطلاعات و مدارک علمی ایران و جهاد دانشگاهی. کتابداری و اطلاع رسانی، (50)، 199-222.

-     مرتضایی، لیلا (۱۳۸۰). مسائل زبان و خط فارسی در ذخیره سازی و بازیابی اطلاعات، پژوهشنامه پردازش و مدیریت اطلاعات، (1-2)، 24-29.

-     ‏‫ولیخانی، احمد و سرافراز، مهدی‌رضا (1394). روش تحقیق در روانشناسی. تهران: بینش نو.

-   ‏‫هماوندی، هدی؛ نوروزی، یعقوب و حسینی‌بهشتی، ملوک‌السادات (۱۳۹7). «بررسی مشکلات جستجو و بازیابی اطلاعات در پایگاه‌های اطلاعاتی از جنبه ویژگی‌های نگارشی زبان فارسی»، پژوهشنامه پردازش و مدیریت اطلاعات، 33(3)، 1099-1122.

-     یوسفی، احمد (1376). «ریزش کاذب در ذخیره و بازیابی اطلاعات»، پژوهشنامه پردازش و مدیریت اطلاعات، 13 (1)،1-9.

-     Danesh, M.; Minaei, B.; & Kashefi, O. (2011). Challenging Massive Information Retrieval in Persian. International Journal of Information and Education Technology, 1(3), 212.

-     Hammo, B. H. (2009). Towards enhancing retrieval effectiveness of search engines for diacritisized Arabic documents. Information Retrieval,12 (3), 300-323.

-     Lazarinis, F. (2007). At the sharp END evaluating the searching capabilities of commerce websites in a non-English language A Greek case study. Online Information Review,31 (6), 881-891.

-     Lewandowski, D. (2008). Problems with the use of Web search engines to find results in foreign languages. Online Information Review,32 (4), 668-672.

-     Zhang, J.; & Lin, S. )2007(. Multiple language supports in search engines. Online Information Review,31 (4), 532-516.