در راستای بهبود بازیابی اطّلاعات

کوکبی, مرتضی

در راستای بهبود بازیابی اطّلاعات

نوع مقاله : مقاله پژوهشی

نویسنده

مرتضی کوکبی

دانشیار گروه کتابداری دانشگاه شهید چمران اهواز

چکیده

در فهرستنویسی موضوعی، فهرستنویس برای بیان محتوای موضوعی کتاب در دست فهرستنویسی، اغلب از سرعنوان(های) موضوعی استفاده می‌کند. نحوة قرار گرفتن یک سرعنوان یکسان، در فهرستبرگه‌های متفاوت، ممکن است متفاوت باشد. یک سرعنوان ممکن است تنها سرعنوان تخصیص یافته به یک فهرستبرگه، یا با یک یا چند سرعنوان دیگر همراه باشد. در حالت دوم، بسته به رتبه سرعنوان در میان سرعنوانهای دیگر، آن سرعنوان به طور نظری، دارای وزن متفاوتی خواهد بود. امّا در تمامی این موارد، این سرعنوانها به گونه‌ای مساوی در نظر گرفته می‌شوند؛ نکته‌ای که می‌تواند بر بازیابی اطّلاعات تأثیری منفی بگذارد. نوشتة حاضر تلاش می‌کند برای حلّ این مشکل در فهرستنویسی سنّتی، نرم افزارهای کتابخانه‌ای، و مارک ایران، راه حلهایی پیشنهاد نماید.

کلیدواژه‌ها

فهرستنویسی موضوعی

ضریب وزنی

نرم افزارهای کتابخانهای

مارک ایران

مقدّمه

«وزن‌دهی»[1] که با عبارتهای دیگری مانند «ارزشگذاری وزنی اصطلاح» نیز در متون مربوط به بازیابی اطّلاعات و از جمله متون کتابداری دیده میشود، عبارت است از «ارزشگذاری اصطلاحات به کار رفته در عبارت جستجو، که طی آن بالاترین ارزش و وزن به اصطلاحاتی داده میشود که مربوط‌ترین یا مفیدترین اصطلاح برای درخواست جستجو باشند» (کینن[2]، 1378، 84). «پولیت»[3] نیز در کتاب «نظامهای ذخیره و بازیابی اطلاعات: خاستگاه، توسعه و کاربردها» در مبحث «وزندهی اصطلاح»، چنین مینویسد: «اهمیت مفروض یک اصطلاح را میتوان با فراوانی رویداد آن در پایگاه اطلاعاتی به هم پیوند زد: هر چه فراوانی اصطلاح بیشتر باشد، بین مدارک مربوط و سایر مدارک کمتر تفاوت میگذارد». (پولیت، 1380، 111). در این کتاب، حدود چهار صفحه به مفهوم وزندهی اصطلاح اختصاص داده شده است. «هارتلی»[4] و دیگران نیز در کتاب «اصول و روشهای جستجوی پیوسته»، در هنگام بحث پیرامون «بازیابی رتبهای» به وزن دهی واژهها اشاره میکنند و هدف این وزنها را «پدید آوردن امکان تطبیق خودکار پرسشها با رکوردهای مدارک از طریق محاسبة ارزش تطبیق ریاضی میدانند» (هارتلی و دیگران، 1380، 286). «حسن‌زاده» در مقالهای با عنوان «تأثیر مدلهای بازیابی اطلاعات بر میزان ربط»، دربارۀ ضریب وزنی نیز مطالبی را نوشته است (حسن زاده، 1383). «بیزا ـ ییتس و ریبرو ـ نتو»[5] در صفحات 184 تا 192 و 215 تا 217 از کتاب خود با عنوان «قلمروهای نو در بازیابی اطلاعات»، در مورد وزن دهی و وزن دهی احتمالی سخن می‌گویند (بیزا ـ ییتس و ریبرو ـ نتو، 1384). همچنین، «گراسمن و فریدر»[6] در فصل دوم کتاب خود با عنوان «بازیابی اطلاعات: الگوریتمها و روشهای اکتشافی» که به راهبردهای بازیابی اختصاص دارد، در مبحث «مدل فضای برداری»، محاسبه ضریب وزنی یک اصطلاح در یک مدرک را «ترکیبی از فراوانی اصطلاح (df) و فراوانی مدرک معکوس (idf)» تعریف میکنند (گراسمن و فریدر، 1384، 21).

امّا نکتهای که باید مورد اشاره و تأکید قرار گیرد، اینکه وزندهی در نظامهای بازیابی که از روش نمایه‌سازی پس‌همارا[7] استفاده میکنند، به کار گرفته می‌شود. نظامهای بازیابی مبتنی بر نمایه سازی پیش ـ همارا[8] نمیتوانند از وزندهی استفاده کنند. تا آن جا که نگارنده میداند، تاکنون دربارۀ استفاده از ضریب وزنی یا وزن دهی در نظامهای بازیابی مبتنی بر نمایه‌سازی پیشهمارا، مانند برگه دان سنّتی کتابخانه و نظامهای بازیابی که بر ساختار برگه‌دان متّکی هستند، حدّاقل در زبان فارسی مطلبی منتشر نشده است. آنچه در ادامه می‌آید، استفاده از ضریت وزنی را در این گونه نظامهای بازیابی اطّلاعات مورد بررسی قرار میدهد.

استفاده از ضریب وزنی در نظامهای بازیابی مبتنی بر نمایه‌سازی پیش‌ـ‌همارا

در فهرستنویسی موضوعی، فهرستنویس برای بیان محتوای موضوعی کتاب در دست فهرستنویسی، اغلب از سرعنوان(های) موضوعی استفاده می‌کند. این سرعنوان (ها) در مراحل بعدی، در بالای نسخهای از همان فهرستبرگه تایپ می‌شوند و برگة مادر را به برگة موضوع تبدیل می کنند. در برابر هر سرعنوان موضوعی که به کتاب داده می‌شود یک برگة موضوع تولید می شود و در برگه دان موضوع در ردیف الفبایی خود قرار می‌گیرد. در تمامی مراحل فهرستنویسی موضوعی، فهرستنویس تلاش می‌کند اصول متداول فهرستنویسی موضوعی، و از جمله «ویژگی» را رعایت کند. «ویژگی، یعنی به جای موضوع اعم و کلی تر باید سعی شود سرعنوان موضوعی اخص و مستقیم‌تر به کار برده شود؛ یعنی، موضوع مورد نظر در قالب واژه یا اصطلاح خاص مورد استفاده کاربران ارائه شود. مفهوم مستقیم یعنی سرعنوانها به طور مستقیم و بدون واسطة واژه‌های هم‌خانواده در فهرست بیایند تا کاربر سریع تر و آسان تر به موضوع مورد نظر خود دست یابد». (فتّاحی و طاهری، 1384، 64).

نحوۀ قرار گرفتن یک سرعنوان یکسان در فهرستبرگه‌های متفاوت، ممکن است متفاوت باشد. برای نمونه، سرعنوان «آمار» ممکن است در فهرستبرگهای به منزلة تنها موضوع، به کتابی داده شود که دربارۀ آمار به طور کلّی است. همین سرعنوان ممکن است در فهرستبرگهای دیگر، در کنار یک یا چند سرعنوان دیگر و در جایگاهی متفاوت قرار گیرد، مثلاً در کنار سرعنوانی دیگر مانند «احتمالات». در این حالت دوّم، بسته به تعداد سرعنوانهای داده شده به کتاب و نیز، جایگاه سرعنوان «آمار» در میان این سرعنوانها، تقسیمهای متفاوتی پیش می آید. معمولاً فرض بر این است که اگر «آمار» سرعنوان اوّل است موضوع اصلی کتاب در دست فهرستنویسی، «آمار» است یا حدّاقل بخش عمدۀ آن به «آمار» اختصاص دارد. امّا وزن موضوعی این سرعنوان با وزن سرعنوان حالت اوّل متفاوت است زیرا اگر فرض را بر این بگذاریم که وزن سرعنوان «آمار» در حالت اول، عدد یک است در حالت دوم، بسته به تعداد سرعنوانهای داده شده، اگر سرعنوان «آمار»، سرعنوان اول باشد، وزن آن معادل کسری از یک، و اگر سرعنوان دوم یا سوم باشد، وزنی کمتر خواهد داشت. امّا در تمامی این حالتها، سرعنوان «آمار»، در بالای برگة موضوعی خاص خود قرار می‌گیرد و هنگامی که فهرستبرگه های مربوط به حالتهای بالا در برگه‌دان موضوعی برگه‌آرایی می‌شوند، در عمل دارای وزنهایی یکسان به شمار می‌آیند؛ در حالی که عملاً این گونه نیست زیرا در حالت اوّل، یعنی زمانی که تنها یک سرعنوان «آمار» به کتاب داده شده است، کلّ کتاب به آمار اختصاص دارد؛ در حالی که در حالتهای دوم، تنها بخشی از کتاب به آمار مربوط است. در این جا، شاید این نکته مطرح شود که کاربر می تواند با بررسی سایر سرعنوانهای موضوعی داده شده در بخش فهرست تحلیلی هر فهرستبرگه، رتبه هر سرعنوان و تعداد سرعنوانهای دیگر در آن فهرستبرگه را تشخیص دهد؛ امّا در پاسخ می توان گفت که حتّی اگر فهرستبرگه های معمولاً در هم فشردۀ موجود در برگه‌دانهای کتابخانه‌ها چنین فرصتی را برای کاربر ایجاد کند، بعید است او چنین بررسی‌ای را انجام دهد، ضمن آنکه در کنار هم قرار گرفتن سرعنوانهای موضوعی و سایر شناسه افزوده‌ها، تشخیص تعداد سرعنوانها و رتبه هر سرعنوان را برای کاربر معمولاً ناآشنا به رموز فهرستنویسی، دشوار می سازد.

حالت سومی نیز معمولاً رخ می دهد و آن این است که سرعنوان «آمار»، به تنهایی موضوع قرار نمی گیرد و تقسیم فرعی بر سرعنوانی اصلی است؛ مانند «آموزش و پرورش ـ آمار». در این حالت نیز، اگر تنها یک سرعنوان به کتاب داده شود، تقسیم فرعی «آمار» وزنی کمتر از سرعنوان اصلی یعنی «آموزش و پرورش» دارد، امّا اگر سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» به کتابی داده شود، وزن تقسیم فرعی «آمار» در این حالت، احتمالاً از حالت اوّل نیز کمتر خواهد بود. این حالت در بازیابی خودکار اطّلاعات در نرم افزارهای کتابخانهای، و در حالت جستجوی «موضوع کلیدواژهای» پیش می آید که در آن، رایانه در هنگام جستجوی مدارک مربوط به «آمار»، ممکن است حتی تقسیمهای فرعی «آمار» را نیز بازیابی کند. در چنین حالتی نیز، مدارک مربوط به «آمار» با وزنهایی متفاوت ـ و نه لزوماً به ترتیب موضوعی وزنی ـ در کنار هم بازیابی خواهند شد.

شایان ذکر است، در تمامی این حالتها، سرعنوانهایی که با رعایت اصل «ویژگی» ارائه شده اند در عمل، بازیابی را به گونهای «ویژه» انجام نمی‌دهند؛ زیرا مثلاً سرعنوان «آمار»ی که سومین سرعنوان از سه سرعنوان یک کتاب است، نمی‌تواند هموزن سرعنوان «آمار»ی باشد که تنها سرعنوان یک کتاب است. امّا در عمل، به شرحی که در بالا آمد چنین پنداشته می شود و سرعنوان «آمار»ی که سومین سرعنوان از سه سرعنوان یک کتاب است، به همان اندازۀ تک سرعنوان «آمار»، «ویژه» در نظر گرفته می‌شود.

آنچه در این نوشته خواهد آمد، تلاش برای ارائه راهکارهایی برای حلّ این مشکل و بهبود بازیابی موضوعی اطّلاعات در برگه‌دانهای کتابخانه، نرم افزارهای کتابخانهای و مارک ایران است. برای ارائه راه حل برای سه حالت برگه‌دانهای کتابخانه، نرم افزارهای کتابخانهای و مارک ایران، باید به این نکته توجّه داشت که وزن هر سرعنوان، تابعی از سه متغیر زیر است:

تعداد سرعنوانهای داده شده به یک کتاب
مرتبه آن سرعنوان در بین سرعنوانهای داده شده
حجم یا تعداد صفحات کتاب.

متغیر حجم یا تعداد صفحات کتاب، از این نظر می تواند مهم باشد که وزن یک سرعنوان «آمار»، در کتابی با تعداد صفحاتی با حدود 300 صفحه، که یکی از سرعنوانهای آن «آمار» است و به طور نظری، حدود 100 صفحه از آن به آمار اختصاص می‌یابد، بیشتر از وزن سرعنوان «آمار» در کتابی مثلاً 80 صفحهای است که تنها سرعنوان موضوعی آن «آمار» است. البتّه، از آنجا که معمولاً حجم کتابها در حدود معینی قرار دارد، متغیر حجم یا تعداد صفحات کتاب، چندان نمی تواند در این مورد تأثیر گذار باشد.

نکتة دیگری که باید مورد توجّه قرار گیرد، این است که در تمامی موارد مورد بحث، فرض بر این است که فهرستنویس در مواردی که چند سرعنوان به کتابی می‌دهد، سرعنوان اوّل را به منزلة مرتبط‌ترین یا سرعنوان عمده، و سرعنوان (های) بعدی را به منزلة سرعنوانهایی که اهمیت آنها از سرعنوان اوّل به سرعنوانهای بعدی کاهش می‌یابد، در نظر می‌گیرد. در این مورد باید اذعان داشت، نمایه ساز انسانی همواره در معرض اشتباهات انسانی شامل پیشینة ذهنی و یا سایر موارد قرار دارد، امّا در این جا می توان استدلال کرد چه از ضریب وزنی استفاده بشود چه نشود، این اشتباهات در فهرستنویسی موضوعی اجتناب‌ناپذیر است.

راه‌حلّ پیشنهادی برای فهرستبرگه‌ها

راه حلّ پیشنهادی برای فهرستبرگه‌ها عبارت است از افزودن دو عدد در پایان هر سرعنوان موضوعی، به گونهای که عدد اوّل که در کمانک گذاشته می‌شود. رتبه سرعنوان و عدد دوم که بدون کمانک است، تعداد سرعنوانهای داده شده به کتاب را نشان دهد. می‌توان به طور قراردادی، برای تک سرعنوان از هیچ عددی استفاده نکرد. بدین ترتیب:

«آموزش و پرورش»، یک سرعنوان است.

«آموزش و پرورش (1)2»، اوّلین سرعنوان از دو سرعنوان است.

«آموزش و پرورش (1)3»، اولین سرعنوان از سه سرعنوان است.

«آموزش و پرورش (2)3»، دومین سرعنوان از سه سرعنوان است.

«آموزش و پروش (2)5»، دومین سرعنوان از پنج سرعنوان است.

اگر این اعداد در هنگام برگه آرایی در نظر گرفته شود، کاربر در هنگام جستجوی مطالبی دربارۀ آموزش و پرورش، نخست سرعنوانهایی را می‌یابد که تکی و در نتیجه، دارای بیشترین وزن موضوعی هستند. در مراحل بعدی، سرعنوانهایی را پیدا می کند که اولین هستند، اما تنها سرعنوان نیستند. اینها اگر چه از نظر موضوعی وزن سرعنوانهای گروه اوّل را ندارند، امّا نسبت به سرعنوانی مانند «آموزش و پرورش(2)5» که دومین سرعنوان از پنج سرعنوان است، وزن بیشتری دارند. با انجام چنین کاری، کاربر مطالب مربوط را از مرتبط‌ترین تا کم ارتباط‌ترین پیدا می کند. در ادامه، چند نمونه از یک نسخه از کتابشناسی ملّی ایران (کتابشناسی ملی ایران، 1375، 1، 297) ارائه خواهد شد. اگر چه همة نمونه ها از فهرستبرگه های کتابشناسی ملّی ایران گرفته شده، امّا به دلیل صرفه‌جویی در فضای نوشته، تنها عناوین و سرعنوانهای موضوعی هر فهرستبرگه ارائه خواهد شد:

آمار و کاربرد آن در مدیریت

1. آمار 2. مدیریت ـ روشهای آماری.

آمار کاربردی در اقتصاد و بازرگانی

1. آمار 2. آمار بازرگانی 3. اقتصاد ـ روشهای آماری.

آمار و احتمال مقدماتی

1. احتمالات 2. آمار.

آمار کاربردی

علوم اجتماعی ـ روشهای آماری 2. مدیریت ـ روشهای آماری 3. اقتصاد ـ روشهای آماری 4. آمار.

با بررسی چهار سرعنوان «آمار» در بالا، مشخص می‌شود وزنهای موضوعی یکسانی ندارند، زیرا رتبه هر سرعنوان و تعداد سرعنوانهای دیگر موجود در هر فهرستبرگه، متفاوت است. امّا در فهرستنویسی سنّتی، تمام این سرعنوانها، هنگامی که در بالاترین سطر فهرستبرگه تایپ و فهرستبرگه‌های مربوط در جای الفبایی خود برگه‌آرایی می‌شوند، عملاً وزنی یکسان خواهند داشت. در حالی که اگر به روش بالا برای هر یک ضریب وزنی درخور تعیین شود و این ضریبها در برگه‌آرایی نیز منظور شوند، بازیابی از مرتبط‌ترین تا کم ارتباط‌ترین انجام و بدین ترتیب اصل ویژگی نیز رعایت می شود. بدین ترتیب، سرعنوانهای «آمار» به ترتیب زیر ضریب دار می شوند:

کتاب اول: آمار(1)2

کتاب دوم: آمار(1)3

کتاب سوم: آمار(2)2

کتاب چهارم: آمار(4)4

ترتیب برگه‌آرایی نیز طبیعتاً همان ترتیب بالاست؛ یعنی برای سرعنوانهای همانند، نخست شماره های مساوی درون کمانک در کنار هم و به ترتیب شماره های بعدی از کم به زیاد مرتّب می شوند و آن گاه، شماره های درون کمانک که مقدار بیشتری دارند، می‌آیند. بدیهی است، در نمونة بالا، تنها سرعنوانهای «آمار» با ضریب وزنی نشان داده شده‌اند و سرعنوانهای دیگر نیز باید برای بازیابی‌های مربوط، ضریبهای وزنی مناسب داشته باشند.

راه‌حلّ پیشنهادی برای نرم افزارهای کتابخانهای

در نرم افزارهای کتابخانهای معمولاً دو نوع جستجوی موضوعی امکان پذیر است: «موضوع سرعنوانی» و «موضوع کلیدواژهای». این عبارتها در نرم‌افزارهای متفاوت ممکن است به شکلهای متفاوتی به کار بروند. در جستجو از طریق موضوع سرعنوانی، فرض بر این است که کاربر عین سرعنوان موضوعی را در محلّ جستجو و گزینة «موضوع سرعنوانی» را در «فیلد جستجو» وارد می‌کند. در این حالت، شماره گذاری سرعنوانها به روش بالا می‌تواند راه حلّ مناسبی برای تعیین وزن سرعنوانها باشد. در این حالت، تنها وجود الگوریتمی ساده، رایانه را قادر می‌سازد تا سرعنوانهای سنگین وزن تر را در آغاز و سبک وزن تر را در مراحل بعدی بازیابی کند. بدیهی است، به دلیل ناآشنایی اغلب کاربران با ساختار سرعنوانهای موضوعی، آنان ترجیح می دهند بیشتر از جستجوی «موضوع کلیدواژهای» استفاده کنند.

در فرایند جستجوی «موضوع کلیدواژهای»، فرض بر این است که رایانه، کلیدواژه‌های مندرج در سرعنوانهای موضوعی را بازیابی می کند. در این حالت، اگر کاربر کلیدواژۀ «آمار» را در محل جستجو، و گزینة «موضوع کلیدواژهای» را در «فیلد جستجو» وارد نماید، رایانه باید کلید واژۀ «آمار» را، افزون بر سرعنوانهایی که دارای واژۀ «آمار» به منزلة سرعنوان اصلی هستند، در سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» نیز پیدا کند. در چنین حالتی، این که واژۀ «آمار» در کجای سرعنوان قرار دارد نیز اهمیت پیدا می‌کند. نکته قابل بررسی این است که وقتی از مفهوم اهمیت موضوعی در بخشهای مختلف یک سرعنوان سخن به میان می‌آید، نمی‌توان با قاطعیت اظهار نظر کرد که در سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» کدام یک از دو مفهوم ایران و آمار اهمیت بیشتری دارند، زیرا چنین ترکیبی به نظر می‌رسد بیشتر تابع دستورات کتاب سرعنوانهای موضوعی باشد تا منطقی دیگر. در نتیجه، مهم این است که آیا واژگان «ایران» و «آمار» به منزلة بخش اوّل یا مهم سرعنوان آمده اند یا نه. بدین ترتیب، آنچه در این حالت مهم است، اتّخاذ تمهیدی است تا به وسیلة آن رایانه بتواند بخش اوّل را از بخشهای بعدی در یک سرعنوان تمیز دهد. بدیهی است، این نکته نیز همچنان باقی است که این بخش اوّل در سرعنوانی با چه رتبهای و در میان چند سرعنوان قرار دارد.

نکتة دیگری که در جستجوی «موضوع کلیدواژهای» باید مورد بررسی قرار گیرد، دو حالتی است که جستجو در آنها انجام می شود: جستجو بدون استفاده از عملگرهای بولی و جستجو با استفاده از این عملگرها. این دو حالت در ادامه بررسی می‌شوند.

در حالت اول، هنگامی که کاربر جستجوی «موضوع کلیدواژهای» را با یک تک واژه یا عبارت انجام می دهد، اگر تک واژه در سرعنوانی با یک یا چند تقسیم فرعی وجود داشته باشد، رایانه تنها کافی است پس از شناسایی اینکه سرعنوانی که کلید واژۀ مورد جستجو در آن قرار دارد، دارای چه رتبهای و در میان چند سرعنوان دیگر است تشخیص دهد که آیا کلید واژۀ مورد نظر کاربر در بخش اوّل آمده است یا نه. مثال زیر این نکته را روشن‌تر می‌کند. فرض کنیم کاربری در هنگام جستجوی «موضوع کلیدواژهای»، واژۀ «آمار» را در محل جستجو وارد کرده است. آن چه روشن است اینکه کاربر، قصد دارد کتابی دربارۀ آمار بیابد امّا این احتمال وجود دارد که رایانه، سرعنوانی مانند «آموزش و پرورش ـ ایران ـ آمار» را، به دلیل وجود واژۀ «آمار» در آن بازیابی کند که منظور نظر کاربر نیست. امّا اگر سرعنوان بالا به روش زیر شماره‌گذاری شود: «آموزش و پرورش (1) ـ ایران ـ آمار» به گونه‌ای که شمارۀ یک نشان دهد بخش اوّل، «آموزش و پرورش» است و الگوریتم بازیابی به گونهای نوشته شده باشد که در این حالت، تنها کلیدواژه هایی را پیدا کند که با شمارۀ یک مشخّص شده‌اند، این بازیابی نادرست یا ریزش کاذب رخ نخواهد داد.

در حالت دوم، الگوریتم بازیابی باید به گونهای نوشته شود که رایانه بتواند سه کلید واژۀ مورد نظر کاربر را در سه حالت مختلف بررسی کند. دلیل این که از سه کلیدواژه نام برده شد این است که به نظر می رسد نرم افزارهای کتابخانهای حداکثر تا سه محل برای سه کلیدواژه فراهم می‌کنند. اکنون فرض کنیم کاربری کتابی در مورد «آمار آموزش و پرورش ایران» می خواهد. او احتمالاً بنا به عادت زبان طبیعی خود، در محل اول، کلیدواژۀ «آمار»، در محل دوم، کلیدواژۀ «آموزش و پرورش»، و در محل سوم، کلیدواژۀ «ایران» را تایپ خواهد کرد. در صورتی که سرعنوان «آموزش و پرورش(1) ـ ایران ـ آمار» در پیشینه‌های مربوط وجود داشته باشد، رایانه هر سه کلیدواژه را از این نظر که کدام یک در بخش اوّل سرعنوانهای با تقسیمات فرعی قرار می گیرد آزمایش خواهد کرد و پس از گزینش سرعنوانهایی که بخش اوّل آنها «آموزش و پرورش» است، در تقسیمات فرعی این سرعنوانها به جستجوی دو کلیدواژۀ دیگر خواهد رفت. بدین ترتیب، اگر در هر سرعنوان، افزون بر مشخّص شدن بخش اوّل، معین شده باشد که سرعنوان، دارای رتبه چندم و در میان چند سرعنوان است، بازیابی مدارک مرتبط به صورتی بهینه انجام خواهد گرفت. شایان ذکر است، در این جا منظور از بخش اوّل هر سرعنوان، تنها بخش اوّل در سرعنوان با تقسیمهای فرعی نیست بلکه در سرعنوانهای با نقطه نیز می باشد.

نمونه‌های زیر از یک نسخه کتابشناسی ملّی ایران (کتابشناسی ملی ایران، 1375، 1، 456ـ457) احتمالاً به درک بهتر موضوع کمک می‌کند:

رویش و پرواز: چهار پاره

شعر فارسی ـ قرن 14 ـ مجموعه‌ها.

... کشتی طوفان کربلا ...

شعر مذهبی ـ قرن 14 ـ مجموعه‌ها. 2. شعر فارسی ـ قرن 14 ـ مجموعه‌ها.

مدایح و مراثی آل محمد (ص): مجموعه زیبا و جانسوز شعرای بنام و معاصر ایران ... به ضمیمهای از سروده‌های اسلامی

چهارده معصوم ـ شعر. 2. شعر مذهبی ـ قرن 14 ـ مجموعه‌ها. 3. شعر فارسی ـ قرن 14 ـ مجموعه‌ها.

عاشقانه‌ها: گزینه سرودهای شاعران امروز ایران

1. شعر عاشقانه فارسی ـ قرن 14. 2. شعر آزاد ـ مجموعه‌ها. 3. شاعران ایرانی ـ قرن 14. 4. شعر فارسی ـ قرن 14 ـ مجموعه‌ها.

در چهار کتاب بالا که تنها عناوین و سرعنوانهای موضوعی فهرستبرگه‌های آنها در این جا ارائه شده است، سرعنوان «شعر فارسی ـ قرن 14 ـ مجموعه‌ها». در چهار رتبه متفاوت در چهار فهرستبرگه دیده می شود. بدیهی است، چنانچه این سرعنوانها به روش بالا دارای ضریب وزنی شوند، در بازیابی، سرعنوان کتاب چهارم با ضریب وزنی (4)4 در آخر و سرعنوان کتاب اوّل بدون ضریب وزنی (به معنای یک از یک) در آغاز قرار می‌گیرد. امّا در این جا لازم می‌آید این سرعنوانها ضریب دیگری نیز داشته باشند، زیرا قرار است مورد جستجوی «موضوع کلیدواژهای» نیز قرار گیرند. بدین ترتیب و با توجّه به استدلال بالا که تنها بخش اوّل هر سرعنوان در این مرحله اهمیت دارد، بخشهای اوّل هر سرعنوان (در این جا، «شعر فارسی») باید ضریبی داشته باشند تا بر مبنای آن به منزلة کلیدواژۀ اصلی استخراج گردند. از آنجا که این ضریب تنها در سرعنوانهای با تقسیم فرعی کارآیی دارد، افزودن شمارۀ یک در کمانک به سرعنوان اصلی، احتمالاً برای این منظور کفایت می‌کند. بدین ترتیب، سرعنوانهای موضوعی چهار کتاب بالا به صورت زیر در می‌آید:

1. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها.

1. شعر مذهبی(1) ـ قرن 14 ـ مجموعه‌ها(1)2. 2. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها(2)2.

1. چهارده معصوم(1) ـ شعر(1)3. 2. شعر مذهبی(1) ـ قرن 14ـ مجموعه‌ها(2)3. 3. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها(3)3.

1. شعر عاشقانه فارسی(1) ـ قرن 14(1)4. 2. شعر آزاد(1) ـ مجموعه‌ها(2)4. 3. شاعران ایرانی(1) ـ قرن 14(3)4. 4. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها(4)4.

در این شرایط، رایانه در پاسخ به کاربری که خواهان مجموعه‌های شعر فارسی در قرن 14 است مدارک دارای سرعنوانهای موضوعی زیر را به ترتیب زیر بازیابی می‌کند:

1. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها.

2. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها(2)2.

3. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها(3)3.

4. شعر فارسی(1) ـ قرن 14 ـ مجموعه‌ها(4)4.

در این حالت، مدارک مربوط با توجّه به کلید واژۀ اصلی که با شمارۀ (1) مشخّص شده و بر حسب رتبه سرعنوانها بازیابی می شوند.

راه حلّ پیشنهادی برای مارک ایران

مارک ایران در بازیابی اطّلاعات همانند سایر نرم افزارهای کتابخانهای عمل می‌کند؛ یعنی هم می تواند فهرستبرگه تولید کند و هم به منزلة ابزاری برای بازیابی اطّلاعات مورد استفاده قرار گیرد، با این تفاوت که بر یک استاندارد جهانی مبتنی است.

در مارک ایران در بلوک ـ ـ 6 که بلوک تجزیه و تحلیل موضوعی نام دارد، هشت فیلد به شرح زیر برای سرعنوانهای موضوعی وجود دارد (مارک ایران، 1381، 205):

600 نام شخص به منزله موضوع

601 نام تنالگان به منزله موضوع

602 نام خاندان به منزله موضوع

604 پدیدآور و عنوان به منزلة موضوع

605 عنوان به منزله موضوع

606 موضوع (اسم عام یا عبارت اسمی عام)

607 نام جغرافیایی به منزله موضوع

610 اصطلاحهای موضوعی کنترل نشده

همگی این فیلدها تکرار پذیرند و درون آنها نخستین فیلد فرعی یعنی $a به عنصر شناسهای اختصاص دارد که مثلاً در فیلد 606 «حاوی اصطلاح، به همان شکلی است که سرعنوان موضوعی مورد استفاده تعیین کرده است». (مارک ایران، 1381، 230). فیلدهای فرعی $j (تقسیم فرعی شکلی)، $x (تقسیم فرعی موضوعی)، $y (تقسیم فرعی جغرافیایی)، و $z (تقسیم فرعی دورهای) افزون بر سایر فیلدهای فرعی، کمابیش در تمامی این فیلدها وجود دارند.

اکنون برای نشان دادن راه حلّ پیشنهادی در مارک ایران، نمونه های بالا را در فیلدهای مارک ایران می گذاریم:

1. آمار. 2. مدیریت ـ روشهای آماری.

6061#$aآمار$2nli@

6062#$aمدیریت$xروشهای آماری@

1. آمار. 2. آمار بازرگانی. 3. اقتصاد ـ روشهای آماری.

6061#$aآمار$2nli@

6062#$aآمار بازرگانی$2nli@

6062#$aاقتصاد$xروشهای آماری$2nli@

1. احتمالات. 2. آمار.

6061#$aاحتمالات$2nli@

6062#$aآمار$2nli@

1. علوم اجتماعی ـ روشهای آماری. 2. مدیریت ـ روشهای آماری. 3. اقتصاد ـ روشهای آماری. 4. آمار.

6061#$aعلوم اجتماعی$xروشهای آماری$2nli@

6062#$aمدیریت$xروشهای آماری$2nli@

6062#$aاقتصاد$xروشهای آماری$2nli@

6062#$aآمار$2nli@

چنانکه مشاهده می‌شود، در تمام موارد بالا فیلد 606 بر حسب لزوم تکرار شده است و در همة فیلدها، فیلد فرعی $a به منزلة «عنصر شناسهای» وجود دارد. اگر چه در صفحة 21 از دستنامة مارک ایران در مورد «ترتیب فیلدها» نوشته شده که «نظم خاصی برای ضبط فیلدها در یک رکورد پیش بینی نشده است. نظم حاکم بر فهرست راهنمای فیلدها ممکن است با ترتیب ضبط فیزیکی فیلدها یکی نباشد». امّا در مارک ایران، و مثالهای ارائه شده در انتهای «دستنامة مارک ایران» نیز نشان می‌دهد می‌توان نظم فیلدهای موضوعی را بر حسب نظم ارائه آنها در یک فهرستبرگه انتخاب نمود. این نکته در مارک ایران در مورد نظم فیلدهای فرعی نیز صدق می‌کند؛ بدین معنا که جز در مواردی خاص که فیلدهای فرعی از نظمی خاص پیروی می‌کنند، ترتیب خاصّی برای فیلدهای فرعی در نظر گرفته نشده است. در مثالهای ارائه شده در انتهای کتاب «دستنامة مارک ایران» نیز نظم فیلدهای فرعی موضوعی، همان ترتیب سرعنوان اصلی و تقسیمهای فرعی در سرعنوانهای موضوعی است. بدین ترتیب، هم در پیشینة مارک ایران رتبه هر سرعنوان مشخّص می‌شود و هم می توان با افزودن یک الگوریتم ساده، این امکان را فراهم ساخت که رایانه هنگام تولید فهرستبرگه، با احتساب فیلدهای موضوعی و رتبه هر سرعنوان، ضرایب وزنی لازم را در انتهای هر سرعنوان موضوعی اضافه کند. لازم به توضیح است، اگر چه در تمام نمونه‌های بالا از فیلد606 استفاده شده است، امّا استفاده از فیلدهای موضوعی دیگر نیز تفاوتی به وجود نمی آورد و راه حلّ پیشنهادی به قوّت خود باقی است.

در نمونه های بالا، سرعنوانهای با تقسیم فرعی نیز وجود دارند و به اعتباری، مسألة تعیین بخش اوّل یا مهم هر سرعنوان با استفاده از فیلد فرعی «عنصر شناسهای» تا حدودی روشن شده است. با این حال، یکی از نمونه‌های مربوط به جستجوی «موضوع کلیدواژهای» برای وضوح بیشتر، با استفاده از نشانه گذاری مارک ایران، در زیر ارائه می‌شود:

1. شعر عاشقانه فارسی ـ قرن 14. 2. شعر آزاد ـ مجموعه‌ها. 3. شاعران ایرانی ـ قرن 14. 4. شعر فارسی ـ قرن 14 ـ مجموعه‌ها.

6061#$aشعر عاشقانه فارسی$zقرن 14$2nli@

6062#$aشعر آزاد$jمجموعه‌ها$2nli@

6062#$aشاعران ایرانی$zقرن 14$2nli@

6062#$aشعر فارسی$zقرن 14$jمجموعه‌ها$2nli@

در نمونة بالا، باز هم مشاهده می شود که ترتیب فیلدهای موضوعی را می‌توان همان ترتیب سرعنوانهای موضوعی در نظر گرفت و فیلد فرعی $a (عنصر شناسهای) نیز مشخّص می کند که جستجوی موضوع کلیدواژهای، چگونه در سرعنوان اصلی می تواند انجام شود.

نتیجه‌گیری و پیشنهادها

در صورت پذیرش پیشنهادهای بالا بهتر است:

این ضرایب وزنی در شناسه های کتابشناسی ملّی ایران ـ چه به صورت چاپّی و چه به صورت لوح فشرده ـ اعمال شود تا از این پس در کتابخانه های گوناگونی که از این کتابشناسی در راستای فهرستنویسی بهره می‌گیرند، به کار رود.
در نرم افزارهای کتابخانهای نیز این ضرایب ـ خواه به صورت رویکردی آینده نگر و خواه به صورت رویکردی گذشته‌نگر ـ انجام شود.
در نرم افزارهای آتی فرمت مارک ایران، الگوریتمهای لازم برای تولید این ضریبها در فهرستبرگه‌های تولیدی از طریق جستجوی «موضوع کلیدواژهای» در مارک ایران در نظر گرفته شود.

2. Term weighting.

1. Keenan.

2. Pollitt.

3. Hartley.

4. Baeza-Yates and Ribeiro-Neto.

5. Grossman and Frieder.

1. Post-coordinate indexing.

2. Pre-coordinate indexing.

ـ بیزا ـ ییتس، برتیه ریکاردو و نتو ریبرو (1384). قلمروهای نو در بازیابی اطلاعات، ترجمة علی حسین قاسمی با همکاری سیروس آزادی، علی جوامع، تهران: چاپار.

ـ پولیت، ا. استون (1380). نظامهای ذخیره و بازیابی اطلاعات: خاستگاه، توسعه و کاربردها/ ترجمه محمدحسین دیانی، جعفر مهراد. ـ شیراز: کتابخانه منطقهای علوم و تکنولوژی شیراز.

ـ حسن‌زاده، محمد (1383). تأثیر مدلهای بازیابی اطلاعات بر میزان ربط. اطلاع‌شناسی، 2 (1)، 64ـ89.

ـ فتاحی، رحمت الله و مهدی طاهری (1375). فهرستنویسی: اصول و روشها ـ ویراست4. ـ تهران: کتابدار.

ـ کتابشناسی ملی ایران، فروردین 1349ـ . ـ تهران: کتابخانه ملی ایران، 1349 ـ (شماره 83، نیمه اوّل 1375)

ـ کینن، استلا (1378). فرهنگ فشردۀ کتابداری و اطلاع‌رسانی، ترجمه و تدوین فاطمه اسدی کرگانی، مقابله و ویرایش عبدالحسین آذرنگ. ـ تهران: کتابدار.

ـ گراسمن، دیوید ا. و فریدر افیر (1384). بازیابی اطلاعات : الگوریتمها و روشهای اکتشافی؛ ترجمه جعفر مهراد و سارا کلینی، مشهد : کتابخانه رایانهای ؛ شیراز : کتابخانه منطقهای علوم و تکنولوژی.

ـ مارک ایران/ کمیتة ملی مارک ایران. ـ تهران : کتابخانه ملی جمهوری اسلامی ایران، 1381.

ـ هارتلی، آر. ج. ... [و دیگران] (1380). اصول و روشهای جستجوی پیوسته/ ترجمة زاهد بیگدلی. ـ مشهد : کتابخانه رایانهای.

دوره 11، شماره 1 (پیاپی 41) - شماره پیاپی 41
بهار 1387
صفحه 243-258

XML

تعداد مشاهده مقاله 772

کتابداری و اطلاع‌رسانی

در راستای بهبود بازیابی اطّلاعات

دوره 11، شماره 1 (پیاپی 41) - شماره پیاپی 41بهار 1387صفحه 243-258

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 11، شماره 1 (پیاپی 41) - شماره پیاپی 41
بهار 1387
صفحه 243-258