نوع مقاله : مقاله پژوهشی
نویسندگان
1 استاد بخش علوم کتابداری و اطلاع رسانی دانشگاه شیراز و رئیس کتابخانه منطقه ای علوم و تکنولوژی
2 کارشناس ارشد مهندسی کامپیوتر و رئیس اداره فناوریهای اطّلاعاتی کتابخانه منطقه ای علوم و تکنولوژی
چکیده
کلیدواژهها
مقدمه
پیشرفتهای اخیر در علم الکترونیک، به تولید ابزارهای مدرن برای ذخیرهسازی انبوهی از اطّلاعات منجر گردیده است. انفجار اطّلاعات باعث شده است تا جامعة پژوهشگران در حوزة بازیابی اطّلاعات، امکان و شیوة فراخوانی اطّلاعات درخواستی را در پنجاه سال اخیر بسیار بهبود ببخشند. [2 و 1] با سیستمهای بازیابی اطّلاعات امروزی، امکان جستجو در چند ترابایت اطّلاعات، فقط در چند ثانیه وجود دارد [3].
نظام بازیابی اطّلاعات به سازماندهی، ذخیره سازی، بازیابی و نمایش اطّلاعات کتابشناختی مربوط است. سیستمهای بازیابی اطّلاعات با هدف فراهم آوردن زمینة لازم برای پاسخگویی به جستجوهای کاربر از طریق ارجاع به مدارک مربوط، طراحی میگردد. در چنین محیطی، مجموعهای از مدارک مانند کتابها، مقالهها، گزارشهای تحقیقاتی و... وجود دارد، به اضافة گروهی از کاربران. نیاز اطّلاعاتی کاربر در یک زمان خاص میتواند شامل یک یا چند مدرک باشد. مفهوم «ربط»، عامل مورد توجّهی در مسئلة بازیابی است.
یک مدرک با توجه به ویژگیهایی که دارد (نحوة نگارش، موضوع و...) و یا با در نظر گرفتن مشخصة کاربر (سابقة دانش فنی وی) ممکن است برای یک کاربر خاص، مربوط و یا نامربوط تلقّی شود. در تمام سیستمهای بازیابی اطّلاعات، چنانچه مدرک بازیابی شده در قضاوت کاربر، مورد توجه وی واقع گردد، آن مدرک به عنوان مدرک مربوط و در غیر اینصورت، مدرک نامربوط شناخته می شود. عوامل بسیاری در قضاوت درباره عنصر «ربط» مؤثرند. از آنجا که عوامل بسیاری، قضاوت درباره ربط را با استفاده از روشهای پیچیده تعیین می کنند، یک سیستم بازیابی اطّلاعات نمیتواند به طور دقیق تمام مدارک مربوط را انتخاب نماید. بنابراین، سیستم باید روشهایی را بپذیرد که رتبهبندی مدارک را به ترتیب احتمال استفادة کاربر از آنها آسان کند.
یکی از روشهای مناسب، محاسبة همبستگی اصطلاحات، بر اساس فراوانی اصطلاحات هم آیند است. در صورت فرض تعامد بردارهای مدارک و اصطلاح، استفاده از ماتریس هم آیند میتواند یک عامل تنظیمکننده باشد. پژوهشگران این حوزه، در فرایند بازیابی، روشهای متفاوتی برای تشخیص همبستگی اصطلاحات ارائه کردهاند، از جمله میتوان به تحلیل آماری جستجوها در مدارک مربوط و نامربوط به ترتیب همبستگیهای مثبت و منفی اصطلاحات، اشاره کرد [5]. در پژوهش دیگری که از ماتریس اصطلاح هم آیند استفاده شد، مجموعة اصلی بردارهای اصطلاح، از روشهای تحلیل عامل یا مقیاس چند بعدی بدست آمد [7 و6].
«کال» در پژوهش خود، طرحی ارائه کرد که با استفاده از آن میتوان همبستگیهای میان اصطلاحات را بدون ماتریس اصطلاح هم آیند، ادغام نمود [8].
در یک سیستم بازیابی اطّلاعات، معمول است که یک مدرک به وسیلة کلید واژهها یا واژههای موضوعی نمایانده شود. کلید واژهها معمولاً در فرایند نمایهسازی، از متن یا چکیدة مدرک استخراج می شوند.
علاوه بر گزینش اصطلاحات برای بازنمون مدارک، معمولاً به هر اصطلاح وزنی میدهند تا اهمیّت آن اصطلاح خاص را در مدرک نشان دهد. بنابراین، در طراحی استراتژیهای جستجو میتوان ماتریس مدرک ـ اصطلاح را به وجود آورد، به نحوی که عنصر (i , r) این ماتریس، متناظر با وزن اصطلاح i در مدرک r باشد [9]. در این ماتریس، عنصر را به عنوان مؤلفة i بردار متناظر با مدرک r در نظر میگیرند. هنگام جستجو، سیستم، بردار جستجو را به دست میآورد و با بردارهای مدارک بر اساس روش بیان تشابه میان بردارها منطبق می سازد [4]. با در اختیار داشتن این ماتریس و با توجه به هدف رتبهبندی مدارک، روشهای گوناگونی برای مدلسازی بازیابی به کار میرود. یک روش که در سالهای اخیر به طور گسترده استفاده شده، مدلسازی مدارک و جستجوها بر اساس بردار است [10 و 9] و به آن مدل «فضای برداری»[1] گفته می شود. هر جستجو به صورت بردار نمایانده می شود و تشابه آن را با بردارهای مدارک در نظر میگیرند. هر چه بردار جستجو به بردار مدرک نزدیکتر باشد، به موضوع جستجو مربوط تر خواهد بود. مدل فضای برداری را «سالتون» پیشنهاد کرده است [11 و 10 و 9].
مدل فضای برداری
مدل فضای برداری یکی از مدلهای بازیابی اطّلاعات است که در سطح وسیعی به کار میرود [13 و 12]. در این مدل، هر مقولة اطّلاعاتی ـ شامل متون ذخیره شده و هر تقاضای اطّلاعاتی زبان طبیعی ـ به صورت مجموعة بردارهایی از اصطلاحات نگهداری میشوند. به طور نظری، این اصطلاحات میتوانند از واژگان کنترل شده انتخاب شوند. به خاطر وجود مشکلاتی در تهیة این واژگان، اصطلاحات از متون استخراج میشوند. معمولاً برای کاهش اندازة واژگان از ریشة واژهها استفاده می شود. همچنین معمولاً از واژههای بازدارنده نظیر…., an ,of ,the صرف نظر می گردد. از تمام واژههای موجود در مدارک، یک مجموعه واژگان به وجود می آید. هر مدرک به صورت برداری از تمام واژگان نمایانده می شود. بعید است واژههایی که فاقد بار معنایی هستند و به طور معمول در مدارک یافت میشوند، اطّلاعات مهّمی ارائه دهند، بنابراین میتوان این واژهها را برای سرعت دادن به پردازش، حذف کرد. واژههای تکراری که میتوان از آنها چشم پوشید فهرست واژههای غیرمجاز را میسازند. در حذف واژههای غیر مجاز، باید دقّت زیاد به کار برده شود. برای مثال:
چنانچه واژههای غیر مجاز در جملة: «to be or not to be» حذف شوند، این جمله غیر قابل بازیابی خواهد بود.
مدل فضای برداری، شیوه ای است برای نمایش مدارک از طریق واژههای موجود در آنها. این مدل، یک تکنیک استاندارد در بازیابی اطّلاعات است. بر اساس مدل فضای برداری، میتوان تصمیم گرفت که کدام مدارک شبیه به یکدیگر و یا به کلیدواژههای جستجو شبیه هستند [12].
بردار مربوط به هر مدرک (یا هر جستجو) دارای n مؤلّفه است. n برابر با تعداد اصطلاحات موجود در مجموعه مدارک است.
به هر یک از اصطلاحات هر مدرک، به طور خودکار وزنی اختصاص مییابد که بر فراوانی رخداد اصطلاح در کلّ مجموعة مدرک و تعداد دفعات حضور یک اصطلاح در مدرک خاص مبتنی است. با افزایش فراوانی اصطلاح در یک مدرک، وزن آن اصطلاح درمدرک افزایش می یابد. برعکس، وقتی فراوانی اصطلاح در مجموعة مدارک بیشتر باشد، این وزن کاهش می یابد.
به طور کلی، میتوان مزیّتهای اصلی مدل فضایی برداری را چنین بیان نمود [13]:
1. طرح وزن دهی به اصطلاح در این مدل، عملکرد بازیابی را بهبود می بخشد.
2. استراتژی تطبیق جزئی این مدل، بازیابی مدارکی را مجاز می شمارد که به شرایط جستجو نزدیک هستند.
3. فرمول رتبه بندی کسینوسی آن، مدارک را بر طبق درجة تشابهی که به موضوع جستجو دارند، مرتّب میکند.
1-2. وزن دهی به اصطلاح
چون اصطلاحات متفاوت، دارای اهمیت مختلفی در متن هستند، از یک نشانگر مهم، یعنی «وزن اصطلاح» استفاده میشود که همراه هر اصطلاح است [15و 14]. به اصطلاحات مهمتر، وزن بیشتر اختصاص می یابد. برای وزن دادن به یک اصطلاح، از تعداد رویداد یک اصطلاح (فراوانی آن یا tf استفاده میشود). اهمیت اصطلاح، مستقل از بستر جستجو نیست. برای مثال، اصطلاح "دریاچه" در مجموعة مقالات دریاچة خزر اهمیت زیادی ندارد، اما در زمان جستجو در مقالات پیرامون کویر و صحرا، این اصطلاح میتواند بسیار مهم باشد. این امر نشان دهندة این موضوع است که مدارکی که یک اصطلاح در آن مکرراً وجود دارد، ممکن است اهمیت کمتری داشته باشد. از این رو از «فراوانی مدرک معکوس» یا «عامل idf» همراه با وزن اصطلاح استفاده میشود. فراوانی اصطلاح معکوسِ برای محاسبة اهمیت واژههای نادر نسبت به واژههای معمولی به وجود آمده است. فراوانی اصطلاح معکوس واژة i به وسیلة فرمول زیر محاسبه می شود.
در اینجا N تعداد کلّ مدارک و تعداد مدارک حاوی واژة i است.
معمولاً در یک مدرک طولانی به طور مکرر از اصطلاح خاصی استفاده می شود. عامل فراوانی اصطلاح ممکن است برای مدرک طولانی، بزرگ باشد. همچنین مدرک طولانی، شامل بسیاری از اصطلاحات گوناگون و متمایز است. این امر باعث افزایش تعداد تطبیق واژههای یک جستجو و مدرک طولانی می شود و به طور ناعادلانهای احتمال بازیابی این مدرک را نسبت به مدارک کوتاه تر افزایش میدهد. برای جبران این اثر، معمولاً وزنهای اصطلاح را نرمالسازی میکنند. نرمالسازی فراوانی اصطلاح، یکی از اصلی ترین مباحث در بازیابی اطّلاعات طی سالهای اخیر است.
فراوانی اصطلاح به طول مدرک بستگی دارد. بنابراین، در یک سیستم بازیابی اطّلاعات، نیازمند یکنواخت کردن طول مدرک با تکنیک نرمالسازی فراوانی اصطلاح هستیم. بیشتر روشهای نرمالسازی فراوانی اصطلاح، در بازیابی اطّلاعات از پارامترها استفاده میکنند. تنظیم این پارامترها، میتواند به تغییرات مهمی در میزان دقت و بازیافت منجر گردد. یکی از پارامترهای مهم، وزن است.
نرمالسازی کسینوسی یکی از روشهای موثر نرمالسازی است. هر بردار مدرک به طول اقلیدسی آن تقسیم می شود، در اینجا، وزن اصطلاح i در مدرک است. وزن نهایی برای یک اصطلاح به صورت زیر محاسبه می گردد.
|
وزن اصطلاحی که در یک مدرک موجود نباشد را صفر در نظر میگیرند [1].
باتوجه به نکات فوق میتوان چنین گفت که تمام واژههای موجود در مدرک اهمیت یکسانی ندارند. یک واژه اگر دارای شرایط زیر باشد، به احتمال زیاد به مدرک بسیار مربوط خواهد بود:
الف) تکرار آن در سایر مدارک کم باشد.
ب) تکرار آن در مدرک بالا باشد.
2-2. رتبهبندی مدارک
تابع حاصلضرب داخلی برداری میتواند برای یافتن همپوشانی واژگان میان هر دو بردار متن استفاده گردد. جستجوی زبان طبیعی که کاربر انجام میدهد، به بردار وزن داری تبدیل میشود و با استفاده از تابع حاصلضرب داخلی، تشابه عددی میان بردار جستجو و بردار هر مدرک در مجموعه محاسبه می گردد. با در نظر گرفتن بردار جستجوی Q و نمایش برداری مدرکi به صورت، تشابه میان جستجو و مدرک به صورت زیر محاسبه می شود [1]:
|
در اینجا tj اصطلاحی است که در جستجو و مدرک، ظاهر شده و qj وزن اصطلاح tj در جستجو و tijوزن آن در مدرکi است. تمام اصطلاحات tjکه هم در جستجو و هم در مدرک وجود دارند با هم جمع میشوند. تشابه حاصلضرب داخلی فهرستی از مدارک رتبهبندی شده با توجه به میزان استفاده آنها ارائه می دهد.
به طور معمول، کاربر جستجویی را در پایگاههای اطّلاعاتی وارد می کند. جستجو با تمام مدارک با اندازهگیری تشابه مقایسه می شود. مدارک به ترتیب نزولی ِتشابهی که با اصطلاح جستجو دارند، به کاربر ارائه می شود.
3-2. محاسبة تشابه
روشهای مختلفی برای اندازه گیری تشابه میان دو مدرک، یا تشابه یک مدرک با یک جستجو وجود دارد. اندازهگیری کسینوسی، یک روش بسیار معمول اندازهگیری تشابه است، که در این روش کسینوس زاویة بین مدرک و جستجو اندازه گیری می شود. با اندازهگیری تشابه، مجموعه ای از مدارک را میتوان با جستجو مقایسه کرد و آنگاه مربوط ترین مدرک را بازیابی نمود [12].
اندازه گیری کسینوسی:
برای دو بردار d و q، تشابه کسینوسی بین d و q به صورت زیر محاسبه می شود:
(1)
در اینجا، حاصلضرب برداریd و q است که با ضرب کردن فرایندهای متناظر در هم، محاسبه می شود.
اندازه گیری کسینوسی، زاویة بین بردارها را در فضای چند بعدی محاسبه می کند.
برای نمونه، شکل یک را در نظر بگیرید.
شکل1. نمایش برداری دو مدرک و یک جستجو
با توجه به این شکل، تشابه میان مدرک و جستجوی Q، برابر با کسینوس زاویة بین دو بردار، یعنی است
و همینطور داریم:
4-2. پیاده سازی مدل فضای برداری
برای مدلبرداری، وزن wi,q مربوط به زوج (djوki) مثبت و غیر دودویی است. علاوه بر آن، واژههای موضوعی در جستجو نیز وزن دار می باشند. فرض کنید wi,q وزن مربوط به زوج [ki,q]است که در آن wi,q ≥ 0 است. سپس، بردار جستجوی به صورت تعریف می شود که در آن t تعداد کلّ واژههای موضوعی در سیستم است. همانطور که قبلاً گفته شد، برای مدرک dj، بردار آن به صورت نمایش داده می شود.
Sim(dj,q) =
در این جا و نرم بردارهای مدرک و جستجو هستند. عامل (فاکتور) تأثیری بر رتبه بندی (یعنی ترتیب مدارک) ندارد، زیرا این عامل برای تمام مدارک، یکسان است. عامل امکان نرمالسازی مدارک را فراهم میکند. در اینجا وزن از فرمول زیر به دست آمده است:
از آن جا که wi,j ≥ 0 و wi,q ≥ 0 است، مقدار Sim(q,dj) از 0 تا 1 متغیّر است. بنابراین، به جای پیشبینی مربوط یا نامربوط بودن یک مدرک، مدل برداری، مدارک را بر اساس درجة تشابه آنها نسبت به جستجو رتبهبندی مینماید. ممکن است یک مدرک، حتّی در حالت تطبیق جزئی با جستجو بازیابی گردد. برای مثال، میتوان آستانه ای را برای Sim(dj,q) تعیین کرد و مدارکی را که درجة تشابه آنها بیش از آستانه است، بازیابی نمود [13].
نحوة محاسبة رتبه بندی مدارک
برای تبیین مسئله، از مثال سادهای برای نشان دادن نحوة ساخت بردار استفاده میکنیم:
مثال: مدارک و جستجوی زیر را در نظر بگیرید:
: speech recognition and image processing and signal processing
: speech models and image processing
q: image models
برای جستجو و هر یک از مدارک، جدولهایی شامل اصطلاحات موجود در هر رکورد ساخته می شود.
برای هر یک از اصطلاحات مستقل، یک مؤلفة در جدول در نظر گرفته شده و فراوانی اصطلاح نیز مشخص گردیده است.
: speech recognition and image processing and signal processing
speech |
recognition |
and |
Image |
processing |
Signal |
1 |
1 |
2 |
1 |
2 |
1 |
: speech models and image processing
speech |
Models |
and |
image |
Processing |
1 |
1 |
1 |
1 |
1 |
q: image models
image |
Models |
1 |
1 |
در این مثال، تمام واژهها برای تهیة مجموعه واژگان به کار رفتهاند.
واژگان ایجاد شده شامل تمام واژههایی است که در مدارک به کار رفتهاند:
speech, recognition, and, image, processing, signal, models.
درمدل فضای برداری، واژههای موجود در واژگان، مرتب سازی می شود:
and, image, models, processing, recognition, signal, speech.
بنابراین در این مثال بردارهای مدارک و جستجو دارای 7 مؤلفه (به تعداد واژگان) بوده و بردار حاصل، هفت بُعدی خواهد بود.
بردارمدرک باتوجه به فراوانی اصطلاحات موجود در آن به صورت زیر نشان داده می شود:
: speech recognition and image processing and signal processing
and |
image |
Models |
processing |
recognition |
signal |
Speech |
2 |
1 |
0 |
2 |
1 |
1 |
1 |
و بردار مدرک به صورت زیر به دست می آید:
: speech models and image processing
speech |
signal |
recognition |
processing |
Models |
image |
and |
1 |
0 |
0 |
1 |
1 |
1 |
1 |
بردار جستجو را میتوان مانند بردارهای مدارک به وجود آورد:
q: image models
and |
image |
Models |
processing |
recognition |
signal |
speech |
0 |
1 |
1 |
0 |
0 |
0 |
0 |
رتبه بندی مدارک موجود نسبت به جستجویq به صورت زیر محاسبه می شود:
ابتدا ضریب تشابه هر یک از بردارهای مدارک و با بردار جستجوی q به شیوه زیر محاسبه میشود:
ضریب تشابه مدرک با جستجویq به ترتیب زیر به دست می آید.
با توجه به مقادیر به دست آمده برای ضریب تشابه، از آنجا که ضریب تشابه مدرک با جستجویq 0.632 و ضریب تشابه مدرک با جستجوی q برابر با 0.204 است، نتیجه میشود که مدرک، مدرک مربوط تری نسبت به مدرک برای جستجویq است. بنابراین، رتبهبندی به صورت و است.
نتیجة این محاسبات نیز با نگاه اجمالی به مدارک و جستجو قابل تأیید است.
نتیجه گیری
در این مقاله، از میان استراتژیهای مختلف بازیابی اطّلاعات، مدل فضای برداری به عنوان یکی از معتبرترین تکنیکهای بازیابی به طور ساده بیان و نشان داده شد که مدلبرداری یک استراتژی رتبهبندی است که با مجموعههای عمومی بهبودپذیر است. این استراتژی مجموعه جوابهای رتبهبندی شدهای تولید میکند که بهبود آنها بدون بسط جستجو یا بازخورد میزان ربط در چارچوب مدل برداری، مشکل است. در رتبهبندی، روشهای بسیار مختلفی با مدل برداری مقایسه شده است، امّا به طور کلّی به نظر میرسد مدل برداری، یا برتر بوده و یا تقریباً به خوبی سایر روشهای موجود عمل می نماید. به علاوه، مدل برداری، آسان و سریع است. با توجّه به این دلایل، مدل برداری یک مدل بازیابی معتبر است.