زندگی واقعی، کاربران واقعی و نیازهای واقعی: بررسی و تحلیل پرس‌و‌جوهای کاربران در وب

نوع مقاله: مقاله پژوهشی

نویسندگان

1 Bernard J. Jansen

2 Amanda Spink

3 Tefko Saracevic

4 مترجم

چکیده

در مقالة حاضر، پایگاه‌های جستجوی داده‌گرفت[1]، شامل 51473 پرس‌و‌جو که توسط 18113 کاربر از موتور جستجوی Excite انجام گرفته،‌ تحلیل شده است. Excite یکی از موتورهای اصلی جستجوی اینترنتی است . داده‌ها با در نظر گرفتن موارد زیر گردآوری شده‌اند: (i) نشستها:[2] تغییر در پرس‌و‌جوها در طول یک نشست، تعداد صفحات بازدید شده و استفاده از بازخورد ربط[3]. (ii)پرس‌و‌جوها: تعداد عبارتهای[4] جستجو شده، و استفاده از عملگرهای منطقی و بیانگرها[5] و (iii)عبارتها: پراکندگی رتبه/ فراوانی عبارتها و بیشترین عبارتهای جستجوشده. سپس تحلیل، از پرس‌و‌جوها به کاربران متمرکز گردید تا دیدی کلی از ویژگیهای کاربران وب به دست آید. با داشتن چنین ویژگیهایی به عنوان یک منبع اطلاعاتی، تحلیلهای اشتباه بررسی گردید. منظور از تحلیلهای اشتباه، اشتباهات رایجی است که توسط کاربران صورت می‌پذیرد. در نهایت، با ارائة خلاصه‌ای از نتایج، در مورد نتایج ضمنی این یافته‌ها بحث شد.
 



3. Transaction logs.


4. Sessions.


5. Relevance feedback.


6. Terms.


7. Modifiers.

کلیدواژه‌ها


مقدمه

در سال 1997 کنفرانسی توسط اعضای «گروه علاقه ویژه»[1] در خصوص مطالعات مربوط به بازیابی اطلاعاتی [2] با عنوان «بازیابی اطلاعات در زندگی واقعی: موتورهای‌جستجوگر بازرگانی» انجام گرفت که نمایندگانی از چندین شرکت خدمات‌رسانی اینترنتی در آن حضور داشتند. در این کنفرانس، «داوکاتینگ»،[3] نمایندة شرکت Excite، یکی از سرویسهای اطلاع‌رسانی برجسته، نیز حضور داشت. «کاتینگ» پیشنهاد داد برای پیشبرد تحقیقات مجموعه‌‌ای از پرس‌و‌جوهای کاربران را که به شرکت آنها ارائه شده ‌است، در اختیار گروه قرار دهد. تحلیلی که در اینجا بر اساس چگونگی نشستها، پرس‌و‌جوها و عبارتهای انجام داده‌ایم، نتیجة این پیشنهاد سخاوتمندانه است. جالب است بدانیم، دو مؤلف اول این مقاله به طور جداگانه به این موضوع علاقه‌مند شدند و پس از آشنایی و تبادل اطلاعات از طریق پست الکترونیکی[4]، شروع به همکاری اینترنتی کردند. پس از آن بود که برای اولین بار یکدیگر را در کنفرانس «روتگرز»[5] در فوریه 1998 ملاقات کردند و نتایج کار خود را ارائه دادند. این رخداد به نوبة خود می‌تواند نمونه‌ای باشد از چگونگی روند تغییر اینترنت و تأثیر آن بر جستجوی اینترنتی.

در قسمت «نتیجه‌گیری» به این مهم اشاره خواهیم کرد که جستجوی اینترنتی در زندگی واقعی، بازیابی اطلاعات (IR) را نیز تحت تأثیر قرار می‌دهد. درست است که موتورهای جستجوگر اینترنتی بر اصول IR استوارند، اما جستجوی اینترنتی با جستجوی IR تفاوت بسیاری دارد. جستجوهای اینترنتی از دیرباز از طریق پایگاه‌های اطلاعاتی آنلاین، سی‌‌دی‌رام‌ها و فهرستهای رایانه‌ای آنلاین (اپک)[6] انجام می‌گرفته است. بازیابی اطلاعات اینترنتی، گونه‌ای متفاوت از بازیابی اطلاعات است که می‌‌تواند تغییرات را به دیگر محیطهای IR گسترش دهد.

افزایش شگفت‌انگیز میزان استفادة کاربران از وب، موجب شده تا علاقه به انجام مطالعات در خصوص موضوعها و مسائل مرتبط به استفاده از وب نیز افزایش یابد. به عنوان مثال، «کرولا و بستاوروز»[7] (1996) در حوزة سخت‌افزاری، حجم کار از طرف سرویس گیرنده[8] را بررسی کردند و «عبدا...، فاکس و آبرامز»[9] (1997) نیز مطالعه‌ای در خصوص استفاده از سرویس‌دهنده‌ها[10] انجام دادند‌. در حوزة نرم‌افزاری نیز، ارزیابی‌های توصیفی بسیاری از موتورهای جستجوی وب ارائه شده است. (به عنوان مثال، «لینچ»[11] (1997). در رابطه با میزان استفاده از وب نیز به طور مرتب مطالعات آماری صورت می‌گیرد. («کهو و همکاران»[12] 1997 و FIND/SVP، 1997)، اما نتایج روز به روز در حال تغییر است. آثار متعددی نیز اطلاعات مربوط به خدمات متنوع موتورهای جستجوگر وب را تحلیل کرده‌اند. مقاله‌ای که اخیراً توسط «لورانس و گیلز»[13] (1998) در این‌باره ارائه شده، قابل توجه است. الگوی چگونگی استفادة کاربران از وب نیز توسط «هوبرمن، پیرولی، پیتکو و لوکس»[14] (1998) مورد تحلیل قرار گرفته است. با این حال، تا امروز هیچ مطالعة کیفی یا کمی گسترده و تمام‌عیاری از جستجوی وب انجام نگرفته است.

کاربران چگونه وب را جستجو می‌کنند ؟ به هنگام جستجو به دنبال چه چیزی می‌گردند ؟ در این مقاله در جستجوی پاسخی علمی و جامع برای این‌گونه پرسشها هستیم. با توجه به افزایش چشمگیر میزان استفاده از وب در سالهای اخیر، نبود چنین مطالعات علمی، هم جای تعجب دارد و هم جای تأسف. در مقابل، در خصوص کاربران اپک مطالعات فراوانی انجام گرفته‌است. بسیاری از این مطالعات در اثر «پیترز»[15] (1993) بازنگری شده است. به همین ترتیب، در خصوص کاربران سیستمهای IR  اولیه نیزمطالعات فراوانی صورت گرفته‌است.

با وجود این، در رابطه با کاربران وب تنها دو مطالعة جزئی انجام گرفته است. یکی از این مطالعات بر روی سیستم THOMAS  «کرافت، کوک و ویلور»[16] (1995) انجام شده و اطلاعاتی کلی در مورد کاربران آن سایت ارائه داده است. با این حال، این بررسی منحصراً بر روی سایت THOMAS متمرکز شده و به تشریح چگونگی جستجوی وب به شیوه‌ای نظام‌مند نپرداخته و تنها به ارائة توصیفی از این سیستم بسنده کرده است.

مطالعة دوم توسط «جونز، کانینگام و مک‌ناب»[17] (1995) صورت گرفته که آن نیز تنها بر روی یک سایت ـ سایت کتابخانة دیجیتالی نیوزیلند که شامل گزارشهای تکنیکی از علم رایانه است ـ متمرکز بوده است. با توجه به ماهیت تکنیکی این سایت، جای سؤال است که آیا کاربران آن می‌توانند نمایندة کل کاربران آن وب باشند یا خیر. در مقایسه با مطالعات متعددی که در خصوص استفاده از اپک و بازیابی اطلاعات (IR) صورت پذیرفته، در مورد خود کاربران وب مطالعات هرچند اندک  اما رو به رشدی در حال انجام است.

در مقالة حاضر، یافته‌های حاصل از یک مطالعة گسترده و رو به رشد از رفتار جستجویی کاربران وب ارائه می‌شود. ما مجموعه‌ای از پایگاه‌های ثبت وقایع تعاملی جستجوهای کاربران سایت Excite[18] را مورد مطالعه قرار داده‌ایم. این مطالعه شامل کاربران واقعی‌است که پرس‌و‌جوهای واقعی انجام داده‌اند، نیازهای اطلاعاتی واقعی داشته‌ و از موتور جستجوی واقعی استفاده کرده‌اند. نقطة قوّت این بررسی این است که برشی واقعی از زندگی وب را شامل می‌شود. نقطة ضعف آن نیز این است که تنها یک برش را در برمی‌گیرد ـ مشاهدة مصنوعی از آنچه کاربران به طور واقعی انجام داده‌اند، بدون هیچ‌گونه اطلاعاتی از خود کاربران و یا در مورد نتایج کسب شده از جستجوها و استفاده از آنها. کاربران برای ما ناشناخته هستند، اما این امکان وجود دارد که یک یا مجموعه‌ای از پرس‌و‌جوهایی را که از یک کاربر ویژه نشأت می‌گیرند، شناسایی کنیم. تنها نکته‌ای که در مورد کاربران برای ما آشکار است، زمان موضوع جستجوی آنهاست. گزارشی که ارائه می‌شود با مشاهدة رفتار مصنوعی آنهاست و هیچ بافتی در اختیار نداریم. با وجود این، مشاهده و تحلیل چنین رفتاری زمینة لازم را برای درک چگونگی رابطة متقابل کاربران و موتور جستجوی وب فراهم می‌کند. مهمتر اینکه، این بررسی اطلاعات آماری دقیقی از رفتار کاربران وب ارائه می‌دهد که تا به حال ارائه نشده است؛ همچنین مبنایی خواهد بود برای مقایسه با مطالعات مشابه در خصوص جستجوی کاربران از سیستمهای قدیمی‌تر IR و اپک.

این وب تعدادی موتور جستجو دارد. رویکردهای جستجو شامل الگوریتمها، نمایشها[19]، شیوه‌های تعامل و ...، از یک موتور جستجو به موتور جستجوی دیگر متفاوت است. با وجود این، تمامی موتورهای جستجوی وب ابزار بازیابی اطلاعاتی برای جستجوی منابع اطلاعاتی بسیار متنوع و پراکنده‌ای هستند که در وب یافت می‌شود. اما با توجه به ماهیت منابع وب، ممکن است موارد متعددی پیدا شود که به راه‌حلهایی متفاوت از آنچه موتورهای جستجو در تمامی سیستمهای سازمان‌بندی‌شده پیدا کرده‌اند، نیاز داشته باشند. به عنوان نمونه، در سیستم DIALOG، یا در آزمایشهای آزمایشگاهی نظیر کنفرانس بازیابی متن[20] (TREC) «اسپارک جونز»[21] (1995). به علاوه، چنانکه می‌دانیم، کاربران وب جمعیتی گسترده‌تر و احتمالاً متفاوت را تشکیل می‌دهند، «اسپینک، بتمن و جانسن»[22] (1999) که نیازهای اطلاعاتی متفاوتی دارند که احتمالاً می‌تواند بر روی پرس‌و‌جوها و جستجوها و تعاملهایشان تأثیر بگذارد. از این رو، مطالعة شباهتها و یا تفاوتهای جستجوهای وب در مقایسه با سیستمهای IR  قدیمی‌تر به طور قابل ملاحظه‌ای در خور توجه است. در هر مورد، سیستم بازیابی اطلاعات متفاوتی وجود دارد. اهمیت این مطالعه، همسطح با مطالعة مشابه‌ای است که در زمینة تعامل، پرس‌و‌جو و جستجوهای IR  انجام گرفته است. در این بررسی، از تجربیات مطالعات گوناگون کمک گرفته و همواره این اصل کلی را مدنظر قرارداده‌ایم که :

«موفقیت یا عدم موفقیت هر نوع فناوری یا هر سیستم تعاملی به این وابسته است که تا چه حد مسائل مربوط به کاربران - عوامل انسانی-  از همان آغاز تا انتها مدنظر قرار داده می‌شود ؛ از تئوری، مفهوم‌سازی و طرح‌ریزی گرفته تا پیشبرد، ارزیابی و تجهیز خدمات». (ساراسویک[23] 1997).

 

مطالعات بازیابی اطلاعات مرتبط

در مقالة حاضر، بر روی سه متغیر «نشست»، «پرس‌و‌جو» و «عبارت» به عنوان متغیرهای اصلی در تعامل بازیابی اطلاعات در وب تأکید شده‌ است. با اینکه مقالات زیادی با بحث درباره جنبه‌های مختلف جستجوی وب ارائه شده است، بیشتر آنها جنبة توصیفی، تجویزی یا پیشنهادی دارند. به غیر از دو نمونة مطالعاتی که در قسمت مقدمه ذکر آنها رفت، مطالعة مشابهی در زمینة جستجوی وب پیدا نکردیم. با وجود این، مطالعات چندی انجام گرفته که داده‌های خود را از سیستمهای IR موجود که بیشتر سیستمهای بازرگانی هستند، جمع‌آوری کرده‌اند. ما نیز داده‌های خود را از چنین پایگاه‌هایی انتخاب کرده‌ایم تا برای مقایسة مطالعاتی که بر روی وب صورت گرفته و مطالعاتی که بر روی سیستمهای IR  خارج از وب انجام شده، مبنایی داشته باشیم.

مطالعاتی که در زیر آمده، بر روی متغیرها و جنبه‌های مختلف جستجو تأکید دارد و از آنجا که از روشهای مختلفی در آنها استفاده شده، مقایسة آنها با یکدیگر دشوار است. با وجود این، هر یک از آنها اطلاعاتی در مورد میانگین عبارتهای جستجو شده در پرس‌و‌جوها توسط جستجوگران را به دست داده اند. فهرستی از این نوع مطالعات در زیر آمده است:

  • فنیشل (1981)، جستجوگران مبتدی[24]
  • سیه یی (1993)، موضوعات آشنا: مبتدیان[25]
  • بیتس،وایلد و سیگفرید(1993)، پژوهشگران علوم انسانی[26]
  • اسپینک و ساراسویک(1997)، جستجوگران باتجربه[27]

این مطالعات حاکی از آن است، جستجوهایی که توسط افراد مختلف صورت گرفته بازه‌ای در حدود 7 تا 15 عبارت را در برمی‌گیرد. چنانکه متعاقباً توضیح داده خواهد شد، این میزان، به طور قابل ملاحظه‌ای از بازه‌ای که در مطالعة حاضر به دست آمده، بیشتر است.

 

پیشینه‌ای از Excite  و داده‌ها

شرکت Excite که در سال 1994 بنیانگذاری شد، یک شرکت اینترنتی عظیم است که خدمات متعددی از جمله خدمات اینترنتی رایگان را در اختیار عموم قرار می‌دهد. اطلاعات کامل در خصوص شرکت و خدمات آن در سایت شرکت، به آدرس  http://www.excite.com آمده است. از این رو، تنها به ارائة توصیفی از تواناییهای جستجوگرهای این سایت که به مطالعة ما مربوط می‌شود، بسنده می‌کنیم.

جستجوهایی که Excite انجام می‌دهد، بر پایة عبارتهای دقیقی که کاربر در هر پرس‌و‌جو وارد می‌کند، صورت می‌پذیرد. بزرگ نوشتن حروف، تأثیری در تعبیر یا معنای عبارت ندارد؛ البته به استثنای برخی نشانه‌های قراردادی که به صورت فرمانهای منطقی به سایت داده می‌شود، مثل AND، OR یا ANDNOT. سیستم به نرم‌افزار ریشه‌یابی عبارات مجهز نیست. یک روش اصطلاح‌یابی و مفهوم‌سازی تحت عنوان «استخراج هوشمند مفاهیم»[28] به منظور جستجوی عبارتها و پیدا کردن ارتباط بین مفاهیم به کار گرفته می‌شود تا علاوه بر عبارتهای وارد شده، دیگر موارد مربوط را نیز پیدا کند. نتایج جستجو به صورت رتبه‌بندی شده نمایش داده می‌شود. تعدادی مؤلفه‌های جستجوگر پیشرفته نیز وجود دارند که به طور قراردادی به کار می‌روند. در ادامه به تعدادی از آنها که به مطالعة ما مربوط است، اشاره می‌کنیم:

  • · برای یک جستجوی منطقی، عملگرهای بولی[29] شامل AND, OR, ANDNOT و پرانتزها به کار می‌آیند. تمامی این عملگرها باید با حروف بزرگ و فاصلة دوطرف نوشته شوند. به هنگام استفاده از عملگر بولی، مکانیزم جستجوی مفهوم ـ بنیاد[30] خاموش است.
  • مجموعه‌ای از عبارتها که میان علامت نقل قول ( بدون فاصله بین علامت نقل قول و عبارت وارد شده ) نوشته می‌شود و بیانگر این است که عبارتها با همان ترتیبی که وارد شده‌اند، جستجو ‌شوند.
  • · علامت + قبل از عبارتها (بدون فاصله) بیانگر این است که عبارت مورد نظر باید در پاسخ ] نتیجة جستجو[ موجود باشد.
  • · علامت - قبل از عبارتها (بدون فاصله) بیانگر این است که عبارت مورد نظر نباید در پاسخ  ] نتیجة جستجو[ موجود باشد. علائم + و - و علامت نقل قول را در اصطلاح بیانگر[31] می‌نامند.
  • · صفحة نمایشگر جستجوها شامل 10 پاسخ است که بر اساس میزان مرتبط بودن با عبارت وارد شده رتبه‌بندی می‌شوند. در پاسخها، عنوان هر سایت مرتبط و یو.آر.ال آن (آدرس سایت) و خلاصه‌ای از مندرجات آن سایت نیز داده می‌شود. نتایج ممکن است تنها بر اساس سایت و عناوین هر سایت داده شوند. در این صورت، کاربر می‌تواند با کلیک کردن بر روی عنوان سایت، وارد سایت مربوط شود و یا با کلیک بر روی عبارت «صفحة بعدی» به صفحة بعد رفته و 10 نتیجة دیگر را نیز مشاهده کند. به علاوه، می‌توان با کلیک کردن بر روی جملة "more like this" به سایتهای مرتبط دیگر راه یافت. این روش یک مکانیزم بازخورد ربط است.
  • · هنگامی که جملة "more like this" کلیک می‌شود، نرم‌افزار Excite آن را به عنوان عبارت صفر تعبیر می‌کند.

هر رکورد تعاملی ] منظور هر ورود به سایت[ سه حوزه را در بر می‌گیرد. با مطالعة این سه حوزه می‌توانیم پرس‌و‌جوی اولیة کاربر را مکان‌یابی و ترتیب زمانی عملیاتی را که توسط کاربر در هر نشست انجام گرفته است، بازسازی کنیم :

1. زمان مراجعه در روز: بر حسب ساعت، دقیقه یا ثانیه از نیمه‌شب 9 مارس 1997

2. مشخصات کاربر: کد مربوط به یک کاربر ناشناس که توسط سرویس‌دهندة Excite تعیین شده است.

3. واژه‌های پرس‌و‌جو شده: دقیقاً به همان شکلی که کاربر وارد کرده است.

با تکیه بر روی سه سطح تحلیل‌ ـ نشستها، پرس‌و‌جوها، عبارات ـ این متغیرها را به صورت زیر تعریف می‌کنیم:

1. نشست‌: هر نشست مجموعة کامل پرس‌و‌جوهایی است که توسط یک کاربر در طول چند دقیقه یا چند ساعت انجام گرفته است. یک نشست می‌تواند یک پرس‌و‌جوی کوتاه یا مجموعه‌ای از چند پرس‌و‌جو باشد.

2. پرس‌و‌جو: یک پرس‌و‌جو شامل یک یا چند عبارت جستجو شده است و ممکن است شامل عملگرهای منطقی و بیانگرها باشد.

3. عبارت: یک عبارت زنجیره‌ای پیوسته از نویسه‌هاست[32]. ( یعنی مجموعه‌ای از نویسه‌ها که بین آنها هیچ فاصله‌ای نباشد). نویسه‌های یک عبارت شامل هر چیزی مثل حروف، اعداد، و علایم می‌باشد. عبارات می‌توانند واژه‌ها، واژه‌های اختصاری، اعداد، علایم و آدرسهای سایت یا هر نوع ترکیب دیگری باشند. عملگرهای منطقی را که با حروف بزرگ نوشته می‌شوند، عبارت در نظر می‌گیریم. با این حال، در تحلیلهای دیگر ممکن است آنها را فرمان تلقی کنیم نه عبارت.

داده‌های خام جمع‌آوری شده در تحلیل‌ما خیلی نامرتب هستند. کاربران عبارات، فرمانها و بیانگرها را به هر شکلی و به هر طریقی وارد می‌کنند که خود شامل نگارشهای غلط و دیگر اشتباهات می‌باشد. در موارد بسیاری، قراردادهایی که Excite در نظر گرفته، رعایت نمی‌شود. در تحقیق حاضر این سرپیچی‌‌ها از قراردادهای سایت را اشتباه قلمداد کرده‌ و آنها را در بخش تحلیل اشتباه در همین مقاله آورده‌ایم. در بیشتر موارد، داده‌ها را به همان صورت اولیه و واقعی خود ثبت کرده‌ایم؛ یعنی به هیچ وجه داده‌ای را «پاک» نکرده‌ایم. این پرس‌و‌جوها نمایندة جستجوهای واقعی کاربران واقعی هستند. تنها مطلوب‌سازی که در یکی از موارد (عبارتهای منحصر به فردی که نسبت به حروف بزرگ و کوچک حساس[33] نیستند صورت گرفته]فرقی نمی‌کند که با حروف بزرگ نوشته شده ‌باشند یا با حروف کوچک[، نادیده گرفتن بزرگ‌نویسی کلمات است، زیرا خود سایت Excite نیز این مسئله را نادیده می‌گیرد. (به عنوان مثال، Topic, TOPIC و topic هر سه پاسخ یکسانی را بازیابی می‌کنند). Excite سیستم ریشه‌یابی خودکار ندارد، بنابراین topic و topics دو عبارت منحصر به فرد قلمداد می‌شوند و گذاردن علایم ‘?’ یا ‘*’ در پایان عبارت به عنوان فرمان ریشه‌یابی اشتباه است و هر کدام به عنوان عبارتی جدا خوانده می‌شوند. ما همچنین مجموعه‌ای از عبارتها را پاک کردیم؛ یعنی مثلاً بیانگرهایی چون + و -  را در نظر نگرفتیم. در این مقاله، به منظور گسترده‌تر کردن یافته‌ها، از منبع «جانسن؛ جانسن و جانسن»[34] کمک گرفته شده است.

 

نتایج

نخستین مسئلة قابل بحث این است که الگوی پرس‌وجوهای کاربران چیست ؟ ما تعداد پرس‌و‌جوهایی را که توسط هر کاربر خاص انجام شده بود و همچنین تفاوت میان پرس‌و‌جوهای متوالی همان کاربر را در نظر گرفتیم. تعداد 51474 پرس‌و‌جو را تحت عناوین «منحصر به فرد» [35]، «اصلاح شده»[36] و «همسان»[37] طبقه‌بندی کردیم که در جدول 1 نشان داده شده است.

جدول 1. پرس‌و‌جوهای منحصر به فرد، اصلاح شده و همسان

نوع پرس و جو

تعداد

درصد کل پرس و جو

منحصر به فرد

098/18

35%

اصلاح شده

249/11

22%

همسان

127/22

43%

مجموع

 

100%

 

پرس‌و‌جوی منحصر به فرد، اولین پرس‌و‌جویی است که توسط یک کاربر صورت گرفته است (که می‌تواند نشان‌دهندة تعداد کاربران باشد). پرس‌و‌جوی اصلاح‌شده، پرس‌و‌جویی است که به صورت متوالی توسط همان کاربر انجام می‌گیرد (دومین، سومین،...، جستجو) که می‌تواند شامل عبارات اضافه‌شده، حذف شده و یا هر دو حالت، از پرس‌و‌جوی منحصر به فرد باشد. پرس‌و‌جوهای منحصر به فرد و اصلاح شده بر روی هم نشان‌دهندة پرس‌و‌جوهایی است که کاربر با عبارات انجام داده‌است. پرس‌و‌جوهای همسان، پرس‌و‌جوهایی هستند که توسط همان کاربر انجام گرفته و با پرس‌و‌جوهایی که قبل از آن بوده، همانند است. انجام دو پرس‌و‌جوی همسان پشت سر هم، به دو طریق ممکن است. اولین امکان این است که کاربر عبارت پرس‌و‌جوی خود را دوباره وارد کند. مطالعات نشان داده است کاربران اغلب این روش را بر می‌گزینند. «پیترز»[38] (1993). امکان دوم این است که پرس‌و‌جو توسط Excite بسط داده شود. هنگامی که کاربر دومین صفحه و صفحات بعدی را از پرس‌و‌جوی واحدی مشاهده می‌کند (هر صفحه شامل 10 نتیجة جستجوست)، Excite یک پرس‌و‌جوی دیگر را فراهم می‌آورد که همسان یا مشابه پرس‌و‌جوی قبلی است. تحلیل ما نتوانست ابهام بین این دو عامل پرس‌و‌جوهای همسان را رفع نماید. پرس‌و‌جوهای منحصر به فرد به علاوة پرس‌و‌جوهای اصلاح‌شده (هنگامی که کاربران فعالانه عبارتها را وارد یا اصلاح می‌کنند) 29437 پرس‌و‌جو یا به عبارتی 57% تمامی پرس‌و‌جوها را شامل می‌شوند. چنانچه فرض کنیم تمامی پرس‌و‌جوهای همسان بنا به درخواست کاربر برای دیدن صفحات بعدی باشد، 43% پرس‌و‌جوها در نتیجة تمایل خود کاربران برای دیدن صفحات بعدی خواهد بود. اصلاحات و بازدید از صفحات بعدی در دو جدول بعدی بیشتر توضیح داده خواهد شد.

1.اصلاحات

برخی کاربران در هر نشست خود تنها یک پرس‌و‌جو و برخی دیگر تعداد متعددی پرس‌و‌جوی متوالی را انجام می‌دهند. یک نشست متداول که هر سه نوع پرس‌و‌جو را در بر بگیرد، به طور میانگین 84/2 پرس‌و‌جو را شامل می‌شود. این به معنای تعداد کاربرانی است که خواهان اصلاح پرس‌و‌جوی خود یا بازدید از صفحة بعدی و یا هر دوی این حالتها هستند. میانگین طول[39] هر نشست، بدون در نظر گرفتن پرس‌و‌جوهای همسان، 6/1 پرس‌و‌جو برای هر کاربر است. جدول2، فهرستی از تعداد پرس‌و‌جوهای هر کاربر را به دست می‌دهد.

جدول 2.تعداد پرس‌و‌جوهای هر کاربر

پرس و جوهای هر کاربر

تعداد کاربران

تعداد کاربران بر حسب درصد

1

12067

67

2

3501

19

3

1321

7

4

583

3

5

287

6/1

6

144

80/0

7

79

44/0

8

32

18/0

9

36

20/0

10

17

09/0

11

7

04/0

12

8

04/0

13

15

08/0

14

2

01/0

15

2

01/0

17

1

01/0

25

1

01/0

 

این تحلیل تنها شامل29337 پرس‌و‌جوی منحصر به فرد و اصلاح شده است. پرس‌و‌جوهای همسان نادیده گرفته شده‌اند، زیرا چنانکه ذکر شد، تعبیر معنادار این‌گونه پرس‌و‌جوها ممکن است، و دلیل آن نیز این است که مشخص نیست آیا خود کاربر درخواست پرس‌و‌جوی دوباره را داده یا خیر. اکثریت قابل توجه کاربران (67%) فراتر از پرس‌و‌جوی اولیه نمی‌روند. بنابراین، اصلاح پرس‌و‌جو امری رایج نیست. این یافته‌ها با یافته‌هایی که از مطالعة سیستمهای IR به دست آمده، متفاوت است زیرا در آن نوع سیستمها اصلاح پرس‌و‌جوها امری رایج است. البته با وجود این نیز، 33% کاربران از همان پرس‌و‌جوی اولیة خود فراتر نمی‌روند. به طور تقریبی، 14% کاربران سه یا بیشتر پرس‌و‌جو داشته‌اند. این ارقام 33 درصدی و 14 درصدی می‌توانند به نوبة خود درصد قابل توجهی از کل کاربران سیستمها را شامل شوند. این بدان معناست که درصد قابل ملاحظه‌ای از کاربران وب، کاربرانی تازه‌کار و معمولی نیستند. این زیرمجموعه از کاربران در جستجوی اطلاعات بیشتری هستند که همین نشان دهندة تجربة بیشتر و یا انگیزة بیشتر آنها از جستجوست.

ما همچنین چگونگی اصلاحات پرس‌و‌جو را توسط کاربران مورد بررسی قرار داده‌ایم. نتایج این بررسی در جدول 3 نشان داده شده است.

جدول 3. تغییرات در تعداد عبارتها در پرس‌و‌جوهای متوالی

افزایش در عبارات

تعداد

درصد

0

3909

76/34

1

2140

03/19

2

1068

50/9

3

367

26/3

4

155

38/1

5

70

62/0

6

22

20/0

7

6

05/0

8

10

09/0

9

1

01/0

10

4

04/0

کاهش در عبارات

تعداد

درصد

1-

1837

33/16

2-

937

33/8

3-

388

45/3

4-

181

61/1

5-

76

68/0

6-

46

41/0

7-

14

12/0

8-

8

07/0

9-

2

02/0

10-

6

05/0

 

در اینجا تمرکز ما بر روی 11247 پرس‌و‌جویی است که با افزودن یا کاستن تعداد عبارتها از پرس‌و‌جوی اول یا پرس‌و‌جوی بعدی کاربر ( یعنی پرس‌و‌جوهای بعدی توسط همان کاربر در زمان T و T+1 ) اصلاح شده است. تغییرات صفر بدین معناست که کاربر یک یا چند عبارت را در یک جستجو اصلاح کرده، اما تعداد عبارتها را در جستجوهای بعدی تغییر نداده است. افزایش یا کاهش یک عبارت، به معنای افزودن یا کاستن عبارتهای پرس‌و‌جوی مرحلة قبل است. درصد نیز بر حسب تعداد پرس‌و‌جوها نسبت به کل پرس‌و‌جوهای اصلاح شده (11247) محاسبه گردیده است.

مشاهده می‌شود که کاربران اغلب، عبارتهای پرس‌و‌جوی قبلی را کم یا زیاد نمی‌کنند. اصلاحات بر روی پرس‌و‌جوها در گسترة محدودتری اتفاق می‌افتد. معمول‌ترین شیوة اصلاح، تغییر یک عبارت است. این روش به صورت افزایش یا کاهش صفرِ عبارت در جستجوها نمایش داده می‌شود. تقریباً یک پرس‌و‌جو از هر سه پرس‌و‌جویی که اصلاح شده است، همان تعداد عبارات پرس‌و‌جوی قبلی را دارد. در 7338 پرس‌و‌جوی متوالی باقی‌مانده که در آنها عبارتها افزوده یا کاسته شده بودند، تقریباً تعداد عبارتهای حذف شده و افزوده شده با هم برابر بود (52-48%). بنابراین کاربران هم از حذف و هم از افزودن عبارتها برای انجام اصلاحات استفاده می‌کنند. از هر 5 پرس‌و‌جوی اصلاح شده، حدود 1 پرس‌و‌جو، یک عبارت بیشتر از پرس‌و‌جوی مرحلة قبل دارد، و از هر 6 پرس‌و‌جوی اصلاح شده، 1 پرس‌و‌جو، یک عبارت از مرحلة قبل کمتر دارد.

2.بازدید نتایج

Excite نتایج پرس‌و‌جو را در گروه‌های 10 ‌تایی نمایش می‌دهد. هر بار که کاربر به گروه‌ 10‌تایی بعدی ـ که ما آن را صفحه‌بعدی می‌نامیم ـ دست می‌یابد، یک پرس‌و‌جوی همسان اتفاق می‌افتد. ما تعداد صفحات بازدید شده توسط هر کاربر و درصد آن را بر اساس تعداد کل کاربران تحلیل کرده‌ایم. نتایج این تحلیل در جدول 4 نشان داده شده است.

جدول 4. تعداد صفحات بازدید شده توسط هر کاربر

صفحات بازدید شده

تعداد کاربران

درصد کل کاربران

1

10474

58

2

3363

19

3

1563

9

4

896

5

5

530

3

6

354

2

7

252

1

8

153

85/0

9

109

60/0

10

85

47/0

11

75

41/0

12

47

26/0

13

31

17/0

14

29

16/0

15

25

14/0

16

28

15/0

17

13

07/0

18

4

02/0

19

14

08/0

20

9

05/0

21

3

02/0

22

4

02/0

23

5

03/0

24

7

04/0

25

4

02/0

26

7

04/0

27

2

01/0

28

3

02/0

29

1

01/0

32

4

02/0

33

1

01/0

40

1

01/0

43

1

01/0

49

1

01/0

50

2

01/0

55

1

01/0

میانگین تعداد صفحات آزمایش شده توسط هر کاربر برابر است با 35/2. بیشتر کاربران (58% آنها)، به صفحات بعدی رجوع نکرده‌اند. آیا آنها از نتایج جستجو راضی بوده و به بازدید صفحات بیشتر نیازی نداشته‌اند؟ آیا کاربران از میزان دقت کار راضی بوده‌اند و یا اینکه خسته شده‌ و از جستجو دست برداشته‌اند؟ تنها با در دست داشتن پایگاه‌های تعاملی نمی‌توان به پاسخ این پرسشها رسید. اما در هر صورت، با توجه به این نتیجه و همچنین تعداد اندک پرس‌و‌جوهای هر نشست، شاید نیاز به بالا بردن میزان دقت و میزان بازیابی الگوریتمهای بازیابی اطلاعات وب ضروری باشد. به عنوان نمونه، استفاده از روش کلاسیک ارزیابی دقت نشان می‌دهد هر نتیجة جستجویی که رتبه‌ای بالاتر از 10 در فهرست جستجوها داشته باشد، از نظر 58% کاربران بی‌استفاده است. دیگر تعبیر ممکن این است که افراد از یافته‌های نسبتاً مرتبط در صفحة اول استفاده می‌کنند تا از جستجوی صفحات بعدی اجتناب نمایند. با توجه به اینکه وب دارای صفحات اطلاع‌رسانی مرتبط به هم  است، یافته‌های نسبتاً مرتبط در 10 نتیجة اول جستجو می‌تواند میان‌بر یا پرشی باشد برای یافتن موضوعهای مرتبط. به عنوان مثال، کاربری که به دنبال صفحة اصلی سایت یکی از دانشکده‌های یک دانشگاه است، ممکن است صفحة اصلی سایت دانشکده را در 10 نتیجة اول پیدا نکند، اما صفحة اول سایت دانشگاه را ببیند. کاربر به جای ادامة جستجو می‌تواند با انجام عمل مرور[40] از صفحة اصلی سایت دانشگاه، جستجو را ادامه دهد.

3.پرس‌و‌جوها

پس از بررسی نشست، به تحلیل پرس‌و‌جوها می‌رسیم. اعداد و ارقام اصلی مربوط به پرس‌و‌جوها و عبارتهای جستجو، در جدول 5 نشان داده شده است.

جدول5. تعداد کاربران، پرس‌و‌جوها و عبارتها

تعداد کاربران

تعداد کل پرس وجوها

عبارتهای غیرمنحصربه‌فرد

میانگین تعداد عبارتها در هر پرس و جو

18113

51473

113793

(10-0) 21/2

 

پرس‌و‌جوها بر اساس طول (تعداد عبارتها)، ساختار (استفاده از عملگرهای بولی و بیانگرها) و تحلیلهای اشتباه (انحراف از قواعد منتشر شده در ساختار پرس‌و‌جو) مورد تحلیل قرار گرفته‌اند. همچنین، تعداد کاربرانی که از منطق بولی و بیانگرها استفاده کرده‌اند، تعیین شده است.

1-3. طول

به طور میانگین، یک پرس‌و‌جو 21/2 عبارت را در بر می‌گیرد. جدول6، رتبه‌بندی تمامی پرس‌و‌جوها را بر اساس تعداد عبارتها نشان داده است.

جدول 6. تعداد عبارتها در پرس‌و‌جوها

عبارتها در هر پرس و جو

تعداد پرس و جوها

درصد کل پرس و جوها

10

185

36/0

9

125

24/0

8

224

44/0

7

484

94/0

6

617

1

5

2158

4

4

3789

7

3

9242

18

2

16191

31

1

15874

31

0

2584

5

 

ارقام مربوط به درصد، درصد پرس‌و‌جوهایی است که آن تعداد عبارت مربوط به تعداد کل پرس‌و‌جوها را دارا می‌باشند. پرس‌و‌جوهای وب کوتاه هستند. حدود 62% از کل پرس‌و‌جوها، یک یا دو عبارت را در بر می‌گیرند. کمتر از 4% آنها نیز بیش از 6 عبارت دارند. همان‌طور که گفته شد، نمی‌توانستیم غیر از این داده‌ها، داده‌های دیگری از یک موتور جستجوگر اصلی وب به دست آوریم، بنابراین چنانچه بخواهیم مقایسه‌ای داشته باشیم، تنها می‌توانیم نتایج دو بررسی‌ای را که توسط «کرافت و جونز» انجام گرفته، با هم مقایسه کنیم. طول پرس‌و‌جویی که در بررسی ما آمده، با نتایج حاصل از این دو مطالعه یکی است، اما این نتیجه با نتایج جستجوهای سیستمهای IR  قدیمی متفاوت است. چنانکه نشان داده شده، میانگین عبارتهای جستجوی مورد استفاده در سیستمهای IR معمولی بین 7 تا 15 متغیر است. این رقم سه تا هفت برابر بیشتر از میانگینی است که در مطالعة ما به دست آمده است؛ البته نتیجة ما قابل استنادتر است، زیرا عملگرها را نیز به شمار آورده‌ایم. مسلماً شرایط و بافت جستجوهای انجام شده توسط کاربران سیستمهای IR نظیرDIALOG و جستجوهای وب که کاربر زیادی دارد، بسیار با یکدیگر متفاوت است. از این رو، مقایسه این دو، نتیجة چندانی در بر ندارد.

2-3. بازخورد ربط

در مورد پرس‌و‌جوهای صفر عبارتی (آخرین ردیف جدول 6) نکته‌ای قابل ذکر است. چنانکه گفته شد، هنگامی که یک کاربر فرمانی را به یک بازخورد (مثل "more like this") ربط می‌دهد، پایگاه تعاملی Excite آن را یک پرس‌و‌جو قلمداد می‌کند، اما پرس‌و‌جویی با صفر عبارت. بنابراین، ردیف آخر نشان دهندة پرس‌وجوهای محتمل‌تری است که در آنها از بازخورد ربط استفاده شده و یا نشان دهندة ترکیبی از این نوع پرس‌و‌جوها و پرس‌و‌جوهایی است که در آنها کاربران مرتکب اشتباهی شده‌اند که این نتیجه را باعث شده است. با فرض اینکه تمامی آنها بازخورد ربط باشد (یعنی اشتباهی رخ نداده باشد) تنها در 5% پرس‌و‌جوها از این مؤلفه استفاده شده است،که با توجه به قابلیت بالای بازخوردها این رقم، رقم پایینی است. در مقایسه با مطالعه‌ای که در خصوص جستجوهای IR توسط جستجوگرهای حرفه‌ای انجام شده است، به این نتیجه رسیده‌اند که در حدود 11% عبارتهای جستجو از بازخورد ربط آمده‌اند. «اسپینک و ساراسیویک (1997).[41]

البته در این مطالعه به بازخوردهای ربطی که توسط انسان انجام گرفته توجه شده است. بنابراین، در این دو بررسی، بازخوردهای ربط مورد استفاده در وب نصف بازخورد ربط مورد استفاده در جستجوهای IR است. همین نتیجه لزوم مطالعات بیشتر را نشان می‌دهد، بویژه با توجه به میزان استفادة کم از این مؤلفة بسیار کارآمد و بسیار در خور توجه.

3-3. ساختار

در مرحلة بعد، ساختار پرس‌و‌جوها را مورد بررسی قرار دادیم. در وهلة اول، به این مسئله پرداختیم که چه تعداد از 51473 پرس‌و‌جو صریحاً از عملگرهای بولی یا بیانگرها استفاده می‌کند (جدول 7 را ببینید).

جدول 7. استفاده از عملگرهای بولی و بیانگرها در پرس‌و‌جوها

عملگر یا بیانگر

تعداد پرس‌و‌جوها

درصد کل پرس‌و‌جوها

اشتباه

درصد اشتباه

AND

4094

8

1309

32

OR

177

34/0

46

26

ANDNOT

105

20/0

39

37

( )

273

53/0

0

0

+ (جمع)

3010

6

1182

39

- (منها)

1766

3

1678

95

“ ”

3282

6

179

5

 

ستون دوم تعداد پرس‌و‌جوهایی را نشان می‌دهد که در آنها از عملگر بولی یا بیانگرها استفاده شده است. ستون بعدی درصد این ارقام را نسبت به کل پرس‌و‌جوها نشان می‌دهد. ستون چهارم، نمایانگر تعداد پرس‌و‌جوهایی است که از عملگری ویژه یا بیانگری ویژه استفاده کرده‌‌اند که مطابق قواعد Excite  نبوده است ـ این موارد را می‌توان اشتباه محسوب کرد. ستون آخر درصد پرس‌و‌جوهایی است که عملگر یا بیانگر اشتباه ( یا نابجا) را دارند. در مورد اشتباهات، در بخش بعدی بحث می‌شود.

جدول 7 نشان می‌دهد که عملگر بولی زیاد مورد استفاده قرار نمی‌گیرد و دیگر اینکه AND بیشترین کاربرد را دارد. ارقام جدول به وضوح از نتایجی که «جونز و همکاران» (1998) ارائه دادند، کمتر است. همچنین از ارقام حاصل از مطالعة سیستمهای IR و اپک نیز کمتر می‌باشد. ]کرافت و همکاران (1995) این اطلاعات را گزارش ندادند[. بیانگرها به نسبت بیشتر مورد استفاده قرار گرفته‌اند، و دو بیانگر’ +‘ و " " بیشترین کاربرد را داشته‌اند. به عنوان مثال، بر اساس آنچه تا به حال در این مقاله دیدیم، تعداد زیادی پرس‌و‌جو داریم که بسیار کوتاهند، بندرت اصلاح شده‌اند و ساختار بسیار ساده‌ای دارند. با این حال، اکثریت قریب به اتفاق کاربران پس از 10 نتیجة اول به سراغ دیگر نتیجه‌ها نرفته‌اند. آیا میزان بازیابی و دقت Excite تا این حد بالاست یا اینکه مسئله چیز دیگری است؟ یک تعبیر می‌تواند این باشد که کاربران تنها نگاهی به صفحة اول می‌اندازند تا ببینند جستجویشان تا چه حد موفق و یا ناموفق بوده‌است و به جای اینکه با صرف زمان لازم سعی در پی بردن به روش کار Excite داشته باشند، به آزمایش و خطا دست می‌زنند و بعد سعی می‌کنند از آنچه به دست آورده‌‌‌اند، به این نتیجة کلی برسند که اشتباه کارشان در کجا بوده است.

4-3.تعداد کاربران

در جدول 8، برآورد کرده‌ایم که از میان 18113 کاربر چه تعداد از منطق بولی (چهار ردیف اول) یا بیانگر ( سه ردیف آخر ) در جستجوهای خود استفاده کرده‌اند. (بدون در نظر گرفتن تعداد پرس‌و‌جوهایی که انجام داده‌اند).

جدول 8. استفاده از منطق بولی و بیانگرها توسط کاربران

عملگر یا بیانگر

تعداد کاربرانی که از عملگر یا بیانگر استفاده کرده‌اند

درصد کل کاربران

اشتباه

درصد اشتباه

AND

823

5

418

50

OR

39

0

11

28

ANDNOT

47

0

9

19

( )

120

1

0

0

+ (جمع)

826

5

303

30

- (منها)

508

3

362

38

“ ”

1019

6

32

0

سپس میان این ارقام و تعداد پرس‌و‌جوها ارتباط برقرار کردیم. ستون مربوط به «اشتباهات» به معنی تعداد کاربرانی است که دچار اشتباه شده‌اند؛ یعنی از قواعدی که در دستورالعمل Excite برای چگونگی استفاده از عملگرها و بیانگرها آمده، پیروی نکرده‌اند. درصد اشتباهات نیز نشان دهندة نسبت کاربرانی است که از بیانگر یا عملگر اشتباهی استفاده کرده‌اند. تعداد کاربرانی که از عملگرهای بولی استفاده کرده‌اند، خیلی پایین است. تنها 6% از 18113 کاربر، از یکی از قابلیتهای بولی استفاده کرده‌اند و تعداد پرس‌و‌جوهای آنها نیز کمتر از 10% کل 51473 پرس‌و‌جوست. درصدی جزئی‌ از کاربران و پرس‌و‌جوها نیز از OR یا ANDNOT استفاده کرده‌اند. تنها حدود 1% کاربران و 2/1% پرس‌و‌جوها از منطق لانه‌گزینی[42] که از طریق اعمال پرانتز بیان می‌شود، استفاده کرده‌اند. میزان استفاده از بیانگرهای  ’+ ‘و ’- ‘نیز به اندازة استفاده از عملگر بولی بوده است. این دو بیانگر بر روی هم توسط 1334 کاربر (7% کاربران) در 4776  پرس‌و‌جو (9% پرس‌و‌جوها) به کار برده شده است. از علامت نقل قول در دو طرف عبارت به منظور ساختن عبارت زبانی[43] نیز تنها در 6% پرس‌و‌جوها و توسط 6% کاربران استفاده شده است. این نتایج نشان می‌دهد تنها تعداد اندکی از کاربران به دنبال پرس‌و‌جوهای ظریف‌تر و پیشرفته‌تر هستند. حدود 5% کاربران 5/8% پرس‌و‌جویی را داشته‌اند که عملگرهای بولی را شامل می‌شده است. در مورد نتایج پیچیدة این یافته در طراحی سیستم، در ادامة این مقاله بحث خواهد شد.

 

تحلیل اشتباهات

در مرحلة بعد، به بحث و تحلیل شمار بالای کاربردهای نابه‌جا و اشتباه پرداختیم. 50% در استفاده از AND و 28% در استفاده از OR دچار اشتباه شده‌اند، و تنها 19% ANDNOT را نابه‌جا به کار برده‌اند. اما مسئله اینجاست که تنها 47% کاربرها ـ که درصد پایینی است ـ در کل از ANDNOT استفاده کرده‌اند. رایج‌ترین اشتباه استفاده نکردن از حروف بزرگ در عملگر بولی ـ چنانکه Excite اقتضا می‌کند ـ بود. به عنوان مثال، یک پرس‌و‌جوی صحیح به این صورت است: اطلاعات AND پردازش. اما معمولاً این عبارت به اشتباه به صورت : اطلاعات and پردازش، وارد می‌شود. نگاهی به پرس‌و‌جوها نشان می‌دهد 32% آنها در کاربرد AND، 26% در OR و 37% در ANDNOT اشتباه داشته‌اند. ‘AND’ بیشترین احتمال اشتباه را دارد و به همین دلیل به تحلیل بیشتری نیازمند است. ما تعداد 4094 پرس‌و‌جو را که از AND به هر شکلی ( مثلاً به صورت ‘AND’، ‘ and ‘، ‘ And’ )  استفاده کرده بودند، در نظر گرفتیم. در برخی  پرس‌و‌جوها بیش از یک AND موجود بود. در کل تعداد4828 شکل متفاوت از AND وارد شده بود : 3067 ورودی به صورت ‘AND’، 41 ورودی به صورت ‘And’ و 1720ورودی به صورت ‘and’. طبق عملگرهای بولی، دو کاربرد آخر و یا تعداد 1761 ورودی اشتباه بوده است؛ یعنی بیشتر ورودی‌ها. در تعدادی از پرس‌و‌جوها ‘and’ به عنوان یک حرف ربط به کار برده شده است؛ مثلاً در پرس‌و‌جوی : سیاست دانشگاه and دانشکده. متأسفانه، امکان تشخیص اینکه آیا کاربر به عمد از بیانگر ‘and’ به عنوان حرف ربط استفاده کرده یا به اشتباه، ممکن نیست ؛ بنابراین تشخیص کاربردهای اشتباه AND دشوار است.

در مورد استفاده از عملگرهای + و – نیز درصد اشتباه بالا بود. این دو به ترتیب 30% و 38% کاربرد اشتباه داشته‌اند. در بیشتر موارد، فاصله‌ها اشتباه تایپ شده بود. بیانگر ـ بخصوص بسیار مشکل‌ساز است، زیرا در عباراتی چون pre-teen نیز به کار می‌رود. بنابراین، تشخیص کاربرد اشتباه این بیانگر نیز دشوار است. این امر کاملاً بدیهی‌است که کاربران وب از منطق بولی زیاد استفاده نکرده و حتی تمامی قواعد جستجو را نیز رعایت نمی‌کنند. حداقل کار ممکن این است که سیستم دوباره طراحی شود. رایج‌ترین اشتباه، آوردن عبارت جستجو به صورت زنجیره‌ای پشت سر هم است. به عنوان مثال، اگر یک پرس‌و‌جوی صحیح به این صورت باشد: + اطلاعات + پردازش، صورت اشتباه آن به این صورت وارد می‌شود: +اطلاعات+پردازش (بدون گذاشتن فاصله میان اطلاعات و + بعدی). قواعد ثابت فاصله‌‌گذاری بین عملگرهای بولی و بیانگر بعدی می‌تواند این مشکل را حل کند. به هنگام استفاده از عملگر بولی، رعایت فاصله بین عملگر و عبارت ضروری است. اما به هنگام استفاده از بیانگرها، فاصله ضروری نیست.

تعداد زیادی از پرس‌و‌جوها نیز دیده می‌شوند که از فناوریهایی برای جستجو استفاده کرده بودند که مورد حمایت Excite نبود. این اشتباهات به عنوان اشتباهاتی طبقه‌بندی می‌شوند که کاربر از اطلاعات خود در مورد سایر موتورهای جستجو، مانند دیگر وب‌ها، سیستمهای اپک یا IR استفاده کرده است. به عنوان مثال، 26 مورد استفاده از عملگر همجواری NEAR مشاهده شد. در 79 مورد از ‘:’ به عنوان جداکنندة عبارتها استفاده شده است. نشانة ‘&’ نیز در بیش از 200 مرتبه به جای AND به کار رفته است. این علایم در دیگر موتورهای جستجو متداول هستند.

 

عبارتها 

ما همچنینپرس‌و‌جوها را بر اساس عبارتهایی که وارد کرده‌اند، تحلیل کردیم. یک عبارت مجموعه‌ای از نویسه‌هاست که با فاصله‌های خالی به دنبال هم می‌آیند. در کل 113793 عبارت موجود بود. (تمام عبارتهای تمام پرس‌و‌جوها). پس از حذف عبارتهای تکراری، 21862 عبارت منحصر به فرد باقی ماند که به حروف بزرگ و کوچک حساس[44] نبودند ]فرقی نمی‌کند که با حروف بزرگ نوشته شده‌باشند یا با حروف کوچک[. در این توزیع، عملگرهای منطقی AND، OR، NOT نیز هر کدام یک عبارت محسوب شدند، زیرا نه تنها به عنوان عملگر به کار رفته بودند، بلکه کارکرد حروف ربط را نیز داشتند. (مانند نمونه‌ای که از ‘and’ مثال زدیم، و شکلهای مختلف آن را نیز ارائه دادیم. بنابراین حذف صورتهای نامربوط به راحتی انجام گرفت). عبارتها از سه منظر «میزان رخداد»، «سازگاری با پراکندگی‌های شناخته‌شده» و «طبقه‌بندی موضوعی»  بررسی شدند.

1. میزان رخداد

تمامی 113793 عبارت را از لحاظ فراوانی در جدولی رتبه‌بندی کردیم. از میان آنها عبارتهایی را که فراوانی بالایی ( 100 بار یا بیشتر ) داشتند، انتخاب کردیم. به جدول 9 نگاه کنید.

جدول 9. فهرست عبارتهایی که بیش از 100 رخداد داشته‌اند

فراوانی            عبارت         فراوانی         عبارت         فراوانی               عبارت

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

74 عبارتی که 100 بار یا بیشتر در تمامی جستجوها مورد استفاده قرار گرفته بودند، در کل 20698 بار در عبارتهای جستجو ظاهر شده و تنها 34% کل عبارتهای منحصر به فرد را شامل می‌شدند. با وجود این 2/18% کل 113776 عبارت جستجو در تمامی پرس‌و‌جوها را در بر می‌گرفتند. اگر 9121 رخداد 11 عبارت معمولی را که به تنهایی معنایی ندارند (a , & , or , to , on , + , and , of , the , in , for ) حذف کنیم، 63 عبارت باقی می‌ماند که فراوانی آنها برابر با 11557 رخداد است؛ یعنی 29%، عبارتهای موضوعی منحصر به فردی که 3/10% کل عبارتهای تمامی پرس‌و‌جوها را شامل می‌شود. ظهور    بالای ‘+’ نشان دهندة احتمال بروز اشتباه است ـ گذاشتن فاصله بین این نشانه و عبارت کناری، طبق قواعد Excite احتمال اشتباه را کم می‌کند.

به همین ترتیب ‘&’ نیز اغلب در حروف اختصاری مثل AT & T به کار برده شده است، اما به عنوان جانشینی برای AND در عملگرهای منطقی نیز به کار می‌رود، نظیر Ontanio & map. در مورد دوم، این کاربرد اشتباه است و به عنوان یک عبارت مجزا قلمداد می‌شود. از طرف دیگر، 9790 عبارت داریم که تنها یک بار ظاهر شده‌اند. این عبارتها 78/44% عبارتهای منحصر به فرد و 6/8% کل عبارتها همة پرس‌و‌جوها را تشکیل می‌دهند. زنجیرة پایانی عبارتهای منحصر به فرد می‌تواند خیلی طولانی باشد، از این رو مستلزم مطالعات زبانشناختی است. در حقیقت، تمامی حوزة مربوط به پرس‌و‌جوهای زبانی به بررسی بیشتر نیاز دارد. تا به حال مطالعات جامعی از عبارتها، پراکندگی عبارتها، اصلاحات و بازنگری عبارتها ودیگر مسائل مربوط صورت نگرفته است. چنین مطالعاتی در بهبود سیستم IR و توسعة سایتهای وب بسیار تأثیرگذار خواهد بود.

2. مقوله‌های عبارت

 به منظور پیدا کردن موضوعهای غالب جستجو شده، 63 موضوع عمده را که بیشتر مورد کاوش قرار گرفته بودند، طبقه‌بندی کردیم. بدیهی است، این طبقه‌بندی‌ اختیاری است. با این حال، نمایی کلی از موضوعات کاوش شده را به دست می‌دهد. موضوعات عمدة کاوش شده، در جدول زیر نشان داده‌ شده است.

جدول 9.

مقوله

عبارتهای انتخابی از 63 عبارت با بسامد 100 و بیشتر

بسامد مقوله

درصد بسامد درمیان 63 عبارت

درصد کل عبارتها

جنسی

sex, nude, gay, xxx, pussy, naked,

erotic, porno  adult, porn, anal,

2862

72/24

51/2

توصیفگرها

free, new, big, real, black, young,

De, high, page

1902

42/16

67/1

مکان

 

state, American, home, world

york, texas, florida, city

1144

88/9

01/1

اقتصاد

 

employment, jobs, company,

business, service, stock, state, car

968

36/8

85/0

تصاویر

pictures, pics, photos, video

906

82/7

80/0

اجتماعی

Chat,stories, celebrities, games, john

804

94/6

71/0

تحصیلی

university, college, school, history

758

54/6

67/0

جنسیت

woman, girls, men

648

59/5

60/0

 

جدول 10. مقولات موضوعی عبارتهایی که بیش از 100 بار ظاهر شده‌اند.

مقوله

عبارتهای انتخابی از 63 عبارت با بسامد 100 و بیشتر

بسامد مقوله

درصد بسامد درمیان 63 عبارت

درصد کل عبارتها

ورزش

naca, basketball, wrestling

477

12/4

42/0

رایانه‌ای

software, computer, internet

437

77/3

38/0

اخبار

magazine, news, war

361

12/3

32/0

هنرهای زیبا

music, art

310

68/2

72/0

 

حدود 25% عبارتهایی که بیشترین ورودی را داشته‌اند، به مسائل جنسی[45] مربوط می‌شدند. با این حال، این میزان کمتر از 3% کل عبارتها است. البته، اگر عبارتهایی را که زیرمقولة “Gender” قرار می‌گیرند به مقولة “sextual” اضافه کنیم، این درصد بالاتر خواهد بود. بررسی عبارتهای باقی‌مانده نشان داد عبارتهایی که به اشتباه زیر این مقوله قرار می‌گیرند، چندان زیاد نیست. در نظر گرفتن تمامی این موارد، بسامد عبارتهای مربوط به مسائل جنسی را بالا می‌برد، البته نه خیلی. با توجه به فراوانی 63 عبارت پر بسامد، فراوانی مقولة جنس از دیگر مقوله‌ها بیشتر است. با وجود این، هنوز سه عبارت از هر چهار عبارتی که جزء 63 عبارت پر بسامد قرار می‌گیرند، به مسائل جنسی مربوط نیستند. با در نظر گرفتن فراوانی تمامی عبارتهای به کار رفته، می‌توان برآورد کرد که از هر 40 عبارت 39 عدد آن به مسائل جنسی مربوط نیست.

با اینکه مقولة مسائل جنسی وسعت زیادی دارد، در مقایسه با دیگر مقوله‌ها نمی‌توان گفت که حوزة جستجو را تحت سلطه قرار داده است. دیگر مقوله‌ها نیز درصد بالایی را به خود اختصاص داده‌اند. از 63 عبارت پر بسامد، 16% آن توصیفگرها (آزاد، تازه، بزرگ،...)، 10% آن مکانها (ایالت، امریکایی،...)، 8% آن مسائل اقتصادی (استخدام، شغل،...) و باقی‌مانده نیز مسائل اجتماعی، آموزشی، ورزشی، ریاضیات و هنر بوده‌اند. جستجوی وب علاقة شخصی افراد را پوشش می‌دهد و بسیار متنوع است. با توجه به این نکته، تکیه به این مسئله که بیشترین موضوع جستجو به مسائل جنسی مربوط می‌باشد، غیر قابل استناد نیست. دو گروه‌بندی عمدة دیگر وجود دارد که در جدول قید نشده، اما قابل ذکر است. اول اینکه، تعداد 1393 پرس‌و‌جو برای یافتن یو.آر.ال‌ های متعدد]آدرسهای متعدد سایت[ انجام گرفته است. چنانچه بخواهیم این جستجوها را در یک مقوله جمع‌بندی کنیم، ممکن است مقولة بزرگی را به خود اختصاص دهد. گروه دوم، در جستجوی اطلاعات رسانه‌ای ( چون تصاویر، ویدئوها، پوشه‌های صوتی ) بوده‌اند، که تعداد 708 پرس‌و‌جو را شامل می‌شود، که بسیاری از این عبارتها با قالب[46] خاصی وارد شده‌اند.

3. پراکندگی عبارتها

در زیر، گراف پراکندگی رتبه ـ فراوانی تمامی عبارتها نشان داده شده است. (شکل1).

 

 

       
   
 
   

رتبه

 

 

 

 

 

 

 

 

 

(شکل 1)

توزیع نهایی عبارتها در دو انتهای گراف ـ دو انتهایی که عبارت بالاترین رتبه و پایین‌ترین رتبه را دارد ـ نا متعادل است. در نواحی مرکزی و پائین‌تر، گراف از شیب معمولی پراکندگی زیف[47] پیروی می‌کند که خود نشان دهندة پراکندگی واژه‌ها در متن‌های طولانی انگلیسی است. در آغاز، گراف شیب ملایمی دارد، و هر چه به پایان گراف نزدیک می‌شویم، ناپیوستگی و پایانه‌های طولانی غیر معمولی را می‌بینیم، که نمایانگر عبارتهایی است که فراوانی یکسانی دارند. یک خط مایل با معادل‌یابی متعاقب[48] بر روی گراف ترسیم شده است. این خط مایل به طور تقریبی پراکندگی زیف را نشان می‌دهد. یک پراکندگی زیف ایده‌آل، خط مستقیمی با شیب 1-  است. در مورد عبارتهایی که فراوانی بیشتری دارند، ترسیم خط مایل به راحتی ممکن نیست زیرا تعداد عبارتهایی که تنها یک یا دو بار اتفاق می‌افتند بسیار زیاد است.

جای تردید است که آیا تعداد بیانگرها (’+‘، ’-‘، " و... ) و تعداد پرس‌و‌جوهایی که دارای عبارت زنجیره‌ای هستند (نظیر + اطلاعات + پردازش + مجله) تأثیری بر روی پراکندگی رتبه ـ فراوانی دارد یا خیر؛ بدین معنا که آیا تعداد بیانگرها، نویسه‌های پراکنده و عبارتهای پراستفاده باعث به وجود آمدن چنین زنجیره‌ طولانی از عبارتهای تک رخدادی شده‌اند؟ بنابراین، تصمیم گرفتیم تمامی عبارتها را پاک و نمودار «رتبه ـ پراکندگی» را از نو ترسیم کنیم. بدین منظور، تمامی بیانگرها را حذف و تمامی عبارتهایی را که به وضوح به هم زنجیره شده بودند، جدا کردیم. با توجه به ماهیت متغیر عبارتها، این عمل به طور خودکار ممکن نیست. به عنوان مثال، نمی‌توانیم تنها بیانگر‘+’ را از تمامی عبارتها حذف کنیم، زیرا برای نمونه در عبارت c++ ( که یک زبان برنامه‌نویسی است ) ‘+’ بخشی از یک عبارت معتبر و تعریف شده است. در فرایند پاک‌سازی، تمامی 113793 عبارت به طور کیفی مورد بررسی قرار گرفت. در بیشتر موارد، به طور جداگانه تصمیم گرفته شد عبارتی پاک شود یا خیر. در مواردی که تردید داشتیم، عبارت را تغییر ندادیم. پس از مرحلة پاک‌سازی، گراف رتبه-فراوانی دیگری رسم کردیم که در شکل 2 نشان داده شده است.

 

       
   
 
   

(لگاریتم) رتبه

 

 

 

 

 

 

 

 

 

 

(شکل2)

روی هم رفته، گراف جدید همان ویژگیهای گراف اول را داراست، تعداد کمی از عبارتها از مقیاس پایین‌تر هستند، نمودار میانة نسبتاً گسترده‌ای دارد و در پایان به چندین بخش مسطح[49] ختم می‌شود. تنها تغییر قابل ذکر، تغییر در طول بخشهای مسطح است که برخی کوتاه‌تر و برخی بلندتر شده‌اند. خط مایل نیز دوباره به طور تقریبی پراکندگی زیف را نشان می‌دهد و تنها شیب آن اندکی افزایش یافته است. در اینجا نیز پایانة گراف، مشابه پراکندگی زیف است. این نکته، لزوم مطالعة بیشتر نقاط انتهایی گراف پراکندگی رتبه ـ فراوانی را مشخص می‌سازند. همچنین محققان درمی‌یابند که پاک‌سازی عبارتها تنها هدردادن انرژی است، زیرا پراکندگی‌ها تغییر محسوسی نمی‌کنند. در جدول 11، داده‌های اولیه پراکندگی رتبه-فراوانی و گراف پاک‌سازی شده مقایسه گردیده است.

جدول 11. مقایسة عبارتهای اصلی و عبارتهای پاک‌سازی شده

اندازه‌ها

اصلی

پاک‌سازی شده

درصد تغییرات

تعداد کل عبارتها

113793

117608

35/3

عبارتهای منحصر به فرد

21862

18942

36/13-

عبارتهایی که تنها یک بار رخ داده‌اند

9790

7805

28/20-

عبارتهایی که 100بار یا بیشتر رخ داده‌اند

73

91

66/24

شکل 3، گراف اولیة پراکندگی رتبه ـ فراوانی و گراف پاکسازی شده را همراه با خطوط مایل نشان می‌دهد.

 

       
   
 
     

 

 

 

 

 

 

 

 

                               (شکل3)

4. خلاصه‌ای از نتایج

در مقالة حاضر 51437 پرس‌و‌جوی صورت‌گرفته توسط 18113 کاربر، تحلیل گردید که بر روی هم شامل 113776 عبارت می‌شد.از این تعداد، 21862 عبارت، منحصر به فرد (بدون در نظر گرفتن بزرگ‌نویسی حروف) بودند. مهمترین یافته‌های حاصل از این تحقیق به قرار زیر است :

  • · بیشترین کاربران در هر جستجو، پرس‌و‌جوی زیادی انجام نمی‌دهند. میانگین پرس‌و‌جوها برای هر کاربر 8/2 بود. با این حال، درصد قابل ملاحظه‌ای از کاربران در صدد اصلاح پرس‌و‌جوی اولیة خود و یا بازدید صفحات بعدی جستجو بودند.
  • · پرس‌و‌جوهای وب کوتاه هستند. به طور میانگین، یک پرس‌و‌جو 21/2 عبارت را در بر می‌گیرد. پرس‌و‌جوهایی که در سیستمهای IR معمولی انجام می‌گیرد، حدود سه یا هفت برابر طولانی‌ترند. از هر 3 پرس‌و‌جو، 1 پرس‌و‌جو تنها 1 عبارت؛ از هر 3 پرس‌و‌جو، 2 پرس‌و‌جو 2 یا 3 عبارت و از هر 5 پرس‌و‌جو، 4 پرس‌و‌جو 1، 2 یا 3 عبارت دارد. کمتر از 4% پرس‌و‌جوها بیشتر از 6 عبارت دارند.
  • · بازخورد ربط بندرت مورد استفاده قرار می‌گیرد. از هر 20 پرس‌و‌جو، تقریباً یک پرس‌و‌جو از مؤلفة more like this استفاده می‌کند. در مقایسه با جستجوهای IR، بازخورد ربط ظاهراً در نیمی از موارد به کار می‌آید.
  • · میزان استفاده از عملگرهای بولی بسیار پایین است. از هر 18 کاربر، تنها یک کاربر از قابلیتهای بولی استفاده می‌کند و در میان کاربرانی که از این عملگر استفاده می‌کنند، درصد اشتباه بالاست ـ اشتباهات بر اساس قواعدی که Excite تعریف کرده، مشخص می‌شود. از هر 12 پرس‌و‌جو نیز تنها 1 پرس‌و‌جو شامل عملگر بولی می‌شود و در این میان نیز AND بیشترین کاربرد را دارد. از هر 190 پرس‌و‌جو، در یک پرس‌و‌جو از منطق لانه‌گزینی استفاده شده است و از هر سه پرس‌و‌جویی که از عملگرهای بولی یا از پرانتز استفاده می‌کنند، در یک پرس‌و‌جو آنها را طبق قواعد Excite وارد نمی‌کنند. جستجوگران وب تمایلی به استفاده از جستجوهای بولی ندارند و به هنگام استفاده از آنها نیز در درست به کار بردنشان مشکل دارند.
  • · بیانگرهای ‘+’ و ‘-’ که حضور یا عدم حضور اجباری عبارتها را نشان می‌دهند، نسبت به عملگرهای بولی بیشتر مورد استفاده قرار گرفته‌اند. از هر 12 کاربر، یک کاربر از آنها استفاده می‌کند. از هر 11 پرس‌و‌جو نیز یک پرس‌و‌جو شامل  این دو بیانگر می‌شود. اما در بیشتر موارد، بیانگرهای ‘+’ و ‘-’ به اشتباه به کار برده می‌شود. (در دو مورد از سه مورد).
  • · توانایی ساخت عبارتهای زبانی[50] (عبارتهایی که داخل علامت نقل قول آمده‌اند) در میان کاربران چندان بالا نیست، اما اغلب درست به کار برده می‌شوند ـ با اینکه از هر 16 پرس‌و‌جو تنها 1 پرس‌و‌جو شامل این نوع عبارت‌سازی می‌شود، اما میزان اشتباه پایین و قابل چشم‌پوشی است.
  • · بیشتر کاربران تنها یک پرس‌و‌جو انجام می‌دهند و به دنبال پرس‌و‌جوهای بعدی نمی‌روند. یک نشست معمولی، بدون در نظرگرفتن پرس‌و‌جوهای همسان، شامل 6/1 پرس‌و‌جو می‌شود. از هر سه کاربر، یک کاربر فقط یک پرس‌و‌جو انجام می‌دهد، و از هر 7 کاربر نیز 6 کاربر بیش از 2 پرس‌و‌جو انجام نمی‌دهند.
  • · به طور میانگین، کاربران 35/2 صفحه از صفحات نتیجه را (در حالی‌ که هر صفحه دارای 10 نتیجه است) بازدید می‌کنند. بیش از نیمی از کاربران فراتر از صفحة اول نمی‌‌روند و بیش از 3 کاربر از هر 4 کاربر، بیش از 2 صفحه را بازدید نمی‌کنند.
  • · پراکندگی فراوانی در عبارتهای استفاده‌ شده در پرس‌و‌جوها تا حدودی متناقض است. عبارتهای اندکی، به دفعات متعدد استفاده می‌شوند و از طرفی عبارتهای بسیاری نیز تنها یک بار به کار رفته‌اند. در صدر فهرست، 63 عبارت موضوعی که فراوانی ظهور آنها 100 یا بیشتر است، نشان دهندة تنها یک سوم از 1% کل عبارتها هستند اما در هر یک عبارت از هر 10 عبارتی که که در تمامی پرس‌و‌جوها وارد شده بود، به کار رفته‌اند. عبارتهایی که تنها یک بار ظاهر شده‌اند، تقریباً نیمی از عبارتهای منحصر به فرد را تشکیل می‌دهند.
  • · در مورد مسائل جنسی جستجوهای بسیاری در وب صورت گرفته است، اما روی هم رفته این میزان نسبت کمی از کل جستجوها را شامل می‌شود. هنگامی که عبارتهای جستجوی پربسامد بر حسب موضوع طبقه‌بندی می‌شوند، بالاترین مقوله از آنِ مسائل جنسی بود. با در نظر گرفتن فراوانی ظهور عبارتها، از هر چهار عبارتی که در فهرست 63 عبارت پر استفاده قرار می‌گیرد، یک عبارت به مسائل جنسی مربوط بود. اما با وجود بسامد بالا، جستجوی مسائل جنسی در مقایسه با کل عبارتها درصد کمی را به خود اختصاص می‌دهند. موضوعات مورد جستجو بسیار گسترده و متنوع بود.

 

 

نتیجه‌گیری و مطالعات بیشتر

در این بررسی، نمونه‌های بسیاری از جستجوهای وب که از پرس‌و‌جوهای سایت Excite انتخاب شده بود، تحلیل گردید. با وجود این، این بررسی تنها نقطة شروعی است برای مطالعات مشابه. تحلیل خود را بر روی نمونة جدیدی از بیش از یک میلیون پرس‌و‌جو انجام دادیم. نتایج حاصل از این بررسی با مطالعات گسترده‌تر قبلی مقایسه می‌شوند تا شباهتها و تفاوتها آشکار گردد. در این مطالعة گسترده، بسیاری از سؤالهای تحقیق که در این مقاله مطرح شدند، مورد بررسی قرار خواهند گرفت. با وجود اینکه موتورهای جستجوی وب از اصول اولیة بازیابی اطلاعات (IR=) پیروی می‌کنند، کاربران جستجوی وب با کاربران سیستمهای IR قدیم‌تر نظیر کاربران DIALOG و یا کاربران (فرضی) TREC تفاوت چشمگیری دارند. این سیستم هنوز هم نوعی سیستم IR است ولی تفاوتهای بسیاری با آن دارد. واضح است که کاربران وب تمایل چندانی برای به‌کارگیری عملگرهای بولی و دیگر ابزار پیشرفتة جستجو ندارند و اغلب نتایج جستجویی را که در صفحات بعدی پس از صفحه یا صفحات اول ظاهر می‌شود، مرور[51] نمی‌کنند. این حقایق به خودی خود بر لزوم طراحی مجدد سیستمهای بازیابی اطلاعات وب، موتورهای جستجو و حتی ‌سایت وب تأکید می‌کنند، به طوری‌که این طراحی مجدد به‌طور قابل ملاحظه‌ای با طرحهای سیستمهای IR به گونه‌ای که اکنون وجود دارند، تفاوت داشته باشد. همچنین، این حقایق از نیاز به مطالعة بیشتر و عمیق‌تر ویژگیهای کاربران وب حکایت دارند، به طور مثال:

  • · کاربردکم تکنیکهای جستجوی پیشرفته، لزوم مطالعة مداوم بر روی انواع جدید محیطهای رابط کاربر، محیطهای رابط کاربر هوشمند [52] و یا استفاده از عاملهای نرم‌افزاری به منظور کمک به کار به شیوه‌ای راحت‌تر و شفاف‌تر را نشان می‌دهد.
  • · تأثیر عبارتهای منحصر به فرد متعدد بر روی فهرستهای عبارتهای کلیدی، اصطلاح‌یاب‌ها، روشهای متداعی، و نمایه‌گزاریهای معنایی پنهان، به بررسی بیشتر نیاز دارد. روشهای کنونی برای بررسی دقیق گستردگی عبارتها طراحی نشده‌اند.
  • · مسائل مربوط به بازخورد ربط نیز بررسی بیشتری را می‌طلبد. با توجه به قابلیت و کارایی بالای این مؤلفه در جستجوی IR، میزان پایین استفاده از آن جای سؤال دارد. اگر کاربران بندرت از این مؤلفه استفاده می‌کنند، بررسی و آزمایش کارایی آن به شکل کنونی چه لزومی دارد ؟ آیا کاربران با کاربرد کم این مؤلفه، عدم لزوم آن را تأئید می‌کنند؟
  • · بررسی و طبقه‌بندی تعداد کثیری از پرس‌و‌جوهای منحرف، به خودی خود مشکلات نظری و روش‌شناختی فراوانی دارد. طبقه‌بندیهای دقیق‌تر از یک طرف می‌‌تواند عمل مرور را برای کاربر ساده‌تر کند و از طرفی میزان دقت را بالا می‌برد، که هر دوی این حالتها بسیار مطلوب است. به همین ترتیب، بررسی زبان پرس‌و‌جوهای وب نیز می‌تواند برای افرادی که اطلاعات و داده‌ها را در اختیار کاربران وب قرار می‌دهند، سودمند باشد.

پر واضح‌ است، وب یک فناوری جدید بسیار شگفت‌انگیز است. این امر که مؤلفان این مقاله نیز از طریق وب با یکدیگر همکاری داشته‌اند، نشان دهندة قابلیت بالقوة این فناوری است. پیش‌بینی اینکه افراد چگونه با فناوری جدید برخورد می‌کنند، هیچ‌گاه ممکن نیست. تأثیری که فناوری جدید بر روی سیستمهای موجود می‌گذارد نیز قابل پیش‌بینی نیست. در مورد وب نیز دقیقاً چنین وضعیتی وجود دارد. این امکان وجود دارد که کاربران وب به طریقی از آن استفاده کنند که هیچ‌گاه مد نظر طراحان و پژوهشگران IR نبوده‌است.



1. Special Interest Group.

2. IR= Information Retrieval.

3. Doug Cutting.

4. Mail.

5. Rutgers.

6. OPACS.

1. Crovella & Bestavros.

2. Client.

3. Abdolla,Fox&Abrams.

4. Servers.

5. Lynch.

6. Kehoe , et al.

7. Lawrence and Giles. 

8. Hubrman, Pirolli, Ditkow and Lukose. 

9. Peters.

1. Croft , Cook & Wilder.

2. Jones , Cunning hom & McNab.

3. http://www.excite.com

1. Displays.

2. Text Retrieval Conference.

3. Spark Jones.

4. Spink, Bateman & Jonsen.

1. Saracevic.

2. Fenichel: Novice searchers.

3. Hsieh-yee: Familiar topics: Novices.

1. Bates, Wilde and Siegfried: Humanities scholars.

2. Spink and Saracevic: Experienced searchers.

3. Intelligent Concept Extraction = ICE.

1. Boolean Operators.

2. Concept_based search mechanism = ICE.

3. Modifier.

1. Characters.

1. Non-case sensitive.

2. Jensen; Jensen & Jensen.

1. Unique.

2. Modified.

3. Identical.

4. Peters.

1. Length.

1. Brows.

1. Spink& Saracevic.

1. Nested logic.

2. Phrase.

1. Non-case sensitive.

1. Sextual.

1. Format

1. Zipf.

2. Corresponding equation.

1. Plateaus.

1. Phrase.

1. Brows.

2. intelligent user interfaces.

 

- Abdulla, G., Fox, E.A. and Abrams, M., 1997. Shared user behavior on the World Wide Web. In: Proceedings of the WebNet ’97, pp. 54–59

 

- Bates, M.J., Wilde, D.N. and Siegfried, S., 1993. An analysis of search terminology used by humanities scholars: The Getty online searching project report. Library Quarterly 63 1, pp. 1–39.

 

- Croft, W.B., Cook, R. and Wilder, D., 1995. Providing government information on the Internet: experiences with THOMAS. In: Proceedings of Digital Libraries ’95 Conference, Austin, TX, pp. 19–24.

 

- Crovella, M.E. and Bestavros, A., 1996. Self-similarity in World Wide Web traffic evidence and possible causes. In: Proceedings of ACM SIGMETRICS, pp. 126–137.

 

- Fenichel, C.H., 1981. Online searching: Measures that discriminate among users with different types of experience. Journal of the American Society for Information Science 32, pp. 23–32.

 

- FIND/SVP 1997. The 1997 American Internet User Survey. http://www.cyberdialogue.com/isg/Internet..

 

- Hsieh-yee, I., 1993. Effects of search experience and subject knowledge on the search tactics of novice and experienced searchers. Journal of the American Society for Information Science 44 3, pp. 161–174.

 

- Huberman, B.A., Pirolli, P., Pitkow, J.E. and Lukose, R.M., 1998. Strong regularities in World Wide Web surfing. Science 280 5360, pp. 95–97.

 

- Jansen, B.J., Spink, A., Bateman, J. and Saracevic, T., 1998. Searchers, the Subjects They Search, and sufficiency: A Study of a Large Sample of Excite Searches. In: Proceedings of WebNet 98 Conference, Orlando, FL, November 1999.

 

- Jansen, B.J., Spink, A., Bateman, J. and Saracevic, T., 1998. Real life information retrieval: a study of user queries on the Web. SIGIR Forum 32 1, pp. 5–17.

 

- Jansen, B.J., Spink, A. and Saracevic, T., 1998. Failure analysis in query construction: Data and analysis from a large sample of Web queries. In: Proceedings of the Third ACM Conference on Digital Libraries, Pittsburgh, PA, pp. 289–290.

 

- Jones, S., Cunningham, S.J. and McNab, R., 1998. Usage analysis of a digital library. In: Proceedings of the Third ACM Conference on Digital Libraries, Pittsburgh, PA, pp. 293–294.

 

- Kehoe C., Pitkow J., Morton K. 1997. GVU’s 8th WWW user survey. Atlanta, GA: Graphic, Visualization, and Usability Center, Georgia Tech Research Center.

Http://www.gvu.gatech.edu/user_surveys..

 

- Lawrence, S. and Giles, C.L., 1998. Searching the World Wide Web. Science 280 5360, pp. 98–100.

Lynch, C., 1997. Searching the Internet. Scientific American 276, pp. 50–56.

 

- Peters, T.A., 1993. The history and development of transaction log analysis. Library Hi Tech 42 11:2, pp. 41–66. 

 

- Saracevic, T., 1997. Users lost: Reflections on the past, future, and limits of information science. SIGIR Forum 31 2, pp. 16–27.  

 

- Spink, A., Bateman, J. and Jansen, B.J., 1999. User’ searching behavior on the Excite web search engine. In: Proceedings of WebNet 98 Conference, Orlando, Florida. November 1998.

 

- Spink, A., Greisdorf, H. and Bateman, J., 1998. From highly relevant to not relevant: Examining the different regions of relevance. Information Processing and Management 34 5, pp. 599–622.

 

- Spink, A. and Saracevic, T., 1997. Interactive information retrieval: Sources and effectiveness of search terms during mediated online searching. Journal of the American Society for Information Science 48 8, pp. 741–761. |