مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

شریف, عاطفه

مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

نوع مقاله : مقاله پژوهشی

نویسنده

عاطفه شریف

دانشجوی دکترای کتابداری واطلاع رسانی دانشگاه فردوسی مشهد

چکیده

در این مقاله ضمن تبیین فرایند مهندسی هستی شناسی‌ها، استخراج روابط معنایی با تکیه بر روشهای مبتنی بر الگو، مطالعه شده است. نمونه‌ای از متون تخصصی فارسی در حوزة ربط تحلیل و روابط معنایی موجود در آن استخراج و دسته‌بندی گردید. همچنین، تعیین میزان پیدایی روابط معنایی در نمونة مورد تحلیل، در پاسخ به دومین پرسش پژوهش انجام پذیرفت. امکان استخراج و تعیین روابط معنایی در نمونه مورد تحلیل، تأیید شد. این در حالی است که میزان پیدایی روابط، در سطح پایین ارزیابی می‌شود.

کلیدواژه‌ها

اصل مقاله

حرف اول: هستی شناسی وب

به منظور کاهش مشکلاتی چون محدودیت دامنة معنایی و انعطاف پذیری اندک نظامهای ذخیره و بازیابی، همچنین افزایش قابلیتهای استنتاج در نظامها، حرکتهایی به سمت نظامهای بازنمون دانش جدید در جریان است. این حرکتها که بیشتر در حوزة هوش مصنوعی مشاهده می‌شود، با ظهور کتابخانه‌های دیجیتال و اندیشة وب معنایی، رنگ دیگری به خود گرفته است. تحقیقات در زمینة هستی‌شناسی‌ها[1] به عنوان ابزارهای جدید بازنمون دانش، از جمله این حرکتهاست (شریف، 1385، ص 67). هستی‌شناسی‌ها به منزلة ابزار بازنمون دانش در نظامهای ذخیره و بازیابی، استفاده می‌شوند (ونگ و دیگران[2]، 2006) و آن را مجموعه‌ای از مفاهیم، خصیصه‌ها[3]، و روابط میان آن مفاهیم تعریف کرده‌اند (هس و اشلیدر[4]، 2006، ص545؛ ). این تعریف در حوزة مدل‌سازی مفهومی، چندان جدید نیست. در مدلهای موجودیت ـ رابطه[5] که از دهه 1970 در پایگاه‌های اطلاعاتی استفاده می‌شود و در مدلهای گسترش یافتة آن[6] نیز چنین الگویی از مفاهیم، خصیصه‌ها و روابط قابل شناسایی است. اما دلیل این همه استقبال از هستی شناسی ها در این نکته نهفته است که هستی‌شناسی‌ها برخلاف مدلهای مفهومی پیش گفته، استنتاج هوشمند را ممکن می‌سازند (هس و اشلیدر، 2006، ص545).

معماریهای متنوعی در طراحی و اجرای هستی شناسی ها وجود دارد. این معماریها در سه دسته قابل بررسی اند (میکا[7] ، 2006، ص 289):

1. هستی‌شناسی واحد:[8] در این صورت، تمام افراد سازمان به تفاهم وتوافق بر هستی شناسی واحدی می رسند. این معماری تنها در موارد بسیار ایده‌آل و هوشمند مؤثر خواهد بود. نقطه قوّت این نوع معماری آن است که در صورت تمایل به اشتراک، به هیچ‌گونه ترسیمی[9] نیاز نیست.

2. هستی‌شناسی‌های محلی:[10] در کنار هستی شناسی واحد: در این نوع معماری، گروه‌هایی از افراد سازمان فعال در حوزه‌ای خاص از هستی‌شناسی محلی استفاده می‌کنند. در این صورت چنانچه اشتراک دانش میان گروه ها نیاز باشد، استفاده از ترسیم هستی شناسانه ضروری است.

3. هستی‌شناسی‌های فردی: هنگامی که هر یک از افراد در سازمان از هستی‌‌شناسی منحصر به فرد و مستقلی استفاده کند، این معماری تحقق می‌یابد. در این صورت، استفاده از ترسیمها با وسعت بیشتری انجام می‌پذیرد.

از میان سه مدل معماری ذکر شده، دومین معماری، قابل دفاع ترین نوع معماری به شمار می‌رود. «برنرزلی»[11] در توضیح این مطلب می افزاید: معماری نخست بر کنترل مرکزی بنا شده است، در حالی که سومین معماری به مکانی آرمانی نظر دارد! (نقل در میکا ،2006، ص 289). بر مبنای معماری دوم، هستی‌شناسی واحد مشترکی در سطح بالا[12] تعریف می‌شود و همزمان، امکان افزودن و گسترش[13] هستی‌شناسی به‌طور محلی برای هر یک از نظیرها[14] [کارگروه‌های مشابه] فراهم می‌آید. اغلب این نوع معماری به‌طور سلسله مراتبی به اجرا می‌رسد؛ به گونه‌ای که تمام زیرمجموعه‌ها ـ نظیرها ـ از هستی‌شناسی واحد مشترکی استفاده می‌کنند و هر زیرمجموعه می‌تواند گسترشهای لازم را به هستی‌شناسی سطح بالا بیفزاید و هستی‌شناسی محلی خود را داشته باشد (میکا ، 2006، ص 289).

امروزه با توجه به روند رو به رشد استفاده از هستی‌شناسی‌ها در نظامهای اطلاعاتی، ساخت هستی‌شناسی‌ها، روش‌شناسی ساخت، ابزارهای ساخت، ساخت خودکار و یادگیری هستی‌شناسی‌ها، از مباحث مطرح در میان محققان است (شمس فرد، عبداله‌زاده بارفروش، 1381: ص 49). رویکردهای متنوعی در ساخت، توسعه و روزآمدسازی هستی‌شناسی‌ها در جریان است. طیفی از روشهای متنوع در استخراج و مدل‌سازی دانش در متون مختلف قابل شناسایی است. اغلب در ساخت هستی‌شناسی‌ها از روشهای نیمه خودکار استفاده می‌شود، اما مطالعاتی در زمینة خودکارسازی کامل این فرایند نیز در جریان است (ونگ و دیگران، 2006). صرف نظر از نوع معماری انتخابی در ساخت و توسعه هستی‌شناسی‌ها، در مورد شیوه‌های استخراج مفاهیم و روابط نیز باید مطالعه و تصمیم گیری شود.

ساخت و توسعه هستی شناسی ها به سه شیوة کلی انجام پذیر است:

ساخت دستی
· استفاده از ابزارهای مهندسی هستی شناسی [که انجام بخشی از کار را به صورت نیمه خودکار امکان پذیر می سازد] و
روشهای خودکار.

ساخت دستی هستی‌شناسی‌ها، برای قلمروها و کاربردهای مختلف، پرهزینه، وقت‌گیر و مستعد خطاست و هستی‌شناسی‌هایی که به صورت دستی ساخته می‌شوند، معمولاً گران، متمایل به نظرهای شخصی طراح، انعطاف‌ناپذیر در مقابل تغییرات و دقیقاً خاص منظوری هستند که برای آن تهیه شده‌اند (شمس فرد، عبداله زاده بارفروش، 1381: ص 49). در دیگر سوی، ابزارهای مهندسی هستی شناسی مانند [15]Protégé واسط کاربری فراهم می آورند که در آن امکان تعریف مفاهیم، نمونه‌ها، ویژگیها و محدودیتهای مفاهیم و همچنین روابط، وجود دارد. در این صورت، باز هم هزینة زیادی در ساخت هستی‌شناسی‌ها صرف می‌شود و افراد متخصصی برای ساخت هستی‌شناسی در فعالیت شرکت دارند. مزیت استفاده از ابزارها آن است که در صورت وجود، می‌توان از مفاهیم و روابط موجود در سایر هستی‌شناسی‌ها به منظور ساخت و توسعة هستی‌شناسی جدیدی استفاده کرد؛ لذا بخشی از کار به صورت خودکار انجام پذیر است.

اما در روشهای خودکار ـ سومین شیوة مهندسی و توسعه هستی‌شناسی‌ها ـ دخالت عامل انسانی کاهش و سرعت ساخت و توسعة هستی شناسی ها افزایش می یابد. در این صورت، باید به اکتساب یا استخراج دانش پرداخت. از آنجا که هستی‌شناسی را مجموعة مفاهیم و روابط آن می‌دانیم، این استخراج در دو بُعد انجام می‌پذیرد: الف) استخراج مفاهیم و ب) استخراج روابط معنایی میان این مفاهیم.

مروری اجمالی بر پیشینه

مشکل اصلی انسان با ماشین، چگونگی آموختن مفاهیم به آن است. در یک نگاه کلی، روشهای یادگیری ماشینی به دو دستة «روشهای ریاضی/ آماری» و «روشهای زبان پایه» قابل تقسیم است. برای مثال، فنون مورد استفاده در نمایه‌سازی معنای پنهان[16] صرفاَ بر محاسبات ریاضی استوار است، بدون اینکه نیازی به درک مفهوم از سوی ماشین باشد (یو و دیگران[17]، 2002). در این روش، محدودیت زبانی به حداقل می‌رسد و نوع زبان به فراموشی سپرده می‌شود. در واقع، در روش نمایه‌سازی معنای پنهان ویژگیهای زبانی نادیده گرفته می‌شود. از سویی، بسیاری از روشهای یادگیری بر روشهای زبان پایه استوار است (مانند میلر و دیگران[18]، 2000 و زلنکو و دیگران[19]، 2003؛ نقل در زو و زانگ[20]، 2007، ص970). کاربرد مؤلفه‌های زبان شناختی در دامنة وسیعی ـ دانش واژگانی[21]، درخت تجزیه[22]، درخت وابستگی[23] و مؤلفه‌های معنایی[24] ـ در برخی از متون مورد توجه قرار گرفته است. به‌طور مثال، «زانگ، زو، او»[25] (2008) با بررسی مؤلفه‌های نحوی ساخت یافته،[26] روابط معنایی را استخراج کرده‌اند.

پروژه‌های مختلف ساخت و به کارگیری هستی‌شناسی‌ها بویژه در محیطهای اینترانت، از جمله مواردی است که نمونه های فراوانی از آنها در حوزه های موضوعی متنوع موجود است (از جمله راسکین و پن[27]، 2005؛ کازانوا و دیگران[28] 2005). «کازانوا و دیگران» (2005) مراحل و چگونگی ساخت هستی‌شناسی موضوعی حقوق را با استفاده از زبان طبیعی و بر مبنای پژوهش قوم نگارانه[29] بیان می دارند. گفته شد که ساخت هستی‌شناسی‌ها اغلب نیمه خودکار صورت می‌پذیرد. با وجود این، پژوهشهایی نیز در زمینه خودکارسازی کامل فرایند مهندسی هستی‌شناسی‌ها در جریان است (مانند ونگ و دیگران، 2006؛ آقابک، آیدین، اوزمل، و آکسوی[30]، 2006) در بسیاری از پژوهشها بر روشهای استفاده از ابزارهای بازنمون سنتی دانش مانند پایگاه‌های اطلاعاتی موجود (کیوره[31]، 2003) و یا اصطلاحنامه‌ها (سورگل و دیگران [32]، 2004) در ساخت و توسعه هستی‌شناسی‌ها تأکید شده است.

اگر چه مطالعات زیادی در زمینة تحلیل و استخراج دانش مفهومی در متونی به زبان انگلیسی انجام پذیرفته است، تنها مطالعه‌ای که در ایران و بر روی زبان فارسی انجام شده پایان‌نامة دکترای شمس فرد (1381) می‌باشد. «هستی» که نظام یادگیر هستی‌شناسی است، حاصل پژوهش شمس فرد است. در این نظام، مفاهیم و روابط معنایی با استفاده از الگوهای زبانی و معنایی استخراج شده‌اند. «هستی» سیستمی برای استخراج دانش مفهومی از متون سادة زبان فارسی و ساخت هستی‌شناسی از روی آنهاست. «هستی»، از پایه، به ساخت خودکار هستی شناسی می پردازد. منظور از «پایه»، نبود هستی‌شناسی مبنا (اعم از عمومی یا تخصصی) و همچنین نبود واژگان معنایی برای کمک به فرایند یادگیری است. در ابتدای کار نظام، واژگان تقریباً تهی و هستی شناسی فقط حاوی هستة اولیه یادگیری است که به صورت دستی ساخته شده است.

هستة اولیه یادگیری شامل الگوهای زبانی و معنایی است. این الگوها که از طریق تحلیل متن به زبان فارسی انجام پذیرفته است در نظام قرار می‌گیرد و از آن پس، استخراج با توجه به الگوها انجام می‌پذیرد. بخشی از الگوهای معنایی مورد استفاده در «هستی» در (شمس فرد، عبداله زاده بارفروش، 1381) بیان شده است.

طرح پرسش

یکی از مهم‌ترین دغدغه‌های انسان در عصر فناوری اطلاعات، طراحی و گسترش ابزارها، امکانات و خدمات مربوط به گردآوری، ذخیره سازی و پردازش داده‌های زبانی است (عاصی، رضاقلی فامیان، آقاجانی، 1385، ص 125). علاقه به استخراج خودکار، بویژه با توجه به افزایش روزافزون اطلاعات متنی دسترس‌پذیر در محیط وب و آرشیوهای دیجیتال، رو به افزایش است (زو و زانگ، 2007،ص 969) استخراج مفاهیم و روابط از طریق تحلیل داده ها صورت می‌پذیرد. داده‌ها در متن[33] مانند داده‌های موجود در یک صفحه وب، یا یک مقاله، و یا خارج از متن، به طور مثال در یک پایگاه کتابشناختی قرار دارند. به طور کلی، داده‌های اولیه که برای تحلیل مورد استفاده قرار می‌گیرند، در سه دسته تقسیم‌بندی می‌شوند:

· داده‌های ساخت یافته مانند داده های موجود در یک پایگاه کتابشناختی [در فیلدها و فیلدهای فرعی]
· داده‌های نیمه ساخت یافته مانند مستنداتی در زبان XML یا HTML ؛ و سخت‌ترین حالت
· تحلیل و استخراج از متونی به زبان طبیعی.

ساخت خودکار هستی‌شناسی‌ها با استفاده از نظامهای یادگیر هستی‌شناسی انجام می‌پذیرد. این در حالی است که استفاده از ابزارهایی چون Protégé تنها به منزلة پشتیبان ساخت به کار می‌روند. «شمس فرد و عبداله زاده بارفروش» (1381) در توضیح «هستی»، به نقطه شروع استخراج دانش مفهومی می پردازند و نظامهای یادگیر هستی شناسی را به دو دسته تقسیم می‌کنند:

· دسته‌ای از نظامها که از دانش زبانی (دستور زبان، دانش لغوی، الگوها، و ...) به عنوان دانش پیش زمینه استفاده می‌کنند و از منابع ورودی، دانشهای جدید را می‌آموزند.
· دسته‌ای که این فرایند را با استفاده از دانش مفهومی (هستی‌شناسی مبنا) به انجام می‌رسانند. (ص 50).

اما اغلب نظامهای موجود یادگیر هستی‌شناسی، دسترسی به هر دو را ترجیح می‌دهند؛ بدین ترتیب که از ابزارهایی چون WordNet ،که نظامی از واژگان معنایی از پیش تعریف شده است، نیز استفاده می‌کنند. این نظام واژگانی در تشخیص و ایجاد تمایز میان رابطه‌ها کاربرد دارد و از مشکل پراکندگی داده‌ها در استخراج روابط می‌کاهد (زو و زانگ، 2007، ص 975) وردنت علاوه بر دانش زبانی، حاوی بخشی از دانش مفهومی نیز می‌باشد[34].

استخراج دانش در دامنه‌ای از روشهای با دانش ضعیف (مانند تکنیکهای آماری) تا روشهای غنی از دانش (مانند استدلال منطقی) گسترده اند (شمس فرد، عبداله زاده، 1381، ص 51). در نظامهایی که به روشهای آماری عمل می کنند، بسامد تکرار و یا بسامد هم وقوعی و هم مکانی کلمات و عبارتها مورد توجه است و از تحلیل آماری داده‌های هم وقوع برای یادگیری طبقات و روابط مفهومی استفاده می‌شود. برخی از نظامهای دیگر، روشهای نمادینی چون روشهای منطقی مبتنی بر الگو و زبان ـ پایه را برای استخراج دانش به کار می‌گیرند. روشهای زبان ـ پایه مانند تحلیل کامل نحوی[35] (میلر و دیگران، 2000 نقل در زو و زانگ، 2007، ص 970) ، تحلیل ساختواژی ـ نحوی (اسدی[36]، 1997، نقل در شمس فرد، عبداله‌زاده، 1381، ص51)، تجزیة الگوهای لغوی ـ نحوی (فینکستاین ـ لندو و مورین[37]، 1999، نقل در شمس فرد، عبداله زاده، 1381، ص 51)، پردازش معنایی و درک متن عموماً وابسته به زبان هستند و برای استخراج دانش از منابع غیرساخت یافته (زبان طبیعی) به کار می‌روند. در روشهای مبتنی بر الگو، ورودی (معمولاً متن) به دنبال الگو یا کلمات کلیدی خاص که نشانگر روابط مفهومی خاصی است، جستجو و اطلاعات مورد نظر از متن استخراج می‌شود.

استخراج مفاهیم و روابط در ساخت هستی‌شناسی‌ها پیچیدگی‌های فراوانی دارد و مسیرهای متفاوتی نیز در ساخت و توسعة آنها طی شده است. در این میان، تحلیلها بیشتر بر روی زبان انگلیسی صورت گرفته و مطالعات اندکی بر روی زبان فارسی انجام پذیرفته است (پایان‌نامه شمس فرد، 1381). همچنین، نظام واژگانی چون WordNet نیز در زبان فارسی موجود نیست[38]. اکنون با توجه به آنچه بیان شد، این پرسش مطرح است که «آیا می‌توان با استفاده از تحلیل متون علمی زبان فارسی[39]، به منزلة یک پیکره زبانی که در مقایسه با سایر متون ابهام کمتری دارد، روابط معنایی میان مفاهیم را استخراج کرد؟» منظور از روابط معنایی در این پرسش، مجموعه روابط معنایی معمول در ابزارهای بازنمون سنتی مانند اصطلاحنامه‌ها ـ سلسله مراتبی[40]، هم ارز[41] و هم بسته[42]- به علاوة گروهی از روابط غنی‌تر معنایی است که در نظامهای جدید بازنمون ـ هستی‌شناسی‌ها- مطرحند. چنانچه پاسخ اولین پرسش مثبت است، «پیدایی یا وضوح روابط معنایی در متون علمی زبان فارسی تا چه میزان است؟» به بیانی «آیا می‌توان به کشف الگوهایی برای استخراج روابط معنایی در این متون امیدوار بود؟» پژوهش حاضر در راستای پاسخ به دو پرسش طرح شده، اجرا گردید.

هدف پژوهش

گفته شد بخشی از خودکارسازی فرایند ساخت هستی‌شناسی‌ها با کمک ردگیری الگوهای معنایی امکان‌پذیر است. چنانکه پیشتر آمد، در روشهای مبتنی بر الگو، الگو یا کلمات کلیدی خاص که نشانگر روابط باشند، مورد جستجو هستند و از متن استخراج می‌شوند. ردگیری الگوهای معنایی با این پیش فرض انجام می‌پذیرد که قابلیت و امکان استخراج روابط به روش تحلیل متن عملی است و این روابط پیدایی لازم را برای استخراج دارند، زیرا تنها در صورتی می‌توان به استخراج خودکار روابط امیدوار بود که پیدایی این روابط در متن در حد قابل قبولی باشد. لذا هدف از این پژوهش، بیان الگوهای معنایی نیست، بلکه پژوهشگر قصد دارد پیش فرض روشهای مبتنی بر الگو را بررسی کند.

دامنة کار و روش پژوهش

با توضیحی که در هدف پژوهش مورد اشاره قرار گرفت و با توجه به اینکه:

· هستی‌شناسی حاصل بحث و توافق نظر بر سر معناست و هدف از ایجاد آن، بیان واضح توافقی است که در باب «چگونه بودن جهان هستی»[43] از جنبه‌ای خاص [در حوزه[44]‌ای مشخص] حاصل آمده است (مانسینی و شام[45]، 2006، ص 1169) و لذا در حوزه‌ای کاربردی، طراحی و مورد استفاده قرار می‌گیرد.
· تفاوتهای زبانی در یک جامعة مشخص به واسطة تفاوت در تجربیات مختلف افراد در گروه‌های اجتماعی و حرفه‌ای خاص ایجاد می‌شود و چندان دور از ذهن نیست که ساختار دانش در یک جامعه، به گونه‌ای ویژه و گاه متفاوت از سایر جوامع شکل گیرد. به بیانی، افراد در گروه‌های اجتماعی خاص (به عنوان مثال در جامعه‌ای حرفه‌‌ای) ساختار دانش ویژه‌ای دارند. این افراد به هنگام بازنمایی دانش خویش در متون، از واژه‌ها و مفاهیم مشترکی[46] استفاده می کنند (شریف، 1387) که می‌تواند متفاوت از واژگان حوزه‌ای دیگر باشد و در ساخت جمله و انتقال معنا نقش دارند.
· مقاله‌های علمی یک رشته، اغلب نمایش مفاهیم جدید، همراه با جزئیات آن، از جمله روابط میان مفاهیم است و ابهام کمتری دارد. همچنین
استخراج دانش، به دو بخش «استخراج مفاهیم« و «روابط» تقسیم می‌شود.

لذا، در این پژوهش تمرکز بر متون تخصصی در یک حوزة موضوعی ویژه ـ ربط ـ قرار گرفت. بدین منظور، مقاله‌های مجلة اطلاع‌شناسی (1383، سال دوم، شماره اول) که ویژه‌نامة ربط است، برای تحلیل و استخراج روابط معنایی انتخاب شد. اگر چه به واسطة تحلیل انجام شده بر روی متن، مفاهیم نیز استخراج شده است، در این پژوهش تأکید بر روابط معنایی و میزان پیدایی آنهاست.

دانش قابل استخراج از متون به دو دستة «ضمنی» و «عینی» تقسیم‌بندی می‌شود. دانش عینی، دانشی است که در متن و با استفاده از واژگان به بیان آمده است، اما دانش ضمنی وابسته به پیش داشته‌های فرد انتزاع کننده آن است و به طور صریح در متن و در قالب واژگان نیامده است؛ بدین معنا که اگر چه رابطه معنایی به طور صریح در متن نیامده است، خوانندة مطلب که در این جا فرد انتزاع کننده روابط معنایی (پژوهشگر) می باشد، با توجه به دانش زمینه‌ای، قادر به انتزاع و استخراج رابطه‌هاست. در این پژوهش، سعی شده هر دو نوع دانش استخراج شود. علت استخراج هر دو نوع دانش آن است که میزان پیدایی روابط معنایی را می توان از مقایسه و تحلیل این دو یافته تعیین نمود. در عین حال، واضح است که استخراج خودکار روابط معنایی بر پایة دانش عینی و الگوهایی است که به طور عینی در متن آمده است و استخراج آنها را ممکن می‌سازد.

در مقاله‌های مورد بررسی، دو بخش چکیده و بحث و نتیجه گیری برای استخراج روابط و الگوهای آن انتخاب شده است. مبنای این انتخاب بر این استدلال استوار است که در چکیده مقاله‌ها، اصلی‌ترین مطلب مقاله به صورت مختصر بیان می‌شود و در بخش بحث و نتیجه‌گیری، حاصل سخن مقاله. همچنین عنوان و کلیدواژه ها نیز به منظور استخراج بخشی از دانش ضمنی مورد تحلیل قرار گرفت.

بنابراین، نمونة مورد تحلیل متشکل از9 مقاله به زبان فارسی است که در ویژه‌نامة ربط مجله اطلاع شناسی به چاپ رسیده است. استخراج روابط با تجزیه متن به پاره‌های مورد تحلیل، صورت گرفت. بدین منظور، علامت نقطه (.) در متن به منزلة مرز پاره‌های مورد تحلیل، در نظر گرفته شد. تحلیل بدون توجه به ساختار نحوی جمله‌ها و تنها با استناد به دانش موضوعی پژوهشگر، انجام پذیرفت.

مراحل و روش تحلیل

مفاهیم در قالب زنجیره‌ای از واژگان به هم مرتبط، به بیان و بنان در می‌آیند. در این صورت است که جمله متولد می‌شود. جمله در ارتباط با سایر جمله‌های یک پاراگراف، در خدمت انتقال معنایی کلی‌تر است که از عهدة یک جمله به تنهایی بر نمی‌آمد. در این مورد، چکیدة مقاله علمی، تک پاراگراف منحصر به فردی است که قصد دارد بازنمونی مختصر و تا حدّ ممکن جامع از رویکرد، روشها و البته معنای مورد نظر نویسنده باشد. مجموعه پاراگرافها در خدمت نویسنده‌اند تا مقصود و معنای مورد نظر به تمامی منتقل شود. هر مقاله نیز با سایر مقاله‌های هم موضوع در ارتباط است و در کنار آنها زیست می‌کند. ویژه‌نامه‌های تخصصی، مجالی هستند برای بروز این زیستن.

در سطح کل (مجموعه مقاله‌های یک همایش یا ویژه نامه های موضوعی)

در سطح یک متن (مقاله)

در سطح یک پاراگراف (چکیده)

در سطح جمله

با توضیحی که ذکر شد، می‌توان تحلیل را در چهار سطح و به شکل هرمی وارونه تصویر کرد.

شکل 1. هرم تحلیل استخراج مفاهیم و روابط

در نخستین سطح، سطح جمله، بخشی از مفاهیم و روابط شناسایی می‌شود. در این سطح از تحلیل، دانش عینی آن جمله مورد نظر است و فراتر از همان جمله نمی توان حرکت کرد؛ اما چنانچه سطح تحلیل به پاراگراف گسترش یابد، می‌توان مفاهیم را در سطحی انتزاعی‌تر و به بیانی ضمنی‌تر دید. به طور مثال، اگر در جمله اول یکی از روشهای درمان بیماری خاصی بیان شود، تنها همین یک روش درمانی استخراج می‌گردد؛ اما اگر پاراگراف در نظر گرفته شود و جمله ای دیگر از این پاراگراف به همان روش با عبارتی دیگر بپردازد، رابطة ضمنی هم ارزی این دو مفهوم قابل شناسایی است، در حالی که در متن نیامده است. بدین ترتیب، روابط ضمنی‌تری قابل شناسایی و استخراج خواهد بود؛ روابطی که شاید در سطح جمله امکان استخراج آنها وجود نداشت. بتدریج، با حرکت در سطوح تحلیل، مجموعه‌ای از روابط جدید میان مفاهیم و حتی میان رابطه ها آشکار و در نهایت هستی آن کل، به شکل مجموعه‌ای از مفاهیم و روابط متجلی می‌شود.

تحلیل و استخراج روابط معنایی مطابق با هرم تحلیل صورت گرفت. عملیات تحلیل و استخراج توسط پژوهشگر انجام شد؛ بدین ترتیب که ابتدا تک تک خطوط متن مورد تحلیل، تحلیل شد و روابط معنایی استخراج گردید. سپس چند خط به طور همزمان مورد نظر قرار گرفت و روابط انتزاعی تر استخراج شد. بدیهی است، این‌گونه تحلیل، مانند سایر روشهای کیفی، فارغ از سوگیریهای پژوهشگر نیست. داده‌های حاصل از تحلیل ـ مفاهیم و روابط معنایی ـ در نرم‌افزارMS Excel 2003 ثبت شد. در مواردی که روابط چندین بار تکرار شده است نیز رخداد تکرار ثبت شد. بدین ترتیب، هر دو مفهوم به علاوة رابطه میان آن دو، در یکی از ردیفهای نرم‌افزار قرار گرفت و رخداد تکرار آن ثبت شد.

به منظور تعیین میزان پیدایی روابط معنایی سه سطح ـ انطباق کامل، انطباق نسبی، و عدم انطباق ـ تعیین شد. انطباق کامل زمانی رخ می‌دهد که رابطه معنایی استخراج شده به طور کامل در جملة مورد تحلیل آمده باشد؛ مثلاً در جمله «تکنیک فرامتن راهکار افزایش ربط است» رابطه «راهکار» میان دو مفهوم «تکنیک فرامتن» و «افزایش ربط» نمونه یک رابطه با انطباق کامل است. در جمله‌ای مانند «ساختار نظامهای فرامتن و تأثیر آنها بر مسئله ربط در بازیابی و نیز راهبردهای جستجو ...» رابطة «تأثیر دارد بر»، دارای انطباق نسبی است. اما هنگامی که از جمله‌ای مانند «پیوندهای فرامتنی راه دیگری را برای مسیریابی در میان انبوه اطلاعات فراهم می‌کند»، رابطه «کاربرد دارد در» استخراج می‌شود، این رابطه مصداق نبود انطباق میان واژه‌های متن و رابطه، استخراج شده است. بدین ترتیب، مجموعه‌ای از روابط معنایی همراه با میزان انطباق آنها با متن استخراج شد.

روابط معنایی مورد استخراج

مجموعه روابط معنایی قابل تعریف در ابزارهای بازنمون سنتی از جمله در اصطلاحنامه‌ها عبارتند از: روابط سلسله مراتبی، هم‌ارز و هم‌بسته. رابطة هم ارز میان دو اصطلاح پذیرفته شده و پذیرفته نشده. رابطة سلسله مراتبی اصطلاحات اعم و اخص را مشخص می‌سازد و اصطلاحاتی که نوعی تبادر به ذهن می‌‌آورند، در دستة روابط هم‌بسته تعریف می‌شوند. اما روابط معنایی حاکم در ابزارهای بازنمون دانش جدید، از جمله هستی‌شناسی‌ها، محدود به این روابط ثابت نیست و پویایی بیشتری دارد و عمق آن بسته به عمق هستی‌شناسی‌ها، متنوع است.

روابط معنایی در گستره‌های متفاوت، به گونه‌ها و با جزءنگری‌های متنوعی تقسیم‌بندی شده‌اند که در این مقاله به آنها نخواهیم پرداخت. رابطه‌های منعطفی چون «راه انتقال» برای یک بیماری خاص در هستی شناسی بیماریها و «نام تجاری» برای هستی‌شناسی داروها، نمونه‌ای از رابطه‌هاست. رابطه‌های استخراج شده در تحلیل متن انتخابی نیز با همین رویکرد، استخراج شده است.

تجزیه و تحلیل یافته‌ها

تجزیه و تحلیل نهایی بر روی داده های ثبت شده، در نرم‌افزار اکسل انجام پذیرفت. روابط دسته‌بندی و در 7 مقولة کلی قرار گرفت. این هفت مقوله کلی شامل 24 زیر مقوله هستند که در 122 مورد، رخداد داشته‌اند. جدول شماره 1، رابطه‌های استخراج شده را همراه با رخداد آنها نشان می‌دهد.

رخداد	مقولة فرعی رابطه استخراجی	مقولة کلی رابطة استخراجی	ردیف
4	معادل است با	هم ارزی	1
2	تفاوت دارد با	تفاوت (نا هم ارزی)	2
2	دسته بندی می شود به	سلسه مراتبی	3
10	انواع دارد	سلسه مراتبی	3
8	در ارتباط است با	همبستگی	4
1	استفاده می شود در	کاربردی	5
2	راهبرد دارد
1	راهکار
1	راهکار سنجش عملکرد
8	کاربرد دارد در
2	تأثیر دارد بر	تأثیری (تأثیرگذاری/تأثیرپذیری)	6
10	نقش دارد در
2	تأثیر دارد در
3	تأثیر می‌گذارد بر
4	تحت تأثیر
6	براساس
1	برپایه
2	زیربنای
1	معیار است برای
3	معیار دارد
3	مقیاس دارد	توصیفی	7
37	ویژگی دارد
3	شاخص دارد
6	چالش دارد
122	مجموع

جدول1. روابط معنایی استخراج شده همراه با بسامد رخدادهای هر یک در متن مورد تحلیل

همان‌طور که در جدول 1 مشخص است، روابط معنایی استخراج شده در متن مورد تحلیل، در 7 مقولة کلی قابل تقسیم است. اگر دقت کنید، روابطی چون هم ارزی، سلسه مراتبی و همبستگی، همان‌گونه که در اصطلاحنامه‌ها مطرح بود، استخراج شده است. علاوه بر آنها، روابطی که نشانگر تأثیرگذاری/تأثیرپذیری، توصیف و کاربرد بودند نیز شناسایی شد. بدین ترتیب، در پاسخ به نخستین پرسش پژوهش باید گفت، روابط معنایی را می توان با استفاده از تحلیل متون علمی به زبان فارسی استخراج نمود. استخراج روابط به این روش، روابط ضمنی را نیز شامل می‌شود؛ روابطی که در رویکرد دستی قابل شناسایی هستند.

اما در پاسخ به دومین پرسش و تعیین میزان پیدایی روابط معنایی، میزان تطابق واژه‌های نشانگر رابطه با رابطه استخراج شده، بررسی گردید. در پاسخ به این پرسش، نسبت روابط ضمنی و عینی مشخص می شود. نمودار 1 حاصل تحلیل میزان تطابق است. چنانکه در نمودار مشخص است، 51% روابط به صورت کاملاً تلویحی (ضمنی) در متن موجود بوده است و 38% حاصل تطابق نسبی است، به طوری که بخشی از رابطه در متن آمده است و تنها 11% تطابق کامل وجود داشته است. بدین ترتیب، میزان پیدایی روابط معنایی در سطح پایینی ارزیابی می‌شود.

نمودار1. میزان پیدایی روابط معنایی استخراج شده

جمع بندی و سخن پایانی

هم اکنون حجم وسیعی از اطلاعات به صورت دیجیتالی تولید و در چرخة تولید و بازتولید قرار می‌گیرد. پیکرة عظیم اطلاعات متنی موجود، بویژه در بستر وب، فرصت مناسبی است برای گسترش مطالعات حوزة هوش مصنوعی. ساخت و توسعه ابزارهای بازنمون دانش که با هدف سازماندهی اطلاعات و دانش انجام می‌پذیرد، تمایلی به سمت و سوی شیوه‌های خودکار دارد. ساخت و توسعة خودکار هستی‌شناسی‌ها که مجموعه‌ای از مفاهیم و روابط معنایی‌اند، به استخراج ـ مفاهیم و روابط ـ وابسته است.

در این پژوهش، پیش فرض روشهای مبتنی بر الگو در استخراج خودکار روابط معنایی در مورد متونی به زبان فارسی بررسی و به دو پرسش طرح شده پاسخ داده شد. نخستین پرسش که بر امکان استخراج روابط معنایی متمرکز بود، به پاسخی مثبت انجامید. بدین منظور، استخراج روابط معنایی با رویکرد تحلیل متن انجام شد و هفت رابطة کلی ـ هم ارزی، تفاوت، همبستگی، سلسه مراتبی، توصیفی، کاربردی، و تأثیری ـ و 24 رابطة جزئی‌تر شناسایی گردید. این روابط به دو صورت ضمنی و عینی، در متن مورد تحلیل آمده است.

اما در پاسخ به دومین پرسش پژوهش، میزان پیدایی روابط معنایی و نسبت روابط عینی به ضمنی طبق روشی که توضیح داده شد، بررسی گردید. با توجه به درصد یافته‌ها، مشخص است که در متن مورد تحلیل، نسبت روابط عینی به ضمنی اندک است، به طوری که تقریباً نیمی از روابط کاملاً ضمنی‌اند و در متن نیامده است و از 49% باقی‌مانده تنها 11% روابط به طور کاملاً عینی در متن آمده است. این یافته مشخص می‌سازد در روش خودکار بخشی از دانش ـ که در این مورد (51%) قابل توجه نیز هست ـ از دست می‌رود.

به نظر می‌رسد ردگیری الگوها به تنهایی با توجه به میزان پیدایی اندک روابط معنایی در متون، راهگشای مسئله خودکارسازی نیست. استفاده از شبکه های واژگانی بخشی از مشکل را حل کند؛ زیرا شبکه‌های واژگانی، شبکه‌ای از مفاهیم، همراه با روابط معنایی میان آنهاست که به شیوه‌ای ساخت‌یافته طراحی شده است و در جایی که تنها 49% روابط، با تطابق نسبی و کامل در متن آمده‌اند، راه گشاست. در این صورت، لازم است شبکه واژگانی زبان فارسی با همکاری متخصصان زبان شناسی، زبان و ادبیات فارسی، رایانه و البته کتابداری و اطلاع‌رسانی تدوین شود تا بتوان از قابلیتهای آن در این حوزه‌ها بهره‌برداری کرد.

تحلیل متن تحت تأثیر عوامل ذهنی و غیر ذهنی صورت می‌گیرد. اگر عوامل غیر ذهنی را عوامل زبانی بدانیم، در استخراج خودکار متن تنها باید بر این عوامل تکیه کرد. حال آن که در این صورت بخشی از تحلیل دچار کاهش شده است. «اسپارک جونز» (1991) معتقد است ذهن انسان در موقعیتها و زمانهای مختلف به صورت بسیار پیچیده و غیرقابل پیش‌بینی و با توجه به عوامل محسوس و نامحسوس قادر است به پردازش، تحلیل و تفسیر بپردازد و قضاوت کند (نقل در فتاحی، 1383، ص 20). هنوز تا خودکارسازی استخراج متن فاصله‌ای ناپیموده وجود دارد؛ فاصله‌ای که شاید پیمودن آن تنها از عهدة ذهن پیچیده انسانی برآید.

پی‌افزود1. تصویری از Protégé، ابزار معندسی هستی شناسی

این ابزار در سال 1998 توسط متخصصان انفورماتیک پزشکی[47] دانشگاه استنفورد[48] طراحی شد و توسعه یافت. مؤسساتی چون آژانس طرحهای پژوهشی پیشرفته دفاعی[49]، مؤسسه ملی سرطان[50]، مؤسسه ملی استاندارد و فناوری[51]، کتابخانه ملی پزشکی[52] و [53]بنیاد ملی علوم از جمله پیشتیبانان این طرح نرم‌افزار بوده‌اند. در حال حاضر ویرایش (2007) 3.3.1 این نرم‌افزار در سایت رسمی آن[54] موجود است. در این سایت، امکان دانلود نرم‌افزار فراهم آمده است.

پی افزود2: تصویری از شبکه واژاگانی WordNet

این شبکه واژگانی در آزمایشگاه علوم شناختی[55] دانشگاه پرینستون[56] طراحی شده است. امکان دانلود نرم‌افزار از سایت رسمی[57] آن وجود دارد.

[1]. Ontology.

[2]. Weng et al.

[3]. Properties.

[4]. Hess & schlieder.

[5]. Entity-Relationships (ER).

[6]. Extended Entity-Relationships (EER).

[7]. Mika.

[8]. Single ontology.

[9]. Mapping.

[10] local

1. Berners-Lee.

2. Top level.

3. Extension.

4. Peer.

1. توضیحی مختصر به همراه تصویری از این نرم‌افزار در پی‌افزود 1 آمده است.

1. Latent Semantic Indexing (LIS).

2. Yu et al.

3. Miller et al.

4. Zelenko et al.

5. Zhou & Zhang.

6. lexical knowledge.

7. Syntactic parse trees.

8. Dependency trees.

9. Semantic features.

10. Zhang, Zhou, & Aw.

11. Syntactic structured features.

1. Raskin & Pan.

2. Casanovas et al.

3. Ethnographic.

4. Akgo¨bek, Aydin ,O¨ ztemel , Aksoy.

5. Cure.

6. Soergel et al.

1. Context.

1. تصویری از این ابزار در پی افزود 2 آمده است.

2. Syntactic full pars.

3. Assadi.

4. Finkelstein-Landau, Morin.

1. بر پایة‌ گفتگویی که با دکتر شمس فرد انجام پذیرفت، مشخص شد این نظام در حال ساخت است اما هنوز به مرحلة استفاده نرسیده است. همچنین، شبکه واژگانی صفات زبان فارسی نیز در دست طراحی است. برای کسب اطلاعات بیشتر به مقالة عاصی، رضاقلی فامیان و آقاجانی با عنوان «به سوی طراحی شبکه واژگانی صفات زبان فارسی» که اطلاعات کتابشناختی آن در بخش منابع آمده است، مراجعه کنید.

2. چارچوب و محدوده این تحلیل در بخش روش پژوهش به روشنی خواهد آمد.

3. Hierarchical (Broader and Narrower Terms).

4. Equivalent (Used & Used for).

5. Related terms.

1. How the World is.

2. Domain.

3. Mancini & Shum.

4. Shared.

1. Medical Informatics.

2. Stanford University.

3. Defense Advance Research Projects Agency.

1. National Cancer Institute.

2. National Institute of Standards and Technology.

3. National Library of Medicine.

4. National Science Foundation.

5. http://protege.stanford.edu

6. Cognitive Science Laboratory.

7. Princeton University.

8. http://wordnet.princeton.edu/

مراجع

ـ شریف، عاطفه (1385). «شناختی از روابط معنایی در هستی‌شناسی وب». اطلاع شناسی، 4(1و2): 65-84

ـــــــــــــــــــ (1387، فروردین 27 و 28). مدل سازی مفهومی در طراحی محیط آموزش مجازی وبپایه. مقاله ارائه شده در همایش ملی فناوری آموزشی در عصر اطلاعات و ارتباطات، اهواز.

ـ شمس‌فرد، مهرنوش و احمد عبداله‌زاده بارفروش (1381). «استخراج دانش مفهومی از متن با استفاده از الگوهای زبانی و معنایی». تازه‌های علوم شناختی، 4(1): 48-66.

ـ عاصی، مصطفی؛ علی رضاقلی فامیان و داریوش آقاجانی (1385). «به سوی طراحی شبکه واژگانی صفات زبان فارسی». زبان و زبان‌شناسی، 2(4) : 125- 136.

ـ فتاحی، رحمت‌الله (1383). «تحلیل عوامل مؤثر بر نسبی بودن ربط در نظامهای بازیابی اطلاعات». اطلاع‌شناسی، 2(1): 7-22.

- Akgo¨bek ,O.; Aydin, Y.S.; O¨ ztemel, E.; Aksoy, M.S (2006). ”A new algorithm for automatic knowledge acquisition in inductive learning”. Knowledge-Based Systems, 19 : 388–395. Retrieved Jan ,20, 2008, From ScienceDirect Database

- Casanovas, P. et al (2005). " Iuriservice II Ontology Development". Retrieved Sep ,5, 2007, From http://www.aifb.uni-karlsruhe.de/WBS/dvr/publications/ivrcasanovas.pdf

- Cure, O (2003). "Mapping Databases to ontologies to design and maintain data in a semantic web environment". Retrieved Des ,25, 2006, From http://www.iiisci.org/journal/cvs/sci/pdfs/p704935.pdf

- Hess, C. ; Schlieder, C (2006). "Ontology-based verification of core model conformity in conceptual modeling" . Computers, Environment and Urban Systems, 30: 543- 561. Retrieved May ,5, 2007, , From Elsevier Database.

- Mancini, C. ; Shum, S. J. B (2006). Modeling discourse in contested domains: a semiotic and cognitive framework. Intelligent Journal of Human-Computer Studies. 64: 1154-1171. Retrieved Des ,20, 2006, From ScienceDirect Database

- Mika, P (2006). "A Methodology for Distributed Knowledge Management Using Ontologies and Peer-to-Peer . In Staab, S , Stuckenschmidt , H. (Eds) Semantic Web and Peer-to-Peer: Decentralized Management and Exchangeof Knowledge and Information. (pp.283-302). Koblenz: Springer.

- Raskin, R. G. ; Pan. M. J (2005). "Knowledge representation in the semantic web for Earth and environmental terminology (SWEET)". Computers & Geosciences, 31 : 1119–1125. Retrieved May ,5, 2007, From Elsevier Database

- Soergel, D. et all (2004). Reengineering Thesauri for new Applications: the AGROVOC Example" . Journal of Digital Information , 4(4). Retrieved Oct ,13, 2006, From http://jodi.ecs.soton.ac.uk/Articles/v04/i04/Soergel/

- Weng, S. et al (2006). " Ontology construction for information classification". Expert Systems with Applications, 31 : 1–12. Retrieved May ,5, 2007, , From Elsevier Database.

- Yu, C., et al (2002). “Patterns in Unstructured Data: Discovery, Aggregation, and Visualization”. Retrieved Oct ,13, 2004, From: http://javelina.cet.middlebury.edu/lsa/out/cover_page.htm

- Zhang, M. ; Zhou, G. ; Aw, A (2008). “Exploring syntactic structured features over parse trees for relation extraction using kernel methods”. Information Processing and Management , 44 :687–701. Retrieved Jan ,20, 2008, From ScienceDirect Database

- Zhou, G. ; Zhang, M (2007). “Extracting relation information from text documents by exploring various types of knowledge”. Information Processing and Management, 43: 969-982. Retrieved Des ,20, 2006, From ScienceDirect Database.

دوره 12، شماره 2 - شماره پیاپی 46
تیر 1388
صفحه 243-263

تعداد مشاهده مقاله: 1,703

مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

اصل مقاله

مراجع

دوره 12، شماره 2 - شماره پیاپی 46
تیر 1388
صفحه 243-263

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

مهندسی خودکار هستی شناسی: امکان سنجی استخراج روابط معنایی از متون فارسی و تعیین میزان پیدایی آنها

اصل مقاله

مراجع

دوره 12، شماره 2 - شماره پیاپی 46تیر 1388صفحه 243-263

فایل ها

هم رسانی

ارجاع به این مقاله

آمار

دوره 12، شماره 2 - شماره پیاپی 46
تیر 1388
صفحه 243-263