وب کاوی

 

فهرست مطالب

1- مقدمه

2- مراحل وب کاوی

3- وب کاوی و زمینه های تحقیقاتی مرتبط

3-1- وب کاوی و داده کاوی

3-2- وب کاوی و بازیابی اطلاعات

3-3- وب کاوی و استخراج اطلاعات

3-4- وب کاوی و یادگیری ماشین

4- انواع وب کاوی

5- چالش های وب کاوی

6- کاوش محتوای وب

6-1- انواع کاوش محتوا در وب

6-1-1- طبقه بندی

6-1-2- خوشه بندی

6-1-3- سایر انواع کاوش محتوا در وب

6-2- رویکردهای کاوش محتوا در وب

6-3- الگوریتم های کاوش محتوا در وب

6-3-1- درخت تصمیم

6-3-2- شبکه عصبی

6-3-3- سایر الگوریتم های کاوش

7- کاوش ساختار وب

7-1- مدل های بازنمایی ساختار وب

7-1-1- مدل های مبتنی بر گراف

7-1-2- مدل های مارکو

7-2- الگوریتم های کاوش ساختار وب

7-2-1- HITS

7-2-2- Page Rank

7-2-3- الگوریتم جریان بیشینه

7-2-4- Average Clicks

7-3- کاربردهای کاوش ساختار وب

7-3-1- تشخیص اجتماعات وب

7-3-2- پیمایش وب

8- کاوش استفاده از وب

8-1- انواع داده های استفاده از وب

8-1-1- داده های سرورهای وب

8-1-2- داده های سرورهای پراکسی

8-1-3- داده های کلاینت

8-2- پیش پردازش داده های استفاده از وب

8-2-1- پاکسازی داده

8-2-2- تشخیص و بازسازی نشست

8-2-3- بازیابی ساختار و محتوا

8-2-4- قالب بندی داده

8-3- روش های کاوش استفاده از وب

8-3-1- قوانین انجمنی

8-3-2- الگوهای ترتیبی

8-3-3- خوشه بندی

8-4- کاربردهای کاوش استفاده از وب

8-4-1- خصوصی سازی محتوای وب

8-4-2- پیش بازیابی

8-4-3- بهبود طراحی سایت های وب

9- کاربردهای وب کاوی

9-1- تجارت الکترونیکی

9-2- موتورهای جستجو

9-3- حراجی در وب

نتیجه گیری

فهرست منابع

 

 


1- مقدمه

با توسعه سیستم های اطلاعاتی، داده به یکی از منابع پراهمیت سازمان ها مبدل گشته است. بنابراین روش ها و تکنیک هایی برای دستیابی کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از این اطلاعات، مورد نیاز می باشد. با ایجاد و گسترش وب و افزایش چشمگیر حجم اطلاعات، نیاز به این روش ها و تکنیک ها بیش از پیش احساس می شود. وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ 7.3 میلیون صفحه در روز افزایش می یابد. با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریبا غیر ممکن است و ابزارها و روش هایی نو برای مدیریت آن مورد نیاز است. به طور کلی کاربران وب در استفاده از آن با مشکلات زیر روبرو هستند:

 1. یافتن اطلاعات مرتبط: یافتن اطلاعات مورد نیاز در وب دشوار می باشد. روش های سنتی بازیابی اطلاعات که برای جستجوی اطلاعات در پایگاه داده ها به کار می روند، قابل استفاده در وب نمی باشند و کاربران معمولا از موتورهای جستجو که مهمترین و رایج ترین ابزار برای یافتن اطلاعات در وب می باشند، استفاده می کنند. این موتورها، یک پرس و جوی[1] مبتنی بر کلمات کلیدی از کاربر دریافت کرده و در پاسخ لیستی از اسناد مرتبط با پرس و جوی وی را که بر اساس میزان ارتباط با این پرس و جو مرتب شده اند، به وی ارائه می کنند. اما موتورهای جستجو دارای دو مشکل اصلی هستند. اولا دقت[2] موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرس و جوی کاربر صدها یا هزاران سند را بازیابی می کنند، در حالی که بسیاری از اسناد بازیابی شده توسط آنها با نیاز اطلاعاتی کاربر مرتبط نمی باشند. دوما میزان فراخوان[3] این موتورها کم می باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند. چرا که حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب، در پایگاه داده های خود نمی باشند.
 2. ایجاد دانش جدید با استفاده از اطلاعات موجود در وب: این مشکل در واقع بخشی از مشکل مطرح شده در قسمت قبل می باشد. در حال حاضر این سوال مطرح است که چگونه می توان داده های فراوان موجود در وب را به دانشی قابل استفاده تبدیل کرد، به طوری که یافتن اطلاعات مورد نیاز در آن به سادگی صورت بگیرد. همچنین چگونه می توان با استفاده از داده های وببه اطلاعات و دانشی جدید دست یافت.
 3. خصوصی سازی[4] اطلاعات: از آن جا که کاربران متفاوت هر یک درباره نوع و نحوه بازنمایی اطلاعات سلیقه خاصی دارند، این مسئله باید توسط تامین کنندگان اطلاعات در وب مورد توجه قرار بگیرد. برای این منظور با توجه به خواسته ها و تمایلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها باید سفارشی گردد.

تکنیک های وب کاوی[5] قادر به حل این مشکلات می باشند. در [16] وب کاوی به صورت زیر تعریف شده است:

وب کاوی به کارگیری تکنیک های داده کاوی[6] برای کشف و استخراج خودکاراطلاعات از اسناد و سرویس های وب می باشد.

البته تکنیک های وب کاوی تنها ابزار موجود برای حل این مشکلات نیستند. بلکه تکنیک های مختلفی از سایر زمینه های تحقیقاتی همچون پایگاه داده ها، بازیابی اطلاعات، پردازش زبان طبیعی، ... قابل استفاده در این زمینه می باشند. همچنین تکنینک هایوب کاوی می توانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند. منظور از رویکرد مستقیم آن است که کاربرد تکنیک های وب کاوی به صورت مستقیم مشکلات مطرح شده را حل می نماید. یک عامل گروه خبری که مرتبط بودن یک خبر به یک کاربر را تعیین می کند، مثالی از این رویکرد می باشد. اما در رویکرد غیر مستقیم، تکنیک های وب کاوی به عنوان بخشی از یک روش جامع تر که به حل این مشکلات می پردازد، مورد استفاده قرار می گیرند.

با توجه به گسترش روز افزون حجم اطلاعات در وب و ارتباط وب کاوی با تجارت الکترونیکی، وب کاوی به یک زمینه تحقیقاتی وسیع مبدل گشته است. طی این گزارش پس از بررسی مراحل وب کاوی، انواع آن معرفی می شوند. سپس ارتباط وبکاوی با سایر زمینه های تحقیقاتی بررسی شده و به چالش ها و مشکلات این زمینه تحقیقاتی اشاره می شود. در ادامه هر یک از انواع وب کاوی به تفصیل مورد بررسی قرار می گیرند. برای این منظور مدل ها، الگوریتم ها و کاربردهای هر طبقه معرفی می شوند. در پایان نیز به برخی از نمونه کاربردهای واقعی وب کاوی اشاره می شود.

 

2- مراحل وب کاوی

وب کاوی شامل چهار مرحله اصلی می باشد:

 1. پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می باشد.
 2. انتخاب اطلاعات و پیش پردازش: در این مرحله به صورت خودکار اطلاعاتخاصی از اسناد بازیابی شده، انتخاب و پیش پردازش می شوند.
 3. تعمیم[7]: در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایتوب کشف می شود.
 4. تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی[8]  و تفسیر می شوند.

در مرحله اول داده ها از منابع موجود در وب مانند خبرنامه های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی و ... بازیابی می شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها[9]، حذف کلمات زائد[10]، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه ای یا منطق مرتبه اول باشد. در مرحله سوم از تکنیک های داده کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.

به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده هایوب می باشد. این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده ها (KDD [11]) نیز می شود. در واقع وب کاوی گونه توسعه یافته KDD است که بر روی داده های وب عمل می کند.

 

3- وب کاوی و زمینه های تحقیقاتی مرتبط

وب کاوی با زمینه های مختلف تحقیقاتی علوم کامپیوتر همچون داده کاوی، پایگاه داده، بازیابی اطلاعات، هوش مصنوعی، یادگیری ماشین، پردازش زبان طبیعی، استخراج اطلاعات، انبار داده ها[12]، طراحی واسط کاربر و ... در ارتباط تنگاتنگ است.

در این بخش ارتباط این زمینه تحقیقاتی با برخی از زمینه های مرتبط بررسی می شود.

  3-1- وب کاوی و داده کاوی

وب کاوی و داده کاوی ارتباط بسیار نزدیکی با یکدیگر دارند. داده کاوی فرآیند ارائه پرس­وجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از داده هایی است که معمولا در پایگاه داده ها ذخیره شده اند. در واقع بسیاری از تکنیک های داده کاوی قابل استفاده در وب کاوی هستند. اما حوزه وب کاوی وسیع تر از داده کاوی است و این دو زمینه تحقیقاتی در جنبه های مختلفی از یکدیگر متفاوتند که برخی از آنها عبارتند از:

 • در داده کاوی، داده ها ساخت یافته هستند و معمولا در پایگاه داده ها وجود دارند. اما در وب، داده ها عموما غیر ساخت یافته هستند.
 • جمع آوری و مدیریت داده ها در وب دشوار است.
 • داده ها در وب تنها شامل محتوای مستندات و صفحات وب نیستند. بلکه دروب دو نوع داده اصلی دیگر نیز برای کاوش مورد استفاده قرار می گیرند. نوع اول، اطلاعات ساختاری وب است که منظور از آن پیوندهای بین صفحات وبمی باشد. نوع دوم نیز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحلیل رفتار کاربر در استفاده از وب، ترجیحات و علایق وی درباره نوع و قالب اطلاعات، ... بخش مهمی از وب کاوی است. در داده کاوی این دو نوع از داده وجود ندارند.
 • مسئله دیگری که در وب کاوی مطرح است، حفظ حریم کاربران[13] است. تکنیک های داده کاوی معمولا در یک محیط بسته به کار می روند. در حالی که تکنیک های وب کاوی در محیط باز وب انجام می شوند. بنابراین باید تضمین شود، اطلاعات شخصی و خصوصی کاربران مورد سوء استفاده قرار نمی گیرند.

 

3-2- وب کاوی و بازیابی اطلاعات

بعضی محققین معتقدند که کشف منبع یا سند (بازیابی اطلاعات) در وب، نمونه ای ازوب کاوی است و برخی وب کاوی را مرتبط با بازیابی اطلاعات هوشمند می دانند. منظور از بازیابی اطلاعات، بازیابی خودکار اسناد مرتبط و در عین حال بازیابی کمترین حد ممکن از اسناد غیر مرتبط می باشد. اهداف اصلی بازیابی اطلاعات شاخص گذاری[14] متون و جستجو برای اسناد مرتبط در یک مجموعه می باشد. در حال حاضر تحقیقات در زمینه بازیابی اطلاعات شامل مدلسازی، طبقه بندی[15] اسناد، واسط های کاربری، تصویر سازی داده[16]، جداسازی[17] و ... می باشد. آنچه در این میان می تواند به عنوان نمونه ای از وب کاوی در نظر گرفته شود، طبقه بندی اسناد است که در شاخص گذاری مورد استفاده قرار می گیرد. با چنین دیدگاهی وبکاوی به بخشی از فرآیند بازیابی اطلاعات مبدل می گردد.

  3-3- وب کاوی و استخراج اطلاعات

هدف از استخراج اطلاعات تبدیل مجموعه ای از اسناد به اطلاعات خلاصه شده و تحلیل شده می باشد. در حالی که تمرکز اصلی در بازیابی اطلاعات بر انتخاب اسناد مرتبط است، استخراج اطلاعات بر استخراج وقایع مرتبط از اسناد تکیه دارد. همچنین در استخراج اطلاعات، ساختار یا بازنمایی یک سند مد نظر قرار می گیرد، در حالی که در بازیابی اطلاعات، یک سند مجموعه ای نامرتب از کلمات است.

ساخت یک سیستم استخراج اطلاعات برای محیط پویا و متنوعی چون وب امکان پذیر نیست و بیشتر سیستم های ایجاد شده بر سایت های وب خاصی متمرکز می شوند. برخی دیگر از سیستم های استخراج اطلاعات از تکنیک های یادگیری ماشین و داده کاوی برای یادگیری قوانین و الگوهای استخراج استفاده می کنند. با این دیدگاه، وب کاوی بخشی از فرآیند استخراج اطلاعات می باشد.

البته دیدگاه های دیگری درباره ارتباط این دو وجود دارد. برخی معتقدند استخراجاطلاعات گونه ای از مرحله پیش پردازش (مرحله بعد از بازیابی اطلاعات و قبل از اعمال تکنیک های داده کاوی) در فرآیند وب کاوی می باشد.

به طور کلی دو گونه متفاوت از استخراج اطلاعات وجود دارد. استخراج اطلاعات از متون غیر ساخت یافته و استخراج اطلاعات از داده های نیمه ساخت یافته. برای استخراج اطلاعات از متون غیر ساخت یافته معمولا نوعی پیش پردازش زبانی قبل از به کارگیری تکنیک های داده کاوی استفاده می شود. بنابراین این نوع از استخراجاطلاعات ارتباط نزدیکی با تکنیک های پردازش زبان طبیعی دارد. اما با ایجاد و گسترش وب نیاز به روش های بازیابی 

/ 0 نظر / 144 بازدید