استخراج الجمل
استخراج الجملة هي عبارة عن تقنية تستعمل للتلخيص التلقائي. في هذا النهج السطحي، تستعمل الاستدلالات الإحصائية للتعرف على أبرز الجمل من النصوص. حيث يعد استخراج الجمل هو نهج منخفض التكلفة مقارنة مع الطرق الأكثر تعمقا في استعمال المعرفة مزيد من المعرفة المكثفة والتي بالتالي تتطلب قواعد معرفة إضافية مثل التجميعات أو الانتولوجيات (ontologies) أو المعرفة اللغوية. باختصار "استخراج الجملة" يعمل كعامل تصفية يسمح للجمل الهامة فقط بأن تمر.
أما الجانب السلبي الاساسي لتطبيق تقنيات استخراج الجملة لمهمة التلخيص هو فقدان التماسك في الملخص الناتج عن العملية. ومع ذلك، يمكن لملخصات استخلاص الجملة ان تعطي معلومات قيمة عن النقاط الرئيسية في الوثيقة وغالبا ما تكون واضح بما فيه الكفاية للبشر ان تقرأه.
إجراء
عادة، يتم استعمال مزيج من القواعد التجريبية لتحديد أهم الجمل في الوثيقة. كل قاعد تجريبية تخصص مجموعة من النقاط (إيجابية أو سلبية) إلى الجملة. بعد تطبيق جميع القواعد التجريبية، الجملة ذات أعلى نقاط يتم تضمينها في الملخص. القواعد التجريبية الفردية ترجح وفقا لأهميتها.
النهج المبكر وبعض القواعد التجريبية العينية
أوراق الأصيلة التي وضعت الأسس للكثير من التقنيات المستعملة اليوم قد نشرت من خلال إتش بي لوهان في سنة 1958 وإتش بي ادموندسون في عام 1969.
حيث اقترح لوهن ان يرجح الجمل في بداية الوثيقة أو القرة أكثر من غيرها.أما ادموندسون فقد شدد على أهمية الكلمات العنوانية للتلخيص وكان أول من استعمل قوائم كلمات التوقيف لتصفية الكلمات غير المفيدة ذات المحتوى الدلالي المنخفضة (على سبيل المثال أكثر الكلمات النحوية مثل "عن"، "من"، "في"). كذلك ميز أيضا بين الكلمات الزائدة والكلمات الاصلية للجملة، أي الكلمات التي تحدث على الأرجح مع المعلومات المهمة (مثال على ذلك كلمة "جسيم") أو المعلومات غير المهمة. ان فكرتة في استخدام الكلمات المفتاحية -الكلمات التي تحدث بشكل ملحوظ في كثير من الأحيان في الوثيقة- لا تزال واحدة من من القواعد التجريبية الجوهرية للأنظمة التي تستخدم في التلخيص هذه الأيام. مع توافر الذخائر اللغوية الكبيرة هذه الأيام، فأن القيمة (تي اف-اي دي دف) الذي نشأ من علم استرجاع المعلومات، يمكن تطبيقها واستخدامها بنجاح لتحديد الكلمات المفتاحية التي في نص: إذا كان على سبيل المثال كلمة "القط" تحدث بشكل ملحوظ في كثير من الأحيان في النص الذي يتم تلخيصه (tf - تكرار النص) أكثر من سائر الذخيرة (IDF - "معكوس تردد الوثيقة"؛ هنا الوثيقة تعني الذخيرة)، فبالتالي تكون كلمة "القط" من المرجح أن تكون كلمة هامة في النص -النص قد يكون في الواقع نص عن القطط.
المراجع
areq.net
التصانيف
لسانيات حاسوبية معالجة اللغات الطبيعية العلوم التطبيقية لسانيات