اتفاقية ميزة استخراج من النص

انا ذاهب من خلال مهمة حيث لا بد لي من استخراج ميزة الاتفاق من الأسماء في النص ... ميزة الاتفاقية مثل:

number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate

هناك على أي حال لاستخراج هذه الميزات من النص ....

3
يجب عليك حقًا التحقق من كل سطر ، والعثور على علامات الأسماء ، ثم وضع قائمة بميزات الاتفاقيات (كما تسميها) ليتم فحصها مرة أخرى الموجودة في السطر.
وأضاف المؤلف Kazekage Gaara, مصدر
يستخدم stanford-nlp POS tagger علامة Penn Treebank POS . لذلك للأسف ، يمكنك الوصول إلى الأسماء المفرد والجمع فقط من تلك العلامات. إما أنك تحتاج إلى البحث عن مجموعة علامات بها هذه الميزات المدعومة ، أو إجراء محلل يدويًا للبحث عن هذه السمات.
وأضاف المؤلف Kazekage Gaara, مصدر
وأعتقد أن nnp حتى open يستخدم نفس العلامات.
وأضاف المؤلف Kazekage Gaara, مصدر
تقصد أنني يجب أن تحقق كل سطر من محلل أو أنه نص النفس .. كوز الأسماء المفرد والجمع أستطيع استخراجها بواسطة بلغة POS. ماذا عن الميزات الأخرى ، هل من الممكن استخراجها باستخدام NLP المصدر المفتوح!
وأضاف المؤلف S Gaber, مصدر

1 إجابة

إذا كانت بياناتك هي الإنجليزية ، كما تقترح تعليقاتك ، فلن تحتوي الأسماء على معلومات شخصية ، لذا يمكننا أن نخصم ذلك.

الرقم سهل ، كما ذكر آخرون: العديد من علامات التمييز في النطق تفرق بين أسماء المفرد والجمع.

الجنس وحيوية أكثر إثارة للاهتمام. في اللغة الإنجليزية ، هذه هي الخصائص الدلالية بدلاً من الخصائص النحوية للأسماء. على سبيل المثال ، خذ الجملة الأميرة في البرج . نحن نعلم أن أميرة هي أنوثة ومتحركة ليس بسبب معلومات انعكاسية بل لأننا نعرف معنى الكلمة. من الممكن بناء علم الوجود من خلال الحصول على مجموعة كبيرة من البيانات القديمة وتحليل الضمائر والمفارقات فيها. ستبحث الخوارزمية عن أمثلة مثل هذه:

تنظر الأميرة إلى نفسها في المرآة.

الأميرة في البرج. إنها حزينة.

ستعمل (بطريقة ما) على أن أميرة هي سابقة نفسها و لها ، وتستنتج خصائص الاسم من الخصائص المعروفة لـ الضمائر. بطبيعة الحال ، أصبحت المشكلة الآن مرجعية القرار ، وهذا ليس تافها. فيما يلي بعض المراجع من دورة محاضرات جامعة أدنبرة الحديثة حول هذا الموضوع:

  • Denis، Pascal and Baldridge، Jason، 2008. 'Specialized Models and Reranking for Coreference Resolution.' في وقائع المؤتمر حول الأساليب التجريبية في معالجة اللغات الطبيعية . ACL ، 650-69.
  • Haghighi، Aria and Klein، Dan، 2010. 'Coreference Resolution in a Modular-centraled Model.' في تقنيات اللغة البشرية: المؤتمر السنوي لعام 2010 لفصل أمريكا الشمالية من جمعية علم اللغة الحسابية . Los Angeles CA، 385-93.
  • Lappin، Shalom and Leass، Herbert، 1994. 'Angorithm for Pronominal Anaphora Resolution.' اللغويات الحاسوبية 20: 535-61.
  • Ng، Vincent، 2010. 'Noun Phrase Coreference Research: The first 15 years.' In ACL '10: Proceedings of the 48th Meeting of the Association of Computational Linguistics. 1396-411.
2
وأضاف
حسنًا ، أعتقد أن هذه الأمور ستكون أسهل بكثير. إنها قائمة محدودة إلى حد ما من العناوين. قم بتجميعها يدويًا واطلب من أداة الوسم البحث عنها. لا أعرف ما إذا كان هناك تنفيذ مفتوح المصدر.
وأضاف المؤلف Tommy Herbert, مصدر
شكرا تومي هربرت ، من المفيد حقا ما تم شرحه خصوصا قرار Anaphora ... ماذا عن الأسماء التي ليس لديها أي ضمائر مرتبطة بها. كيف يمكننا معرفة أنه نوع الجنس والحركة. ماذا عن الأسماء التي تبدأ مع السيد ، ملكة جمال ، ملكة ، سيدة ، رب ..... هل هناك أي نهج لهذه الكلمات أو المصدر المفتوح الذي تم القيام به على هذا الشيء!
وأضاف المؤلف S Gaber, مصدر