تجريف قوات الدفاع الشعبي باستخدام R

لقد تم استخدام حزمة xml بنجاح لاستخراج جداول HTML ولكن تريد أن تمتد إلى PDF. من الأسئلة السابقة لا يبدو أنه يوجد حل R بسيط لكنه تساءل عما إذا كان هناك أي تطورات حديثة

فشل ذلك ، هل هناك طريقة ما في بايثون (التي أنا مبتدئ كامل) للحصول عليها ومعالجة ملفات pdf بحيث أتمكن من إنهاء المهمة باستخدام حزمة R XML

10

4 إجابة

إن استخراج النص من ملفات PDF أمر صعب ويتطلب دائمًا الكثير من الرعاية.

سأبدأ مع أدوات سطر الأوامر مثل pdftotext ونرى ما يبصقون. تكمن المشكلة في أن ملفات PDF يمكن أن تخزن النص بأي ترتيب ، ويمكن أن تستخدم ترميزات الخط غير المرغوب ، ويمكنها فعل أشياء مثل استخدام الأحرف المربوطة (the up up 'ff' و 'ij' التي تراها في التنضيد الصحيح) لرميك.

يمكن تثبيت pdftotext على أي نظام لينكس ...

10
وأضاف
حسنا pdftotext يعمل بشكل جيد في إنتاج صفحة نصية نظيفة ولكن ليس في أي شكل من الأشكال لخلق ما أريد بسهولة. شكرا على اية حال
وأضاف المؤلف pssguy, مصدر
وأضاف المؤلف pssguy, مصدر
المعارين. إن القيام بذلك في R لا يستحق جهد أي شخص لتطويره وصيانته ، عندما تكون هناك خيارات يتم الحفاظ عليها بشكل أفضل خارج R. إذا كنت بحاجة إلى القيام بالكثير من الملفات ، فحاول استخدام find فائدة في Unix (أو في مجموعة GNU لـ Windows) ، أو يمكن للمرء أن يرسل أوامر R R إلى shell ، يحلق فوق أسماء الملفات ... حتى Adobe لديه مستخرج نص رهيب لفترة طويلة (لست متأكدا إذا كان من الأفضل الآن) في حين كان زيروكس جيدًا.
وأضاف المؤلف Iterator, مصدر
هل يمكنك توجيهنا إلى ملف PDF تمثيلي؟
وأضاف المؤلف Spacedman, مصدر
إن تشغيل pdftotext ليس رائعًا في تلك الصفحة ، ولكن التحويل إلى ps أولاً أو مجرد تشغيل ps2txt على PDF ينتج جدولًا يكاد يكون مثاليًا مع بعض رؤوس الصفحات/الأقدام لإزالة.
وأضاف المؤلف Spacedman, مصدر
لقد كان حظي جيدا مع pdftotext على ويندوز أيضا
وأضاف المؤلف pguardiario, مصدر

قد ترغب في الاطلاع على حزمة استخراج النص tm </كود>. أذكر أنهم قاموا بتنفيذ ما يسمى بالقراء ، وكان هناك أيضًا ملفًا لملفات PDF.

5
وأضاف
شكر. راجعت المستندات. يستخدم pdftotext بطريقة أو بأخرى
وأضاف المؤلف pssguy, مصدر

AFAIK ليس هناك طريقة سهلة لتحويل جداول PDF إلى شيء مفيد لتحليل البيانات. يمكنك استخدام أداة File File Toolkit الخاصة بـ File to Text (واجهة R عبر حزمة RDSTK ) ، ثم تحليل النص الناتج. تحذير: غالبًا ما يكون التحليل غير تافه.


تعديل: هناك مناقشة مفيدة حول تحويل ملفات PDF إلى xml في discerning.com . الإجابة المختصرة هي أنك ربما ستحتاج إلى شراء أداة تجارية.

4
وأضاف
+1 شكرا على ذلك. لقد تحققت من المناقشة وحاولت تنزيل منتج ABBYY على الإصدار التجريبي ولكن لن يتم إعداده بشكل مسبق. أعتقد أنني محكوم عليه
وأضاف المؤلف pssguy, مصدر

يتوفر قلب تطبيق tabula الذي يمكنه استخلاص جداول من مستندات PDF كتطبيق سطر بسيط لتطبيق Java ، tabula-extractor .

وقد اختتم هذا التطبيق جافا في R من قبل tabulizer الحزمة. قم بتمرير المسار إلى ملف PDF وسيحاول استخراج جداول البيانات من أجلك وإرجاعها كبيانات.

على سبيل المثال ، راجع عندما تصبح المستندات قواعد بيانات - أداة التفاف Tabulizer لـ Tabula PDF Table Extractor .

1
وأضاف