ماذا لو كان لدي وثيقة واحدة فقط وأريد الحصول على متجهات من جميع الجمل باستخدام doc2vec

أنا جديد على الثعبان والتعلم الآلي. لدي ملف (kkk.csv). هذا لديه 101 الجمل 1 جملة في كل سطر. أريد الحصول على متجه كل جملة باستخدام Doc2vec في gensim. بعد ذلك أريد استخدام تلك النواقل لأداء التجميع بحيث يتم تجميع الجمل نفسها معًا. هل يمكن للشخص أن يقدم لي رمزًا لهذا (الحصول على متجهات لكل جملة وتجميعها)؟

لقد حاولت مع هذا الرمز:

import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
#from sklearn.feature_extraction.text import TfidfVectorizer
import gensim,logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', 
level=logging.INFO)
from os import listdir

docLabels = []
docLabels = [f for f in listdir('''C:/Users/rekhasharma/new''') if 
f.endswith('.csv')]

import pandas as pd
df = pd.read_csv('''C:/Users/rekhasharma/kkk.csv''',names = ['comments'])

rows = 100
df = df.iloc[:rows]
list1 = df.values.tolist()
del list1[0]

class LabeledLineSentence(object):
    def __init__(self, doc_list, labels_list):
       self.labels_list = labels_list
       self.doc_list = doc_list
    def __iter__(self):
       for idx,doc in enumerate(self.doc_list):
           yield gensim.models.doc2vec.LabeledSentence(doc,self.labels_list)
it = LabeledLineSentence(list1, docLabels)
model = gensim.models.Doc2Vec(vector_size=50, min_count=0, alpha=0.025, 
min_alpha=0.025)
model.build_vocab(it)

for epoch in range(100):
    print ('iteration' + str(epoch+1))
    model.train(it,total_examples=49, total_words=None, epochs=1)
    model.alpha = 0.002
    model.min_alpha = model.alpha

model.save('doc2vec.model')
d2v_model = gensim.models.doc2vec.Doc2Vec.load('doc2vec.model')

docvec = d2v_model.docvecs[0]
print (docvec)
0
ماذا جربت؟
وأضاف المؤلف Shubham, مصدر
يرجى تقديم مثال على الحد الأدنى ، وإكمال ، والتحقق من سؤالك. الرجوع: stackoverflow.com/help/mcve
وأضاف المؤلف Shubham, مصدر
Shubham أضفت رمز بلدي
وأضاف المؤلف Rekha Sharma, مصدر

1 إجابة

ما عليك سوى استخدام الوثائق الرسمية لـ gensim ( link ) ، البرنامج التعليمي ( الرابط ) ثم دفاتر ملاحظاتهم الرسمية على doc2vec:

إذا انتقلت من خلال هذه العناصر ولا تزال بعض الأمور غير واضحة بالنسبة لك ، فلا تتردد في كتابة سؤال محدد أكثر

0
وأضاف
مرحبا كيفية استخراج الجملة من ناقلات معين في doc2vec؟
وأضاف المؤلف Rekha Sharma, مصدر
فضلاً أخبرني كيف أستخدم نواقل الجمل هذه للقيام بالتجميع بحيث يمكن تجميع جمل مشابهة معًا
وأضاف المؤلف Rekha Sharma, مصدر