मेरा अंतिम लक्ष्य प्रत्येक दस्तावेज़ के लिए लेबल बाइनरी शब्द वैक्टर वाले * .csv फ़ाइल का निर्माण करना है । संक्षेप में, एक शब्द दस्तावेज़ मैट्रिक्स
जीन्सिम का उपयोग करके, मैं एक अनिलैब्लेड शब्द मैट्रिक्स के साथ एक फ़ाइल बना सकता हूं।
मैं इसे अनिवार्य रूप से कॉपी और पेस्ट करके यहां से करता हूं:
एक सूची को देखते हुए "ग्रंथों" नामक दस्तावेजों की।
corpus = [text.doc2bow (text) ग्रंथों में पाठ के लिए] प्रिंट (कॉर्पस) [(0, 1), (1, 1), (2 , 1)] [(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)] [(2, 1), (5 , 1), (7, 1), (8, 1)] [(1, 1), (5, 2), (8, 1)] [(3, 1), (6, 1), (7 , 1)] [(9, 1)] [(9, 1), (10, 1)] [(9, 1), (10, 1), (11, 1)] [(4, 1) (10, 1), (11, 1)]
उपरोक्त वैक्टर को एक नाभिकीय मैट्रिक्स में परिवर्तित करने के लिए, मैं इसका उपयोग करता हूं:
scipy_csc_matrix = gensim मैटिटील्स। कॉरपस 2 सीसीसी (कॉरपस)
मैं फिर स्पेर्स न्न मैट्रिक्स को पूर्ण सरणी में कनवर्ट करता हूं:
पूर्ण_मैट्रिक्स = सीएससी_मैट्रिक्स (scipy_csc_matrix) .toarray () < / Code>
अंत में, मैं इसे एक फ़ाइल में आउटपुट करता हूँ:
खोलने के साथ ('file.csv', 'wb') f: writer = csv.writer (एफ) लेखक। लेखक (पूर्ण_मैट्रिक्स)
यह एक पैदा करता है द्विपद वैक्टर के मैट्रिक्स, लेकिन मुझे नहीं पता कि कौन सा शब्द वेक्टर का प्रतिनिधित्व करता है। क्या वैक्टर को मिलान करने वाले शब्द का कोई सही तरीका है?
मैंने डिक्शनरी को उन शब्दों की एक रचनात्मक सूची में पार्स करने का प्रयास किया है, जो कि मैं उपरोक्त पूर्ण_मैट्रिक्स पर गोंद करूँगा। शब्दकोश हिन्दी शब्दकोश हिन्दी शब्दकोश हिन्दी शब्दकोश शब्दकोश से चाबियाँ और कुंजी के लिए full_matrix करने के लिए, मान tokenIDs.iteritems में (): temp1 = unicodedata.normalize ('एनएफकेडी', कुंजी) )। एन्कोड ('एएससीआई', 'अनदेखा') temp = [temp1] dictlist.append (temp) कीज़ = एनपी। सर्राय (dictlist) #Combine कुंजी और मैट्रिक्स labeled_full_matrix = np.concatenate ((कुंजी, पूर्ण_मैट्रिक्स), अक्ष = 1)
हालांकि, यह काम नहीं करता है शब्द (कुंजी) शब्द उचित वैक्टर से मेल नहीं खाए गए हैं
मैं धारणा के तहत एक बहुत सरल और अधिक सुरुचिपूर्ण दृष्टिकोण संभव है। लेकिन कुछ समय बाद, मैं इसे ढूंढने में सक्षम नहीं हूं। हो सकता है कि कोई यहाँ कोई मदद कर सकता है, या मुझे मौलिक तरीके से याद किया गया है।
क्या यह आप है चाहते हैं?
% time lda1 = models.LdaModel (corpus1, num_topics = 20, id2word = dictionary1, update_every = 5, chunksize = 10000, पास = 100) आयात पांडा मिश्रण = [dict (lda1) [X]) x के लिए corpus1] pandas.DataFrame (मिश्रण) .to_csv ("output.csv")
No comments:
Post a Comment