My Blog: python 2.7 - Word Labels for Document Matrix in Gensim -

Thursday, 15 May 2014

python 2.7 - Word Labels for Document Matrix in Gensim -

मेरा अंतिम लक्ष्य प्रत्येक दस्तावेज़ के लिए लेबल बाइनरी शब्द वैक्टर वाले * .csv फ़ाइल का निर्माण करना है । संक्षेप में, एक शब्द दस्तावेज़ मैट्रिक्स

जीन्सिम का उपयोग करके, मैं एक अनिलैब्लेड शब्द मैट्रिक्स के साथ एक फ़ाइल बना सकता हूं।

मैं इसे अनिवार्य रूप से कॉपी और पेस्ट करके यहां से करता हूं:

एक सूची को देखते हुए "ग्रंथों" नामक दस्तावेजों की।

  corpus = [text.doc2bow (text) ग्रंथों में पाठ के लिए] प्रिंट (कॉर्पस) [(0, 1), (1, 1), (2 , 1)] [(0, 1), (3, 1), (4, 1), (5, 1), (6, 1), (7, 1)] [(2, 1), (5 , 1), (7, 1), (8, 1)] [(1, 1), (5, 2), (8, 1)] [(3, 1), (6, 1), (7 , 1)] [(9, 1)] [(9, 1), (10, 1)] [(9, 1), (10, 1), (11, 1)] [(4, 1) (10, 1), (11, 1)]

उपरोक्त वैक्टर को एक नाभिकीय मैट्रिक्स में परिवर्तित करने के लिए, मैं इसका उपयोग करता हूं:

  scipy_csc_matrix = gensim मैटिटील्स। कॉरपस 2 सीसीसी (कॉरपस)

मैं फिर स्पेर्स न्न मैट्रिक्स को पूर्ण सरणी में कनवर्ट करता हूं:

  पूर्ण_मैट्रिक्स = सीएससी_मैट्रिक्स (scipy_csc_matrix) .toarray () < / Code>

  अंत में, मैं इसे एक फ़ाइल में आउटपुट करता हूँ: 
   खोलने के साथ ('file.csv', 'wb') f: writer = csv.writer (एफ) लेखक। लेखक (पूर्ण_मैट्रिक्स)  
  यह एक पैदा करता है द्विपद वैक्टर के मैट्रिक्स, लेकिन मुझे नहीं पता कि कौन सा शब्द वेक्टर का प्रतिनिधित्व करता है। क्या वैक्टर को मिलान करने वाले शब्द का कोई सही तरीका है?

मैंने डिक्शनरी को उन शब्दों की एक रचनात्मक सूची में पार्स करने का प्रयास किया है, जो कि मैं उपरोक्त पूर्ण_मैट्रिक्स पर गोंद करूँगा। शब्दकोश हिन्दी शब्दकोश हिन्दी शब्दकोश हिन्दी शब्दकोश शब्दकोश से चाबियाँ और कुंजी के लिए full_matrix करने के लिए, मान tokenIDs.iteritems में (): temp1 = unicodedata.normalize ('एनएफकेडी', कुंजी) )। एन्कोड ('एएससीआई', 'अनदेखा') temp = [temp1] dictlist.append (temp) कीज़ = एनपी। सर्राय (dictlist) #Combine कुंजी और मैट्रिक्स labeled_full_matrix = np.concatenate ((कुंजी, पूर्ण_मैट्रिक्स), अक्ष = 1)

हालांकि, यह काम नहीं करता है शब्द (कुंजी) शब्द उचित वैक्टर से मेल नहीं खाए गए हैं

मैं धारणा के तहत एक बहुत सरल और अधिक सुरुचिपूर्ण दृष्टिकोण संभव है। लेकिन कुछ समय बाद, मैं इसे ढूंढने में सक्षम नहीं हूं। हो सकता है कि कोई यहाँ कोई मदद कर सकता है, या मुझे मौलिक तरीके से याद किया गया है।

क्या यह आप है चाहते हैं?

 % time lda1 = models.LdaModel (corpus1, num_topics = 20, id2word = dictionary1, update_every = 5, chunksize = 10000, पास = 100) आयात पांडा मिश्रण = [dict (lda1) [X]) x के लिए corpus1] pandas.DataFrame (मिश्रण) .to_csv ("output.csv")

My Blog

Thursday, 15 May 2014

python 2.7 - Word Labels for Document Matrix in Gensim -

No comments:

Post a Comment