Karaoke Gen Progress Presentation

Loading...

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

0 comments

Post a comment

    Post a comment
    Embed Video
    Edit your comment Cancel

    2 Favorites

    Karaoke Gen Progress Presentation - Presentation Transcript

    1. Automatic Generation of Karaoke-Game Stages from Audio Files ณัฐวุฒิ กุลนิรันดร ภาควิชาวิศวกรรมคอมพิวเตอร์ จุฬาลงกรณ์มหาวิทยาลัย 11/10/2008
    2. สมาชิก
      • นิสิต
        • ณัฐวุฒิ กุลนิรันดร รหัสประจำตัวนิสิต 4831213321
      • อาจารย์ที่ปรึกษา
        • ศ . ดร . บุญเสริม กิจศิริกุล
      11/10/2008
    3. เกี่ยวกับโครงงาน
      • เกมคาราโอเกะในปัจจุบันไม่สามารถเลือกเพลงที่อยากร้องมาร้องตามใจชอบได้
      • โครงงานนี้สร้างด่านจากเพลงในรูปแบบ MP3 ใดๆที่ผู้ใช้เลือก
      11/10/2008
    4. นิยาม “ ด่าน ”
      • ชื่อไฟล์เสียงที่ใช้คู่กับด่านนั้น
      • ลำดับของ ( โน้ต , เวลาเริ่มต้น , เวลาหยุด )
        • ไม่มีข้อมูลตัวใดอยู่ในช่วงเวลาที่ซ้อนทับกัน
        • บางช่วงเวลาอาจไม่มีข้อมูลใดๆ
        • เสียงร้องต่าง Octave แต่เป็นโน้ตตัวเดียวกัน ถือว่าได้คะแนน
      11/10/2008
    5. ความก้าวหน้าในการดำเนินการวิจัย
      • ศึกษาเรื่องการประมวลผลสัญญาณเสียง (100%)
        • การอ่านตัวอย่างสุ่มจากไฟล์เสียง (100%)
        • การทำการแปลงฟูเรียร์แบบเร็วบนชุดข้อมูล (100%)
      • ศึกษางานวิจัยที่เกี่ยวกับการแยกเสียงคนร้องออกจากเพลง (60%)
      • ศึกษางานวิจัยที่เกี่ยวกับการแบ่งส่วนและแบ่งนับโน้ต (50%)
      • พัฒนาโปรแกรมก่อกำเนิดด่านจากไฟล์เสียง (0%)
      • พัฒนาหรือดัดแปลงโปรแกรมสำหรับทดสอบด่าน (0%)
      • ทดสอบการทำงานของโปรแกรม (0%)
      • จัดทำเอกสารประกอบ (0%)
      11/10/2008
    6. การอ่านตัวอย่างสุ่ม ( Samples) จากไฟล์เสียงในรูปแบบ MP3
      • อ่านจาก MP3 โดยตรงทำได้ยาก
      • แปลงเป็น WAV ก่อนแล้วใช้ชุดเครื่องมือสำหรับอ่าน WAV ในการจัดการ
      • ใช้ชุดเครื่องมือ LAME และ libsndfile
      11/10/2008
    7. การทำการแปลงฟูเรียร์แบบเร็วสำหรับชุดข้อมูลที่อ่านได้
      • ทำการแปลงฟูเรียร์แบบเร็วโดยใช้ชุดเครื่องมือ FFTW
      • ความถี่ที่ได้จากสัญญาณเสียงที่บันทึกเข้ามามีหลายฮาร์โมนิค
      11/10/2008
    8. การทำการแปลงฟูเรียร์แบบเร็วสำหรับชุดข้อมูลที่อ่านได้ ( ต่อ )
      • หาค่าความถี่มูลฐานโดยการทำ Harmonic Product Spectrum
      11/10/2008
    9. ศึกษางานวิจัยที่เกี่ยวข้องกับการแยกเสียงคนร้องออกจากเพลง
      • หัวข้อที่เกี่ยวข้อง
        • Vocal Pitch Detection/Tracking in Polyphonic Audio
        • Predominant F0
      • Masataka Goto: A Predominant-F0 Estimation Method for Polyphonic Musical Audio Signals
        • การกรองสัญญาณในช่วงความถี่ต่ำและสูงเพื่อแยกส่วนที่เป็น Bass และ Melody
        • เสียงคนร้องจะเป็นความถี่มูลฐานที่เด่นที่สุดในช่วงเวลาส่วนใหญ่
        • มีการหา Probability Density Function ของความถี่ที่จะเป็น F0
        • ใช้สถาปัตยกรรมแบบ Multiple-Agent ในการติดตามความถี่แต่ละความถี่
      11/10/2008
    10. ศึกษางานวิจัยที่เกี่ยวข้องกับการแยกเสียงคนร้องออกจากเพลง ( ต่อ )
      • PreFEst Algorithm
      11/10/2008
    11. ศึกษางานวิจัยที่เกี่ยวข้องกับการแบ่งส่วนและแบ่งนับโน้ต
      • X. Shao, C. Xu, and M. S. Kankanhali: Predominant Vocal Pitch Detection in Polyphonic Music
        • ใช้ Smoother Function แบบมัธยฐาน 5 จุด
        • เลือกยอดเพียง 10 ยอดแรกออกมาจากสเปรกตรัม
        • ค่าระดับเสียงที่ได้ของเฟรมหนึ่งๆไม่ควรแตกต่างจากเฟรมก่อนหน้ามากจนเกินไป
      11/10/2008
    12. ขั้นตอนวิธีการทำ HPS (Harmonic Product Spectrum)
      • ใช้ Sliding Window ขนาด 10000 ตัวอย่างสุ่ม
        • Sliding Window ขนาดใหญ่ -> ความละเอียดสูง , ประมวลผลช้า
      • ทำ Harmonic Product Spectrum โดยการหาค่า |f(x)|.|f(2x)|.|f(3x)|
        • เมื่อ f(x) แทนตัวอย่างสุ่มตัวที่ x
      • หาตำแหน่ง x ในผลลัพธ์ที่มีค่าแอมพลิจูดสูงที่สุด
        • ตั้งสมมติฐานว่ามียอดเดียว
      11/10/2008
    13. ผลการวิจัย – การทำ HPS บนเสียงเปียโน
      • เสียงโน้ตตัว G จากเปียโนที่ 394.1 Hz
      11/10/2008
    14. ผลการวิจัย – การทำ HPS บนเสียงเพลงในท้องตลาด
      • เพลง “ หยุด ” ของวง “ Groove Riders” ช่วง 30 – 37 วินาที
      11/10/2008
    15. สรุปผลการวิจัย
      • เพียงแค่การแปลงฟูเรียร์และการใช้ Harmonic Product Spectrum ไม่เพียงพอจะใช้บอกระดับเสียงร้องเพื่อการก่อกำเนิดด่านได้
      • จำเป็นต้องใช้วิธีอื่นๆเช่นอัลกอริทึม PreFEst ช่วย
      11/10/2008
    16. อุปสรรคและปัญหา
      • การพัฒนาโปรแกรมด้วยภาษา C++ และ C#
        • C# ทำงานระดับต่ำไม่ได้และช้า
        • C++ ไม่มีชุดเครื่องมือ / คำสั่งพื้นฐานสำหรับทำงานหลายๆอย่าง ใช้งานยาก
      • ความรู้ด้านการประมวลผลสัญญาณดิจิตอล
        • ไม่รู้จักเทคนิคหลายอย่างที่ถูกอ้างถึงในงานวิจัย ใช้เวลาศึกษานาน
      • การบริหารเวลา
      11/10/2008
    17. รายการอ้างอิง
      • [1] Harmonix Music Systems. (2007) Rock Band. [Online]. http://www.rockband.com
      • [2] Harmonix Music Systems. (2004) Xbox.com. [Online]. http://www.xbox.com/en-US/games/k/karaokerevolution/
      • [3] Sony Computer Entertainment. (2003) SingStar. [Online]. http://www.us.playstation.com/singstar/
      • [4] Underbit. MAD: MPEG Audio Decoder. [Online]. http://www.underbit.com/products/mad/
      • [5] GNU Operating System. GNU Operating System. [Online]. http://www.gnu.org/licenses/gpl-2.0.html
      • [6] craig@ccrma.stanford.edu. WAVE PCM soundfile format . [Online]. http://ccrma.stanford.edu/courses/422/projects/WaveFormat/
      • [7] LAME MP3 Encoder. LAME MP3 Encoder. [Online]. http://lame.sourceforge.net/
      • [8] E. d. C. Lopo. libsndfile. [Online]. http://www.mega-nerd.com/libsndfile/#History
      • [9] M. Frigo and S. G. Johnson. FFTW.
      • [10] M. Goto, "A Real-time Music Scene Description System: Predominant-F0 Estimation for Detecting Melody and Bass Lines in Real-world Audio Signals," Speech Communication (ISCA Journal), Vol.43, No.4, pp. 311-329, 2004.
      • [11] X. Shao, C. Xu, and M. S. Kankanhali, "Predominant Vocal Pitch Detection in Polyphonic Music," in IEEE International Conference on Multimedia and Expo, 2006.
      • [12] P. Boersma and D. Weenink. Praat: doing phonetics by computer.
      • [13] T. W. &. C. Kelley. (1986 - 1993, 1998, 2004 ) gnuplot. [Online]. http://www.gnuplot.info/docs/gnuplot.html
      11/10/2008

    + m3rlinezm3rlinez, 2 years ago

    custom

    1117 views, 2 favs, 3 embeds more stats

    More info about this document

    © All Rights Reserved

    Go to text version

    • Total Views 1117
      • 1069 on SlideShare
      • 48 from embeds
    • Comments 0
    • Favorites 2
    • Downloads 0
    Most viewed embeds
    • 33 views on http://www.tod4yis.net
    • 13 views on http://www.solidskill.net
    • 2 views on http://tod4yis.net

    more

    All embeds
    • 33 views on http://www.tod4yis.net
    • 13 views on http://www.solidskill.net
    • 2 views on http://tod4yis.net

    less

    Flagged as inappropriate Flag as inappropriate
    Flag as inappropriate

    Select your reason for flagging this presentation as inappropriate. If needed, use the feedback form to let us know more details.

    Cancel
    File a copyright complaint
    Having problems? Go to our helpdesk?

    Categories